太阳城集团娱乐球赛-澳门太阳城集团周焯华老婆-澳门太阳城集团车模-豪胜娱乐城客户端

清華主頁(yè) - 清華新聞 - 學(xué)術(shù)科研 - 正文

深圳國(guó)際研究生院多篇論文被2021國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別大會(huì)接收

清華新聞網(wǎng)10月26日電 近日,深圳國(guó)際研究生院信息科學(xué)與技術(shù)學(xué)部未來(lái)媒體實(shí)驗(yàn)室和智能計(jì)算實(shí)驗(yàn)室三篇論文被國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別大會(huì)(IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR))2021接收。

2019級(jí)控制工程專(zhuān)業(yè)碩士生胡小婉(指導(dǎo)教師:王好謙,未來(lái)媒體實(shí)驗(yàn)室)發(fā)表論文《用于真實(shí)圖像去噪的偽3D自相關(guān)網(wǎng)絡(luò)》(Pseudo 3D Auto-Correlation Network for Real Image Denoising)。

該論文主要提出了一種新穎的具有快速一維卷積的空間自相關(guān)模塊。采用方向獨(dú)立和參數(shù)共享的策略,可有效地降低從全圖像依賴(lài)中獲取上下文信息的時(shí)間和空間復(fù)雜度。輕量級(jí)的二維結(jié)構(gòu)可得到更有鑒別性的真實(shí)噪聲的相關(guān)特征。圖像的自相關(guān)提取在深度學(xué)習(xí)網(wǎng)絡(luò)中表現(xiàn)出巨大的潛力,如通道域的自注意機(jī)制和空間域的自相似機(jī)制。然而,上述機(jī)制的實(shí)現(xiàn)大多需要復(fù)雜的模塊疊加和大量的卷積計(jì)算,不可避免地增加了模型的復(fù)雜性和存儲(chǔ)成本。因此,該論文提出了一種偽3D自相關(guān)網(wǎng)絡(luò) (pseudo 3D auto-correlation network, P3AN),以探索一種更有效的圖像去噪中獲取背景信息的方法。一方面,偽3D自相關(guān)網(wǎng)絡(luò)采用快速一維卷積代替密集連接實(shí)現(xiàn)交叉交互,計(jì)算資源較少;另一方面,該操作不會(huì)改變特征大小,且易于擴(kuò)展。這意味著只需要簡(jiǎn)單的自適應(yīng)融合就可以獲得包含信道域和空間域的上下文信息。該方法通過(guò)一維卷積構(gòu)建偽3D自相關(guān)注意塊,并通過(guò)輕量級(jí)二維結(jié)構(gòu)實(shí)現(xiàn)更具有鑒別性的特征。在3組合成和4組真實(shí)噪聲數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn)。從量化指標(biāo)和視覺(jué)質(zhì)量評(píng)價(jià)來(lái)看,偽3D自相關(guān)網(wǎng)絡(luò)算法表現(xiàn)出了巨大的優(yōu)越性,超過(guò)了目前先進(jìn)的的圖像去噪方法。

提取偽3D全局自相關(guān)特征的示意圖:輸入為大小為H*W的特征圖,每個(gè)位置(如紅色)可以從其他像素收集信息,(c)圖為2D形式,從水平和垂直兩個(gè)空間方向提取相關(guān)性,(d)圖為3D形式,從空間域的水平、垂直和通道域方向提取相關(guān)性并融合。

偽3D自相關(guān)模塊(P3AB)的內(nèi)部實(shí)現(xiàn)細(xì)節(jié)圖:經(jīng)過(guò)1D快速卷積和自適應(yīng)特征融合(AFF),輸出包含水平、垂直和通道三個(gè)方向的自相關(guān)并以等尺寸融合。紅色箭頭表示操作流程。

P3AN網(wǎng)絡(luò)圖:堆疊的P3AB通過(guò)多級(jí)殘差連接實(shí)現(xiàn)連續(xù)特征交互并獲取自相關(guān)特征。

2019級(jí)控制工程專(zhuān)業(yè)碩士生楊耿聰(指導(dǎo)教師:楊余久,智能計(jì)算實(shí)驗(yàn)室)發(fā)表論文《針對(duì)場(chǎng)景圖生成語(yǔ)義歧義性的概率性建?!罚≒robabilistic Modeling of Semantic Ambiguity for Scene Graph Generation)。

該論文開(kāi)創(chuàng)性地嘗試了以概率分布建模視覺(jué)關(guān)系預(yù)測(cè)的不確定性,在有效提升模型預(yù)測(cè)均衡性的同時(shí),首次探索了視覺(jué)關(guān)系的多樣化預(yù)測(cè)問(wèn)題,拓展了相關(guān)領(lǐng)域的研究邊界。其應(yīng)用價(jià)值在于,有助于下游看圖說(shuō)話(huà)、圖片檢索等任務(wù)的性能改善;同時(shí),概率分布的建模形式也帶來(lái)了較強(qiáng)的可解釋性,模型預(yù)測(cè)的概率分布參數(shù)可直接反映視覺(jué)關(guān)系的語(yǔ)義模糊度。

為了生成“精確”表述的場(chǎng)景圖,幾乎所有現(xiàn)有的方法都以確定性的方式預(yù)測(cè)成對(duì)關(guān)系,而視覺(jué)關(guān)系在語(yǔ)義上往往具有歧義性。具體來(lái)說(shuō),受語(yǔ)言學(xué)知識(shí)的啟發(fā),研究者將歧義分為同義詞歧義、上下位詞歧義和多視點(diǎn)歧義三類(lèi),這種歧義性自然會(huì)導(dǎo)致隱性多標(biāo)簽問(wèn)題,也激發(fā)了對(duì)預(yù)測(cè)多樣性的需求。這項(xiàng)工作提出了一個(gè)新穎的即插即用式概率不確定性建模(PUM)模塊,它將每個(gè)物體聯(lián)合區(qū)域建模為高斯分布,其方差度量相應(yīng)視覺(jué)內(nèi)容的不確定性,與傳統(tǒng)的確定性方法相比,這種不確定性建模帶來(lái)了特征表示的隨機(jī)性,使得預(yù)測(cè)具有多樣性。作為一個(gè)副產(chǎn)品,PUM還能夠覆蓋更細(xì)粒度的關(guān)系,從而緩解對(duì)高頻關(guān)系的偏見(jiàn)。在大規(guī)模視覺(jué)數(shù)據(jù)集上的充足實(shí)驗(yàn)表明,將PUM與新提出的ResCAGCN相結(jié)合可以在平均召回度量下獲得最佳性能。此外,通過(guò)將PUM插入到一些現(xiàn)有模型中,證明了PUM的普適性,文中也對(duì)其生成多樣化但合理的視覺(jué)關(guān)系的能力進(jìn)行了深入分析。

數(shù)據(jù)集中存在的視覺(jué)關(guān)系語(yǔ)義歧義樣例圖:即相似的視覺(jué)場(chǎng)景可以用多個(gè)合理的謂詞描述。(a)同義詞歧義,(b)上下位詞歧義,(c)多視點(diǎn)歧義。

提取偽3D全局自相關(guān)特征的示意圖:輸入為大小為H*W的特征圖,每個(gè)位置(如紅色)可以從其他像素收集信息,(c)圖為2D形式,從水平和垂直兩個(gè)空間方向提取相關(guān)性,(d)圖為3D形式,從空間域的水平、垂直和通道域方向提取相關(guān)性并融合。

清華大學(xué)深圳國(guó)際研究生院2016級(jí)控制工程專(zhuān)業(yè)碩士生、現(xiàn)倫敦大學(xué)學(xué)院(UCL)統(tǒng)計(jì)系在讀博士夏偉浩(指導(dǎo)教師:楊余久副教授,智能計(jì)算實(shí)驗(yàn)室)發(fā)表論文《文本引導(dǎo)的多樣人臉圖像編輯和生成》(TediGAN: Text-Guided Diverse Face Image Generation and Manipulation)。

該論文提出文本引導(dǎo)的人臉圖像生成和編輯的統(tǒng)一框架,融合了不同模態(tài)的輸入,可輸出1024*1024分辨率的生成和編輯結(jié)果。文章也針對(duì)根據(jù)多模態(tài)生成人臉圖像的問(wèn)題開(kāi)放了新的數(shù)據(jù)集,包含真實(shí)人臉圖像和相應(yīng)的語(yǔ)義分割圖、草圖和文本描述。

基于文本生指定圖像是條件圖像生成領(lǐng)域的重要內(nèi)容,之前方法大多只能生成較低分辨率的圖像,和無(wú)條件圖像生成領(lǐng)域相比發(fā)展嚴(yán)重滯后。這項(xiàng)工作中引入無(wú)條件圖像生成中的先進(jìn)模型StyleGAN,借助GAN Inversion將給定真實(shí)圖像映射到預(yù)訓(xùn)練StyleGAN隱空間得到隱編碼。視覺(jué)-語(yǔ)言相似性模塊將圖像和文本映射到公共的W隱空間來(lái)學(xué)習(xí)文本——圖像匹配。另外,針對(duì)不同模態(tài)輸入分別訓(xùn)練編碼器可實(shí)現(xiàn)對(duì)應(yīng)模態(tài)的圖像生成,使用基于StyleGAN“樣式混合”的控制機(jī)制,模型支持具有多模態(tài)輸入的圖像合成,例如同時(shí)滿(mǎn)足給定文本所描述的頭發(fā)顏色和草圖或語(yǔ)義標(biāo)簽所定義的人臉輪廓。因?yàn)殡[編碼可通過(guò)從噪聲中采樣或由真實(shí)圖像映射得到,這讓我們的方法實(shí)現(xiàn)了圖像生成和編輯的統(tǒng)一。該模型實(shí)現(xiàn)了以1024*1024分辨率生成多樣化和高質(zhì)量的圖像。

方法框架圖:TediGAN是文本引導(dǎo)圖像生成和編輯的統(tǒng)一框架,可以融合不同模態(tài)的輸入,輸出1024*1024分辨率的生成和編輯結(jié)果。

方法框架圖:GAN Inversion將圖像映射到預(yù)訓(xùn)練GAN模型的W隱空間得到隱編碼;視覺(jué)-語(yǔ)言相似性學(xué)習(xí)在W空間文本和視覺(jué)內(nèi)容的對(duì)齊;以及不同模態(tài)得到的隱編碼的交換和優(yōu)化。

供稿:深圳國(guó)際研究生院

編輯:李華山

審核:呂婷

2021年10月26日 15:50:20

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

清華大學(xué)新聞中心版權(quán)所有,清華大學(xué)新聞網(wǎng)編輯部維護(hù),電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.