太阳城集团娱乐球赛-澳门太阳城集团周焯华老婆-澳门太阳城集团车模-豪胜娱乐城客户端

清華主頁(yè)· English Version

清華主頁(yè) - 清華新聞 - 學(xué)術(shù)科研 - 正文

深圳國(guó)際研究生院多篇論文被2021國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別大會(huì)接收

分享

清華新聞網(wǎng)10月26日電 近日，深圳國(guó)際研究生院信息科學(xué)與技術(shù)學(xué)部未來(lái)媒體實(shí)驗(yàn)室和智能計(jì)算實(shí)驗(yàn)室三篇論文被國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別大會(huì)（IEEE/CVF Conference on Computer Vision and Pattern Recognition（CVPR））2021接收。

2019級(jí)控制工程專(zhuān)業(yè)碩士生胡小婉（指導(dǎo)教師：王好謙，未來(lái)媒體實(shí)驗(yàn)室）發(fā)表論文《用于真實(shí)圖像去噪的偽3D自相關(guān)網(wǎng)絡(luò)》（Pseudo 3D Auto-Correlation Network for Real Image Denoising）。

該論文主要提出了一種新穎的具有快速一維卷積的空間自相關(guān)模塊。采用方向獨(dú)立和參數(shù)共享的策略，可有效地降低從全圖像依賴(lài)中獲取上下文信息的時(shí)間和空間復(fù)雜度。輕量級(jí)的二維結(jié)構(gòu)可得到更有鑒別性的真實(shí)噪聲的相關(guān)特征。圖像的自相關(guān)提取在深度學(xué)習(xí)網(wǎng)絡(luò)中表現(xiàn)出巨大的潛力，如通道域的自注意機(jī)制和空間域的自相似機(jī)制。然而，上述機(jī)制的實(shí)現(xiàn)大多需要復(fù)雜的模塊疊加和大量的卷積計(jì)算，不可避免地增加了模型的復(fù)雜性和存儲(chǔ)成本。因此，該論文提出了一種偽3D自相關(guān)網(wǎng)絡(luò) (pseudo 3D auto-correlation network, P3AN)，以探索一種更有效的圖像去噪中獲取背景信息的方法。一方面，偽3D自相關(guān)網(wǎng)絡(luò)采用快速一維卷積代替密集連接實(shí)現(xiàn)交叉交互，計(jì)算資源較少；另一方面，該操作不會(huì)改變特征大小，且易于擴(kuò)展。這意味著只需要簡(jiǎn)單的自適應(yīng)融合就可以獲得包含信道域和空間域的上下文信息。該方法通過(guò)一維卷積構(gòu)建偽3D自相關(guān)注意塊，并通過(guò)輕量級(jí)二維結(jié)構(gòu)實(shí)現(xiàn)更具有鑒別性的特征。在3組合成和4組真實(shí)噪聲數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn)。從量化指標(biāo)和視覺(jué)質(zhì)量評(píng)價(jià)來(lái)看，偽3D自相關(guān)網(wǎng)絡(luò)算法表現(xiàn)出了巨大的優(yōu)越性，超過(guò)了目前先進(jìn)的的圖像去噪方法。

提取偽3D全局自相關(guān)特征的示意圖：輸入為大小為H*W的特征圖，每個(gè)位置(如紅色)可以從其他像素收集信息，（c）圖為2D形式，從水平和垂直兩個(gè)空間方向提取相關(guān)性，（d）圖為3D形式，從空間域的水平、垂直和通道域方向提取相關(guān)性并融合。

偽3D自相關(guān)模塊（P3AB）的內(nèi)部實(shí)現(xiàn)細(xì)節(jié)圖：經(jīng)過(guò)1D快速卷積和自適應(yīng)特征融合(AFF)，輸出包含水平、垂直和通道三個(gè)方向的自相關(guān)并以等尺寸融合。紅色箭頭表示操作流程。

P3AN網(wǎng)絡(luò)圖：堆疊的P3AB通過(guò)多級(jí)殘差連接實(shí)現(xiàn)連續(xù)特征交互并獲取自相關(guān)特征。

2019級(jí)控制工程專(zhuān)業(yè)碩士生楊耿聰（指導(dǎo)教師：楊余久，智能計(jì)算實(shí)驗(yàn)室）發(fā)表論文《針對(duì)場(chǎng)景圖生成語(yǔ)義歧義性的概率性建?！罚≒robabilistic Modeling of Semantic Ambiguity for Scene Graph Generation）。

該論文開(kāi)創(chuàng)性地嘗試了以概率分布建模視覺(jué)關(guān)系預(yù)測(cè)的不確定性，在有效提升模型預(yù)測(cè)均衡性的同時(shí)，首次探索了視覺(jué)關(guān)系的多樣化預(yù)測(cè)問(wèn)題，拓展了相關(guān)領(lǐng)域的研究邊界。其應(yīng)用價(jià)值在于，有助于下游看圖說(shuō)話(huà)、圖片檢索等任務(wù)的性能改善；同時(shí)，概率分布的建模形式也帶來(lái)了較強(qiáng)的可解釋性，模型預(yù)測(cè)的概率分布參數(shù)可直接反映視覺(jué)關(guān)系的語(yǔ)義模糊度。

為了生成“精確”表述的場(chǎng)景圖，幾乎所有現(xiàn)有的方法都以確定性的方式預(yù)測(cè)成對(duì)關(guān)系，而視覺(jué)關(guān)系在語(yǔ)義上往往具有歧義性。具體來(lái)說(shuō)，受語(yǔ)言學(xué)知識(shí)的啟發(fā)，研究者將歧義分為同義詞歧義、上下位詞歧義和多視點(diǎn)歧義三類(lèi)，這種歧義性自然會(huì)導(dǎo)致隱性多標(biāo)簽問(wèn)題，也激發(fā)了對(duì)預(yù)測(cè)多樣性的需求。這項(xiàng)工作提出了一個(gè)新穎的即插即用式概率不確定性建模（PUM）模塊，它將每個(gè)物體聯(lián)合區(qū)域建模為高斯分布，其方差度量相應(yīng)視覺(jué)內(nèi)容的不確定性，與傳統(tǒng)的確定性方法相比，這種不確定性建模帶來(lái)了特征表示的隨機(jī)性，使得預(yù)測(cè)具有多樣性。作為一個(gè)副產(chǎn)品，PUM還能夠覆蓋更細(xì)粒度的關(guān)系，從而緩解對(duì)高頻關(guān)系的偏見(jiàn)。在大規(guī)模視覺(jué)數(shù)據(jù)集上的充足實(shí)驗(yàn)表明，將PUM與新提出的ResCAGCN相結(jié)合可以在平均召回度量下獲得最佳性能。此外，通過(guò)將PUM插入到一些現(xiàn)有模型中，證明了PUM的普適性，文中也對(duì)其生成多樣化但合理的視覺(jué)關(guān)系的能力進(jìn)行了深入分析。

數(shù)據(jù)集中存在的視覺(jué)關(guān)系語(yǔ)義歧義樣例圖：即相似的視覺(jué)場(chǎng)景可以用多個(gè)合理的謂詞描述。（a）同義詞歧義，（b）上下位詞歧義，（c）多視點(diǎn)歧義。

提取偽3D全局自相關(guān)特征的示意圖：輸入為大小為H*W的特征圖，每個(gè)位置(如紅色)可以從其他像素收集信息，（c）圖為2D形式，從水平和垂直兩個(gè)空間方向提取相關(guān)性，（d）圖為3D形式，從空間域的水平、垂直和通道域方向提取相關(guān)性并融合。

清華大學(xué)深圳國(guó)際研究生院2016級(jí)控制工程原專(zhuān)業(yè)碩士生、現(xiàn)倫敦大學(xué)學(xué)院（UCL）統(tǒng)計(jì)系在讀博士夏偉浩（指導(dǎo)教師：楊余久副教授，智能計(jì)算實(shí)驗(yàn)室）發(fā)表論文《文本引導(dǎo)的多樣人臉圖像編輯和生成》（TediGAN: Text-Guided Diverse Face Image Generation and Manipulation）。

該論文提出文本引導(dǎo)的人臉圖像生成和編輯的統(tǒng)一框架，融合了不同模態(tài)的輸入，可輸出1024*1024分辨率的生成和編輯結(jié)果。文章也針對(duì)根據(jù)多模態(tài)生成人臉圖像的問(wèn)題開(kāi)放了新的數(shù)據(jù)集，包含真實(shí)人臉圖像和相應(yīng)的語(yǔ)義分割圖、草圖和文本描述。

基于文本生指定圖像是條件圖像生成領(lǐng)域的重要內(nèi)容，之前方法大多只能生成較低分辨率的圖像，和無(wú)條件圖像生成領(lǐng)域相比發(fā)展嚴(yán)重滯后。這項(xiàng)工作中引入無(wú)條件圖像生成中的先進(jìn)模型StyleGAN，借助GAN Inversion將給定真實(shí)圖像映射到預(yù)訓(xùn)練StyleGAN隱空間得到隱編碼。視覺(jué)-語(yǔ)言相似性模塊將圖像和文本映射到公共的W隱空間來(lái)學(xué)習(xí)文本——圖像匹配。另外，針對(duì)不同模態(tài)輸入分別訓(xùn)練編碼器可實(shí)現(xiàn)對(duì)應(yīng)模態(tài)的圖像生成，使用基于StyleGAN“樣式混合”的控制機(jī)制，模型支持具有多模態(tài)輸入的圖像合成，例如同時(shí)滿(mǎn)足給定文本所描述的頭發(fā)顏色和草圖或語(yǔ)義標(biāo)簽所定義的人臉輪廓。因?yàn)殡[編碼可通過(guò)從噪聲中采樣或由真實(shí)圖像映射得到，這讓我們的方法實(shí)現(xiàn)了圖像生成和編輯的統(tǒng)一。該模型實(shí)現(xiàn)了以1024*1024分辨率生成多樣化和高質(zhì)量的圖像。

方法框架圖：TediGAN是文本引導(dǎo)圖像生成和編輯的統(tǒng)一框架，可以融合不同模態(tài)的輸入，輸出1024*1024分辨率的生成和編輯結(jié)果。

方法框架圖：GAN Inversion將圖像映射到預(yù)訓(xùn)練GAN模型的W隱空間得到隱編碼；視覺(jué)-語(yǔ)言相似性學(xué)習(xí)在W空間文本和視覺(jué)內(nèi)容的對(duì)齊；以及不同模態(tài)得到的隱編碼的交換和優(yōu)化。

供稿：深圳國(guó)際研究生院

編輯：李華山

審核：呂婷

2021年10月26日 15:50:20

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

關(guān)于我們 │ 友情鏈接 │ 清華地圖

清華大學(xué)新聞中心版權(quán)所有，清華大學(xué)新聞網(wǎng)編輯部維護(hù)，電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.