太阳城集团娱乐球赛-澳门太阳城集团周焯华老婆-澳门太阳城集团车模-豪胜娱乐城客户端

清華主頁(yè) - 清華新聞 - 學(xué)術(shù)科研 - 正文

深圳國(guó)際研究生院多篇論文入選2022神經(jīng)信息處理系統(tǒng)大會(huì)

清華新聞網(wǎng)10月21日電 近日,NeurIPS 2022(Annual Conference on Neural Information Processing Systems,神經(jīng)信息處理系統(tǒng)大會(huì))錄用通知發(fā)布。大會(huì)討論的內(nèi)容包含深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、大規(guī)模機(jī)器學(xué)習(xí)、學(xué)習(xí)理論、優(yōu)化、稀疏理論等眾多細(xì)分領(lǐng)域。本年度共接收10411篇論文投稿,錄取率為25.6%,清華大學(xué)深圳國(guó)際研究生院信息科學(xué)與技術(shù)學(xué)部共10篇論文入選。

圖1.之前的方法和輕微保守的比較

1.“離線(xiàn)強(qiáng)化學(xué)習(xí)下的輕微保守Q學(xué)習(xí)(Mildly Conservative Q-learning for Offline Reinforcement Learning),作者:控制科學(xué)與工程2020級(jí)博士生呂加飛(導(dǎo)師:李秀教授)

作者認(rèn)為之前的離線(xiàn)強(qiáng)化學(xué)習(xí)算法都過(guò)于保守而很難學(xué)習(xí)到一個(gè)很好的策略,也很難有很好的泛化能力,尤其是在非專(zhuān)家數(shù)據(jù)集上?;诖?,作者提出輕微保守對(duì)于離線(xiàn)強(qiáng)化學(xué)習(xí)是更好的方法。作者首先提出輕微保守貝爾曼算子、MCB算子,理論分析表明,MCB算子可以保障學(xué)習(xí)到的策略比行為克隆的策略要好并且其外推誤差可以被界定。作者進(jìn)一步將MCB算子和深度強(qiáng)化學(xué)習(xí)結(jié)合,并提出輕微保守Q學(xué)習(xí)算法(Mildly Conservative Q-learning)。在D4RL數(shù)據(jù)集上的測(cè)試結(jié)果表明,MCQ算法顯著超越了之前的方法并且表現(xiàn)出很好的離線(xiàn)到在線(xiàn)的泛化能力。

圖2.CABI基本思想的示意圖

2.“在信任之前雙重檢查狀態(tài):信任感知的基于模型的雙向離線(xiàn)生成(Double Check Your State Before Trusting It: Confidence-Aware Bidirectional Offline Model-Based Imagination),作者:控制科學(xué)與工程2020級(jí)博士生呂加飛(導(dǎo)師:李秀教授)

離線(xiàn)強(qiáng)化學(xué)習(xí)中智能體不能和環(huán)境交互,其泛化能力往往受到限制,尤其是數(shù)據(jù)集樣本數(shù)量少時(shí)。為了提升智能體的泛化能力,該論文提出了雙向的基于模型的離線(xiàn)數(shù)據(jù)生成方法CABI。CABI訓(xùn)練了一個(gè)雙向的動(dòng)態(tài)模型用以預(yù)測(cè)正向的環(huán)境動(dòng)態(tài)以及反向的環(huán)境動(dòng)態(tài),同時(shí)訓(xùn)練了雙向的rollout策略。由于生成的數(shù)據(jù)中有很多數(shù)據(jù)和真實(shí)的數(shù)據(jù)存在較大的偏差,因此CABI選擇使用雙向模型進(jìn)行數(shù)據(jù)選擇,只有正向模型和反向模型之間的分歧不大的虛假轉(zhuǎn)移樣本才會(huì)被信任。由于CABI生成虛假樣本和策略?xún)?yōu)化是獨(dú)立的,因此CABI可以和任何無(wú)模型的離線(xiàn)強(qiáng)化學(xué)習(xí)算法結(jié)合。作者將CABI和BCQ、IQL等算法進(jìn)行結(jié)合,實(shí)驗(yàn)發(fā)現(xiàn)CABI可以明顯提升這些離線(xiàn)強(qiáng)化學(xué)習(xí)算法的性能。

圖3.算法流程圖

3. “OrdinalCLIP: 基于序數(shù)提示學(xué)習(xí)的語(yǔ)言引導(dǎo)有序回歸(OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression),作者:人工智能項(xiàng)目2021級(jí)碩士生黃小可(導(dǎo)師:李秀教授)

該研究首次將大規(guī)模視覺(jué)-語(yǔ)言模型及其背后的視覺(jué)-語(yǔ)言對(duì)比方式引入到有序回歸任務(wù),提出從蘊(yùn)含豐富語(yǔ)義信息的 CLIP 特征空間中學(xué)習(xí)序數(shù)概念。作者將有序回歸重新定義為具有對(duì)比目標(biāo)的圖像-語(yǔ)言匹配問(wèn)題:將標(biāo)簽視為文本,輸入文本編碼器得到每個(gè)序數(shù)獲取語(yǔ)言原型嵌入,來(lái)匹配圖片輸入?;诖朔妒?,該研究提出了 OrdinalCLIP。OrdinalCLIP由可學(xué)習(xí)的上下文提示詞嵌入和可學(xué)習(xí)的序數(shù)嵌入組成。其中,可學(xué)習(xí)的序數(shù)嵌入通過(guò)顯式建模數(shù)值連續(xù)性來(lái)構(gòu)建。OrdinalCLIP可以在CLIP空間中產(chǎn)生有序且緊湊的語(yǔ)言原型嵌入。實(shí)驗(yàn)結(jié)果表明,新范式在有序回歸任務(wù)中取得了強(qiáng)競(jìng)爭(zhēng)力的性能,并且在年齡估計(jì)任務(wù)的少樣本設(shè)置和分布偏移設(shè)置方面獲得了性能改進(jìn)。

圖4.方法框架圖

4. “一種基于毒性樣本敏感性的后門(mén)防御(Effective Backdoor Defense by Exploiting Sensitivity of Poisoned Samples),作者:人工智能2020級(jí)碩士生陳煒欣(導(dǎo)師:王好謙教授)

基于投毒的后門(mén)攻擊對(duì)由不可信數(shù)據(jù)所訓(xùn)練的深度模型構(gòu)成巨大威脅。在后門(mén)模型中,作者觀(guān)察到毒性樣本的特征表示比干凈樣本的特征表示對(duì)圖像變換更敏感。它啟發(fā)作者設(shè)計(jì)一個(gè)敏感性度量,稱(chēng)為關(guān)于圖像變換的特征一致性(FCT),并提出一個(gè)樣本區(qū)分模塊(SD),用以區(qū)分不可信訓(xùn)練集中的毒性和干凈樣本。基于此,該論文提出兩種防御方法。第一種方法提出一個(gè)兩階段的安全訓(xùn)練模塊(ST)來(lái)從頭訓(xùn)練出一個(gè)干凈模型。第二種方法提出后門(mén)移除模塊(BR),通過(guò)交替遺忘與重新學(xué)習(xí)來(lái)移除模型中的后門(mén)。在三個(gè)基準(zhǔn)數(shù)據(jù)集上的大量實(shí)驗(yàn)證明的方法在八種后門(mén)攻擊上的優(yōu)越防御性能。

圖5.退化可感知深度展開(kāi)算法框架圖

圖6.半混疊變換網(wǎng)絡(luò)結(jié)構(gòu)圖

5. “用于單曝光壓縮成像的深度展開(kāi)式半混疊變換網(wǎng)絡(luò)(Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral Compressive Imaging,作者:人工智能項(xiàng)目2020級(jí)碩士生蔡元昊、2021級(jí)碩士生林靖(導(dǎo)師:王好謙教授)

本論文提出了首個(gè)深度展開(kāi)式的Transformer用于單曝光壓縮成像重建。如圖5,首先我們推導(dǎo)出一個(gè)能夠感知快照壓縮成像退化模式的框架。從快照估計(jì)圖和編碼掩膜中估計(jì)出退化信息參數(shù)。為更好地捕獲局部表征和長(zhǎng)程依賴(lài)關(guān)系,作者設(shè)計(jì)了一種半混疊式的Transformer。如圖6,它有兩個(gè)分枝,一個(gè)在局部窗口計(jì)算自相似,另一個(gè)先通過(guò)窗口間的混疊,再計(jì)算自相似。該方法比以往方法高出4dB。

圖7.數(shù)據(jù)集所有權(quán)驗(yàn)證過(guò)程及現(xiàn)有方法的缺陷

6.“無(wú)目標(biāo)后門(mén)水?。鹤呦驘o(wú)害和隱蔽的數(shù)據(jù)集版權(quán)保護(hù)”(Untargeted Backdoor Watermark: Towards Harmless and Stealthy Dataset Copyright Protection,作者:數(shù)據(jù)科學(xué)和信息技術(shù)專(zhuān)業(yè)2020級(jí)博士生李一鳴(導(dǎo)師:江勇、夏樹(shù)濤教授)

由于數(shù)據(jù)的收集通常費(fèi)時(shí)費(fèi)力,如何保護(hù)這些數(shù)據(jù)集的版權(quán)具有重要意義。該論文重新審視了數(shù)據(jù)集所有權(quán)驗(yàn)證,作者發(fā)現(xiàn),由于現(xiàn)有后門(mén)攻擊的有目標(biāo)特性,目前的方法會(huì)在受保護(hù)的數(shù)據(jù)集上訓(xùn)練的模型中引入新的安全風(fēng)險(xiǎn)。為了解決這個(gè)問(wèn)題,作者探索了無(wú)目標(biāo)的后門(mén)水印方案。其中,被水印模型的特殊行為不是確定性的。具體的,作者引入了兩個(gè)不確定性度量,并證明了它們的相關(guān)性,在此基礎(chǔ)上,作者設(shè)計(jì)了兩類(lèi)無(wú)目標(biāo)后門(mén)水印。該論文在基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了所提方法的有效性及其對(duì)現(xiàn)有后門(mén)防御的抵抗力。

圖8. PSRT及對(duì)齊方法框架圖

7.“重新思考視頻超分辨率中的對(duì)齊”(Rethinking Alignment in Video Super-Resolution Transformers,作者:互聯(lián)網(wǎng)+創(chuàng)新設(shè)計(jì)項(xiàng)目2020級(jí)碩士生石書(shū)瑋(導(dǎo)師:楊余久副教授)

該論文提出了適用于視頻超分辨率Transformer的高效對(duì)齊方案。先前的方法需要設(shè)計(jì)復(fù)雜的對(duì)齊模塊處理幀間的不對(duì)齊。本文重新思考了現(xiàn)存對(duì)齊模塊在視頻超分中的角色,得出兩個(gè)結(jié)論:(1)視頻超分Transformer能夠直接從未對(duì)齊幀間利用多幀信息 (2)現(xiàn)有的對(duì)齊方式會(huì)降低視頻超分Transformer的性能。通過(guò)實(shí)驗(yàn)分析發(fā)現(xiàn)是光流噪聲及傳統(tǒng)的重采樣方法造成的負(fù)面影響。為了高效的解決問(wèn)題,本文提出基于塊的對(duì)齊方式,其通過(guò)計(jì)算patch內(nèi)部光流的平均值來(lái)得到幀間塊的對(duì)應(yīng)位置。根據(jù)對(duì)應(yīng)關(guān)系將塊整體移動(dòng)到對(duì)應(yīng)的位置,保持住像素間的相對(duì)位置關(guān)系。基于此提出的PSRT-recurrent模型在常用數(shù)據(jù)集上取得最好的效果。

圖9.PIE-G框架圖

8.“一種基于預(yù)訓(xùn)練圖像編碼器的可泛化視覺(jué)強(qiáng)化學(xué)習(xí)方法(Pre-Trained Image Encoder for Generalizable Visual Reinforcement Learning),作者:大數(shù)據(jù)工程項(xiàng)目2020級(jí)碩士生袁哲誠(chéng)(導(dǎo)師:王學(xué)謙教授)

如何訓(xùn)練出能夠在不同視覺(jué)場(chǎng)景中都具有泛化能力的智能體受到研究者的關(guān)注。利用外部數(shù)據(jù)來(lái)引導(dǎo)編碼器得到魯棒表征是一種常用的做法。但外部數(shù)據(jù)與訓(xùn)練數(shù)據(jù)之間存在分布偏移,如何利用外部數(shù)據(jù)來(lái)不影響訓(xùn)練的同時(shí)提升模型泛化能力是該問(wèn)題的難點(diǎn)之一。該文提出了一種新的范式PIE-G,通過(guò)加載ImageNet預(yù)訓(xùn)練模型作為智能體編碼器,利用該表征進(jìn)行下游任務(wù)訓(xùn)練。與現(xiàn)有方案不同,PIE-G直接利用ImageNet的預(yù)訓(xùn)練模型生成的表征,即可在多個(gè)控制任務(wù)中取得在樣本利用率和泛化性能上的優(yōu)異表現(xiàn),并由于使用的是淺層網(wǎng)絡(luò)特征,緩解了數(shù)據(jù)分布不一致帶來(lái)的影響。

圖10.結(jié)果展示圖

9. “基于語(yǔ)義調(diào)制的自由文本驅(qū)動(dòng)圖像編輯器(One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations),作者:人工智能2020級(jí)碩士生朱藝銘(導(dǎo)師:袁春教授)

該論文提出一種名為Free-Form CLIP 的方法,自動(dòng)對(duì)齊了StyleGAN的視覺(jué)latent space和CLIP的文本嵌入空間,實(shí)現(xiàn)了一個(gè)模型編輯任何一種文本輸入的強(qiáng)大性能。如圖所示,F(xiàn)FCLIP針對(duì)不同的文本輸入,在不同的數(shù)據(jù)集上均能實(shí)現(xiàn)真實(shí)的編輯效果。這對(duì)于圖片編輯任務(wù)具有非常高的應(yīng)用價(jià)值。目前的方法基于人工經(jīng)驗(yàn)在這兩個(gè)空間之間構(gòu)建潛變量映射,這種人工設(shè)計(jì)的網(wǎng)絡(luò)只能處理一個(gè)固定的文本語(yǔ)義。作者提出的FFCLIP旨在建立一個(gè)自動(dòng)的潛在映射,通過(guò)一個(gè)跨模態(tài)語(yǔ)義調(diào)制模塊進(jìn)行語(yǔ)義對(duì)齊和注入,首次實(shí)現(xiàn)了一個(gè)模型處理自由形式的文本編輯。

圖11. WT-MVSNet網(wǎng)絡(luò)結(jié)構(gòu)圖

10.“WT-MVSNet:利用窗口Transformers解決多視圖立體視覺(jué)任務(wù)(WT-MVSNet: Window-based Transformers for Multi-view Stereo),作者:人工智能項(xiàng)目2020級(jí)碩士生廖晉立和丁宜康(導(dǎo)師:張凱副教授、李志恒副教授)

該論文基于CasMVSNet優(yōu)化,使用window-based Transformers提高特征匹配和全局特征聚合的質(zhì)量,同時(shí)加入幾何一致性損失函數(shù)在不同視角下約束深度圖的生成。WT-MVSNet將多視圖立體視覺(jué)的本質(zhì)看成特征匹配任務(wù),提出WET對(duì)參考特征圖與對(duì)應(yīng)源視角下極線(xiàn)附近區(qū)域進(jìn)行特征匹配,聚合特征圖內(nèi)和特征圖間的信息。隨著感受野的增大,正則化網(wǎng)絡(luò)得到的深度圖質(zhì)量會(huì)更好,提出CT將3D window-based Transformer代替3D UNet結(jié)構(gòu)使得估計(jì)得到的深度圖更加平滑、噪聲更少。最后設(shè)計(jì)了幾何一致性損失函數(shù),從不同視角對(duì)估計(jì)的深度圖進(jìn)行監(jiān)督,懲罰深度圖中不符合幾何一致性的像素。WT-MVSNet在DTU和Tanks and Temples Benchmark上都取得了最先進(jìn)的重建效果。

供稿:深圳國(guó)際研究生院

編輯:李華山

審核:呂婷

2022年10月21日 10:07:22

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

清華大學(xué)新聞中心版權(quán)所有,清華大學(xué)新聞網(wǎng)編輯部維護(hù),電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.