清華新聞網(wǎng)2月18日電 近日,國(guó)際表征學(xué)習(xí)大會(huì)(International Conference on Learning Representations,簡(jiǎn)稱(chēng)ICLR)公布論文錄用名單,深圳國(guó)際研究生院信息學(xué)科李秀教授團(tuán)隊(duì)和江勇教授/夏樹(shù)濤教授團(tuán)隊(duì)的兩篇論文被錄用,兩篇論文分別在多目標(biāo)強(qiáng)化學(xué)習(xí)和目標(biāo)跟蹤模型訓(xùn)練等方面作出創(chuàng)新研究。

WGCSL學(xué)習(xí)框架圖
論文《基于加權(quán)監(jiān)督學(xué)習(xí)的離線(xiàn)多目標(biāo)強(qiáng)化學(xué)習(xí)方法(Rethinking Goal-Conditioned Supervised Learning and Its Connection to Offline RL)》的第一作者為控制工程專(zhuān)業(yè)2019級(jí)碩士研究生楊瑞,導(dǎo)師為李秀。
通常強(qiáng)化學(xué)習(xí)方法需要大量的在線(xiàn)采樣進(jìn)行策略學(xué)習(xí),然而在許多真實(shí)場(chǎng)景中,在線(xiàn)采樣數(shù)據(jù)十分昂貴且危險(xiǎn),因此對(duì)于離線(xiàn)數(shù)據(jù)集的利用具有十分重要的意義。本文主要研究完全離線(xiàn)條件下的多目標(biāo)強(qiáng)化學(xué)習(xí)問(wèn)題,即利用固定的離線(xiàn)數(shù)據(jù)集學(xué)習(xí)一個(gè)可以泛化到整個(gè)目標(biāo)空間的策略。作者利用目標(biāo)引導(dǎo)監(jiān)督學(xué)習(xí)(GCSL)方法簡(jiǎn)單和穩(wěn)定的性質(zhì),并將其推廣到完全離線(xiàn)強(qiáng)化學(xué)習(xí)的設(shè)定下,提出了一種十分有效且具有理論基礎(chǔ)的方法,即“重要性加權(quán)的目標(biāo)引導(dǎo)監(jiān)督學(xué)習(xí)”,簡(jiǎn)記作WGCSL。
本文通過(guò)考慮累計(jì)折扣獎(jiǎng)勵(lì)來(lái)重新審視GCSL的理論基礎(chǔ),推導(dǎo)出加權(quán)形式的監(jiān)督學(xué)習(xí)優(yōu)化目標(biāo)。作者為了從離線(xiàn)數(shù)據(jù)集中學(xué)習(xí)更優(yōu)的策略并提高學(xué)習(xí)效率,提出折扣重標(biāo)簽權(quán)重(Discounted Relabeling Weight)和目標(biāo)引導(dǎo)指數(shù)優(yōu)勢(shì)權(quán)重(Goal-conditioned Exponential Advantage Weight),來(lái)得到更加通用的加權(quán)方案;為了應(yīng)對(duì)離線(xiàn)多目標(biāo)強(qiáng)化學(xué)習(xí)中的多模問(wèn)題,引入了最佳優(yōu)勢(shì)權(quán)重(Best Advantage Weight)來(lái)提升策略的收斂性能;為了評(píng)估離線(xiàn)多目標(biāo)強(qiáng)化學(xué)習(xí)算法的性能,本文開(kāi)源了一個(gè)基準(zhǔn)離線(xiàn)數(shù)據(jù)集,包括機(jī)械臂和仿真手操作等十個(gè)具有挑戰(zhàn)性的多目標(biāo)任務(wù)。實(shí)驗(yàn)結(jié)果表明,WGCSL在完全離線(xiàn)的多目標(biāo)任務(wù)中明顯優(yōu)于當(dāng)前的基線(xiàn)算法,尤其在困難的仿真手操作任務(wù)和在隨機(jī)策略收集的數(shù)據(jù)集中學(xué)習(xí)時(shí)WGCSL優(yōu)勢(shì)最為顯著。

WGCSL整體流程圖
論文《針對(duì)目標(biāo)跟蹤的后門(mén)攻擊 (Few-Shot Backdoor Attacks on Visual Object Tracking)》的第一作者為數(shù)據(jù)科學(xué)和信息技術(shù)專(zhuān)業(yè)2020級(jí)博士研究生李一鳴和計(jì)算機(jī)技術(shù)專(zhuān)業(yè)2019級(jí)碩士研究生鐘昊翔,指導(dǎo)老師為江勇,研究工作同時(shí)獲得了夏樹(shù)濤的指導(dǎo)與支持。
現(xiàn)有的后門(mén)攻擊大多數(shù)是針對(duì)圖像分類(lèi)任務(wù)設(shè)計(jì)的有目標(biāo)攻擊,顧名思義,后門(mén)攻擊旨在訓(xùn)練過(guò)程中通過(guò)某種方式給被攻擊模型植入后門(mén)(backdoor),攻擊者可以通過(guò)預(yù)先設(shè)定的特定觸發(fā)器(trigger)激活后門(mén),在后門(mén)未被激活時(shí),被攻擊的模型具有和正常模型類(lèi)似的表現(xiàn),而當(dāng)模型中埋藏的后門(mén)被攻擊者指定的觸發(fā)器激活時(shí),模型的輸出變?yōu)楣粽哳A(yù)先指定的標(biāo)簽(target label),以達(dá)到攻擊者的惡意目的。后門(mén)攻擊可以發(fā)生在訓(xùn)練過(guò)程非完全受控的很多場(chǎng)景中,例如使用第三方數(shù)據(jù)集、使用第三方平臺(tái)進(jìn)行訓(xùn)練、直接調(diào)用第三方模型,因此對(duì)模型的安全性造成了巨大威脅。本文揭示了目標(biāo)跟蹤 (visual object tracking, VOT)模型在訓(xùn)練過(guò)程中的后門(mén)威脅,并根據(jù)目標(biāo)跟蹤任務(wù)的特性,提出了一種簡(jiǎn)單而有效的攻擊框架,即使后門(mén)觸發(fā)器只出現(xiàn)在視頻的少量幀甚至是單幀中,也可成功激活被攻擊模型中存在的后門(mén)。研究團(tuán)隊(duì)在公開(kāi)數(shù)據(jù)集和真實(shí)物理場(chǎng)景中均證實(shí)了方法的有效性和對(duì)潛在防御方法的抵御效果,并分析了所提方法生效的具體機(jī)制和具有代表性的被攻擊模型行為。
國(guó)際表征學(xué)習(xí)大會(huì)是深度學(xué)習(xí)領(lǐng)域的頂級(jí)會(huì)議,聚焦有關(guān)深度學(xué)習(xí)各個(gè)方面的前沿研究,在人工智能、統(tǒng)計(jì)和數(shù)據(jù)科學(xué)領(lǐng)域以及機(jī)器視覺(jué)、語(yǔ)音識(shí)別、文本理解等重要應(yīng)用領(lǐng)域中發(fā)布了眾多極其有影響力的論文。
供稿:深圳國(guó)際研究生院
編輯:陳曉艷
審核:呂婷