太阳城集团娱乐球赛-澳门太阳城集团周焯华老婆-澳门太阳城集团车模-豪胜娱乐城客户端

清華主頁(yè)· English Version

清華主頁(yè) - 清華新聞 - 學(xué)術(shù)科研 - 正文

深圳國(guó)際研究生院兩篇論文入選國(guó)際表征學(xué)習(xí)大會(huì)（ICLR 2022）

分享

清華新聞網(wǎng)2月18日電 近日，國(guó)際表征學(xué)習(xí)大會(huì)（International Conference on Learning Representations，簡(jiǎn)稱(chēng)ICLR）公布論文錄用名單，深圳國(guó)際研究生院信息學(xué)科李秀教授團(tuán)隊(duì)和江勇教授/夏樹(shù)濤教授團(tuán)隊(duì)的兩篇論文被錄用，兩篇論文分別在多目標(biāo)強(qiáng)化學(xué)習(xí)和目標(biāo)跟蹤模型訓(xùn)練等方面作出創(chuàng)新研究。

WGCSL學(xué)習(xí)框架圖

論文《基于加權(quán)監(jiān)督學(xué)習(xí)的離線(xiàn)多目標(biāo)強(qiáng)化學(xué)習(xí)方法（Rethinking Goal-Conditioned Supervised Learning and Its Connection to Offline RL）》的第一作者為控制工程專(zhuān)業(yè)2019級(jí)碩士研究生楊瑞，導(dǎo)師為李秀。

通常強(qiáng)化學(xué)習(xí)方法需要大量的在線(xiàn)采樣進(jìn)行策略學(xué)習(xí)，然而在許多真實(shí)場(chǎng)景中，在線(xiàn)采樣數(shù)據(jù)十分昂貴且危險(xiǎn)，因此對(duì)于離線(xiàn)數(shù)據(jù)集的利用具有十分重要的意義。本文主要研究完全離線(xiàn)條件下的多目標(biāo)強(qiáng)化學(xué)習(xí)問(wèn)題，即利用固定的離線(xiàn)數(shù)據(jù)集學(xué)習(xí)一個(gè)可以泛化到整個(gè)目標(biāo)空間的策略。作者利用目標(biāo)引導(dǎo)監(jiān)督學(xué)習(xí)（GCSL）方法簡(jiǎn)單和穩(wěn)定的性質(zhì)，并將其推廣到完全離線(xiàn)強(qiáng)化學(xué)習(xí)的設(shè)定下，提出了一種十分有效且具有理論基礎(chǔ)的方法，即“重要性加權(quán)的目標(biāo)引導(dǎo)監(jiān)督學(xué)習(xí)”，簡(jiǎn)記作WGCSL。

本文通過(guò)考慮累計(jì)折扣獎(jiǎng)勵(lì)來(lái)重新審視GCSL的理論基礎(chǔ)，推導(dǎo)出加權(quán)形式的監(jiān)督學(xué)習(xí)優(yōu)化目標(biāo)。作者為了從離線(xiàn)數(shù)據(jù)集中學(xué)習(xí)更優(yōu)的策略并提高學(xué)習(xí)效率，提出折扣重標(biāo)簽權(quán)重（Discounted Relabeling Weight）和目標(biāo)引導(dǎo)指數(shù)優(yōu)勢(shì)權(quán)重（Goal-conditioned Exponential Advantage Weight），來(lái)得到更加通用的加權(quán)方案；為了應(yīng)對(duì)離線(xiàn)多目標(biāo)強(qiáng)化學(xué)習(xí)中的多模問(wèn)題，引入了最佳優(yōu)勢(shì)權(quán)重（Best Advantage Weight）來(lái)提升策略的收斂性能；為了評(píng)估離線(xiàn)多目標(biāo)強(qiáng)化學(xué)習(xí)算法的性能，本文開(kāi)源了一個(gè)基準(zhǔn)離線(xiàn)數(shù)據(jù)集，包括機(jī)械臂和仿真手操作等十個(gè)具有挑戰(zhàn)性的多目標(biāo)任務(wù)。實(shí)驗(yàn)結(jié)果表明，WGCSL在完全離線(xiàn)的多目標(biāo)任務(wù)中明顯優(yōu)于當(dāng)前的基線(xiàn)算法，尤其在困難的仿真手操作任務(wù)和在隨機(jī)策略收集的數(shù)據(jù)集中學(xué)習(xí)時(shí)WGCSL優(yōu)勢(shì)最為顯著。

WGCSL整體流程圖

論文《針對(duì)目標(biāo)跟蹤的后門(mén)攻擊（Few-Shot Backdoor Attacks on Visual Object Tracking）》的第一作者為數(shù)據(jù)科學(xué)和信息技術(shù)專(zhuān)業(yè)2020級(jí)博士研究生李一鳴和計(jì)算機(jī)技術(shù)專(zhuān)業(yè)2019級(jí)碩士研究生鐘昊翔，指導(dǎo)老師為江勇，研究工作同時(shí)獲得了夏樹(shù)濤的指導(dǎo)與支持。

現(xiàn)有的后門(mén)攻擊大多數(shù)是針對(duì)圖像分類(lèi)任務(wù)設(shè)計(jì)的有目標(biāo)攻擊，顧名思義，后門(mén)攻擊旨在訓(xùn)練過(guò)程中通過(guò)某種方式給被攻擊模型植入后門(mén)（backdoor），攻擊者可以通過(guò)預(yù)先設(shè)定的特定觸發(fā)器（trigger）激活后門(mén)，在后門(mén)未被激活時(shí)，被攻擊的模型具有和正常模型類(lèi)似的表現(xiàn)，而當(dāng)模型中埋藏的后門(mén)被攻擊者指定的觸發(fā)器激活時(shí)，模型的輸出變?yōu)楣粽哳A(yù)先指定的標(biāo)簽（target label），以達(dá)到攻擊者的惡意目的。后門(mén)攻擊可以發(fā)生在訓(xùn)練過(guò)程非完全受控的很多場(chǎng)景中，例如使用第三方數(shù)據(jù)集、使用第三方平臺(tái)進(jìn)行訓(xùn)練、直接調(diào)用第三方模型，因此對(duì)模型的安全性造成了巨大威脅。本文揭示了目標(biāo)跟蹤（visual object tracking， VOT）模型在訓(xùn)練過(guò)程中的后門(mén)威脅，并根據(jù)目標(biāo)跟蹤任務(wù)的特性，提出了一種簡(jiǎn)單而有效的攻擊框架，即使后門(mén)觸發(fā)器只出現(xiàn)在視頻的少量幀甚至是單幀中，也可成功激活被攻擊模型中存在的后門(mén)。研究團(tuán)隊(duì)在公開(kāi)數(shù)據(jù)集和真實(shí)物理場(chǎng)景中均證實(shí)了方法的有效性和對(duì)潛在防御方法的抵御效果，并分析了所提方法生效的具體機(jī)制和具有代表性的被攻擊模型行為。

國(guó)際表征學(xué)習(xí)大會(huì)是深度學(xué)習(xí)領(lǐng)域的頂級(jí)會(huì)議，聚焦有關(guān)深度學(xué)習(xí)各個(gè)方面的前沿研究，在人工智能、統(tǒng)計(jì)和數(shù)據(jù)科學(xué)領(lǐng)域以及機(jī)器視覺(jué)、語(yǔ)音識(shí)別、文本理解等重要應(yīng)用領(lǐng)域中發(fā)布了眾多極其有影響力的論文。

供稿：深圳國(guó)際研究生院

編輯：陳曉艷

審核：呂婷

2022年02月18日 08:40:12

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

關(guān)于我們 │ 友情鏈接 │ 清華地圖

清華大學(xué)新聞中心版權(quán)所有，清華大學(xué)新聞網(wǎng)編輯部維護(hù)，電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.