清華新聞網(wǎng)10月9日電 電子工程系王生進(jìn)、李亞利團(tuán)隊(duì)的博士生豆朝鵬的論文“面向域泛化行人再識(shí)別的身份導(dǎo)向自監(jiān)督表征學(xué)習(xí)”(Identity-Seeking Self-Supervised Representation Learning forGeneralizable Person Re-identification)于8月12日被國(guó)際計(jì)算機(jī)視覺(jué)大會(huì)(IEEE International Conference on Computer Vision,ICCV2023)接收為口頭報(bào)告。當(dāng)?shù)貢r(shí)間10月6日,豆朝鵬赴法國(guó)巴黎參加該學(xué)術(shù)會(huì)議并作大會(huì)口頭報(bào)告。ICCV2023的有效投稿數(shù)為8088,最終接收了2160篇文章,接收率約26.7%,共有152篇論文被接收為口頭報(bào)告(Oral),接收率僅1.9%。
該論文解決的是域泛化行人再識(shí)別任務(wù)(Domain-Generalizable Person Re-identification,DG ReID)中的重要難題——在未知的目標(biāo)域上進(jìn)行測(cè)試時(shí),模型的性能大幅下降問(wèn)題。解決該問(wèn)題的常見(jiàn)做法是在小規(guī)模的有標(biāo)注數(shù)據(jù)上學(xué)習(xí)域不變的行人表征。然而,這種方法受限于訓(xùn)練數(shù)據(jù)的規(guī)模,域信息匱乏,難以學(xué)到泛化能力強(qiáng)的行人表征。為此,豆朝鵬等作者提出新的解決思路,如圖1所示,從大規(guī)模的無(wú)標(biāo)注互聯(lián)網(wǎng)行人視頻中學(xué)習(xí)域泛化能力強(qiáng)的行人表征。該方案的可行性來(lái)自于兩點(diǎn):(1)從互聯(lián)網(wǎng)獲取無(wú)標(biāo)注的行人視頻代價(jià)極低。(2)大規(guī)模的互聯(lián)網(wǎng)視頻數(shù)據(jù)包含豐富的域信息,能學(xué)習(xí)到泛化能力強(qiáng)的行人表征。

圖1.解決思路:從大規(guī)模無(wú)標(biāo)注視頻中學(xué)習(xí)域泛化行人表征
對(duì)于大規(guī)模的無(wú)標(biāo)注數(shù)據(jù),一個(gè)樸素的做法是采用經(jīng)典的無(wú)監(jiān)督對(duì)比學(xué)習(xí)方法,如MoCo、SimCLR、BYOL等訓(xùn)練模型。然而經(jīng)過(guò)分析,作者發(fā)現(xiàn)這些無(wú)監(jiān)督對(duì)比學(xué)習(xí)方法不適用于行人再識(shí)別任務(wù)。行人再識(shí)別任務(wù)要求屬于同一個(gè)行人的多張圖像具有相似的表征,而MoCo等方法為每一張圖像學(xué)習(xí)唯一的表征,與行人再識(shí)別任務(wù)的要求不一致。為了能夠驅(qū)動(dòng)大規(guī)模的無(wú)標(biāo)注數(shù)據(jù)來(lái)學(xué)習(xí)域泛化行人表征,作者提出了身份導(dǎo)向的自監(jiān)督表征學(xué)習(xí)框架(Identity-Seeking Self-Supervised Representation Learning, ISR)。如圖2所示,該框架包括兩個(gè)主要部分:(1)基于最大二分圖匹配構(gòu)建跨幀正樣本對(duì)。(2)基于所提出的可靠性引導(dǎo)的對(duì)比學(xué)習(xí)損失,抑制噪聲正樣本對(duì)的影響。ISR要求鄰近幀中屬于同一個(gè)行人的圖像具有相似的表征,這與行人再識(shí)別任務(wù)的要求一致。ISR的訓(xùn)練復(fù)雜度和訓(xùn)練數(shù)據(jù)量呈線(xiàn)性關(guān)系,因此能夠驅(qū)動(dòng)大規(guī)模的訓(xùn)練數(shù)據(jù)。

圖2.方法框架:身份導(dǎo)向自監(jiān)督表征學(xué)習(xí)框架ISR
廣泛的實(shí)驗(yàn)結(jié)果表明,ISR學(xué)習(xí)的表征具有很強(qiáng)的域泛化能力和域遷移能力。在域泛化設(shè)定中,在七個(gè)常用的行人數(shù)據(jù)集上,ISR的性能大幅超越了現(xiàn)有的工作。在域適應(yīng)設(shè)定中,ISR學(xué)習(xí)的表征能夠更快速、更有效地適應(yīng)新場(chǎng)景,有很大的實(shí)際部署潛力和價(jià)值。這些結(jié)果表明,該論文所提出的結(jié)合自監(jiān)督對(duì)比學(xué)習(xí)和大規(guī)模無(wú)標(biāo)注行人數(shù)據(jù)是解決行人再識(shí)別任務(wù)中的泛化問(wèn)題的有效方法,這是邁向域泛化行人再識(shí)別的一大突破。
ICCV會(huì)議由電氣與電子工程師學(xué)會(huì)(The Institute of Electrical and Electronics Engineers,IEEE)舉辦,與計(jì)算機(jī)視覺(jué)模式識(shí)別會(huì)議(IEEE Conference on Computer Vision and Pattern Recognition,CVPR)和歐洲計(jì)算機(jī)視覺(jué)會(huì)議(European Conference on Computer Vision,ECCV)并稱(chēng)計(jì)算機(jī)視覺(jué)方向的三大會(huì)議,被中國(guó)計(jì)算機(jī)學(xué)會(huì)等機(jī)構(gòu)評(píng)為最高級(jí)別的學(xué)術(shù)會(huì)議,擁有極高的領(lǐng)域影響力。
論文連接:
https://openaccess.thecvf.com/content/ICCV2023/papers/Dou_Identity-Seeking_Self-Supervised_Representation_Learning_for_Generalizable_Person_Re-Identification_ICCV_2023_paper.pdf
供稿:電子系
編輯:李華山
審核:郭玲