清華新聞網(wǎng)11月23日電 近日,清華大學(xué)深圳國(guó)際研究生院信息科學(xué)與技術(shù)學(xué)部師生團(tuán)隊(duì)的八篇學(xué)術(shù)論文被第29屆ACM國(guó)際多媒體會(huì)議(Proceedings of the 29th ACM International Conference on Multimedia,ACMMM 2021)接收。

圖1:DASE網(wǎng)絡(luò)先結(jié)合模態(tài)信息將輸入圖像映射到512維的歐幾里得空間,然后再將表征向量壓縮至低維二值空間,加速檢索過(guò)程。
2021級(jí)人工智能項(xiàng)目碩士生盧鵬(指導(dǎo)教師:楊文明副教授)發(fā)表論文《面向草圖檢索的乘性歐氏裕量Softmax度量的域判別激勵(lì)網(wǎng)絡(luò)模型研究》(Domain-Aware SE Network for Sketch-based Image Retrieval with Multiplicative Euclidean Margin Softmax)。該論文主要針對(duì)跨模態(tài)圖像檢索任務(wù)提出了基于模態(tài)先驗(yàn)的壓縮——激勵(lì)網(wǎng)絡(luò)和帶乘性歐幾里得間隔的歸一化指數(shù)損失函數(shù)。前者可以根據(jù)輸入圖像的模態(tài)信息選擇性地強(qiáng)調(diào)不同的通道,使網(wǎng)絡(luò)關(guān)注各模態(tài)圖像的有效特征;后者約束同類(lèi)樣本表征間的最大距離小于異類(lèi)樣本表征間的最小距離,提升了樣本表征的類(lèi)別判別度。

圖2:用于圖像復(fù)原的混合階注意力網(wǎng)絡(luò)的框架:混合階通道注意(mix-order channel attention,MOCA)模塊由特征門(mén)控模塊(feature gating block)和特征池化模塊(feature pooling block)組成,可以捕獲中間層的語(yǔ)義信息和豐富的特征統(tǒng)計(jì)信息。
計(jì)算機(jī)科學(xué)與技術(shù)研究所博士后戴濤(現(xiàn)為深圳大學(xué)計(jì)算機(jī)學(xué)院教師)與2020級(jí)計(jì)算機(jī)技術(shù)項(xiàng)目碩士生呂亞蕾(指導(dǎo)教師:夏樹(shù)濤教授)聯(lián)合發(fā)表論文《用于圖像復(fù)原的混合階注意力網(wǎng)絡(luò)》(Mix-order Attention Networks for Image Restoration)。該論文主要提出了混合階注意力模塊,采用門(mén)控機(jī)制自適應(yīng)地選擇不同的高階統(tǒng)計(jì)量提取特征,從而使該模塊可以有效地捕獲更豐富的統(tǒng)計(jì)信息,以計(jì)算更準(zhǔn)確的注意力權(quán)重并提高神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力。

圖3:WeClick框架:(a)教師網(wǎng)絡(luò)訓(xùn)練過(guò)程(僅點(diǎn)標(biāo)注作為監(jiān)督);(b)學(xué)生網(wǎng)絡(luò)訓(xùn)練過(guò)程(點(diǎn)標(biāo)注訓(xùn)練+傳統(tǒng)蒸餾訓(xùn)練+MFD訓(xùn)練);(c)學(xué)生網(wǎng)絡(luò)推理過(guò)程。
2019級(jí)計(jì)算機(jī)技術(shù)專(zhuān)業(yè)碩士生劉沛東(指導(dǎo)教師:江勇教授)發(fā)表論文《WeClick:一種針對(duì)視頻語(yǔ)義分割的點(diǎn)標(biāo)注弱監(jiān)督方法》(WeClick: Weakly-Supervised Video Semantic Segmentation with Click Annotations)。該論文首次針對(duì)視頻語(yǔ)義分割提出點(diǎn)標(biāo)注弱監(jiān)督訓(xùn)練方式,僅需對(duì)視頻幀的每個(gè)語(yǔ)義物體標(biāo)注一個(gè)點(diǎn)作為訓(xùn)練標(biāo)簽,從而大大減少人工標(biāo)注的成本,同時(shí),為了進(jìn)一步提升語(yǔ)義分割的性能,提出記憶流蒸餾模塊,充分利用相鄰幀的時(shí)序信息。

圖4:MBnet框架示意圖:輸入圖像首先由NET flow子模塊計(jì)算前后幀光流(flow)信息,并由NET SR子模塊完成空間域超分,再引導(dǎo)NET re子模塊進(jìn)一步優(yōu)化到中間幀光流(Flow)結(jié)果,經(jīng)過(guò)NET FI子模塊完成時(shí)間域插幀。如果將插幀所得到的結(jié)果重新反饋給NET SR子網(wǎng)絡(luò)可以進(jìn)一步優(yōu)化超分結(jié)果。
2019級(jí)電子與通信工程專(zhuān)業(yè)碩士生周成成(指導(dǎo)教師:盧宗慶)發(fā)表論文《視頻超分辨率與視頻插幀如何相互促進(jìn)》(How Video Super-Resolution and Frame Interpolation Mutually Benefit)。該論文主要提出了一種時(shí)空域聯(lián)合超分的視頻畫(huà)質(zhì)增強(qiáng)方案,探究了空間域的超分辨率技術(shù)和時(shí)間域的插幀技術(shù)之間的關(guān)聯(lián)信息,通過(guò)特征復(fù)用和信息交互的方案,以較少的參數(shù)量很好地實(shí)現(xiàn)了對(duì)低分辨率低幀率視頻的畫(huà)質(zhì)增強(qiáng)效果。

圖5:嵌入隱式特征細(xì)化模塊(IFR)的實(shí)例分割網(wǎng)絡(luò)架構(gòu)圖:(a)圖為使用顯式特征細(xì)化策略的兩階段實(shí)例分割頭部網(wǎng)絡(luò);(b)圖為使用顯式特征細(xì)化策略的單階段實(shí)例分割頭部網(wǎng)絡(luò);(c)圖為使用隱式特征細(xì)化策略的實(shí)例分割頭部網(wǎng)絡(luò)。注意:IFR模塊可被融合到單階段和兩階段實(shí)例分割算法當(dāng)中。
2019級(jí)互聯(lián)網(wǎng)+創(chuàng)新設(shè)計(jì)項(xiàng)目碩士研究生馬露凡(指導(dǎo)教師:李秀教授)與曠視研究院高級(jí)研究員汪天才聯(lián)合發(fā)表論文《用于實(shí)例分割的隱式特征細(xì)化方法》(Implicit Feature Refinement for Instance Segmentation)。該論文主要提出了一種新穎的隱式特征細(xì)化方法?;谏疃染饽P停詥蝹€(gè)殘差塊參數(shù)模擬一個(gè)無(wú)限深度網(wǎng)絡(luò)。通過(guò)不動(dòng)點(diǎn)迭代生成具有全局感受野的high-level均衡特征,作為一個(gè)即插即用模塊,可輕松擴(kuò)展到實(shí)例分割、目標(biāo)檢測(cè)等大多數(shù)目標(biāo)識(shí)別框架。

圖6:VQMG模型示意圖:輸入圖像首先由層次矢量量化變分自動(dòng)編碼器進(jìn)行特征編碼,然后送入多跳圖卷積網(wǎng)絡(luò)以從潛在的層次結(jié)構(gòu)中推理復(fù)雜關(guān)系,生成包含內(nèi)容和復(fù)雜結(jié)構(gòu)信息的強(qiáng)辨別力的特征表示用于多媒體領(lǐng)域的下游任務(wù)。
2018級(jí)計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè)博士生李磊(指導(dǎo)教師:袁春副研究員)發(fā)表論文《VQMG:用于顯式表示學(xué)習(xí)的分層向量量化和多跳圖推理》(VQMG: Hierarchical Vector Quantised and Multi-hops Graph Reasoning for Explicit Representation Learning)。本文主要提出了一種用于進(jìn)行圖數(shù)據(jù)結(jié)構(gòu)中多跳關(guān)系推理和顯式表示學(xué)習(xí)的端到端學(xué)習(xí)框架。通過(guò)引入多跳圖卷積網(wǎng)絡(luò),其包含的內(nèi)部圖可以有效地捕獲來(lái)自分層潛在空間的復(fù)雜關(guān)系,而外部圖則連貫地執(zhí)行自回歸先驗(yàn)的擬合以提高下游任務(wù)的性能。

圖7:模型整體結(jié)構(gòu)示意圖:圖像修復(fù)過(guò)程分為兩個(gè)步驟:一是上半部分所示的邊緣修復(fù),采用單次(one-shot)推理策略;二是下半部分所示的RGB圖修復(fù),采用自適應(yīng)迭代推理(AIR)策略。訓(xùn)練過(guò)程結(jié)合多種類(lèi)型的損失,以促進(jìn)修復(fù)網(wǎng)絡(luò)多類(lèi)型語(yǔ)義信息的學(xué)習(xí)。
2017級(jí)控制科學(xué)與工程專(zhuān)業(yè)博士生陳勝杰(指導(dǎo)教師:李秀教授)與阿里巴巴高級(jí)算法專(zhuān)家郭振華博士聯(lián)合發(fā)表論文《一種探索更多信息的自適應(yīng)迭代圖像修復(fù)方法》(An Adaptive Iterative Inpainting Method with More Information Exploration)。該論文主要提出了一種可以學(xué)習(xí)多隱空間語(yǔ)義信息的自適應(yīng)迭代圖像修復(fù)方法。采用根據(jù)輸入圖像缺失面積自適應(yīng)調(diào)整迭代推理次數(shù)的策略,保證修復(fù)效果的同時(shí)降低計(jì)算量。提出多離散隱空間感知損失和高飽和度域損失,提升模型的語(yǔ)義學(xué)習(xí)能力。

圖8:視頻響應(yīng)系統(tǒng)組件示意圖:該視頻響應(yīng)系統(tǒng)用于處理基于DASH的視頻請(qǐng)求,包括請(qǐng)求處理模塊、MEC選擇模塊、緩存管理器(部署在MEC內(nèi))、基站切換模塊(位于EPC/5GC內(nèi))以及無(wú)線(xiàn)網(wǎng)絡(luò)信息服務(wù)(RNIS)模塊。
2017級(jí)計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè)博士生石婉欣(指導(dǎo)教師:江勇教授)發(fā)表論文《5G MEC場(chǎng)景下針對(duì)自適應(yīng)視頻流的用戶(hù)體驗(yàn)驅(qū)動(dòng)的多接入邊緣計(jì)算選擇方案》(QoE Ready to Respond: A QoE-aware MEC Selection Scheme for DASH-based Adaptive VideoStreaming to Mobile Users)。該論文提出了一種新的多接入邊緣計(jì)算(MEC)選擇方案,它綜合考慮了基站切換和邊緣緩存狀態(tài),從而為自適應(yīng)視頻服務(wù)實(shí)現(xiàn)更好的用戶(hù)體驗(yàn)。首先設(shè)計(jì)了基于命中率和延遲的方法來(lái)選擇MEC,并驗(yàn)證命中率和延遲可能并不是最重要的指標(biāo)。最終提出了一種用戶(hù)體驗(yàn)感知的方法來(lái)選擇合適的方案,從而優(yōu)化自適應(yīng)視頻流的傳輸。
國(guó)際多媒體會(huì)議作為世界多媒體領(lǐng)域頂級(jí)會(huì)議,也是中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦的該領(lǐng)域唯一的A類(lèi)國(guó)際學(xué)術(shù)會(huì)議,涵蓋了多個(gè)新興領(lǐng)域,致力于推動(dòng)眾多媒體的研究和應(yīng)用,包括但不限于圖像、文本、音頻、語(yǔ)音、音樂(lè)、傳感器和社交數(shù)據(jù)。會(huì)議鼓勵(lì)利用完整、集成的方法跨模態(tài)地交換、處理和利用信息,并強(qiáng)調(diào)在每種媒介上進(jìn)行的所有前沿研究都可能對(duì)日常生活和技術(shù)突破產(chǎn)生積極影響。
供稿:深圳國(guó)際研究生院
編輯:李華山
審核:呂婷