電子系彭良瑞研究組古籍識(shí)別與深度學(xué)習(xí)研究成果獲DAS2016最佳論文獎(jiǎng)
清華新聞網(wǎng)4月21日電 近日,清華大學(xué)電子工程系彭良瑞副教授研究組在希臘召開(kāi)的第12屆文檔分析系統(tǒng)國(guó)際研討會(huì)(DAS 2016)上發(fā)表論文“基于卷積神經(jīng)網(wǎng)絡(luò)遷移學(xué)習(xí)的古籍漢字識(shí)別”,獲得DAS 2016 最佳論文獎(jiǎng)。論文第一作者博士生湯野駿出席會(huì)議并做口頭報(bào)告,獲得與會(huì)專(zhuān)家的好評(píng)。DAS 2016是國(guó)際模式識(shí)別學(xué)會(huì)主辦的文字識(shí)別領(lǐng)域的國(guó)際學(xué)術(shù)會(huì)議,自1994年起,每?jī)赡昱e辦一次。
古籍漢字識(shí)別是一種將古籍圖像轉(zhuǎn)換為可全文檢索文本的技術(shù),由于其技術(shù)難度大,傳統(tǒng)的模式識(shí)別與機(jī)器學(xué)習(xí)方法尚未提供完善的解決方案。卷積神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)領(lǐng)域新興的深度學(xué)習(xí)方法之一,通常訓(xùn)練一個(gè)較復(fù)雜的卷積神經(jīng)網(wǎng)絡(luò)需要數(shù)以百萬(wàn)計(jì)的海量標(biāo)注樣本數(shù)據(jù),但是在缺乏具有類(lèi)別標(biāo)記訓(xùn)練樣本的古籍漢字識(shí)別任務(wù)中,直接運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)無(wú)法獲得較好的效果。論文所提出的方法先利用從現(xiàn)代印刷體繁體漢字樣本集上訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò)參數(shù),再輔以少量實(shí)際古籍漢字樣本集進(jìn)行遷移學(xué)習(xí),最終得到適用于古籍漢字識(shí)別的模型。論文還對(duì)模型結(jié)構(gòu)與參數(shù)、樣本選取方案等技術(shù)要點(diǎn)進(jìn)行了深入細(xì)致的分析。這一研究成果對(duì)于發(fā)展我國(guó)古籍全文數(shù)字化技術(shù)、進(jìn)一步促進(jìn)珍貴中華古籍資源的保護(hù)和利用具有重要意義。

DAS 2016 最佳論文獎(jiǎng)證書(shū)

湯野駿在DAS2016會(huì)議期間與國(guó)際學(xué)術(shù)界最早進(jìn)行漢字識(shí)別研究的George Nagy教授交流。
論文工作有關(guān)古籍漢字識(shí)別方面的研究得到國(guó)家自然科學(xué)基金委員會(huì)與法國(guó)國(guó)家科研署共同資助的“手寫(xiě)體中文古籍識(shí)別”項(xiàng)目的支持,項(xiàng)目研究用的古籍樣本由合作單位國(guó)家圖書(shū)館提供;有關(guān)深度學(xué)習(xí)方面的研究得到日本東芝公司國(guó)際合作項(xiàng)目的支持,項(xiàng)目負(fù)責(zé)人均為彭良瑞副教授。論文作者為清華大學(xué)的湯野駿、彭良瑞、徐倩、王言偉和日本東芝公司的古畑彰夫。
彭良瑞長(zhǎng)期從事多文種文字識(shí)別與古籍識(shí)別方面的研究工作。此前,她指導(dǎo)的碩士生馮繼雄發(fā)表的論文“基于高斯過(guò)程風(fēng)格映射的古籍漢字識(shí)別方法”,于2015年2月獲得第22屆文檔識(shí)別與檢索國(guó)際會(huì)議最佳學(xué)生論文獎(jiǎng)。彭良瑞研究組所屬的電子工程系智能圖文信息處理研究室在丁曉青教授的帶領(lǐng)下,在文字識(shí)別、人臉識(shí)別、視頻監(jiān)控等領(lǐng)域具有長(zhǎng)期深厚的研究基礎(chǔ)。彭良瑞也是電子工程系近期成立的媒體大數(shù)據(jù)認(rèn)知計(jì)算研究中心的技術(shù)骨干,該中心主任王生進(jìn)教授指出,將深度學(xué)習(xí)前沿技術(shù)與困難的古籍漢字識(shí)別課題結(jié)合,是這項(xiàng)論文工作做出的重要?jiǎng)?chuàng)新。
供稿:電子系 編輯:文 杰