清華新聞網(wǎng)7月28日電 近日,清華大學(xué)電子工程系語(yǔ)音與音頻技術(shù)實(shí)驗(yàn)室提出了一種端到端的基于注意力機(jī)制和能量評(píng)分器的關(guān)鍵詞檢索系統(tǒng)。該系統(tǒng)擺脫了語(yǔ)音識(shí)別的依賴(lài),并且取得了超越傳統(tǒng)方法的性能,尤其適用于低資源小語(yǔ)種關(guān)鍵詞檢索任務(wù)。
關(guān)鍵詞檢索即為在連續(xù)的語(yǔ)音流當(dāng)中檢測(cè)和定位用戶(hù)給定的關(guān)鍵詞的技術(shù)。在移動(dòng)設(shè)備廣泛應(yīng)用、海量音視頻源源不斷產(chǎn)出的今天,關(guān)鍵詞檢索能有效提高信息檢索的效率和多媒體資源的利用率。傳統(tǒng)的關(guān)鍵詞檢索技術(shù)依賴(lài)于連續(xù)語(yǔ)音識(shí)別系統(tǒng),即先使用語(yǔ)音識(shí)別系統(tǒng)得到識(shí)別結(jié)果(一般為多候選結(jié)果),然后再?gòu)淖R(shí)別結(jié)果之中尋找關(guān)鍵詞并進(jìn)行置信度估計(jì)。然而,訓(xùn)練出一個(gè)可靠的語(yǔ)音識(shí)別系統(tǒng)往往需要大量的標(biāo)注語(yǔ)音數(shù)據(jù),對(duì)于低資源語(yǔ)種,即可用的訓(xùn)練數(shù)據(jù)較少的語(yǔ)種,傳統(tǒng)的方法往往會(huì)遇到一些困難。
為了解決低資源語(yǔ)種可訓(xùn)練數(shù)據(jù)少而制約關(guān)鍵詞檢索效果的問(wèn)題,本工作采用的框架不再依賴(lài)于語(yǔ)音識(shí)別系統(tǒng),大大降低對(duì)數(shù)據(jù)資源的依賴(lài)。以下是系統(tǒng)的整體結(jié)構(gòu)框圖:該系統(tǒng)主要由四部分組成,包括語(yǔ)音編碼器(Speech Encoder),文本編碼器(Query Encoder),注意力機(jī)制(Attention Mechanism)以及能量評(píng)分器(Energy Scorer)。

圖1:端到端關(guān)鍵詞檢索系統(tǒng)的整體架構(gòu)
語(yǔ)音編碼器和文本編碼器經(jīng)過(guò)特殊設(shè)計(jì),采用聯(lián)結(jié)時(shí)序分類(lèi)(Connectionist Temporal Classification, CTC)、基于注意力機(jī)制的序列到序列以及自監(jiān)督訓(xùn)練等方法,使得生成的語(yǔ)音特征和文本特征包含關(guān)鍵詞檢索所需要的序列信息。其中,語(yǔ)音編碼器結(jié)構(gòu)如下圖所示:

圖2:語(yǔ)音特征提取過(guò)程以及使用聯(lián)結(jié)時(shí)序分類(lèi)或基于注意力的解碼器從語(yǔ)音特征中預(yù)測(cè)字符或音素序列
然后,將語(yǔ)音和文本特征輸入注意力機(jī)制和能量評(píng)分器,得到最終的評(píng)判結(jié)果。注意力機(jī)制和能量評(píng)分器,專(zhuān)門(mén)為關(guān)鍵詞檢測(cè)所設(shè)計(jì),是本工作的兩個(gè)重要?jiǎng)?chuàng)新點(diǎn),也是超越傳統(tǒng)方法的關(guān)鍵所在。圖3演示了注意力權(quán)重在正負(fù)樣本上的差異;圖4是能量評(píng)分器的具體結(jié)構(gòu)。

圖3:負(fù)樣本(左)和正樣本(右)的注意力權(quán)重

圖4:能量評(píng)分器的結(jié)構(gòu)
課題組首先根據(jù)注意力權(quán)重對(duì)語(yǔ)音特征進(jìn)行加權(quán)求和從而得到上下文特征。接著,通過(guò)計(jì)算上下文特征和語(yǔ)音特征的能量比。最終,課題組將能量比和由文本特征經(jīng)過(guò)多層感知機(jī)得到的門(mén)限進(jìn)行比較從而得到最后的判決結(jié)果。
該系統(tǒng)有效解決了低資源小語(yǔ)種缺乏標(biāo)注數(shù)據(jù)和專(zhuān)家知識(shí)所帶來(lái)的制約,使得關(guān)鍵詞檢索技術(shù)在相關(guān)領(lǐng)域邁向?qū)嵱?。該論文發(fā)表于《神經(jīng)網(wǎng)絡(luò)》(Neural Networks),題為“基于注意力機(jī)制和能量評(píng)分器的端到端低資源語(yǔ)種關(guān)鍵詞檢索系統(tǒng)”(End-to-end keyword search system based on attention mechanism and energy scorer for lowresource languages),第一作者為清華大學(xué)電子工程系碩士研究生趙澤宇,通訊作者為其導(dǎo)師張衛(wèi)強(qiáng)副研究員。
清華大學(xué)電子工程系語(yǔ)音與音頻技術(shù)實(shí)驗(yàn)室近年來(lái)專(zhuān)注于低資源語(yǔ)音識(shí)別和關(guān)鍵詞檢索研究,主持國(guó)家自然科學(xué)基金聯(lián)合重點(diǎn)項(xiàng)目和國(guó)家重點(diǎn)研發(fā)計(jì)劃重點(diǎn)專(zhuān)項(xiàng)課題,2020年在美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)主辦的語(yǔ)音分析評(píng)測(cè)OpenSAT2020關(guān)鍵詞檢索任務(wù)取得國(guó)際第一名,在OpenASR2020低資源語(yǔ)音識(shí)別挑戰(zhàn)賽中十個(gè)低資源語(yǔ)種取得四個(gè)國(guó)際第一名。
論文鏈接:
https://doi.org/10.1016/j.neunet.2021.04.002
供稿:電子系
編輯:張恩鳴
審核:呂婷