清華新聞網(wǎng)3月21日電 人說(shuō)話(huà)時(shí)嘴唇動(dòng)作跟語(yǔ)音同步,可以通過(guò)識(shí)別唇動(dòng)(Lip motion)來(lái)進(jìn)行語(yǔ)言交流。對(duì)于聲帶、喉舌損傷的失聲人群,唇語(yǔ)(Lip language)是一種不占用雙手的、日常無(wú)障礙交流的有效方式。唇語(yǔ)對(duì)講話(huà)者友好,但是對(duì)解讀唇語(yǔ)的聽(tīng)眾來(lái)說(shuō)卻并不輕松,唇語(yǔ)學(xué)習(xí)和掌握的成本較高。為降低唇語(yǔ)解讀難度,現(xiàn)有技術(shù)手段常采用磁場(chǎng)、視覺(jué)圖像、超聲波等方法。以最流行的非接觸式視覺(jué)圖像方法為例,盡管其唇語(yǔ)識(shí)別準(zhǔn)確率較高,但依然容易受到面部角度、光強(qiáng)、頭動(dòng)和遮擋等因素的干擾。特別是在COVID-19新冠病毒流行期間,佩戴的口罩給基于視覺(jué)的唇動(dòng)解讀帶來(lái)全新的挑戰(zhàn)。通過(guò)直接捕捉面部肌肉細(xì)微動(dòng)作解讀唇語(yǔ)技術(shù)具有重要的科學(xué)研究?jī)r(jià)值與廣闊的應(yīng)用前景。

圖1. 唇語(yǔ)解讀系統(tǒng)(Lip Language Decoding System,LLDS)示意圖
近日,清華大學(xué)機(jī)械工程系智能與生物機(jī)械團(tuán)隊(duì)與中科院北京納米能源與系統(tǒng)研究所團(tuán)隊(duì)合作,提出了一種新穎的唇語(yǔ)解讀系統(tǒng)(Lip Language Decoding System,LLDS)。該系統(tǒng)(圖1)包含低成本、自供電的柔性摩擦電傳感器和基于原型學(xué)習(xí)的深度學(xué)習(xí)模型。

圖2. 唇部肌肉產(chǎn)生的信號(hào)以及聲音信號(hào)同唇動(dòng)信號(hào)的比較
研究人員提出了一種基于接觸分離摩擦電傳感器的唇語(yǔ)解碼系統(tǒng)。傳感器將唇部肌肉運(yùn)動(dòng)產(chǎn)生的電信號(hào)傳輸?shù)浇獯a系統(tǒng),翻譯成可溝通的語(yǔ)言。該自供電傳感器由柔性聚合物薄膜與柔性電極組成,可提高人體佩戴的舒適性。該研究測(cè)試分析了傳感器的機(jī)械與電氣性能,采集并提取了選定元音、單詞、短語(yǔ)、無(wú)聲語(yǔ)音和發(fā)聲語(yǔ)音的唇動(dòng)信號(hào)特征。通過(guò)比較同步采集的唇動(dòng)和聲音信號(hào),證明了無(wú)論是否發(fā)聲嘴唇運(yùn)動(dòng)信號(hào)具有一致性。進(jìn)一步分析了語(yǔ)速與唇動(dòng)模式等不同參數(shù)對(duì)信號(hào)特征的影響規(guī)律(圖2)。提出了一種基于原型學(xué)習(xí)的空洞循環(huán)神經(jīng)網(wǎng)絡(luò)模型,用于唇動(dòng)信號(hào)的識(shí)別,在20個(gè)分類(lèi)(100樣本/類(lèi))情況下,測(cè)試準(zhǔn)確率達(dá)到94.5%。研究團(tuán)隊(duì)利用該系統(tǒng)進(jìn)行了多種場(chǎng)景應(yīng)用展示,如解鎖大門(mén)的身份識(shí)別、移動(dòng)模型車(chē)的方向控制、唇動(dòng)/語(yǔ)音的實(shí)時(shí)轉(zhuǎn)換等,展示了該系統(tǒng)在唇動(dòng)識(shí)別領(lǐng)域的可行性和應(yīng)用潛力。

圖3. 失聲人群日常生活交流中使用和不使用LLDS的示意圖
面向失聲人群日常無(wú)障礙溝通需求(圖3),該工作提出了一種極具潛力的方法與技術(shù)手段,為特殊場(chǎng)景下唇語(yǔ)翻譯應(yīng)用開(kāi)拓了創(chuàng)新的研究方向。盡管該工作已展示了該技術(shù)的有效性和應(yīng)用前景,但仍然面臨諸如系統(tǒng)可靠性、穩(wěn)定性等問(wèn)題。研究團(tuán)隊(duì)相信隨著研究的深入,該技術(shù)有望切實(shí)為失聲人群服務(wù),提供無(wú)障礙語(yǔ)言交流的科技手段。此外,該工作在機(jī)器人控制、個(gè)人身份驗(yàn)證、人機(jī)界面、殘疾輔助、無(wú)聲語(yǔ)音、情報(bào)、反恐任務(wù)實(shí)施、康復(fù)、生物醫(yī)學(xué)工程和虛擬現(xiàn)實(shí)等諸多領(lǐng)域中都具有較大的潛在應(yīng)用價(jià)值。
相關(guān)研究成果以“使用基于深度學(xué)習(xí)的摩擦電傳感器解碼唇語(yǔ)”(Decoding lip language using triboelectric sensors with deep learning)為題于3月17日在線(xiàn)發(fā)表于《自然·通訊》(Nature Communications)期刊上。
清華大學(xué)為論文第一單位,第一作者為機(jī)械系智能與生物機(jī)械團(tuán)隊(duì)助理研究員路益嘉,中科院北京納米能源與系統(tǒng)研究所王中林院士為論文的通訊作者。論文作者還包括清華大學(xué)機(jī)械系季林紅教授、程嘉副研究員、清華大學(xué)機(jī)械系2018級(jí)碩士生田涵、2018級(jí)博士生朱飛、2018級(jí)碩士生劉賓和2020級(jí)博士生魏姍姍。該研究得到了國(guó)家自然科學(xué)基金,國(guó)家重點(diǎn)研發(fā)計(jì)劃的項(xiàng)目支持。
論文鏈接:
https://www.nature.com/articles/s41467-022-29083-0
供稿:機(jī)械系
編輯:李華山
審核:呂婷