清華新聞網(wǎng)2月24日電 近日,清華大學(xué)集成電路學(xué)院任天令教授及合作團(tuán)隊(duì)在智能語(yǔ)音交互方面取得重要進(jìn)展,其研發(fā)的可穿戴人工喉可以感知喉部發(fā)聲相關(guān)的多模態(tài)機(jī)械信號(hào)以用于語(yǔ)音識(shí)別,并依靠熱聲效應(yīng)播放對(duì)應(yīng)的聲音,研究結(jié)果為語(yǔ)音識(shí)別與交互系統(tǒng)提供了一條新的技術(shù)途徑。

圖1. 基于智能可穿戴人工喉的語(yǔ)音交互范式
語(yǔ)音是人類(lèi)交流的重要方式,但說(shuō)話(huà)人的健康狀態(tài)(例如神經(jīng)疾病、癌癥、外傷等原因?qū)е碌穆曇粽系K)和周?chē)h(huán)境(噪音干擾、傳播介質(zhì))往往會(huì)影響聲音的傳輸和識(shí)別。研究人員一直在改進(jìn)語(yǔ)音識(shí)別和交互技術(shù)以應(yīng)對(duì)微弱的聲源或嘈雜的環(huán)境。多通道聲學(xué)傳感器可以顯著提高聲音識(shí)別的精度,但會(huì)導(dǎo)致更大的設(shè)備體積。而可穿戴設(shè)備能夠獲取高質(zhì)量的原始語(yǔ)音或其他生理信號(hào)。然而,目前尚無(wú)充分的證據(jù)表明喉部肌肉的運(yùn)動(dòng)模式和反映在體表的發(fā)聲器官振動(dòng)中隱含著可識(shí)別的語(yǔ)音特征,且尚無(wú)實(shí)驗(yàn)證明其作為語(yǔ)音識(shí)別技術(shù)的完備性。

圖2. 人工喉器件設(shè)計(jì)和性能表征

圖3. 人工喉器件與麥克風(fēng)采集的語(yǔ)音信息標(biāo)注和共振峰特征分析
為解決這一問(wèn)題,任天令團(tuán)隊(duì)成員開(kāi)發(fā)了一款基于石墨烯的智能可穿戴人工喉(AT),同商業(yè)麥克風(fēng)和壓電薄膜相比,人工喉對(duì)低頻的肌肉運(yùn)動(dòng)、中頻食管振動(dòng)和高頻聲波信息有很高的靈敏度(圖1、圖2),同時(shí)也具有抗噪聲的語(yǔ)音感知能力(圖2)。對(duì)聲學(xué)信號(hào)和機(jī)械運(yùn)動(dòng)的混合模態(tài)的感知使人工喉能夠獲得更低的語(yǔ)音基頻信號(hào)(圖3)。此外,該器件還可以通過(guò)熱聲效應(yīng)實(shí)現(xiàn)聲音的播放功能。人工喉的制作過(guò)程簡(jiǎn)單、性能穩(wěn)定、易于集成,為語(yǔ)音識(shí)別和交互提供了一種新的硬件平臺(tái)。

圖4. 人工喉語(yǔ)音識(shí)別性能
團(tuán)隊(duì)還利用人工智能模型對(duì)人工喉感知的信號(hào)進(jìn)行語(yǔ)音識(shí)別和合成,實(shí)現(xiàn)了對(duì)基本語(yǔ)音元素(音素、聲調(diào)和詞語(yǔ))的高精度識(shí)別,以及對(duì)喉癌患者模糊語(yǔ)音的識(shí)別與再現(xiàn),為聲音障礙者的溝通和交互提供了一種創(chuàng)新的解決方案。實(shí)驗(yàn)結(jié)果表明,人工喉采集的混合模態(tài)語(yǔ)音信號(hào)可以識(shí)別基本語(yǔ)音元素(音素、音調(diào)和單詞),平均準(zhǔn)確率為99.05%。同時(shí)人工喉的抗噪聲性能明顯優(yōu)于麥克風(fēng),在60dB以上環(huán)境噪聲下仍能保持識(shí)別能力。任天令研究團(tuán)隊(duì)進(jìn)一步演示了它的語(yǔ)音交互式應(yīng)用。通過(guò)集成AI模型,人工喉能夠識(shí)別一名喉切除術(shù)患者模糊說(shuō)出的日常詞匯,準(zhǔn)確率超過(guò)90%。識(shí)別出的內(nèi)容被合成為語(yǔ)音在人工喉上播放,可以初步恢復(fù)患者的語(yǔ)音交流能力。

圖5. 使用智能可穿戴人工喉進(jìn)行無(wú)聲語(yǔ)音交互
該人工喉還有很大的優(yōu)化和拓展空間,例如提高聲音的質(zhì)量和音量,增加語(yǔ)音的多樣性和表情,以及結(jié)合其他生理信號(hào)和環(huán)境信息實(shí)現(xiàn)更自然和智能的語(yǔ)音交互。研究團(tuán)隊(duì)希望通過(guò)進(jìn)一步的研究和合作,讓人工喉造福更多的聲音障礙者和語(yǔ)音交互的用戶(hù)。
該成果以“使用可穿戴人工喉的混合模態(tài)語(yǔ)音識(shí)別與交互”(Mixed-modality speech recognition and interaction using a wearable artificial throat)為題,于2月24日在線(xiàn)發(fā)表在《自然》(Nature)人工智能子刊《自然·機(jī)器智能》(Nature Machine Intelligence)上。
論文通訊作者為清華大學(xué)集成電路學(xué)院任天令教授、田禾副教授、楊軼副教授和上海交通大學(xué)醫(yī)學(xué)院羅清泉教授,清華大學(xué)集成電路學(xué)院2019級(jí)博士生楊其晟、上海交通大學(xué)醫(yī)學(xué)院2019級(jí)博士生金偉秋為共同第一作者。該項(xiàng)目得到了國(guó)家自然科學(xué)基金委、科技部、教育部霍英東基金、北京市自然基金委、清華大學(xué)國(guó)強(qiáng)研究院、清華大學(xué)佛山先進(jìn)制造研究院、清華大學(xué)-豐田聯(lián)合研究院、清華-華發(fā)建筑光電子技術(shù)聯(lián)合研究院等的支持。
論文鏈接:
https://www.nature.com/articles/s42256-023-00616-6
供稿:集成電路學(xué)院
題圖設(shè)計(jì):金婭辰
編輯:李華山
審核:郭玲