清華新聞網(wǎng)7月20日電 語(yǔ)音合成技術(shù)旨在根據(jù)給定的文本合成可理解的自然語(yǔ)音,這對(duì)于構(gòu)建和諧、可靠的智能語(yǔ)音交互環(huán)境至關(guān)重要。智能語(yǔ)音交互的廣泛應(yīng)用對(duì)語(yǔ)音合成提出了新的挑戰(zhàn),用戶(hù)希望聽(tīng)到的語(yǔ)音更具有感染力和舒適度,尤其是在有聲讀物、新聞播報(bào)、虛擬人等需要長(zhǎng)篇語(yǔ)音的場(chǎng)景中。然而,現(xiàn)有工作局限在單一語(yǔ)句的語(yǔ)音合成中,不僅合成語(yǔ)音缺乏符合上下文語(yǔ)境的表現(xiàn)力,還會(huì)造成相鄰語(yǔ)句之間說(shuō)話(huà)風(fēng)格出現(xiàn)突兀的變化。
近日,清華大學(xué)深圳國(guó)際研究生院吳志勇團(tuán)隊(duì)在基于風(fēng)格建模的篇章語(yǔ)音合成領(lǐng)域取得新進(jìn)展。研究團(tuán)隊(duì)提出了一種結(jié)合多模態(tài)、多語(yǔ)句上下文信息為篇章語(yǔ)音合成建模符合上下文語(yǔ)義且具有連貫性的說(shuō)話(huà)風(fēng)格的新方法。該方法同時(shí)考慮了文本側(cè)的上下文語(yǔ)境信息和語(yǔ)音側(cè)的歷史風(fēng)格信息,利用基于層級(jí)變換器(Hierarchical Transformer)的預(yù)測(cè)器,在詞級(jí)別和句子級(jí)別兩個(gè)層級(jí)分別建模不同模態(tài)信息之間的關(guān)系。與此同時(shí),為了更好地學(xué)習(xí)到語(yǔ)音中的風(fēng)格表征,團(tuán)隊(duì)引入了以無(wú)監(jiān)督的方式預(yù)訓(xùn)練的風(fēng)格提取器對(duì)風(fēng)格預(yù)測(cè)器的訓(xùn)練提供指導(dǎo)。在此基礎(chǔ)上,團(tuán)隊(duì)提出的方案可以逐句生成具有連貫說(shuō)話(huà)風(fēng)格和表現(xiàn)力的篇章語(yǔ)音。

圖1 模型的整體結(jié)構(gòu)

圖2 上下文感知的風(fēng)格預(yù)測(cè)器結(jié)構(gòu)
與現(xiàn)有工作相比,團(tuán)隊(duì)提出的方法使得不論是合成單一語(yǔ)句還是合成篇章語(yǔ)音都可以提升合成語(yǔ)音的表現(xiàn)力和自然度。尤其是在篇章語(yǔ)音合成中,考慮到段落內(nèi)各個(gè)句子說(shuō)話(huà)風(fēng)格之間的關(guān)系,團(tuán)隊(duì)提出的模型在主觀(guān)意見(jiàn)得分上取得了進(jìn)一步的提升。團(tuán)隊(duì)提出的模型在不需要引入人工標(biāo)注的情況下無(wú)監(jiān)督地學(xué)習(xí)語(yǔ)音的風(fēng)格信息,將模型感知范圍從單一語(yǔ)句、文本模態(tài)提升到了多個(gè)語(yǔ)句、多個(gè)模態(tài),并在單一語(yǔ)句和篇章語(yǔ)音的合成上都優(yōu)于現(xiàn)有語(yǔ)音合成方法,是邁向篇章語(yǔ)音合成的一大突破。

圖3 在單一語(yǔ)句合成和篇章合成實(shí)驗(yàn)
相關(guān)研究成果近日以“面向有聲讀物合成的上下文感知連貫性說(shuō)話(huà)風(fēng)格預(yù)測(cè)方法”(Context-aware Coherent Speaking Style Prediction With Hierarchical Transformers for Audiobook Speech Synthesis)為題,被“IEEE聲學(xué)、語(yǔ)音與信號(hào)處理國(guó)際會(huì)議”(2023 IEEE International Conference on Acoustics, Speech, and Signal Processing)錄用為口頭報(bào)告(Oral),并入選TOP 3%論文。

圖4 Top 3%論文認(rèn)證證書(shū)
清華大學(xué)深圳國(guó)際研究生院2021級(jí)碩士生雷舜和2020級(jí)碩士生周逸軒為該文章的共同第一作者,通訊作者為清華大學(xué)深圳國(guó)際研究生院吳志勇副研究員,論文共同作者還包括清華大學(xué)深圳國(guó)際研究生院2021級(jí)博士生陳禮揚(yáng),元象唯思控股(深圳)有限公司康世胤博士和香港中文大學(xué)系統(tǒng)工程與工程管理學(xué)系蒙美玲教授。該研究成果得到了國(guó)家自然科學(xué)基金委員會(huì)、深圳市科技創(chuàng)新委員會(huì)、鵬城實(shí)驗(yàn)室等部門(mén)和單位的支持。
論文鏈接:
https://ieeexplore.ieee.org/abstract/document/10095866
供稿:深圳國(guó)際研究生院
編輯:陳曉艷
審核:周襄楠