太阳城集团娱乐球赛-澳门太阳城集团周焯华老婆-澳门太阳城集团车模-豪胜娱乐城客户端

清華主頁(yè) - 清華新聞 - 學(xué)術(shù)科研 - 正文

交叉信息研究院趙行課題組提出神經(jīng)網(wǎng)絡(luò)配音器模型 有望使影視后期制作效率倍增

清華新聞網(wǎng)11月26日電 近日,清華大學(xué)交叉信息研究院趙行研究組(MARS Lab)聯(lián)合字節(jié)跳動(dòng)首次提出了神經(jīng)網(wǎng)絡(luò)配音器(Neural Dubber)。影視配音是一項(xiàng)技術(shù)含量很高的專(zhuān)業(yè)技能,專(zhuān)業(yè)配音演員的聲音演繹往往令人印象深刻?,F(xiàn)在,人工智能(AI)也能夠自動(dòng)實(shí)現(xiàn)這種能力。這項(xiàng)研究能讓AI根據(jù)配音腳本自動(dòng)生成與畫(huà)面節(jié)奏同步的高質(zhì)量配音,有望讓影視后期制作效率倍增。

配音(Dubbing)廣泛用于電影和視頻的后期制作,具體指的是在安靜的環(huán)境(即錄音室)中重新錄制演員對(duì)話(huà)的后期制作過(guò)程。配音常見(jiàn)于兩大應(yīng)用場(chǎng)景:一是替換拍攝時(shí)錄制的對(duì)話(huà),如拍攝場(chǎng)景下錄制的語(yǔ)音音質(zhì)不佳,又或者出于某種原因演員只是對(duì)了口型,聲音需要事后配上;二是對(duì)譯制片配音,例如,為了便于中國(guó)觀(guān)眾欣賞,將其他語(yǔ)言的視頻翻譯并配音為中文。

圖1:自動(dòng)視頻配音(AVD)任務(wù)示意圖

此項(xiàng)研究主要關(guān)注第一個(gè)應(yīng)用場(chǎng)景,即“自動(dòng)對(duì)話(huà)替換(ADR)”。在這一場(chǎng)景下,專(zhuān)業(yè)的配音演員觀(guān)看預(yù)先錄制的視頻中的表演,并用適當(dāng)?shù)捻嵚桑ɡ缰匾?、語(yǔ)調(diào)和節(jié)奏)重新錄制每一句臺(tái)詞,使他們的講話(huà)與預(yù)先錄制的視頻同步。為了實(shí)現(xiàn)上述目標(biāo),該研究團(tuán)隊(duì)定義了一個(gè)新的任務(wù),自動(dòng)視頻配音(Automatic Video Dubbing, AVD), 從給定文本和給定視頻中合成與該視頻時(shí)序上同步的語(yǔ)音。此前,行業(yè)內(nèi)的很多研究是根據(jù)給定語(yǔ)音生成與之同步的說(shuō)話(huà)人的面部視頻(Talking Face Generation)。而AVD任務(wù)正好相反,是用于生成與視頻同步的語(yǔ)音,更加適用于真實(shí)的應(yīng)用場(chǎng)景,因?yàn)橛耙曌髌放臄z的視頻往往質(zhì)量很高,并不希望再對(duì)其進(jìn)行修改。

圖 2:神經(jīng)網(wǎng)絡(luò)配音器(Neural Dubber)模型結(jié)構(gòu)

該研究團(tuán)隊(duì)提出的神經(jīng)網(wǎng)絡(luò)配音器(Neural Dubber)旨在解決自動(dòng)視頻配音(AVD)任務(wù)。這是第一個(gè)解決AVD任務(wù)的神經(jīng)網(wǎng)絡(luò)模型:能夠從文本中端到端地并行合成與給定視頻同步的高質(zhì)量語(yǔ)音。Neural Dubber是一種多模態(tài)文本到語(yǔ)音 (TTS) 模型,它利用視頻中的嘴部運(yùn)動(dòng)來(lái)控制生成語(yǔ)音的韻律,以達(dá)到語(yǔ)音和視頻同步的目的。此外,該工作還針對(duì)多說(shuō)話(huà)人場(chǎng)景開(kāi)發(fā)了基于圖像的說(shuō)話(huà)人嵌入(ISE)模塊,該模塊使神經(jīng)網(wǎng)絡(luò)配音器能夠根據(jù)說(shuō)話(huà)人的面部生成具有合理音色的語(yǔ)音。

神經(jīng)網(wǎng)絡(luò)配音器(Neural Dubber)將AVD任務(wù)具體建模成如下形式:給定音素序列和視頻幀序列,模型需要預(yù)測(cè)與視頻同步的梅爾頻譜序列。神經(jīng)網(wǎng)絡(luò)配音器(Neural Dubber)的整體模型結(jié)構(gòu)如圖2所示。在單說(shuō)話(huà)人數(shù)據(jù)集(Chemistry Lectures)和多說(shuō)話(huà)人數(shù)據(jù)集(LRS2)上的實(shí)驗(yàn)表明,神經(jīng)網(wǎng)絡(luò)配音器(Neural Dubber)可以生成與SOTA的語(yǔ)音合成模型在音質(zhì)方面相當(dāng)?shù)恼Z(yǔ)音。最重要的是,定性和定量評(píng)估都表明,神經(jīng)網(wǎng)絡(luò)配音器可以通過(guò)視頻控制合成語(yǔ)音的韻律,并生成與視頻同步的高質(zhì)量語(yǔ)音。

該成果的研究論文“神經(jīng)網(wǎng)絡(luò)配音器:根據(jù)文本為視頻配音”Neural Dubber: Dubbing for Videos According to Scripts已被機(jī)器學(xué)習(xí)和計(jì)算神經(jīng)科學(xué)領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議NeurIPS 2021接受。該論文的第一作者為交叉信息研究院2021級(jí)博士生胡晨旭,通訊作者為趙行助理教授。其他作者包括字節(jié)跳動(dòng)的田喬、王玉平、王雨軒博士以及上海期智研究院研究助理黎庭樂(lè)。

論文鏈接:

https://arxiv.org/abs/2110.08243

項(xiàng)目主頁(yè):

https://tsinghua-mars-lab.github.io/NeuralDubber/

供稿:交叉信息研究院

標(biāo)題圖設(shè)計(jì):梁晨

編輯:溫興煜

審核:呂婷

2021年11月26日 08:26:38

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

清華大學(xué)新聞中心版權(quán)所有,清華大學(xué)新聞網(wǎng)編輯部維護(hù),電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.