太阳城集团娱乐球赛-澳门太阳城集团周焯华老婆-澳门太阳城集团车模-豪胜娱乐城客户端

<table id="ccawe"></table>

<samp id="ccawe"></samp>

清華主頁(yè)· English Version

清華主頁(yè) - 清華新聞 - 學(xué)術(shù)科研 - 正文

交叉信息研究院趙行課題組提出神經(jīng)網(wǎng)絡(luò)配音器模型有望使影視后期制作效率倍增

分享

清華新聞網(wǎng)11月26日電 近日，清華大學(xué)交叉信息研究院趙行研究組（MARS Lab）聯(lián)合字節(jié)跳動(dòng)首次提出了神經(jīng)網(wǎng)絡(luò)配音器（Neural Dubber）。影視配音是一項(xiàng)技術(shù)含量很高的專(zhuān)業(yè)技能，專(zhuān)業(yè)配音演員的聲音演繹往往令人印象深刻?，F(xiàn)在，人工智能（AI）也能夠自動(dòng)實(shí)現(xiàn)這種能力。這項(xiàng)研究能讓AI根據(jù)配音腳本自動(dòng)生成與畫(huà)面節(jié)奏同步的高質(zhì)量配音，有望讓影視后期制作效率倍增。

配音（Dubbing）廣泛用于電影和視頻的后期制作，具體指的是在安靜的環(huán)境（即錄音室）中重新錄制演員對(duì)話(huà)的后期制作過(guò)程。配音常見(jiàn)于兩大應(yīng)用場(chǎng)景：一是替換拍攝時(shí)錄制的對(duì)話(huà)，如拍攝場(chǎng)景下錄制的語(yǔ)音音質(zhì)不佳，又或者出于某種原因演員只是對(duì)了口型，聲音需要事后配上；二是對(duì)譯制片配音，例如，為了便于中國(guó)觀(guān)眾欣賞，將其他語(yǔ)言的視頻翻譯并配音為中文。

圖1：自動(dòng)視頻配音（AVD）任務(wù)示意圖

此項(xiàng)研究主要關(guān)注第一個(gè)應(yīng)用場(chǎng)景，即“自動(dòng)對(duì)話(huà)替換（ADR）”。在這一場(chǎng)景下，專(zhuān)業(yè)的配音演員觀(guān)看預(yù)先錄制的視頻中的表演，并用適當(dāng)?shù)捻嵚桑ɡ缰匾?、語(yǔ)調(diào)和節(jié)奏）重新錄制每一句臺(tái)詞，使他們的講話(huà)與預(yù)先錄制的視頻同步。為了實(shí)現(xiàn)上述目標(biāo)，該研究團(tuán)隊(duì)定義了一個(gè)新的任務(wù)，自動(dòng)視頻配音（Automatic Video Dubbing, AVD）, 從給定文本和給定視頻中合成與該視頻時(shí)序上同步的語(yǔ)音。此前，行業(yè)內(nèi)的很多研究是根據(jù)給定語(yǔ)音生成與之同步的說(shuō)話(huà)人的面部視頻（Talking Face Generation）。而AVD任務(wù)正好相反，是用于生成與視頻同步的語(yǔ)音，更加適用于真實(shí)的應(yīng)用場(chǎng)景，因?yàn)橛耙曌髌放臄z的視頻往往質(zhì)量很高，并不希望再對(duì)其進(jìn)行修改。

圖 2：神經(jīng)網(wǎng)絡(luò)配音器（Neural Dubber）模型結(jié)構(gòu)

該研究團(tuán)隊(duì)提出的神經(jīng)網(wǎng)絡(luò)配音器（Neural Dubber）旨在解決自動(dòng)視頻配音（AVD）任務(wù)。這是第一個(gè)解決AVD任務(wù)的神經(jīng)網(wǎng)絡(luò)模型：能夠從文本中端到端地并行合成與給定視頻同步的高質(zhì)量語(yǔ)音。Neural Dubber是一種多模態(tài)文本到語(yǔ)音 (TTS) 模型，它利用視頻中的嘴部運(yùn)動(dòng)來(lái)控制生成語(yǔ)音的韻律，以達(dá)到語(yǔ)音和視頻同步的目的。此外，該工作還針對(duì)多說(shuō)話(huà)人場(chǎng)景開(kāi)發(fā)了基于圖像的說(shuō)話(huà)人嵌入（ISE）模塊，該模塊使神經(jīng)網(wǎng)絡(luò)配音器能夠根據(jù)說(shuō)話(huà)人的面部生成具有合理音色的語(yǔ)音。

神經(jīng)網(wǎng)絡(luò)配音器（Neural Dubber）將AVD任務(wù)具體建模成如下形式：給定音素序列和視頻幀序列，模型需要預(yù)測(cè)與視頻同步的梅爾頻譜序列。神經(jīng)網(wǎng)絡(luò)配音器（Neural Dubber）的整體模型結(jié)構(gòu)如圖2所示。在單說(shuō)話(huà)人數(shù)據(jù)集（Chemistry Lectures）和多說(shuō)話(huà)人數(shù)據(jù)集（LRS2）上的實(shí)驗(yàn)表明，神經(jīng)網(wǎng)絡(luò)配音器（Neural Dubber）可以生成與SOTA的語(yǔ)音合成模型在音質(zhì)方面相當(dāng)?shù)恼Z(yǔ)音。最重要的是，定性和定量評(píng)估都表明，神經(jīng)網(wǎng)絡(luò)配音器可以通過(guò)視頻控制合成語(yǔ)音的韻律，并生成與視頻同步的高質(zhì)量語(yǔ)音。

該成果的研究論文“神經(jīng)網(wǎng)絡(luò)配音器：根據(jù)文本為視頻配音”（Neural Dubber: Dubbing for Videos According to Scripts）已被機(jī)器學(xué)習(xí)和計(jì)算神經(jīng)科學(xué)領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議NeurIPS 2021接受。該論文的第一作者為交叉信息研究院2021級(jí)博士生胡晨旭，通訊作者為趙行助理教授。其他作者包括字節(jié)跳動(dòng)的田喬、王玉平、王雨軒博士以及上海期智研究院研究助理黎庭樂(lè)。

論文鏈接：

https://arxiv.org/abs/2110.08243

項(xiàng)目主頁(yè)：

https://tsinghua-mars-lab.github.io/NeuralDubber/

供稿：交叉信息研究院

標(biāo)題圖設(shè)計(jì)：梁晨

編輯：溫興煜

審核：呂婷

2021年11月26日 08:26:38

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

關(guān)于我們 │ 友情鏈接 │ 清華地圖

清華大學(xué)新聞中心版權(quán)所有，清華大學(xué)新聞網(wǎng)編輯部維護(hù)，電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.

<samp id="scemq"></samp>

<tfoot id="scemq"><tr id="scemq"></tr></tfoot>