機器之心報道
機器之心編輯部
你是否也覺得,AI 配音的語調總是差了那么點 “人情味”?它能把臺詞念得字正腔圓,口型分秒不差,但角色的喜怒哀樂卻總是難以觸及靈魂深處。
問題出在哪里?答案或許藏在配音棚里那些看不見的導演與演員的互動中。在真實的電影工業里,配音絕非演員的獨角戲。導演會提供參考片段、解讀角色情緒,引導演員 “入戲”—— 這個過程,正是將文字轉化為有生命聲音的核心。然而,現有 AI 配音模型卻模擬了一個 “簡化版” 流程,讓 AI “演員” 直接對著腳本和畫面硬說,完全跳過了這個至關重要的 “導戲” 與 “揣摩” 環節。
這缺失的一環,正是 AI 配音缺乏情感表現力的癥結所在。
![]()
給 AI 配音裝上 “導演思維”:從單向模仿到雙向互動
內蒙古大學計算機學院、人工智能學院劉瑞教授牽頭的語音理解與生成團隊在 AAAI 2026 上發表的論文《Towards Authentic Movie Dubbing with Retrieve-Augmented Director-Actor Interaction Learning》正式回應了這一問題。研究團隊提出了一種全新的檢索增強導演 - 演員交互學習框架 ——Authentic-Dubber,首次在 AI 配音中引入 “導演” 角色,系統模擬了真實配音流程中的情感傳遞機制。他們不再滿足于讓 AI 模仿發音,而是首次將真實的 “導演 - 演員” 交互工作流引入 AI 配音框架,讓模型學會了 “先理解,再表達”。
![]()
- 標題:Towards Authentic Movie Dubbing with Retrieve-Augmented Director-Actor Interaction Learning(AAAI 2026)
- 鏈接:http://arxiv.org/abs/2511.14249
- 代碼:https://github.com/AI-S2-Lab/Authentic-Dubber
創新之道:三步還原真實配音 “心流”
研究團隊設計的 Authentic-Dubber 系統,通過三大機制,精準復刻了從導演指導到演員最終表演的全過程:
導演的 “素材庫”:首先,系統構建了一個多模態參考素材庫,如同導演為演員準備的 “情感教案庫”。它整合了場景氛圍、面部表情、臺詞文本等多種模態的情感信息,并巧妙利用大語言模型(LLM)進行深度語義理解,提取出細膩的情感表征。
![]()
演員的 “高效揣摩”:有了 “教案”,演員如何快速吸收?系統設計了基于情感相似度的檢索增強策略。面對一段需要配音的無聲視頻,AI 能像演員一樣,從海量素材庫中迅速檢索出情感最相關的參考片段。這模擬了演員在導演指導下,快速內化情感線索的過程。
![]()
最終的 “漸進式演繹”:理解之后,如何表達?系統提出了漸進式圖結構語音生成方法。它像演員搭建表演層次一樣,逐步將檢索到的情感知識(從基本情緒到間接多模態信息,再到直接的參考音頻)融合進語音生成中,確保最終輸出的配音情感飽滿、層次豐富。
實驗驗證:AI 的 “情感得分” 大幅領先
在動畫電影配音基準數據集 V2C-Animation 上的測試結果令人振奮:
客觀指標:Authentic-Dubber 在情感準確率(EMO-ACC)上顯著超越了所有主流基線模型。
主觀聽感:在人類聽評員的盲測中,其在配音情感匹配度(MOS-DE)和語音情感真實度(MOS-SE)兩項評分上均獲得最高分。
![]()
頻譜證據:Mel 頻譜圖對比清晰顯示,在表現 “憤怒” 時,其語音高頻波動更劇烈;在表現 “快樂” 時,韻律變化更自然豐富。這證明其情感表達已具備可量化的聲學特征優勢。
![]()
結語:不止于同步,更在于共鳴
這項研究的意義在于,它將 AI 配音的競爭維度,從 “音畫同步” 的物理層面,提升到了 “情感共鳴” 的心理層面。Authentic-Dubber 證明,通過模擬人類協作中的關鍵互動,AI 可以更深入地理解并傳達復雜情感。
這不僅是技術的進步,更是對藝術創作本質的一次回歸。當 AI 開始理解 “導演的意圖” 和 “演員的揣摩”,我們距離能真正為角色 “注入靈魂” 的智能配音時代,或許已不再遙遠。
作者信息:
![]()
劉瑞,內蒙古大學人工智能學院副院長,教授,博士生導師。新加坡國立大學博士后。入選中國科協青年人才托舉(青托)工程、內蒙古杰青、ACM 呼和浩特新星、ACM 呼和浩特優博。主要研究方向為多語種人機語音交互、情感計算。相關成果發表于 IEEE-TAFFC、ACL、AAAI、ACMMM 等人工智能領域的頂級國際期刊和會議。主持國自然面上、國自然青年、內蒙古杰青等多項省部級以上項目。指導多位學生入選首批中國科協青托博士生專項、騰訊犀牛鳥精英人才計劃、獲得國際大學生創新大賽國家級金獎等。榮獲 2022 年度教育部高等學校科學研究優秀成果獎(科學技術)— 科學技術進步二等獎、 2024 年度內蒙古自治區科技進步一等獎等獎項。擔任領域內頂級 SCI 國際期刊 Information Fusion、IEEE TAFFC、ACM TALLIP、Computer Speech and Language 編委以及 AAAI PC、ACL AC 等。內蒙古大學語音理解與生成團隊主頁:https://ttslr.github.io/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.