網易首頁 > 網易號 > 正文申請入駐

從「會表演」到「更會演」：KlingAvatar2.0讓數字人擁有生動靈魂

2025-12-24 14:04:46　來源: 機器之心Pro

北京舉報

分享至

機器之心發布

還記得幾個月前那個能隨著音樂節拍自然舞動的 KlingAvatar 數字人嗎？現在，它迎來了史詩級進化！

近日，快手可靈團隊正式發布了 KlingAvatar2.0 技術報告，這一次，數字人不僅能 "表演"，更能 "生動表達"——它們將擁有更豐富的情感層次、更精準的多角色互動，對復雜文本指令的深度理解能力，以及支持長達 5 分鐘的視頻生成。目前該模型已經在可靈平臺全量上線，人人都可體驗！

論文地址：https://arxiv.org/pdf/2512.13313
體驗鏈接：https://app.klingai.com/cn/ai-human/image/new/

首先看一下效果，肢體靈動、表情逼真，生動性拉滿！

文中視頻鏈接：https://mp.weixin.qq.com/s/SexCvqSiQTJKBSixBlmajA

讓我們拆解技術報告，看一下可靈團隊是如何實現如此生動效果的。

核心技術突破：讓數字人 "活" 起來的三大創新

1. 時空級聯框架：長視頻不再 "虎頭蛇尾"

想象一下，你正在制作一個 5 分鐘的產品介紹視頻，但傳統的 AI 生成工具總是在第 2 分鐘后就開始 "崩壞"—— 畫面變得模糊，人物動作開始不連貫，甚至連口型都對不上了。KlingAvatar2.0 創新性地提出了時空級聯框架：

智能藍圖生成：先創建低分辨率 "藍圖視頻" 捕捉全局語義和動作
漸進式增強：通過首幀 - 末幀策略，將藍圖精細化為高分辨率、時間連貫的子片段
并行高效：支持分鐘級長視頻生成，保持身份一致性和故事連續性

KlingAvatar 2.0 方案框架。該方案快速勾勒出一個低分辨率的 "分鏡腳本"（藍圖視頻），確定整個故事的走向和關鍵動作節點；然后，它會像精雕細琢的藝術家一樣，逐步將這些關鍵幀升級為高清畫面，確保每個細節都栩栩如生；最后，通過并行處理技術將這些精心打磨的片段無縫拼接成完整的長視頻。

2. 共推理導演：多模態指令的 "智慧大腦"

KlingAvatar2.0 的共推理導演系統就像是給數字人配備了一個專業的導演團隊。這個系統由三位 "AI 專家" 組成，它們會像真正的電影制作團隊一樣密切協作：

音頻專家：精準識別語音內容、情感軌跡和說話意圖
視覺專家：深度理解人物特征、場景布局和視覺語境
文本專家：智能解析用戶指令，融合對話歷史生成連貫劇情

這三大專家通過多輪對話協作，能夠解決模態沖突（比如憤怒語氣配中性腳本），將模糊的指令轉化為詳細的鏡頭級故事線。

3. 多角色精準控制：每個數字人都有自己的 "聲音"

在傳統的多角色視頻中，一個常見的問題是 "張冠李戴"—— 明明是給 A 角色的音頻，結果 B 角色的嘴也在動。這種混亂讓觀眾瞬間出戲，破壞了整個視頻的沉浸感。KlingAvatar2.0 通過身份特定多角色控制技術，讓每個數字人都能 "各司其職"：

利用深度 DiT 特征實現角色掩碼預測
每個角色都能被獨立的音頻流精準驅動
基于 Yolo、DWPose、SAM2 等模型構造了數十萬條高質量多人數據用于訓練

(a) KlingAvatar2.0 基于 DiT 深層 block 特征預測指定角色在視頻中每一幀畫面的位置，控制音頻精確驅動該位置的角色。(b) 可靈團隊基于 Yolo、DWPose、SAM2 等模型構造了數十萬條高質量多人數據用于訓練。

實驗結果：生動性大幅提升，數字人有了 "演技"

如果說 KlingAvatar1.0 讓數字人學會了 "表演" 的基本功，那么 2.0 版本則讓它們真正擁有了 "演技"。生動性方面：

情感表達更細膩：面部表情隨語音起伏自然變化，能夠準確傳達興奮、悲傷、憤怒等復雜情緒，眼神、嘴角、眉梢都充滿 "戲"。
動作協調更自然：全身動作與音頻節奏完美同步，手勢、姿態變化流暢自然，避免了不自然的扭曲和抖動。
細節處理更精致：頭發動態物理真實，不再 "僵硬"，牙齒、嘴唇細節清晰可見，光照和曝光效果更加自然。

KlingAvatar2.0 與 Heygen、OmniHuman-1.5、KlingAvatar1.0 相比有更優異的性能。

在涵蓋 300 個高質量測試案例的嚴格評測中，KlingAvatar2.0 展現出了令人矚目的性能：

整體效果：相比 HeyGen 提升 26%，相比 KlingAvatar1.0 提升 73%，相比 OmniHuman-1.5 提升 94%
文本響應：指令理解能力大幅提升，能準確執行復雜的鏡頭和動作指令
運動表現力：生動性和豐富度遠超競品

KlingAvatar 2.0 與基線方法的定性比較。左圖：KlingAvatar 2.0 能夠生成更自然的頭發動態效果和更生動的面部表情。中圖：KlingAvatar 2.0 更符合指定的自下而上的攝像機運動。右圖：KlingAvatar 2.0 的結果與提示 “…… 轉身面向前方，雙手交叉放在胸前” 更加吻合

總結：讓每個數字人都有動人靈魂

回顧整個數字人技術的發展歷程，我們可以清晰地看到一個進化軌跡：從最初的 "嘴唇蠕動"，到后來的 "表情同步"，再到現在的 "生動表演"，每一次突破都讓虛擬角色離 "真實" 更近一步。

KlingAvatar2.0 不僅僅是一次技術升級，它也代表了 AI 在理解人類表達藝術方面的一次飛躍。這項技術讓機器更好地理解了什么是 "表演"—— 它不僅僅是機械地執行指令，而是要在理解音頻情感、視覺語境和文本意圖的基礎上，創造出能夠觸動人心的視聽體驗。

放眼到行業，數字人技術的持續迭代，也推動著行業創作門檻的降低、制作標準的提升，在電商直播、娛樂內容制作、在線教育、企業服務等諸多領域，數字人的規模化應用已成趨勢。

生成效果的大幅提升，長內容場景的全覆蓋，都讓我們更加確信：技術不再是冰冷的工具，而是真正成為了表達創意、傳遞情感的溫暖載體。在這個技術與藝術完美融合的新時代，準備好讓你的創意 "活" 起來了嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.