機器之心發布
還記得幾個月前那個能隨著音樂節拍自然舞動的 KlingAvatar 數字人嗎?現在,它迎來了史詩級進化!
近日,快手可靈團隊正式發布了 KlingAvatar2.0 技術報告,這一次,數字人不僅能 "表演",更能 "生動表達"——它們將擁有更豐富的情感層次、更精準的多角色互動,對復雜文本指令的深度理解能力,以及支持長達 5 分鐘的視頻生成。目前該模型已經在可靈平臺全量上線,人人都可體驗!
- 論文地址:https://arxiv.org/pdf/2512.13313
- 體驗鏈接:https://app.klingai.com/cn/ai-human/image/new/
首先看一下效果,肢體靈動、表情逼真,生動性拉滿!
![]()
![]()
![]()
文中視頻鏈接:https://mp.weixin.qq.com/s/SexCvqSiQTJKBSixBlmajA
讓我們拆解技術報告,看一下可靈團隊是如何實現如此生動效果的。
核心技術突破:讓數字人 "活" 起來的三大創新
1. 時空級聯框架:長視頻不再 "虎頭蛇尾"
想象一下,你正在制作一個 5 分鐘的產品介紹視頻,但傳統的 AI 生成工具總是在第 2 分鐘后就開始 "崩壞"—— 畫面變得模糊,人物動作開始不連貫,甚至連口型都對不上了。KlingAvatar2.0 創新性地提出了時空級聯框架:
- 智能藍圖生成:先創建低分辨率 "藍圖視頻" 捕捉全局語義和動作
- 漸進式增強:通過首幀 - 末幀策略,將藍圖精細化為高分辨率、時間連貫的子片段
- 并行高效:支持分鐘級長視頻生成,保持身份一致性和故事連續性
![]()
KlingAvatar 2.0 方案框架。該方案快速勾勒出一個低分辨率的 "分鏡腳本"(藍圖視頻),確定整個故事的走向和關鍵動作節點;然后,它會像精雕細琢的藝術家一樣,逐步將這些關鍵幀升級為高清畫面,確保每個細節都栩栩如生;最后,通過并行處理技術將這些精心打磨的片段無縫拼接成完整的長視頻。
2. 共推理導演:多模態指令的 "智慧大腦"
KlingAvatar2.0 的共推理導演系統就像是給數字人配備了一個專業的導演團隊。這個系統由三位 "AI 專家" 組成,它們會像真正的電影制作團隊一樣密切協作:
- 音頻專家:精準識別語音內容、情感軌跡和說話意圖
- 視覺專家:深度理解人物特征、場景布局和視覺語境
- 文本專家:智能解析用戶指令,融合對話歷史生成連貫劇情
這三大專家通過多輪對話協作,能夠解決模態沖突(比如憤怒語氣配中性腳本),將模糊的指令轉化為詳細的鏡頭級故事線。
3. 多角色精準控制:每個數字人都有自己的 "聲音"
在傳統的多角色視頻中,一個常見的問題是 "張冠李戴"—— 明明是給 A 角色的音頻,結果 B 角色的嘴也在動。這種混亂讓觀眾瞬間出戲,破壞了整個視頻的沉浸感。KlingAvatar2.0 通過身份特定多角色控制技術,讓每個數字人都能 "各司其職":
- 利用深度 DiT 特征實現角色掩碼預測
- 每個角色都能被獨立的音頻流精準驅動
- 基于 Yolo、DWPose、SAM2 等模型構造了數十萬條高質量多人數據用于訓練
![]()
(a) KlingAvatar2.0 基于 DiT 深層 block 特征預測指定角色在視頻中每一幀畫面的位置,控制音頻精確驅動該位置的角色。(b) 可靈團隊基于 Yolo、DWPose、SAM2 等模型構造了數十萬條高質量多人數據用于訓練。
實驗結果:生動性大幅提升,數字人有了 "演技"
如果說 KlingAvatar1.0 讓數字人學會了 "表演" 的基本功,那么 2.0 版本則讓它們真正擁有了 "演技"。生動性方面:
- 情感表達更細膩:面部表情隨語音起伏自然變化,能夠準確傳達興奮、悲傷、憤怒等復雜情緒,眼神、嘴角、眉梢都充滿 "戲"。
- 動作協調更自然:全身動作與音頻節奏完美同步,手勢、姿態變化流暢自然,避免了不自然的扭曲和抖動。
- 細節處理更精致:頭發動態物理真實,不再 "僵硬",牙齒、嘴唇細節清晰可見,光照和曝光效果更加自然。
![]()
KlingAvatar2.0 與 Heygen、OmniHuman-1.5、KlingAvatar1.0 相比有更優異的性能。
在涵蓋 300 個高質量測試案例的嚴格評測中,KlingAvatar2.0 展現出了令人矚目的性能:
- 整體效果:相比 HeyGen 提升 26%,相比 KlingAvatar1.0 提升 73%,相比 OmniHuman-1.5 提升 94%
- 文本響應:指令理解能力大幅提升,能準確執行復雜的鏡頭和動作指令
- 運動表現力:生動性和豐富度遠超競品
![]()
KlingAvatar 2.0 與基線方法的定性比較。左圖:KlingAvatar 2.0 能夠生成更自然的頭發動態效果和更生動的面部表情。中圖:KlingAvatar 2.0 更符合指定的自下而上的攝像機運動。右圖:KlingAvatar 2.0 的結果與提示 “…… 轉身面向前方,雙手交叉放在胸前” 更加吻合
總結:讓每個數字人都有動人靈魂
回顧整個數字人技術的發展歷程,我們可以清晰地看到一個進化軌跡:從最初的 "嘴唇蠕動",到后來的 "表情同步",再到現在的 "生動表演",每一次突破都讓虛擬角色離 "真實" 更近一步。
KlingAvatar2.0 不僅僅是一次技術升級,它也代表了 AI 在理解人類表達藝術方面的一次飛躍。這項技術讓機器更好地理解了什么是 "表演"—— 它不僅僅是機械地執行指令,而是要在理解音頻情感、視覺語境和文本意圖的基礎上,創造出能夠觸動人心的視聽體驗。
放眼到行業,數字人技術的持續迭代,也推動著行業創作門檻的降低、制作標準的提升,在電商直播、娛樂內容制作、在線教育、企業服務等諸多領域,數字人的規模化應用已成趨勢。
生成效果的大幅提升,長內容場景的全覆蓋,都讓我們更加確信:技術不再是冰冷的工具,而是真正成為了表達創意、傳遞情感的溫暖載體。在這個技術與藝術完美融合的新時代,準備好讓你的創意 "活" 起來了嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.