網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

當(dāng)AI終于學(xué)會(huì)"認(rèn)真聽人說話"——大規(guī)模視頻角色表演模型LPM 1.0

2026-04-17 23:40:20　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)研究由字節(jié)跳動(dòng)研究團(tuán)隊(duì)主導(dǎo)開發(fā)，以預(yù)印本形式發(fā)布于2026年4月，論文編號(hào)為arXiv:2604.07823，感興趣的讀者可通過該編號(hào)查閱完整原文。

人和人之間的對(duì)話，從來不只是嘴巴在動(dòng)。當(dāng)你和朋友聊天時(shí)，你會(huì)點(diǎn)頭、皺眉、微笑、歪頭看人、在對(duì)方說到有趣地方時(shí)眼睛發(fā)亮——這些細(xì)微的肢體語言和表情，才是讓對(duì)話感覺"真實(shí)"的關(guān)鍵。然而，當(dāng)我們?cè)噲D讓電腦里的虛擬角色和人對(duì)話時(shí)，絕大多數(shù)系統(tǒng)只會(huì)做一件事：嘴巴跟著聲音動(dòng)。那種感覺，就像是在和一個(gè)只會(huì)張嘴閉嘴的橡皮泥人偶說話，完全感受不到"有人在聽你說話"。

字節(jié)跳動(dòng)研究團(tuán)隊(duì)意識(shí)到，這個(gè)問題的根源不是某個(gè)技術(shù)細(xì)節(jié)沒做好，而是整個(gè)行業(yè)一直把"會(huì)說話"當(dāng)成了終點(diǎn)，卻完全忽視了"會(huì)聽話"。于是他們做了一件在這個(gè)領(lǐng)域前所未有的事：把"說"和"聽"同時(shí)放進(jìn)一個(gè)視頻生成系統(tǒng)里，造出了LPM 1.0，也就是大規(guī)模表演模型（Large Performance Model）。這個(gè)系統(tǒng)不只會(huì)讓虛擬角色開口說話，還會(huì)讓它在聽別人說話的時(shí)候，做出真實(shí)人類會(huì)做的那些細(xì)微反應(yīng)——微微點(diǎn)頭、表情隨著對(duì)方的語氣起伏、在合適的時(shí)機(jī)眨眨眼或側(cè)側(cè)頭。

這項(xiàng)研究的意義在于，它為虛擬助手、游戲中的NPC角色以及直播虛擬形象提供了一個(gè)全新的"視覺引擎"——一個(gè)真正能讓角色活起來的系統(tǒng)，而且是實(shí)時(shí)的、能無限時(shí)長(zhǎng)持續(xù)運(yùn)行的那種。

一、表演的三重困境：魚、熊掌和魚翅不能兼得？

有這樣一個(gè)現(xiàn)實(shí)困境擺在所有做虛擬角色視頻生成的研究者面前，研究團(tuán)隊(duì)把它叫做"表演三難困境"（performance trilemma）。

困境的第一邊是"表演質(zhì)量"，也就是生成的視頻看起來是否像真人在表演——?jiǎng)幼髯匀弧⒈砬樨S富、不重復(fù)、有情感。困境的第二邊是"實(shí)時(shí)推理"，也就是系統(tǒng)能不能足夠快，讓視頻邊生成邊播放，就像直播一樣流暢。困境的第三邊是"長(zhǎng)期身份穩(wěn)定"，也就是角色的長(zhǎng)相、發(fā)型、服裝、獨(dú)特的表情方式能不能在幾分鐘甚至幾小時(shí)的視頻里一直保持一致，不會(huì)漂移變形。

這三個(gè)目標(biāo)的麻煩之處在于，它們往往相互矛盾。追求速度的系統(tǒng)通常會(huì)做出機(jī)械、重復(fù)的動(dòng)作；追求表情豐富的系統(tǒng)往往運(yùn)算量大到無法實(shí)時(shí)；而要保持角色長(zhǎng)期穩(wěn)定，對(duì)于會(huì)自動(dòng)生成下一幀的系統(tǒng)來說，每一幀的小誤差都會(huì)隨著時(shí)間累積，最終讓角色面目全非。

現(xiàn)有的大多數(shù)系統(tǒng)只解決了其中一兩個(gè)問題，而且?guī)缀跞慷季劢乖?說話"這件事上。它們的邏輯是：給定一段音頻，讓角色的嘴巴跟著動(dòng)。這樣做，確實(shí)能生成一個(gè)"會(huì)說話"的角色，但完全無法處理"聽話"的狀態(tài)——當(dāng)輪到用戶說話時(shí)，角色應(yīng)該做什么？現(xiàn)有系統(tǒng)要么讓角色僵住不動(dòng)，要么播放一段預(yù)錄好的循環(huán)動(dòng)作，完全沒有任何對(duì)用戶說話內(nèi)容的反應(yīng)。

LPM 1.0的核心貢獻(xiàn)，就是在同一個(gè)系統(tǒng)里同時(shí)解決了這三個(gè)問題，并且第一次把"聽"這件事做進(jìn)了系統(tǒng)的核心設(shè)計(jì)里。

二、數(shù)據(jù)是一切的基礎(chǔ)：怎么教AI"看懂"一場(chǎng)對(duì)話？

訓(xùn)練一個(gè)能理解對(duì)話的AI，首先需要大量的"對(duì)話視頻數(shù)據(jù)"——而且不是隨隨便便的視頻，必須是那種能精確告訴AI"這個(gè)人現(xiàn)在在說話還是在聽話、他們的表情和音頻是怎么對(duì)應(yīng)的"這類高質(zhì)量數(shù)據(jù)。

研究團(tuán)隊(duì)構(gòu)建了一條精密的數(shù)據(jù)處理流水線，從海量原始視頻中篩選出真正有價(jià)值的素材，整體保留率不到10%，也就是說90%以上的視頻都因?yàn)橘|(zhì)量不夠好而被丟棄。

整個(gè)流程分四個(gè)階段。第一階段是把長(zhǎng)視頻切割成一個(gè)個(gè)單獨(dú)的鏡頭片段，然后用人體檢測(cè)模型把沒有人出現(xiàn)的片段全部剔除。第二階段是質(zhì)量篩選，去掉那些有水印、字幕、特效、美顏濾鏡、跳切、畫質(zhì)模糊、人物不完整或者音畫不同步的片段。經(jīng)過這兩輪篩選，大約只剩下原始視頻數(shù)量的26%。第三階段是最關(guān)鍵的"對(duì)話檢測(cè)"，把剩余片段按照說話者的狀態(tài)分成三類：在說話的、在聽話的和沉默的。第四階段是給每段視頻生成詳細(xì)的文字說明和各種標(biāo)簽，包括動(dòng)作、表情、情緒、環(huán)境、攝像機(jī)角度等信息。

對(duì)話檢測(cè)這件事做起來遠(yuǎn)比聽上去復(fù)雜。很多時(shí)候視頻里只有一個(gè)人，根本看不到對(duì)話的另一方，但這個(gè)人的舉止表情清楚地顯示他在聽別人說話——這種情況必須靠多方面的線索來判斷。研究團(tuán)隊(duì)專門微調(diào)了一個(gè)叫做LR-ASD的主動(dòng)說話者檢測(cè)模型，讓它不只能識(shí)別"誰在說話"，還能識(shí)別"誰在聽話"和"誰處于沉默/無關(guān)狀態(tài)"，并且標(biāo)注每一幀的具體狀態(tài)。

為了訓(xùn)練這個(gè)改進(jìn)版的檢測(cè)模型，研究人員手工標(biāo)注了大約2萬段、共95小時(shí)的視頻片段。經(jīng)過訓(xùn)練，這個(gè)模型在兩個(gè)不同類型的測(cè)試數(shù)據(jù)集上分別達(dá)到了89.75%和87.63%的幀級(jí)別準(zhǔn)確率。簡(jiǎn)單說，它能正確識(shí)別每10幀里大約9幀的說話/聽話狀態(tài)。

但光靠這個(gè)模型還不夠，因?yàn)樗袃煞N常見錯(cuò)誤：一是把某些沉默片段誤判為"在聽話"（其實(shí)那人根本沒在聽，只是屏幕外有聲音而已）；二是把某些說話片段誤判為"在聽話"（說話者說話時(shí)短暫停頓，被誤認(rèn)為是在聽）。為了過濾這些錯(cuò)誤，研究團(tuán)隊(duì)還訓(xùn)練了一個(gè)基于Qwen3-Omni模型的語義驗(yàn)證系統(tǒng)，讓它用更高層次的理解來判斷視頻的真實(shí)情境。這個(gè)經(jīng)過微調(diào)的模型在總體F1分?jǐn)?shù)上達(dá)到了78.37，比直接用谷歌的Gemini 2.5 Pro提高了約7.9個(gè)百分點(diǎn)。

最終，整個(gè)數(shù)據(jù)集包含約2300萬段說話視頻、500萬段聽話/對(duì)話視頻，以及300萬段沉默視頻。

數(shù)據(jù)集里還有一個(gè)有趣的發(fā)現(xiàn)：在自然拍攝的對(duì)話視頻里，畫面對(duì)準(zhǔn)"聽話者"的時(shí)間只占所有對(duì)話視頻的大約10%。這意味著關(guān)于"怎么聽話"的數(shù)據(jù)天然稀缺。而且那些聽話的視頻大多數(shù)都極其平靜——超過70%的聽話表情被標(biāo)注為"中性"或"思考中"，憤怒、恐懼、驚訝等強(qiáng)烈情緒反應(yīng)各自占比不到3%。這種數(shù)據(jù)分布如果直接拿來訓(xùn)練，會(huì)讓AI學(xué)會(huì)的"聽話"方式極度單調(diào)，就是一臉呆滯地盯著你。

研究團(tuán)隊(duì)對(duì)此做了專門處理，從中精選出大約47萬段有明顯情緒反應(yīng)或主動(dòng)互動(dòng)的聽話視頻，并對(duì)各類情緒進(jìn)行重新平衡采樣，確保稀有但重要的反應(yīng)——比如開懷大笑、突然驚喜、點(diǎn)頭示意——在訓(xùn)練數(shù)據(jù)里有足夠的占比。

三、給AI的"身份證"：多角度、多表情參考圖片系統(tǒng)

訓(xùn)練和推理時(shí)都面臨一個(gè)棘手問題：AI只看到角色的一張正面照片，怎么知道這個(gè)角色的后背長(zhǎng)什么樣？側(cè)臉是什么輪廓？笑起來牙齒是什么形狀？如果AI不知道，它就會(huì)在每次生成視頻時(shí)"猜測(cè)"這些細(xì)節(jié)，而不同時(shí)刻猜測(cè)的結(jié)果往往不一致，角色就會(huì)出現(xiàn)"面目漂移"——說著說著人臉就變了。

LPM 1.0的解決方案是建立一套"多粒度身份參考圖片系統(tǒng)"，相當(dāng)于給每個(gè)角色制作一套全方位的檔案。

這套檔案包含三類圖片。第一類是"全局外觀參考圖"，就是一張完整呈現(xiàn)角色整體形象和所處環(huán)境的圖片，作為角色身份的總錨點(diǎn)。為了避免AI直接"抄"訓(xùn)練視頻里的幀，這類圖片會(huì)從同一個(gè)人的不同時(shí)間段的視頻里隨機(jī)選取，確保它不能被簡(jiǎn)單匹配到某一幀訓(xùn)練數(shù)據(jù)。

第二類是"多視角身體參考圖"，提供從正面、背面、左側(cè)、右側(cè)四個(gè)方向看到的角色外觀。研究團(tuán)隊(duì)用了一個(gè)叫GVHMR的人體姿態(tài)估計(jì)模型來自動(dòng)計(jì)算攝像機(jī)和人體朝向之間的角度，從而自動(dòng)把視頻幀分類成這四個(gè)視角，再?gòu)拿總€(gè)視角里挑選代表性幀。有了這些多角度參考圖，AI就不需要猜測(cè)角色轉(zhuǎn)身時(shí)背后長(zhǎng)什么樣了，因?yàn)橹苯佑写鸢缚梢詤⒖肌?/p>

第三類是"面部表情參考圖集"，收錄同一個(gè)角色做出八種不同表情的照片，包括高興、悲傷、驚訝、憤怒等。這樣AI就知道這個(gè)角色笑起來的嘴角弧度是怎樣的、皺眉時(shí)的紋路是什么樣的，而不是每次都臨時(shí)湊合。為了保證這些表情圖片質(zhì)量夠高，研究團(tuán)隊(duì)只使用原始分辨率在1080P以上的視頻來提取表情參考圖，并且用EmotiEff表情識(shí)別工具自動(dòng)篩選，再通過Gemini 2.5 Pro進(jìn)行二次驗(yàn)證，確保標(biāo)注的表情和圖片內(nèi)容真正匹配。

四、Base LPM：那個(gè)能"說"又能"聽"的底層大模型

有了數(shù)據(jù)和參考圖片系統(tǒng)，就可以開始訓(xùn)練核心模型了。Base LPM是整個(gè)系統(tǒng)的"基礎(chǔ)引擎"，它基于萬象（Wan2.1）的14B參數(shù)圖生視頻基礎(chǔ)模型，在此基礎(chǔ)上新增了約30億參數(shù)，組成一個(gè)170億參數(shù)的擴(kuò)散變換器（Diffusion Transformer）模型。

所謂擴(kuò)散變換器，可以這樣理解：給模型輸入一張充滿隨機(jī)噪點(diǎn)的"雪花屏"，模型每次迭代都把這張圖變得更清晰一點(diǎn)，經(jīng)過若干步迭代后，噪點(diǎn)逐漸消散，一段清晰的視頻就出現(xiàn)了。整個(gè)過程由多個(gè)條件共同引導(dǎo)：首幀圖片、身份參考圖片集、文字描述、說話音頻和聽話音頻。

其中最有創(chuàng)意的設(shè)計(jì)是"交錯(cuò)式雙音頻注入策略"。AI的變換器結(jié)構(gòu)是由很多個(gè)"塊"堆疊而成的，每個(gè)塊負(fù)責(zé)處理一個(gè)層次的信息。LPM 1.0的做法是：編號(hào)為偶數(shù)的塊處理說話音頻，編號(hào)為奇數(shù)的塊處理聽話音頻。這樣，說話和聽話兩種音頻信號(hào)就被分配到模型的不同層次進(jìn)行處理，互相不干擾，而且參數(shù)量只需要原來的一半——因?yàn)槊糠N音頻只占用了一半的塊。

為什么這個(gè)設(shè)計(jì)有效？因?yàn)檎f話音頻和聽話音頻驅(qū)動(dòng)的是完全不同類型的動(dòng)作。說話音頻主要觸發(fā)高頻局部動(dòng)作，比如嘴唇的精確同步、手勢(shì)的節(jié)奏感。聽話音頻則主要觸發(fā)低頻的整體動(dòng)作，比如緩慢的點(diǎn)頭、表情隨語氣的輕微起伏。把兩者分開處理，模型的不同部分就可以專門針對(duì)各自的運(yùn)動(dòng)模式進(jìn)行優(yōu)化，就像烹飪時(shí)把需要大火爆炒的食材和需要小火慢燉的食材分開處理一樣。

在說話音頻的處理上，模型使用"局部時(shí)間窗口注意力機(jī)制"——每幀視頻只關(guān)注與它時(shí)間上最接近的那段音頻，這樣嘴唇同步可以做到精確對(duì)齊。而聽話音頻則使用更大的時(shí)間窗口，因?yàn)槁犜挼姆磻?yīng)往往是對(duì)更長(zhǎng)時(shí)間段的內(nèi)容的綜合響應(yīng)，不需要和某一毫秒的聲音精確對(duì)應(yīng)。

身份參考圖片的注入方式也很巧妙。這些參考圖片被編碼成和視頻幀相同格式的"標(biāo)記"，直接拼接在視頻序列的末尾，參與所有層次的自注意力計(jì)算。換句話說，模型在生成每一幀視頻時(shí)，都可以"回頭看"參考圖片，隨時(shí)對(duì)照"這個(gè)角色的樣子應(yīng)該是這樣的"。為了讓模型區(qū)分不同類型的參考圖片（表情圖和視角圖），研究團(tuán)隊(duì)用了位置編碼技巧，給不同類型的參考圖分配不同的"時(shí)間戳偏移量"，讓模型通過位置信息就能判斷"這是哪種類型的參考圖"。

模型的訓(xùn)練分幾個(gè)階段推進(jìn)。先從Wan2.1的基礎(chǔ)權(quán)重出發(fā)，加入說話音頻通道，只在說話數(shù)據(jù)上訓(xùn)練，同時(shí)保持原有的文字和視覺處理能力基本不變。說話能力穩(wěn)定后，再引入聽話音頻通道，在說話和聽話數(shù)據(jù)的混合上訓(xùn)練。之后逐漸把沉默、完整對(duì)話（同時(shí)有說話和聽話音頻）的數(shù)據(jù)也加進(jìn)來。文字條件的注入貫穿始終，越精細(xì)的文字描述能帶來越精準(zhǔn)的動(dòng)作控制。

訓(xùn)練完成后，模型還經(jīng)歷了一個(gè)"直接偏好優(yōu)化"（DPO）階段，用來修復(fù)兩個(gè)頑固問題：說話時(shí)手和四肢變形的問題，以及聽話時(shí)角色太過僵硬、缺乏細(xì)微反應(yīng)的問題。做法是讓模型對(duì)同一個(gè)輸入生成多個(gè)版本，由人工評(píng)估哪個(gè)版本更自然、更真實(shí)，然后用這些偏好數(shù)據(jù)指導(dǎo)模型調(diào)整。

推理時(shí)，Base LPM支持按段連續(xù)生成——每段約125幀，相當(dāng)于5秒左右，段與段之間通過重疊區(qū)域平滑過渡。實(shí)測(cè)可以穩(wěn)定生成約10分鐘的視頻而不出現(xiàn)明顯質(zhì)量下降。

五、Online LPM：實(shí)時(shí)流式版本，無限時(shí)長(zhǎng)的挑戰(zhàn)

Base LPM雖然效果出色，但有個(gè)致命缺陷：它需要先準(zhǔn)備好所有輸入（完整的音頻、文字），然后才能開始生成。這對(duì)于實(shí)時(shí)對(duì)話來說完全行不通，因?yàn)橛脩舻囊纛l是實(shí)時(shí)產(chǎn)生的，你不可能等用戶說完整段話再開始生成角色的反應(yīng)視頻。

Online LPM就是為了解決這個(gè)實(shí)時(shí)性問題而設(shè)計(jì)的。它需要做到：音頻邊來邊處理，視頻邊生成邊播放，整個(gè)過程可以無限時(shí)長(zhǎng)持續(xù)下去，并且延遲要足夠低，讓對(duì)話感覺流暢自然。

這里有兩個(gè)互相疊加的難題。第一是"流式控制信號(hào)不匹配"——Base LPM訓(xùn)練時(shí)看到的是完整音頻，而Online LPM推理時(shí)每次只能看到一小段剛剛到來的音頻，這種局部信息和完整信息之間的差距會(huì)導(dǎo)致質(zhì)量下降。第二是"自回歸漂移"——視頻是一段一段地生成的，每段的輸入包含前面生成的視頻作為"上文"。時(shí)間一長(zhǎng)，前面生成內(nèi)容里積累的小誤差會(huì)不斷被后續(xù)生成所繼承和放大，最終導(dǎo)致角色面目全非或畫面過度飽和。

研究團(tuán)隊(duì)用兩個(gè)策略來解決這兩個(gè)問題。

對(duì)于流式音頻不匹配的問題，他們訓(xùn)練了一個(gè)"重疊感知的分塊音頻編碼方案"：每次處理3秒音頻，其中2秒是之前處理過的歷史音頻，1秒是剛到來的新音頻，然后窗口向前滑動(dòng)1秒。通過保留歷史上下文來保證連續(xù)性，減少邊界處的突變。在60萬段流式格式的樣本上微調(diào)后，模型在分塊推理模式下的穩(wěn)定性大幅提升。

對(duì)于自回歸漂移問題，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)"骨干-精煉器"雙模塊架構(gòu)。骨干模塊（Backbone）負(fù)責(zé)維持視頻的宏觀軌跡，它在推理時(shí)看到的是帶有噪聲的歷史幀——這種設(shè)計(jì)讓骨干模塊在訓(xùn)練時(shí)就習(xí)慣了"上文有點(diǎn)不完美"的狀態(tài)，從而對(duì)誤差積累更有魯棒性。精煉器模塊（Refiner）在骨干生成粗糙的視頻后介入，負(fù)責(zé)恢復(fù)高頻細(xì)節(jié)，而它看到的上文是"干凈的"歷史幀，以此獲得更強(qiáng)的局部精度。骨干用兩步去噪完成粗輪廓生成，精煉器只用一步完成細(xì)節(jié)恢復(fù)。

這兩個(gè)模塊的訓(xùn)練通過四個(gè)階段逐步推進(jìn)。第一階段是有監(jiān)督預(yù)熱，讓骨干模塊學(xué)會(huì)跟著老師模型（即Base LPM）的去噪軌跡走，穩(wěn)定初始狀態(tài)。第二階段是"非在線策略的分布匹配蒸餾"，讓骨干開始學(xué)著去匹配老師模型的輸出分布，但訓(xùn)練數(shù)據(jù)仍然來自老師生成的軌跡。第三階段是"在線策略的分布匹配蒸餾"，讓骨干在自己的生成結(jié)果上繼續(xù)訓(xùn)練，專門學(xué)習(xí)如何從自己造成的"錯(cuò)誤歷史"中恢復(fù)過來。第四階段是訓(xùn)練精煉器，在骨干生成的粗糙視頻上進(jìn)行細(xì)節(jié)恢復(fù)。

推理時(shí)，Online LPM使用滑動(dòng)窗口解碼：每步只關(guān)注當(dāng)前這段視頻、最近的2段歷史視頻，以及固定的角色參考圖片——而非把所有歷史都塞進(jìn)去。歷史的鍵值緩存在應(yīng)用位置編碼之前就被緩存下來，每次更新窗口時(shí)動(dòng)態(tài)重新應(yīng)用位置編碼，這樣就避免了重復(fù)計(jì)算整個(gè)歷史，同時(shí)保證位置關(guān)系的正確性。此外還保留了少量"錨點(diǎn)標(biāo)記"作為全局注意力的穩(wěn)定參考，防止長(zhǎng)時(shí)間運(yùn)行后的注意力飄移。

六、工程基礎(chǔ)設(shè)施：讓這一切真正跑起來

一個(gè)170億參數(shù)的模型，還是兩個(gè)（骨干加精煉器），要在實(shí)時(shí)條件下運(yùn)行，工程難度不亞于模型設(shè)計(jì)本身。

訓(xùn)練方面，研究團(tuán)隊(duì)在TorchTitan框架基礎(chǔ)上做了大量定制。由于訓(xùn)練視頻的分辨率和時(shí)長(zhǎng)各不相同，生成的序列長(zhǎng)度差異極大，簡(jiǎn)單地把長(zhǎng)度不同的數(shù)據(jù)湊成一批會(huì)導(dǎo)致GPU算力浪費(fèi)嚴(yán)重。他們的解決方案是把所有視頻的VAE特征、音頻特征、文字特征預(yù)先計(jì)算并存儲(chǔ)好，訓(xùn)練時(shí)只需要加載這些壓縮后的"潛變量"，大幅減少數(shù)據(jù)加載開銷；再通過一個(gè)在線負(fù)載均衡器，把序列按長(zhǎng)度分配到不同的"令牌桶"里，讓每個(gè)GPU處理相近長(zhǎng)度的序列，減少等待和填充。

高分辨率視頻訓(xùn)練時(shí)序列長(zhǎng)度往往超過5萬個(gè)令牌，標(biāo)準(zhǔn)的全序列注意力計(jì)算會(huì)撐爆GPU內(nèi)存。解決方案是使用"尤利西斯風(fēng)格"的上下文并行：不同GPU各自持有全序列的一段，但通過集體通信共享注意力計(jì)算所需的信息，讓每個(gè)GPU都能計(jì)算完整的注意力，只是覆蓋不同的注意力頭。這種方法比環(huán)形注意力更適合LPM的架構(gòu)，因?yàn)樗皇苄蛄芯S度操作的影響。

推理方面，骨干和精煉器的每個(gè)前向傳播，通過融合核和FlashAttention-4高效注意力實(shí)現(xiàn)，在單個(gè)GPU上每段1秒的視頻（24幀）約需700毫秒，VAE解碼需要約180毫秒，編碼器開銷可以忽略不計(jì)。通過流水線并行——當(dāng)前段的精煉和下一段的骨干生成同時(shí)進(jìn)行——實(shí)現(xiàn)了真正的實(shí)時(shí)流式輸出。

實(shí)時(shí)交互系統(tǒng)的狀態(tài)機(jī)設(shè)計(jì)也頗為精心。系統(tǒng)在"預(yù)熱"、"空閑"、"聽話"、"回應(yīng)"四個(gè)狀態(tài)之間切換，每個(gè)狀態(tài)對(duì)應(yīng)不同的音頻條件配置：回應(yīng)狀態(tài)下說話音頻通道激活、聽話音頻通道靜默；聽話狀態(tài)下反過來。狀態(tài)切換在塊邊界發(fā)生，確保每段視頻在固定條件下完成生成，不受中途打斷的影響。

七、LPM-Bench：為對(duì)話角色表演專門設(shè)計(jì)的評(píng)測(cè)標(biāo)尺

現(xiàn)有的視頻生成評(píng)測(cè)基準(zhǔn)大多只關(guān)注通用的畫質(zhì)和文字對(duì)齊，完全沒有涵蓋"對(duì)話中的表演質(zhì)量"這個(gè)維度。研究團(tuán)隊(duì)因此提出了LPM-Bench，這是目前已知第一個(gè)專門面向交互式角色表演的評(píng)測(cè)基準(zhǔn)，包含1000個(gè)測(cè)試案例。

這1000個(gè)案例分布在五個(gè)場(chǎng)景里。說話場(chǎng)景約400例，覆蓋78種情緒、22種基礎(chǔ)表情、協(xié)同說話手勢(shì)、唱歌（包括不同風(fēng)格的短歌和長(zhǎng)歌）、發(fā)音準(zhǔn)確性（特別是中英文雙語的口型精度），以及全身運(yùn)動(dòng)、手勢(shì)、與場(chǎng)景互動(dòng)等動(dòng)作類型。聽話場(chǎng)景約200例，測(cè)試角色在不同人際關(guān)系、不同性格設(shè)定、不同語言環(huán)境下，對(duì)對(duì)話伙伴說話的反應(yīng)是否自然、是否符合語境。完整對(duì)話場(chǎng)景約200例，測(cè)試說話和聽話狀態(tài)之間的自然切換，包括換輪時(shí)機(jī)的把握和跨狀態(tài)的表情連續(xù)性。多樣化人體運(yùn)動(dòng)場(chǎng)景約100例，測(cè)試超出對(duì)話范疇的更廣泛動(dòng)作，比如搬東西、跳舞等。角色泛化場(chǎng)景約100例，專門測(cè)試寫實(shí)真人、動(dòng)漫風(fēng)格、3D渲染、藝術(shù)風(fēng)格等不同類型角色的處理能力。

評(píng)測(cè)從四個(gè)維度進(jìn)行打分：動(dòng)作動(dòng)態(tài)性（動(dòng)作是否真實(shí)、流暢、有物理合理性）、身份一致性（角色面貌在整段視頻里是否穩(wěn)定）、文字可控性（動(dòng)作是否按文字提示執(zhí)行）、音視頻同步（嘴唇、手勢(shì)、表情是否與音頻對(duì)應(yīng)）。評(píng)測(cè)采用兩種方法并行：一是讓人工評(píng)測(cè)員在兩個(gè)視頻之間選更好的那個(gè)（"好/一樣/差"三選一）；二是讓評(píng)測(cè)員對(duì)單個(gè)視頻在1到5分的量表上打絕對(duì)分。

八、評(píng)測(cè)結(jié)果：數(shù)字背后的故事

Base LPM（720P分辨率）和兩個(gè)當(dāng)時(shí)的最先進(jìn)對(duì)比系統(tǒng)——Kling-Avatar-2和OmniHuman-1.5——進(jìn)行了人工偏好評(píng)測(cè)。

在整體偏好上，人工評(píng)測(cè)員有64.3%的概率選擇LPM 1.0勝過Kling-Avatar-2，有42.5%的概率選擇LPM 1.0勝過OmniHuman-1.5。優(yōu)勢(shì)最突出的維度是身份一致性，在對(duì)比OmniHuman-1.5時(shí)有58.5%的人偏好LPM 1.0，這主要是因?yàn)閷?duì)比系統(tǒng)經(jīng)常出現(xiàn)頭部轉(zhuǎn)動(dòng)后面部特征漂移、皮膚色調(diào)變深變滑的問題，而LPM 1.0能保持更自然的皮膚紋理和更穩(wěn)定的面部結(jié)構(gòu)。文字可控性方面，有55.7%的人偏好LPM 1.0，主要因?yàn)閷?duì)比系統(tǒng)經(jīng)常對(duì)手勢(shì)和凝視方向的指令響應(yīng)不完整。在和基礎(chǔ)模型Wan2.1-I2V的對(duì)比中，運(yùn)動(dòng)動(dòng)態(tài)性的偏好比例高達(dá)81.7%，身份一致性偏好比例高達(dá)88.3%，直觀說明了專門訓(xùn)練的價(jià)值。

在絕對(duì)質(zhì)量分?jǐn)?shù)上，聽話場(chǎng)景表現(xiàn)最好，平均4.51分（滿分5分），其中音視頻同步得到滿分5.00，說明模型的聽話反應(yīng)與對(duì)方音頻的情感和語義高度對(duì)應(yīng)。說話場(chǎng)景平均3.91分，音視頻同步是其中最強(qiáng)的維度（4.13分），主要短板是文字可控性（3.70分），失敗案例集中在需要復(fù)雜動(dòng)作序列時(shí)跟不上所有指令的情況。完整對(duì)話場(chǎng)景平均3.70分，是三個(gè)場(chǎng)景里最難的，動(dòng)作動(dòng)態(tài)性下降到3.24分，主要因?yàn)殚L(zhǎng)時(shí)間對(duì)話后手部動(dòng)作質(zhì)量下降，音視頻同步也降至3.34分，主要因?yàn)檎f話和聽話狀態(tài)切換時(shí)存在短暫的不協(xié)調(diào)。

Online LPM（480P分辨率）和實(shí)時(shí)對(duì)比系統(tǒng)LiveAvatar、SoulX的評(píng)測(cè)結(jié)果同樣亮眼。對(duì)比LiveAvatar時(shí)，82.5%的評(píng)測(cè)員偏好Online LPM，在動(dòng)作動(dòng)態(tài)性上的優(yōu)勢(shì)幾乎是壓倒性的（98.1%偏好）。對(duì)比SoulX時(shí)，64.1%的評(píng)測(cè)員整體偏好Online LPM，但SoulX在身份一致性上反過來勝出（67.3%偏好SoulX）。這個(gè)結(jié)果折射出一個(gè)有趣的取舍：SoulX傾向于生成更保守、頭部轉(zhuǎn)動(dòng)幅度更小的視頻，這種策略雖然讓角色外貌更穩(wěn)定，但代價(jià)是看起來太過僵硬、缺乏生命力；在"哪個(gè)更像真人"的整體判斷上，生動(dòng)但略有漂移的LPM 1.0反而更受歡迎。

Base LPM和Online LPM在480P分辨率下的直接對(duì)比，則揭示了實(shí)時(shí)化帶來的代價(jià)和收益。在說話場(chǎng)景上，兩者幾乎勢(shì)均力敵，大多數(shù)維度都有超過50%的"一樣好"評(píng)價(jià)。在聽話場(chǎng)景上，Base LPM因?yàn)閯?dòng)作動(dòng)態(tài)性更好而占優(yōu)（40%偏好Base vs 12%偏好Online），說明蒸餾過程確實(shí)損失了一些細(xì)微的低幅度反應(yīng)動(dòng)作。在完整對(duì)話場(chǎng)景上，Online LPM反而在身份一致性上勝出（48%偏好Online vs 10%偏好Base），正是因?yàn)樵诰€策略的蒸餾訓(xùn)練讓模型學(xué)會(huì)了從自己的漂移中自我糾正，滑動(dòng)窗口KV緩存也有效抑制了顏色和外貌的長(zhǎng)期漂移。

九、消融實(shí)驗(yàn)：多角度參考圖片到底值不值？

研究團(tuán)隊(duì)還做了一組對(duì)比實(shí)驗(yàn)，專門驗(yàn)證多角度身份參考圖片系統(tǒng)的價(jià)值。

針對(duì)表情參考圖的實(shí)驗(yàn)結(jié)果顯示，加入多種表情的參考圖片后，模型能更準(zhǔn)確地還原角色特有的笑容弧度、笑時(shí)露出的牙齒形狀，以及皺眉時(shí)的紋路模式。沒有這些參考圖時(shí)，模型仍然能保持角色的整體外貌，但表情會(huì)變得通用化、失去那些讓這個(gè)角色區(qū)別于其他人的細(xì)節(jié)特征。

針對(duì)多視角體型參考圖的實(shí)驗(yàn)結(jié)果更加直觀。當(dāng)角色在視頻中轉(zhuǎn)身時(shí)，有了多視角參考圖，背部的服裝細(xì)節(jié)（實(shí)驗(yàn)中用了印有字樣的T恤背面）能保持清晰可辨；而沒有這些參考圖時(shí)，模型在生成角色背面時(shí)不得不"憑感覺"，結(jié)果不同時(shí)刻生成的背面細(xì)節(jié)各不相同，或者出現(xiàn)扭曲。

這兩類參考圖發(fā)揮的作用方向相反但互補(bǔ)：表情參考圖解決的是"這個(gè)人笑起來是什么樣"的細(xì)節(jié)問題，多視角參考圖解決的是"這個(gè)人從不同角度看是什么樣"的結(jié)構(gòu)問題。兩者結(jié)合，才能對(duì)角色身份做出最完整的描述。

說到底，LPM 1.0要解決的問題，比"讓角色嘴巴跟著聲音動(dòng)"要宏大得多。它要解決的是：當(dāng)你和一個(gè)虛擬角色對(duì)話時(shí)，你能不能感覺到"對(duì)面有人在認(rèn)真聽你說話"。

這種感覺在人與人之間的交流中無處不在，我們對(duì)它的敏感程度已經(jīng)刻在了幾十萬年進(jìn)化出來的社交本能里——所以一旦虛擬角色做不到，我們就會(huì)立刻感到別扭、出戲。LPM 1.0是迄今為止在技術(shù)路線上對(duì)這個(gè)問題回應(yīng)最系統(tǒng)的一次嘗試，它把數(shù)據(jù)構(gòu)建、模型訓(xùn)練和實(shí)時(shí)部署三者當(dāng)作一個(gè)整體來設(shè)計(jì)，而不是分開獨(dú)立解決。

當(dāng)然，研究團(tuán)隊(duì)也坦誠(chéng)地指出了目前的局限：整個(gè)系統(tǒng)還是只處理單人對(duì)鏡頭說話或聽話的場(chǎng)景，沒有涉及多人同場(chǎng)的對(duì)話，也沒有涉及角色在環(huán)境中移動(dòng)、與物體真實(shí)互動(dòng)的情況。在長(zhǎng)文本結(jié)構(gòu)記憶方面，系統(tǒng)也還沒有辦法讓角色記住幾分鐘前說過的話并據(jù)此調(diào)整后續(xù)反應(yīng)。

未來的道路，研究團(tuán)隊(duì)已經(jīng)指出了三個(gè)方向：沿著時(shí)間軸延伸，讓角色有跨越整場(chǎng)對(duì)話的記憶和人格一致性；沿著社交維度擴(kuò)展，支持多人對(duì)話中的注意力分配和輪流發(fā)言協(xié)調(diào)；沿著物理維度深入，讓角色真正扎根于所處的場(chǎng)景，能夠和環(huán)境中的物體自然互動(dòng)。

歸根結(jié)底，LPM 1.0證明了一件事：視頻生成不只是一種渲染工具，它可以成為讓虛擬角色真正"出現(xiàn)"在對(duì)話里的那一層。感興趣深入了解的讀者，可以通過arXiv編號(hào)2604.07823查閱完整論文。

Q&A

Q1：LPM 1.0和普通的AI說話視頻生成有什么本質(zhì)區(qū)別？

A：普通的AI說話視頻生成只做一件事——讓角色嘴巴跟著聲音動(dòng)。LPM 1.0除此之外還加入了"聽話"能力：當(dāng)用戶說話時(shí)，角色能根據(jù)用戶音頻的內(nèi)容、情緒和語氣，生成自然的非語言反應(yīng)，比如點(diǎn)頭、表情變化、眼神跟隨，而不是僵在那里或者播放固定循環(huán)動(dòng)作。這是兩者在設(shè)計(jì)目標(biāo)上的核心區(qū)別。

Q2：LPM 1.0為什么能做到無限時(shí)長(zhǎng)生成而不讓角色變形？

A：主要靠?jī)蓚€(gè)機(jī)制。一是在訓(xùn)練數(shù)據(jù)中為每個(gè)角色準(zhǔn)備了多角度、多表情的參考圖片，模型在生成每幀時(shí)都能"對(duì)照參考"而非憑空猜測(cè)。二是在實(shí)時(shí)版本中使用滑動(dòng)窗口加"錨點(diǎn)標(biāo)記"的方式管理歷史上下文，并通過多階段蒸餾訓(xùn)練讓模型學(xué)會(huì)從自己積累的誤差中自我糾正，防止長(zhǎng)時(shí)間漂移。

Q3：LPM 1.0生成的視頻怎么保證不被用來偽造真人？

A：研究團(tuán)隊(duì)采取了幾項(xiàng)措施：所有對(duì)外展示的演示和評(píng)測(cè)視頻使用的是合成生成的角色，不涉及真實(shí)人物；生成視頻中嵌入不可見的水印，便于溯源和檢測(cè)；同時(shí)開發(fā)了配套的AI生成內(nèi)容檢測(cè)模型；在系統(tǒng)輸入端對(duì)參考圖片和文字提示進(jìn)行安全過濾。但團(tuán)隊(duì)也承認(rèn)沒有單一措施能完全防范濫用，需要技術(shù)、制度和監(jiān)管手段共同配合。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.