<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      當(dāng)AI終于學(xué)會(huì)"認(rèn)真聽人說話"——大規(guī)模視頻角色表演模型LPM 1.0

      0
      分享至


      這項(xiàng)研究由字節(jié)跳動(dòng)研究團(tuán)隊(duì)主導(dǎo)開發(fā),以預(yù)印本形式發(fā)布于2026年4月,論文編號(hào)為arXiv:2604.07823,感興趣的讀者可通過該編號(hào)查閱完整原文。

      人和人之間的對(duì)話,從來不只是嘴巴在動(dòng)。當(dāng)你和朋友聊天時(shí),你會(huì)點(diǎn)頭、皺眉、微笑、歪頭看人、在對(duì)方說到有趣地方時(shí)眼睛發(fā)亮——這些細(xì)微的肢體語言和表情,才是讓對(duì)話感覺"真實(shí)"的關(guān)鍵。然而,當(dāng)我們?cè)噲D讓電腦里的虛擬角色和人對(duì)話時(shí),絕大多數(shù)系統(tǒng)只會(huì)做一件事:嘴巴跟著聲音動(dòng)。那種感覺,就像是在和一個(gè)只會(huì)張嘴閉嘴的橡皮泥人偶說話,完全感受不到"有人在聽你說話"。

      字節(jié)跳動(dòng)研究團(tuán)隊(duì)意識(shí)到,這個(gè)問題的根源不是某個(gè)技術(shù)細(xì)節(jié)沒做好,而是整個(gè)行業(yè)一直把"會(huì)說話"當(dāng)成了終點(diǎn),卻完全忽視了"會(huì)聽話"。于是他們做了一件在這個(gè)領(lǐng)域前所未有的事:把"說"和"聽"同時(shí)放進(jìn)一個(gè)視頻生成系統(tǒng)里,造出了LPM 1.0,也就是大規(guī)模表演模型(Large Performance Model)。這個(gè)系統(tǒng)不只會(huì)讓虛擬角色開口說話,還會(huì)讓它在聽別人說話的時(shí)候,做出真實(shí)人類會(huì)做的那些細(xì)微反應(yīng)——微微點(diǎn)頭、表情隨著對(duì)方的語氣起伏、在合適的時(shí)機(jī)眨眨眼或側(cè)側(cè)頭。

      這項(xiàng)研究的意義在于,它為虛擬助手、游戲中的NPC角色以及直播虛擬形象提供了一個(gè)全新的"視覺引擎"——一個(gè)真正能讓角色活起來的系統(tǒng),而且是實(shí)時(shí)的、能無限時(shí)長(zhǎng)持續(xù)運(yùn)行的那種。

      一、表演的三重困境:魚、熊掌和魚翅不能兼得?

      有這樣一個(gè)現(xiàn)實(shí)困境擺在所有做虛擬角色視頻生成的研究者面前,研究團(tuán)隊(duì)把它叫做"表演三難困境"(performance trilemma)。

      困境的第一邊是"表演質(zhì)量",也就是生成的視頻看起來是否像真人在表演——?jiǎng)幼髯匀弧⒈砬樨S富、不重復(fù)、有情感。困境的第二邊是"實(shí)時(shí)推理",也就是系統(tǒng)能不能足夠快,讓視頻邊生成邊播放,就像直播一樣流暢。困境的第三邊是"長(zhǎng)期身份穩(wěn)定",也就是角色的長(zhǎng)相、發(fā)型、服裝、獨(dú)特的表情方式能不能在幾分鐘甚至幾小時(shí)的視頻里一直保持一致,不會(huì)漂移變形。

      這三個(gè)目標(biāo)的麻煩之處在于,它們往往相互矛盾。追求速度的系統(tǒng)通常會(huì)做出機(jī)械、重復(fù)的動(dòng)作;追求表情豐富的系統(tǒng)往往運(yùn)算量大到無法實(shí)時(shí);而要保持角色長(zhǎng)期穩(wěn)定,對(duì)于會(huì)自動(dòng)生成下一幀的系統(tǒng)來說,每一幀的小誤差都會(huì)隨著時(shí)間累積,最終讓角色面目全非。

      現(xiàn)有的大多數(shù)系統(tǒng)只解決了其中一兩個(gè)問題,而且?guī)缀跞慷季劢乖?說話"這件事上。它們的邏輯是:給定一段音頻,讓角色的嘴巴跟著動(dòng)。這樣做,確實(shí)能生成一個(gè)"會(huì)說話"的角色,但完全無法處理"聽話"的狀態(tài)——當(dāng)輪到用戶說話時(shí),角色應(yīng)該做什么?現(xiàn)有系統(tǒng)要么讓角色僵住不動(dòng),要么播放一段預(yù)錄好的循環(huán)動(dòng)作,完全沒有任何對(duì)用戶說話內(nèi)容的反應(yīng)。

      LPM 1.0的核心貢獻(xiàn),就是在同一個(gè)系統(tǒng)里同時(shí)解決了這三個(gè)問題,并且第一次把"聽"這件事做進(jìn)了系統(tǒng)的核心設(shè)計(jì)里。

      二、數(shù)據(jù)是一切的基礎(chǔ):怎么教AI"看懂"一場(chǎng)對(duì)話?

      訓(xùn)練一個(gè)能理解對(duì)話的AI,首先需要大量的"對(duì)話視頻數(shù)據(jù)"——而且不是隨隨便便的視頻,必須是那種能精確告訴AI"這個(gè)人現(xiàn)在在說話還是在聽話、他們的表情和音頻是怎么對(duì)應(yīng)的"這類高質(zhì)量數(shù)據(jù)。

      研究團(tuán)隊(duì)構(gòu)建了一條精密的數(shù)據(jù)處理流水線,從海量原始視頻中篩選出真正有價(jià)值的素材,整體保留率不到10%,也就是說90%以上的視頻都因?yàn)橘|(zhì)量不夠好而被丟棄。

      整個(gè)流程分四個(gè)階段。第一階段是把長(zhǎng)視頻切割成一個(gè)個(gè)單獨(dú)的鏡頭片段,然后用人體檢測(cè)模型把沒有人出現(xiàn)的片段全部剔除。第二階段是質(zhì)量篩選,去掉那些有水印、字幕、特效、美顏濾鏡、跳切、畫質(zhì)模糊、人物不完整或者音畫不同步的片段。經(jīng)過這兩輪篩選,大約只剩下原始視頻數(shù)量的26%。第三階段是最關(guān)鍵的"對(duì)話檢測(cè)",把剩余片段按照說話者的狀態(tài)分成三類:在說話的、在聽話的和沉默的。第四階段是給每段視頻生成詳細(xì)的文字說明和各種標(biāo)簽,包括動(dòng)作、表情、情緒、環(huán)境、攝像機(jī)角度等信息。

      對(duì)話檢測(cè)這件事做起來遠(yuǎn)比聽上去復(fù)雜。很多時(shí)候視頻里只有一個(gè)人,根本看不到對(duì)話的另一方,但這個(gè)人的舉止表情清楚地顯示他在聽別人說話——這種情況必須靠多方面的線索來判斷。研究團(tuán)隊(duì)專門微調(diào)了一個(gè)叫做LR-ASD的主動(dòng)說話者檢測(cè)模型,讓它不只能識(shí)別"誰在說話",還能識(shí)別"誰在聽話"和"誰處于沉默/無關(guān)狀態(tài)",并且標(biāo)注每一幀的具體狀態(tài)。

      為了訓(xùn)練這個(gè)改進(jìn)版的檢測(cè)模型,研究人員手工標(biāo)注了大約2萬段、共95小時(shí)的視頻片段。經(jīng)過訓(xùn)練,這個(gè)模型在兩個(gè)不同類型的測(cè)試數(shù)據(jù)集上分別達(dá)到了89.75%和87.63%的幀級(jí)別準(zhǔn)確率。簡(jiǎn)單說,它能正確識(shí)別每10幀里大約9幀的說話/聽話狀態(tài)。

      但光靠這個(gè)模型還不夠,因?yàn)樗袃煞N常見錯(cuò)誤:一是把某些沉默片段誤判為"在聽話"(其實(shí)那人根本沒在聽,只是屏幕外有聲音而已);二是把某些說話片段誤判為"在聽話"(說話者說話時(shí)短暫停頓,被誤認(rèn)為是在聽)。為了過濾這些錯(cuò)誤,研究團(tuán)隊(duì)還訓(xùn)練了一個(gè)基于Qwen3-Omni模型的語義驗(yàn)證系統(tǒng),讓它用更高層次的理解來判斷視頻的真實(shí)情境。這個(gè)經(jīng)過微調(diào)的模型在總體F1分?jǐn)?shù)上達(dá)到了78.37,比直接用谷歌的Gemini 2.5 Pro提高了約7.9個(gè)百分點(diǎn)。

      最終,整個(gè)數(shù)據(jù)集包含約2300萬段說話視頻、500萬段聽話/對(duì)話視頻,以及300萬段沉默視頻。

      數(shù)據(jù)集里還有一個(gè)有趣的發(fā)現(xiàn):在自然拍攝的對(duì)話視頻里,畫面對(duì)準(zhǔn)"聽話者"的時(shí)間只占所有對(duì)話視頻的大約10%。這意味著關(guān)于"怎么聽話"的數(shù)據(jù)天然稀缺。而且那些聽話的視頻大多數(shù)都極其平靜——超過70%的聽話表情被標(biāo)注為"中性"或"思考中",憤怒、恐懼、驚訝等強(qiáng)烈情緒反應(yīng)各自占比不到3%。這種數(shù)據(jù)分布如果直接拿來訓(xùn)練,會(huì)讓AI學(xué)會(huì)的"聽話"方式極度單調(diào),就是一臉呆滯地盯著你。

      研究團(tuán)隊(duì)對(duì)此做了專門處理,從中精選出大約47萬段有明顯情緒反應(yīng)或主動(dòng)互動(dòng)的聽話視頻,并對(duì)各類情緒進(jìn)行重新平衡采樣,確保稀有但重要的反應(yīng)——比如開懷大笑、突然驚喜、點(diǎn)頭示意——在訓(xùn)練數(shù)據(jù)里有足夠的占比。

      三、給AI的"身份證":多角度、多表情參考圖片系統(tǒng)

      訓(xùn)練和推理時(shí)都面臨一個(gè)棘手問題:AI只看到角色的一張正面照片,怎么知道這個(gè)角色的后背長(zhǎng)什么樣?側(cè)臉是什么輪廓?笑起來牙齒是什么形狀?如果AI不知道,它就會(huì)在每次生成視頻時(shí)"猜測(cè)"這些細(xì)節(jié),而不同時(shí)刻猜測(cè)的結(jié)果往往不一致,角色就會(huì)出現(xiàn)"面目漂移"——說著說著人臉就變了。

      LPM 1.0的解決方案是建立一套"多粒度身份參考圖片系統(tǒng)",相當(dāng)于給每個(gè)角色制作一套全方位的檔案。

      這套檔案包含三類圖片。第一類是"全局外觀參考圖",就是一張完整呈現(xiàn)角色整體形象和所處環(huán)境的圖片,作為角色身份的總錨點(diǎn)。為了避免AI直接"抄"訓(xùn)練視頻里的幀,這類圖片會(huì)從同一個(gè)人的不同時(shí)間段的視頻里隨機(jī)選取,確保它不能被簡(jiǎn)單匹配到某一幀訓(xùn)練數(shù)據(jù)。

      第二類是"多視角身體參考圖",提供從正面、背面、左側(cè)、右側(cè)四個(gè)方向看到的角色外觀。研究團(tuán)隊(duì)用了一個(gè)叫GVHMR的人體姿態(tài)估計(jì)模型來自動(dòng)計(jì)算攝像機(jī)和人體朝向之間的角度,從而自動(dòng)把視頻幀分類成這四個(gè)視角,再?gòu)拿總€(gè)視角里挑選代表性幀。有了這些多角度參考圖,AI就不需要猜測(cè)角色轉(zhuǎn)身時(shí)背后長(zhǎng)什么樣了,因?yàn)橹苯佑写鸢缚梢詤⒖肌?/p>

      第三類是"面部表情參考圖集",收錄同一個(gè)角色做出八種不同表情的照片,包括高興、悲傷、驚訝、憤怒等。這樣AI就知道這個(gè)角色笑起來的嘴角弧度是怎樣的、皺眉時(shí)的紋路是什么樣的,而不是每次都臨時(shí)湊合。為了保證這些表情圖片質(zhì)量夠高,研究團(tuán)隊(duì)只使用原始分辨率在1080P以上的視頻來提取表情參考圖,并且用EmotiEff表情識(shí)別工具自動(dòng)篩選,再通過Gemini 2.5 Pro進(jìn)行二次驗(yàn)證,確保標(biāo)注的表情和圖片內(nèi)容真正匹配。

      四、Base LPM:那個(gè)能"說"又能"聽"的底層大模型

      有了數(shù)據(jù)和參考圖片系統(tǒng),就可以開始訓(xùn)練核心模型了。Base LPM是整個(gè)系統(tǒng)的"基礎(chǔ)引擎",它基于萬象(Wan2.1)的14B參數(shù)圖生視頻基礎(chǔ)模型,在此基礎(chǔ)上新增了約30億參數(shù),組成一個(gè)170億參數(shù)的擴(kuò)散變換器(Diffusion Transformer)模型。

      所謂擴(kuò)散變換器,可以這樣理解:給模型輸入一張充滿隨機(jī)噪點(diǎn)的"雪花屏",模型每次迭代都把這張圖變得更清晰一點(diǎn),經(jīng)過若干步迭代后,噪點(diǎn)逐漸消散,一段清晰的視頻就出現(xiàn)了。整個(gè)過程由多個(gè)條件共同引導(dǎo):首幀圖片、身份參考圖片集、文字描述、說話音頻和聽話音頻。

      其中最有創(chuàng)意的設(shè)計(jì)是"交錯(cuò)式雙音頻注入策略"。AI的變換器結(jié)構(gòu)是由很多個(gè)"塊"堆疊而成的,每個(gè)塊負(fù)責(zé)處理一個(gè)層次的信息。LPM 1.0的做法是:編號(hào)為偶數(shù)的塊處理說話音頻,編號(hào)為奇數(shù)的塊處理聽話音頻。這樣,說話和聽話兩種音頻信號(hào)就被分配到模型的不同層次進(jìn)行處理,互相不干擾,而且參數(shù)量只需要原來的一半——因?yàn)槊糠N音頻只占用了一半的塊。

      為什么這個(gè)設(shè)計(jì)有效?因?yàn)檎f話音頻和聽話音頻驅(qū)動(dòng)的是完全不同類型的動(dòng)作。說話音頻主要觸發(fā)高頻局部動(dòng)作,比如嘴唇的精確同步、手勢(shì)的節(jié)奏感。聽話音頻則主要觸發(fā)低頻的整體動(dòng)作,比如緩慢的點(diǎn)頭、表情隨語氣的輕微起伏。把兩者分開處理,模型的不同部分就可以專門針對(duì)各自的運(yùn)動(dòng)模式進(jìn)行優(yōu)化,就像烹飪時(shí)把需要大火爆炒的食材和需要小火慢燉的食材分開處理一樣。

      在說話音頻的處理上,模型使用"局部時(shí)間窗口注意力機(jī)制"——每幀視頻只關(guān)注與它時(shí)間上最接近的那段音頻,這樣嘴唇同步可以做到精確對(duì)齊。而聽話音頻則使用更大的時(shí)間窗口,因?yàn)槁犜挼姆磻?yīng)往往是對(duì)更長(zhǎng)時(shí)間段的內(nèi)容的綜合響應(yīng),不需要和某一毫秒的聲音精確對(duì)應(yīng)。

      身份參考圖片的注入方式也很巧妙。這些參考圖片被編碼成和視頻幀相同格式的"標(biāo)記",直接拼接在視頻序列的末尾,參與所有層次的自注意力計(jì)算。換句話說,模型在生成每一幀視頻時(shí),都可以"回頭看"參考圖片,隨時(shí)對(duì)照"這個(gè)角色的樣子應(yīng)該是這樣的"。為了讓模型區(qū)分不同類型的參考圖片(表情圖和視角圖),研究團(tuán)隊(duì)用了位置編碼技巧,給不同類型的參考圖分配不同的"時(shí)間戳偏移量",讓模型通過位置信息就能判斷"這是哪種類型的參考圖"。

      模型的訓(xùn)練分幾個(gè)階段推進(jìn)。先從Wan2.1的基礎(chǔ)權(quán)重出發(fā),加入說話音頻通道,只在說話數(shù)據(jù)上訓(xùn)練,同時(shí)保持原有的文字和視覺處理能力基本不變。說話能力穩(wěn)定后,再引入聽話音頻通道,在說話和聽話數(shù)據(jù)的混合上訓(xùn)練。之后逐漸把沉默、完整對(duì)話(同時(shí)有說話和聽話音頻)的數(shù)據(jù)也加進(jìn)來。文字條件的注入貫穿始終,越精細(xì)的文字描述能帶來越精準(zhǔn)的動(dòng)作控制。

      訓(xùn)練完成后,模型還經(jīng)歷了一個(gè)"直接偏好優(yōu)化"(DPO)階段,用來修復(fù)兩個(gè)頑固問題:說話時(shí)手和四肢變形的問題,以及聽話時(shí)角色太過僵硬、缺乏細(xì)微反應(yīng)的問題。做法是讓模型對(duì)同一個(gè)輸入生成多個(gè)版本,由人工評(píng)估哪個(gè)版本更自然、更真實(shí),然后用這些偏好數(shù)據(jù)指導(dǎo)模型調(diào)整。

      推理時(shí),Base LPM支持按段連續(xù)生成——每段約125幀,相當(dāng)于5秒左右,段與段之間通過重疊區(qū)域平滑過渡。實(shí)測(cè)可以穩(wěn)定生成約10分鐘的視頻而不出現(xiàn)明顯質(zhì)量下降。

      五、Online LPM:實(shí)時(shí)流式版本,無限時(shí)長(zhǎng)的挑戰(zhàn)

      Base LPM雖然效果出色,但有個(gè)致命缺陷:它需要先準(zhǔn)備好所有輸入(完整的音頻、文字),然后才能開始生成。這對(duì)于實(shí)時(shí)對(duì)話來說完全行不通,因?yàn)橛脩舻囊纛l是實(shí)時(shí)產(chǎn)生的,你不可能等用戶說完整段話再開始生成角色的反應(yīng)視頻。

      Online LPM就是為了解決這個(gè)實(shí)時(shí)性問題而設(shè)計(jì)的。它需要做到:音頻邊來邊處理,視頻邊生成邊播放,整個(gè)過程可以無限時(shí)長(zhǎng)持續(xù)下去,并且延遲要足夠低,讓對(duì)話感覺流暢自然。

      這里有兩個(gè)互相疊加的難題。第一是"流式控制信號(hào)不匹配"——Base LPM訓(xùn)練時(shí)看到的是完整音頻,而Online LPM推理時(shí)每次只能看到一小段剛剛到來的音頻,這種局部信息和完整信息之間的差距會(huì)導(dǎo)致質(zhì)量下降。第二是"自回歸漂移"——視頻是一段一段地生成的,每段的輸入包含前面生成的視頻作為"上文"。時(shí)間一長(zhǎng),前面生成內(nèi)容里積累的小誤差會(huì)不斷被后續(xù)生成所繼承和放大,最終導(dǎo)致角色面目全非或畫面過度飽和。

      研究團(tuán)隊(duì)用兩個(gè)策略來解決這兩個(gè)問題。

      對(duì)于流式音頻不匹配的問題,他們訓(xùn)練了一個(gè)"重疊感知的分塊音頻編碼方案":每次處理3秒音頻,其中2秒是之前處理過的歷史音頻,1秒是剛到來的新音頻,然后窗口向前滑動(dòng)1秒。通過保留歷史上下文來保證連續(xù)性,減少邊界處的突變。在60萬段流式格式的樣本上微調(diào)后,模型在分塊推理模式下的穩(wěn)定性大幅提升。

      對(duì)于自回歸漂移問題,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)"骨干-精煉器"雙模塊架構(gòu)。骨干模塊(Backbone)負(fù)責(zé)維持視頻的宏觀軌跡,它在推理時(shí)看到的是帶有噪聲的歷史幀——這種設(shè)計(jì)讓骨干模塊在訓(xùn)練時(shí)就習(xí)慣了"上文有點(diǎn)不完美"的狀態(tài),從而對(duì)誤差積累更有魯棒性。精煉器模塊(Refiner)在骨干生成粗糙的視頻后介入,負(fù)責(zé)恢復(fù)高頻細(xì)節(jié),而它看到的上文是"干凈的"歷史幀,以此獲得更強(qiáng)的局部精度。骨干用兩步去噪完成粗輪廓生成,精煉器只用一步完成細(xì)節(jié)恢復(fù)。

      這兩個(gè)模塊的訓(xùn)練通過四個(gè)階段逐步推進(jìn)。第一階段是有監(jiān)督預(yù)熱,讓骨干模塊學(xué)會(huì)跟著老師模型(即Base LPM)的去噪軌跡走,穩(wěn)定初始狀態(tài)。第二階段是"非在線策略的分布匹配蒸餾",讓骨干開始學(xué)著去匹配老師模型的輸出分布,但訓(xùn)練數(shù)據(jù)仍然來自老師生成的軌跡。第三階段是"在線策略的分布匹配蒸餾",讓骨干在自己的生成結(jié)果上繼續(xù)訓(xùn)練,專門學(xué)習(xí)如何從自己造成的"錯(cuò)誤歷史"中恢復(fù)過來。第四階段是訓(xùn)練精煉器,在骨干生成的粗糙視頻上進(jìn)行細(xì)節(jié)恢復(fù)。

      推理時(shí),Online LPM使用滑動(dòng)窗口解碼:每步只關(guān)注當(dāng)前這段視頻、最近的2段歷史視頻,以及固定的角色參考圖片——而非把所有歷史都塞進(jìn)去。歷史的鍵值緩存在應(yīng)用位置編碼之前就被緩存下來,每次更新窗口時(shí)動(dòng)態(tài)重新應(yīng)用位置編碼,這樣就避免了重復(fù)計(jì)算整個(gè)歷史,同時(shí)保證位置關(guān)系的正確性。此外還保留了少量"錨點(diǎn)標(biāo)記"作為全局注意力的穩(wěn)定參考,防止長(zhǎng)時(shí)間運(yùn)行后的注意力飄移。

      六、工程基礎(chǔ)設(shè)施:讓這一切真正跑起來

      一個(gè)170億參數(shù)的模型,還是兩個(gè)(骨干加精煉器),要在實(shí)時(shí)條件下運(yùn)行,工程難度不亞于模型設(shè)計(jì)本身。

      訓(xùn)練方面,研究團(tuán)隊(duì)在TorchTitan框架基礎(chǔ)上做了大量定制。由于訓(xùn)練視頻的分辨率和時(shí)長(zhǎng)各不相同,生成的序列長(zhǎng)度差異極大,簡(jiǎn)單地把長(zhǎng)度不同的數(shù)據(jù)湊成一批會(huì)導(dǎo)致GPU算力浪費(fèi)嚴(yán)重。他們的解決方案是把所有視頻的VAE特征、音頻特征、文字特征預(yù)先計(jì)算并存儲(chǔ)好,訓(xùn)練時(shí)只需要加載這些壓縮后的"潛變量",大幅減少數(shù)據(jù)加載開銷;再通過一個(gè)在線負(fù)載均衡器,把序列按長(zhǎng)度分配到不同的"令牌桶"里,讓每個(gè)GPU處理相近長(zhǎng)度的序列,減少等待和填充。

      高分辨率視頻訓(xùn)練時(shí)序列長(zhǎng)度往往超過5萬個(gè)令牌,標(biāo)準(zhǔn)的全序列注意力計(jì)算會(huì)撐爆GPU內(nèi)存。解決方案是使用"尤利西斯風(fēng)格"的上下文并行:不同GPU各自持有全序列的一段,但通過集體通信共享注意力計(jì)算所需的信息,讓每個(gè)GPU都能計(jì)算完整的注意力,只是覆蓋不同的注意力頭。這種方法比環(huán)形注意力更適合LPM的架構(gòu),因?yàn)樗皇苄蛄芯S度操作的影響。

      推理方面,骨干和精煉器的每個(gè)前向傳播,通過融合核和FlashAttention-4高效注意力實(shí)現(xiàn),在單個(gè)GPU上每段1秒的視頻(24幀)約需700毫秒,VAE解碼需要約180毫秒,編碼器開銷可以忽略不計(jì)。通過流水線并行——當(dāng)前段的精煉和下一段的骨干生成同時(shí)進(jìn)行——實(shí)現(xiàn)了真正的實(shí)時(shí)流式輸出。

      實(shí)時(shí)交互系統(tǒng)的狀態(tài)機(jī)設(shè)計(jì)也頗為精心。系統(tǒng)在"預(yù)熱"、"空閑"、"聽話"、"回應(yīng)"四個(gè)狀態(tài)之間切換,每個(gè)狀態(tài)對(duì)應(yīng)不同的音頻條件配置:回應(yīng)狀態(tài)下說話音頻通道激活、聽話音頻通道靜默;聽話狀態(tài)下反過來。狀態(tài)切換在塊邊界發(fā)生,確保每段視頻在固定條件下完成生成,不受中途打斷的影響。

      七、LPM-Bench:為對(duì)話角色表演專門設(shè)計(jì)的評(píng)測(cè)標(biāo)尺

      現(xiàn)有的視頻生成評(píng)測(cè)基準(zhǔn)大多只關(guān)注通用的畫質(zhì)和文字對(duì)齊,完全沒有涵蓋"對(duì)話中的表演質(zhì)量"這個(gè)維度。研究團(tuán)隊(duì)因此提出了LPM-Bench,這是目前已知第一個(gè)專門面向交互式角色表演的評(píng)測(cè)基準(zhǔn),包含1000個(gè)測(cè)試案例。

      這1000個(gè)案例分布在五個(gè)場(chǎng)景里。說話場(chǎng)景約400例,覆蓋78種情緒、22種基礎(chǔ)表情、協(xié)同說話手勢(shì)、唱歌(包括不同風(fēng)格的短歌和長(zhǎng)歌)、發(fā)音準(zhǔn)確性(特別是中英文雙語的口型精度),以及全身運(yùn)動(dòng)、手勢(shì)、與場(chǎng)景互動(dòng)等動(dòng)作類型。聽話場(chǎng)景約200例,測(cè)試角色在不同人際關(guān)系、不同性格設(shè)定、不同語言環(huán)境下,對(duì)對(duì)話伙伴說話的反應(yīng)是否自然、是否符合語境。完整對(duì)話場(chǎng)景約200例,測(cè)試說話和聽話狀態(tài)之間的自然切換,包括換輪時(shí)機(jī)的把握和跨狀態(tài)的表情連續(xù)性。多樣化人體運(yùn)動(dòng)場(chǎng)景約100例,測(cè)試超出對(duì)話范疇的更廣泛動(dòng)作,比如搬東西、跳舞等。角色泛化場(chǎng)景約100例,專門測(cè)試寫實(shí)真人、動(dòng)漫風(fēng)格、3D渲染、藝術(shù)風(fēng)格等不同類型角色的處理能力。

      評(píng)測(cè)從四個(gè)維度進(jìn)行打分:動(dòng)作動(dòng)態(tài)性(動(dòng)作是否真實(shí)、流暢、有物理合理性)、身份一致性(角色面貌在整段視頻里是否穩(wěn)定)、文字可控性(動(dòng)作是否按文字提示執(zhí)行)、音視頻同步(嘴唇、手勢(shì)、表情是否與音頻對(duì)應(yīng))。評(píng)測(cè)采用兩種方法并行:一是讓人工評(píng)測(cè)員在兩個(gè)視頻之間選更好的那個(gè)("好/一樣/差"三選一);二是讓評(píng)測(cè)員對(duì)單個(gè)視頻在1到5分的量表上打絕對(duì)分。

      八、評(píng)測(cè)結(jié)果:數(shù)字背后的故事

      Base LPM(720P分辨率)和兩個(gè)當(dāng)時(shí)的最先進(jìn)對(duì)比系統(tǒng)——Kling-Avatar-2和OmniHuman-1.5——進(jìn)行了人工偏好評(píng)測(cè)。

      在整體偏好上,人工評(píng)測(cè)員有64.3%的概率選擇LPM 1.0勝過Kling-Avatar-2,有42.5%的概率選擇LPM 1.0勝過OmniHuman-1.5。優(yōu)勢(shì)最突出的維度是身份一致性,在對(duì)比OmniHuman-1.5時(shí)有58.5%的人偏好LPM 1.0,這主要是因?yàn)閷?duì)比系統(tǒng)經(jīng)常出現(xiàn)頭部轉(zhuǎn)動(dòng)后面部特征漂移、皮膚色調(diào)變深變滑的問題,而LPM 1.0能保持更自然的皮膚紋理和更穩(wěn)定的面部結(jié)構(gòu)。文字可控性方面,有55.7%的人偏好LPM 1.0,主要因?yàn)閷?duì)比系統(tǒng)經(jīng)常對(duì)手勢(shì)和凝視方向的指令響應(yīng)不完整。在和基礎(chǔ)模型Wan2.1-I2V的對(duì)比中,運(yùn)動(dòng)動(dòng)態(tài)性的偏好比例高達(dá)81.7%,身份一致性偏好比例高達(dá)88.3%,直觀說明了專門訓(xùn)練的價(jià)值。

      在絕對(duì)質(zhì)量分?jǐn)?shù)上,聽話場(chǎng)景表現(xiàn)最好,平均4.51分(滿分5分),其中音視頻同步得到滿分5.00,說明模型的聽話反應(yīng)與對(duì)方音頻的情感和語義高度對(duì)應(yīng)。說話場(chǎng)景平均3.91分,音視頻同步是其中最強(qiáng)的維度(4.13分),主要短板是文字可控性(3.70分),失敗案例集中在需要復(fù)雜動(dòng)作序列時(shí)跟不上所有指令的情況。完整對(duì)話場(chǎng)景平均3.70分,是三個(gè)場(chǎng)景里最難的,動(dòng)作動(dòng)態(tài)性下降到3.24分,主要因?yàn)殚L(zhǎng)時(shí)間對(duì)話后手部動(dòng)作質(zhì)量下降,音視頻同步也降至3.34分,主要因?yàn)檎f話和聽話狀態(tài)切換時(shí)存在短暫的不協(xié)調(diào)。

      Online LPM(480P分辨率)和實(shí)時(shí)對(duì)比系統(tǒng)LiveAvatar、SoulX的評(píng)測(cè)結(jié)果同樣亮眼。對(duì)比LiveAvatar時(shí),82.5%的評(píng)測(cè)員偏好Online LPM,在動(dòng)作動(dòng)態(tài)性上的優(yōu)勢(shì)幾乎是壓倒性的(98.1%偏好)。對(duì)比SoulX時(shí),64.1%的評(píng)測(cè)員整體偏好Online LPM,但SoulX在身份一致性上反過來勝出(67.3%偏好SoulX)。這個(gè)結(jié)果折射出一個(gè)有趣的取舍:SoulX傾向于生成更保守、頭部轉(zhuǎn)動(dòng)幅度更小的視頻,這種策略雖然讓角色外貌更穩(wěn)定,但代價(jià)是看起來太過僵硬、缺乏生命力;在"哪個(gè)更像真人"的整體判斷上,生動(dòng)但略有漂移的LPM 1.0反而更受歡迎。

      Base LPM和Online LPM在480P分辨率下的直接對(duì)比,則揭示了實(shí)時(shí)化帶來的代價(jià)和收益。在說話場(chǎng)景上,兩者幾乎勢(shì)均力敵,大多數(shù)維度都有超過50%的"一樣好"評(píng)價(jià)。在聽話場(chǎng)景上,Base LPM因?yàn)閯?dòng)作動(dòng)態(tài)性更好而占優(yōu)(40%偏好Base vs 12%偏好Online),說明蒸餾過程確實(shí)損失了一些細(xì)微的低幅度反應(yīng)動(dòng)作。在完整對(duì)話場(chǎng)景上,Online LPM反而在身份一致性上勝出(48%偏好Online vs 10%偏好Base),正是因?yàn)樵诰€策略的蒸餾訓(xùn)練讓模型學(xué)會(huì)了從自己的漂移中自我糾正,滑動(dòng)窗口KV緩存也有效抑制了顏色和外貌的長(zhǎng)期漂移。

      九、消融實(shí)驗(yàn):多角度參考圖片到底值不值?

      研究團(tuán)隊(duì)還做了一組對(duì)比實(shí)驗(yàn),專門驗(yàn)證多角度身份參考圖片系統(tǒng)的價(jià)值。

      針對(duì)表情參考圖的實(shí)驗(yàn)結(jié)果顯示,加入多種表情的參考圖片后,模型能更準(zhǔn)確地還原角色特有的笑容弧度、笑時(shí)露出的牙齒形狀,以及皺眉時(shí)的紋路模式。沒有這些參考圖時(shí),模型仍然能保持角色的整體外貌,但表情會(huì)變得通用化、失去那些讓這個(gè)角色區(qū)別于其他人的細(xì)節(jié)特征。

      針對(duì)多視角體型參考圖的實(shí)驗(yàn)結(jié)果更加直觀。當(dāng)角色在視頻中轉(zhuǎn)身時(shí),有了多視角參考圖,背部的服裝細(xì)節(jié)(實(shí)驗(yàn)中用了印有字樣的T恤背面)能保持清晰可辨;而沒有這些參考圖時(shí),模型在生成角色背面時(shí)不得不"憑感覺",結(jié)果不同時(shí)刻生成的背面細(xì)節(jié)各不相同,或者出現(xiàn)扭曲。

      這兩類參考圖發(fā)揮的作用方向相反但互補(bǔ):表情參考圖解決的是"這個(gè)人笑起來是什么樣"的細(xì)節(jié)問題,多視角參考圖解決的是"這個(gè)人從不同角度看是什么樣"的結(jié)構(gòu)問題。兩者結(jié)合,才能對(duì)角色身份做出最完整的描述。

      說到底,LPM 1.0要解決的問題,比"讓角色嘴巴跟著聲音動(dòng)"要宏大得多。它要解決的是:當(dāng)你和一個(gè)虛擬角色對(duì)話時(shí),你能不能感覺到"對(duì)面有人在認(rèn)真聽你說話"。

      這種感覺在人與人之間的交流中無處不在,我們對(duì)它的敏感程度已經(jīng)刻在了幾十萬年進(jìn)化出來的社交本能里——所以一旦虛擬角色做不到,我們就會(huì)立刻感到別扭、出戲。LPM 1.0是迄今為止在技術(shù)路線上對(duì)這個(gè)問題回應(yīng)最系統(tǒng)的一次嘗試,它把數(shù)據(jù)構(gòu)建、模型訓(xùn)練和實(shí)時(shí)部署三者當(dāng)作一個(gè)整體來設(shè)計(jì),而不是分開獨(dú)立解決。

      當(dāng)然,研究團(tuán)隊(duì)也坦誠(chéng)地指出了目前的局限:整個(gè)系統(tǒng)還是只處理單人對(duì)鏡頭說話或聽話的場(chǎng)景,沒有涉及多人同場(chǎng)的對(duì)話,也沒有涉及角色在環(huán)境中移動(dòng)、與物體真實(shí)互動(dòng)的情況。在長(zhǎng)文本結(jié)構(gòu)記憶方面,系統(tǒng)也還沒有辦法讓角色記住幾分鐘前說過的話并據(jù)此調(diào)整后續(xù)反應(yīng)。

      未來的道路,研究團(tuán)隊(duì)已經(jīng)指出了三個(gè)方向:沿著時(shí)間軸延伸,讓角色有跨越整場(chǎng)對(duì)話的記憶和人格一致性;沿著社交維度擴(kuò)展,支持多人對(duì)話中的注意力分配和輪流發(fā)言協(xié)調(diào);沿著物理維度深入,讓角色真正扎根于所處的場(chǎng)景,能夠和環(huán)境中的物體自然互動(dòng)。

      歸根結(jié)底,LPM 1.0證明了一件事:視頻生成不只是一種渲染工具,它可以成為讓虛擬角色真正"出現(xiàn)"在對(duì)話里的那一層。感興趣深入了解的讀者,可以通過arXiv編號(hào)2604.07823查閱完整論文。

      Q&A

      Q1:LPM 1.0和普通的AI說話視頻生成有什么本質(zhì)區(qū)別?

      A:普通的AI說話視頻生成只做一件事——讓角色嘴巴跟著聲音動(dòng)。LPM 1.0除此之外還加入了"聽話"能力:當(dāng)用戶說話時(shí),角色能根據(jù)用戶音頻的內(nèi)容、情緒和語氣,生成自然的非語言反應(yīng),比如點(diǎn)頭、表情變化、眼神跟隨,而不是僵在那里或者播放固定循環(huán)動(dòng)作。這是兩者在設(shè)計(jì)目標(biāo)上的核心區(qū)別。

      Q2:LPM 1.0為什么能做到無限時(shí)長(zhǎng)生成而不讓角色變形?

      A:主要靠?jī)蓚€(gè)機(jī)制。一是在訓(xùn)練數(shù)據(jù)中為每個(gè)角色準(zhǔn)備了多角度、多表情的參考圖片,模型在生成每幀時(shí)都能"對(duì)照參考"而非憑空猜測(cè)。二是在實(shí)時(shí)版本中使用滑動(dòng)窗口加"錨點(diǎn)標(biāo)記"的方式管理歷史上下文,并通過多階段蒸餾訓(xùn)練讓模型學(xué)會(huì)從自己積累的誤差中自我糾正,防止長(zhǎng)時(shí)間漂移。

      Q3:LPM 1.0生成的視頻怎么保證不被用來偽造真人?

      A:研究團(tuán)隊(duì)采取了幾項(xiàng)措施:所有對(duì)外展示的演示和評(píng)測(cè)視頻使用的是合成生成的角色,不涉及真實(shí)人物;生成視頻中嵌入不可見的水印,便于溯源和檢測(cè);同時(shí)開發(fā)了配套的AI生成內(nèi)容檢測(cè)模型;在系統(tǒng)輸入端對(duì)參考圖片和文字提示進(jìn)行安全過濾。但團(tuán)隊(duì)也承認(rèn)沒有單一措施能完全防范濫用,需要技術(shù)、制度和監(jiān)管手段共同配合。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      何潤(rùn)東回應(yīng)亮相“蘇超”為何不騎馬:10年前一定騎馬,現(xiàn)在50多歲了,“一摔下來就幻滅,對(duì)項(xiàng)羽不太尊重,想給大家留下美好印象”

      何潤(rùn)東回應(yīng)亮相“蘇超”為何不騎馬:10年前一定騎馬,現(xiàn)在50多歲了,“一摔下來就幻滅,對(duì)項(xiàng)羽不太尊重,想給大家留下美好印象”

      揚(yáng)子晚報(bào)
      2026-04-19 09:12:34
      金像獎(jiǎng)獲獎(jiǎng)名單出爐:梁家輝五封影帝,章子怡馬麗坐了一晚冷板凳

      金像獎(jiǎng)獲獎(jiǎng)名單出爐:梁家輝五封影帝,章子怡馬麗坐了一晚冷板凳

      萌神木木
      2026-04-19 22:54:32
      斯諾克世錦賽:丁俊暉送大禮!吉爾伯特被罰12分逆轉(zhuǎn),僅2-3落后

      斯諾克世錦賽:丁俊暉送大禮!吉爾伯特被罰12分逆轉(zhuǎn),僅2-3落后

      劉姚堯的文字城堡
      2026-04-19 19:17:56
      長(zhǎng)沙被桿砸傷的大媽發(fā)聲:退休公務(wù)員,不會(huì)訛人,車主堅(jiān)決不賠償

      長(zhǎng)沙被桿砸傷的大媽發(fā)聲:退休公務(wù)員,不會(huì)訛人,車主堅(jiān)決不賠償

      觀察鑒娛
      2026-04-19 16:10:54
      阿森納崩盤!國(guó)內(nèi)賽事四連敗,失去爭(zhēng)冠主動(dòng)權(quán),3年首次連負(fù)曼城

      阿森納崩盤!國(guó)內(nèi)賽事四連敗,失去爭(zhēng)冠主動(dòng)權(quán),3年首次連負(fù)曼城

      奧拜爾
      2026-04-20 01:39:09
      “國(guó)營(yíng)媒體是謊言工廠”,這位總理上臺(tái)就宣布關(guān)閉

      “國(guó)營(yíng)媒體是謊言工廠”,這位總理上臺(tái)就宣布關(guān)閉

      法經(jīng)社
      2026-04-19 12:34:54
      廣西欽州一女子后悔砌墻,多次舉報(bào)自己違建,當(dāng)事人:70多歲了上下樓吃力,想在樓后加裝電梯,但因左右建了墻,根本無法施工

      廣西欽州一女子后悔砌墻,多次舉報(bào)自己違建,當(dāng)事人:70多歲了上下樓吃力,想在樓后加裝電梯,但因左右建了墻,根本無法施工

      觀威海
      2026-04-19 14:28:11
      這什么絕色神顏配OL裝

      這什么絕色神顏配OL裝

      貴圈真亂
      2026-04-19 11:31:11
      中俄關(guān)系比傳統(tǒng)“聯(lián)盟”更深厚、更可靠

      中俄關(guān)系比傳統(tǒng)“聯(lián)盟”更深厚、更可靠

      看看新聞Knews
      2026-04-19 08:36:10
      美國(guó)妹子崩潰大哭:借9.6萬美元上大學(xué),已還16.5萬,還欠22萬

      美國(guó)妹子崩潰大哭:借9.6萬美元上大學(xué),已還16.5萬,還欠22萬

      賤議你讀史
      2026-04-19 04:30:07
      博士生過剩,高校裝不下了

      博士生過剩,高校裝不下了

      麥可思研究
      2026-04-19 17:10:25
      英超天王山戰(zhàn):曼城2比1阿森納,多納魯馬超巨失誤送禮,謝爾基、哈蘭德建功

      英超天王山戰(zhàn):曼城2比1阿森納,多納魯馬超巨失誤送禮,謝爾基、哈蘭德建功

      足球報(bào)
      2026-04-20 01:33:26
      央視揭露:美國(guó)1年投1300萬美元在中國(guó)搞“滲透”,俄羅斯、伊朗、古巴也是重點(diǎn)目標(biāo);細(xì)節(jié)曝光

      央視揭露:美國(guó)1年投1300萬美元在中國(guó)搞“滲透”,俄羅斯、伊朗、古巴也是重點(diǎn)目標(biāo);細(xì)節(jié)曝光

      極目新聞
      2026-04-19 11:39:23
      中國(guó)智慧!張雪機(jī)車一腳壓線把名次壓賺了 車手:犯規(guī)但拿到13分

      中國(guó)智慧!張雪機(jī)車一腳壓線把名次壓賺了 車手:犯規(guī)但拿到13分

      念洲
      2026-04-19 07:39:14
      罕見!黃仁勛談芯片禁售突然情緒失控:你不是在和一個(gè)Loser說話

      罕見!黃仁勛談芯片禁售突然情緒失控:你不是在和一個(gè)Loser說話

      DeepAuto車探
      2026-04-19 20:37:54
      4月19日最新油價(jià),國(guó)際油價(jià)大降21.8%,國(guó)內(nèi)汽柴油“顯著”下跌中

      4月19日最新油價(jià),國(guó)際油價(jià)大降21.8%,國(guó)內(nèi)汽柴油“顯著”下跌中

      豬友巴巴
      2026-04-19 17:30:03
      中方行使否決權(quán),新加坡深表失望,新國(guó)大使發(fā)難:應(yīng)廢除一票否決

      中方行使否決權(quán),新加坡深表失望,新國(guó)大使發(fā)難:應(yīng)廢除一票否決

      書紀(jì)文譚
      2026-04-19 16:41:29
      價(jià)格暴漲650%!產(chǎn)銷量暴增500%!這一市場(chǎng)被引爆

      價(jià)格暴漲650%!產(chǎn)銷量暴增500%!這一市場(chǎng)被引爆

      環(huán)球網(wǎng)資訊
      2026-04-19 07:26:59
      特朗普:美伊明晚談判;由于安全原因,萬斯將不參加美伊再次談判

      特朗普:美伊明晚談判;由于安全原因,萬斯將不參加美伊再次談判

      愛看劇的阿峰
      2026-04-20 00:05:15
      美代表團(tuán)抵達(dá)巴基斯坦 不接受協(xié)議就轟炸! 伊朗未證實(shí)復(fù)談

      美代表團(tuán)抵達(dá)巴基斯坦 不接受協(xié)議就轟炸! 伊朗未證實(shí)復(fù)談

      每日經(jīng)濟(jì)新聞
      2026-04-19 21:49:14
      2026-04-20 02:35:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8048文章數(shù) 562關(guān)注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

      頭條要聞

      半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

      頭條要聞

      半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      何潤(rùn)東漲粉百萬!內(nèi)娛隔空掀桌第一人

      財(cái)經(jīng)要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態(tài)度原創(chuàng)

      健康
      旅游
      房產(chǎn)
      公開課
      軍事航空

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      旅游要聞

      北京投入2.2億元建成和田“三館一院”

      房產(chǎn)要聞

      官宣簽約最強(qiáng)城更!??跇鞘?,突然殺入神秘房企!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗逼退美掃雷艇:美方求給15分鐘撤退

      無障礙瀏覽 進(jìn)入關(guān)懷版