米哈游蔡浩宇的AI公司Anuttacon,首個視頻模型正式曝光!
Anuttacon技術(shù)團(tuán)隊成員@Ailing Zeng,在X上展示了全新視頻角色表演生成模型——LPM 1.0。
主打一個讓AI角色人物表現(xiàn)得更《出神入化》~
![]()
大家先看下面這位AI小哥,生動演繹了一場16秒變換N種情緒的超絕大戲,你就說這情緒拿捏到不到位吧:
不僅如此,在LPM 1.0模型中,連讓AI人物「聽別人說話」這事兒也同步進(jìn)化了。(天吶.jpg)
哪怕不張口、只是安靜坐著當(dāng)一個認(rèn)真聆聽的人,角色的表情、眼神和情緒反饋也都在線,這情緒價值給的:
此外,我們還可以和AI進(jìn)行「實時互動」。
只要對著電腦屏幕說一句自己的甲方需求,屏幕里的AI角色就能夠根據(jù)指令當(dāng)下做出反應(yīng)。
哪怕是在長時間交互下,依舊能保證人物形象穩(wěn)定一致,be like:
表情如此之自然、情緒如此之到位、交互如此之實時,網(wǎng)友直接就是一個《坐不住》,直言:
實時、支持無限長度的AI角色終于來了!!!(大聲.jpg)
![]()
(說真的,我大早上在官網(wǎng)看了這幾個demo效果后,屬實快分不出來AI不AI了…)
LPM 1.0:主打一個讓AI角色變「戲精」
其實對今天的AI視頻產(chǎn)品來說,能把人物角色的表情生動演繹出來,早就不算什么新鮮事了。
但是LPM 1.0模型特殊就特殊在吧——
我們能通過文本、音頻和圖像三種多模態(tài)形式,輕松生成一個能實時對話、會聽會說、還能持續(xù)保持人物一致性的動態(tài)角色。
讓AI角色在視頻里,更會演、更會聽、更會說,還能一直像同一個人~
![]()
我也幫友友們淺淺總結(jié)了一下LPM 1.0模型最核心的幾大「能力亮點」:
超絕情緒演繹能力:能同步生成說話、傾聽、微表情和自然動作,情緒表演更到位。
實時視頻生成能力:通過在線生成器,用戶能實現(xiàn)和AI角色實現(xiàn)實時交互,適合做對話型角色。
根據(jù)對方說話做出反應(yīng)的能力:角色可以一邊聽用戶說話一邊做出表情反應(yīng),等輪到角色回答時,它再根據(jù)合成語音生成說話視頻。
長時間人物一致性:哪怕和AI的互動時間延長之后,AI角色依舊盡量維持同一個人的外觀和身份特征。
emm…這些能力是不是聽上去有點乏味?沒關(guān)系,我們直接讓AI演員們上才藝!
先來說說大家很感興趣也很有意思的——「超絕情緒演繹能力」。
具體來說,模型在口型同步、呼吸節(jié)奏、情緒表達(dá)維度上的表現(xiàn)更貼近人類的表現(xiàn)方式,呈現(xiàn)效果也就更有層次。
比如在下面這個堪比好萊塢大片的視頻,兩位男子僅僅在幾秒鐘的時間,就生動演繹出了多個神態(tài)——
前一秒還是猶豫和遲疑,下一秒就出現(xiàn)抿嘴、咬牙、嘆氣這類更細(xì)小的動作,能讓人明顯感受到心理狀態(tài)在變化。
(老戲骨啊老戲骨,建議送去參加AI版《演員的誕生》!)
再看下面這位老哥,短短9秒時間里,驚恐、緊張、憤怒幾種情緒接連切換,整個過程還挺有壓迫感??
此外不知道大家發(fā)沒發(fā)現(xiàn),當(dāng)人物在說到重音位置時,嘴部開合幅度、面部發(fā)力方式也會跟著增強(qiáng)。
臺詞重心和表演重心是對得上的,融合度可以說是非常不錯,be like:
除了對著鏡頭完成這類單人表演,LPM 1.0還有個更有意思的能力——
那就是角色在「傾聽別人說話」時,會同步給出與當(dāng)下情境相符的的表情和狀態(tài)反饋。
讓你覺得,眼前這個AI…好像真的在賽博世界和另一個人真實互動。
比如下面這個女人接孩子電話的片段。
當(dāng)她聽到電話那頭的聲音時,第一時間先是眼神變化,隨后眼睛微微睜大,帶出一點意外和牽掛,緊接著眉頭收緊,像是在迅速判斷電腦那頭孩子是不是遇到了什么事。
emm…整段反應(yīng)很像真人接電話時那種「邊聽邊消化信息」的狀態(tài):
再看下面這個神情已經(jīng)有點略微煩躁的男子。
對方一開口,他的臉上就同步出現(xiàn)了扶頭、疲憊、輕微不耐煩這些反應(yīng),整個人的狀態(tài)像是在強(qiáng)撐著把這段話聽完。
(像極了我們上班開會聽老板講話時候的表情…狠狠共鳴住了。)
除了上面我們展示的這些單向視頻生成能力外,LPM 1.0還有一個非常值得一提的能力——
那就是我們能與AI角色「實時互動」。
例如你說話時,角色會實時做出正在聽的表情和動作,讓整個互動看起來會更像真人視頻通話。
比如下面這個demo,在視頻對話器中,女子只張口說了句「let’s sing a song」,屏幕里的AI女孩就能做到立刻開始大展歌喉~
再比如,只說一句「請你做個自我介紹」,屏幕里的AI女孩也能快速做出相關(guān)反應(yīng),更接近真實交流該有的節(jié)奏:
最后我們來說說LPM 1.0長時間視頻生成中能力。
具體來說,LPM 1.0能夠讓AI角色在長時間互動里依舊保持穩(wěn)定輸出,既能持續(xù)對話,也能長時間講故事,人物形象還不容易崩。
比如像下面官方案例中22分鐘、48分鐘的視頻也能輕松生成,而且角色形象一致性依舊保持不錯~
![]()
LPM 1.0為啥這么會「演」?
能讓賽博世界里的人物角色表情神態(tài)和交互能力如此到位,LPM 1.0背后的技術(shù)架構(gòu)自然也不簡單。
我先給大家小小科普一下,其實目前行業(yè)內(nèi)的視頻模型,一直很難同時兼顧三件事兒——
那就是表現(xiàn)力、實時性、長視頻的角色一致性。
這三項能力可以說是彼此牽制,水火不相容,這也構(gòu)成了當(dāng)下AI視頻最核心難題之一…
而為了解決這個大難點,LPM 1.0團(tuán)隊先是構(gòu)建了一套以人為中心的多模態(tài)數(shù)據(jù)集——
在這個過程中加入了表演理解,身份感知等多種參考信息內(nèi)容,目的是讓AI角色更像真人交流時的狀態(tài)。
![]()
在此基礎(chǔ)上,團(tuán)隊又給底層架構(gòu)直接上了一套有著170億參數(shù)的擴(kuò)散Transformer。
這套架構(gòu)更擅長處理視頻里空間與時間之間的復(fù)雜關(guān)聯(lián),能借助強(qiáng)大的自注意力機(jī)制,把人物表情、口型、動作,以及前后幀之間的連續(xù)關(guān)系一起建模。
這樣一來模型就能知道到底怎么演才能更自然更像人類~
而至于我們在剛才看到的能實時交互的模擬器,則是一個因果式流生成器,專門用于實現(xiàn)低延遲、可持續(xù)、無限長度的實時交互。
這樣一來我們就和AI角人物進(jìn)行實時交流了!(暗笑.jpg)
![]()
除了模型本身的能力外,LPM 1.0團(tuán)隊成員同樣值得關(guān)注。
此次在X上披露LPM 1.0模型的@Ailing Zeng,身份為Anuttacon的技術(shù)團(tuán)隊成員,主要負(fù)責(zé)互動多模態(tài)視頻生成模型的相關(guān)研究。
她博士畢業(yè)于香港中文大學(xué),在加入Anuttacon之前,曾在騰訊混元團(tuán)隊和IDEA從事大模型相關(guān)研究。
![]()
此外,該模型的技術(shù)論文由20+位研究人員共同參與完成,感興趣的uu可通過下方論文鏈接了解模型的詳細(xì)技術(shù)內(nèi)容~
![]()
Ps:目前,模型還沒有正式對外上線,感興趣的朋友可以蹲蹲。
[1]https://arxiv.org/html/2604.07823v1
[2]https://large-performance-model.github.io/#
文章來源:量子位。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.