網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

不是，怎么有模型叫“老婆們”，還能視頻通話啊？

2026-04-17 00:09:07　來(lái)源: 差評(píng)XPIN

浙江舉報(bào)

分享至

“2030 年，打造出全球十億人愿意生活在其中的虛擬世界。”

這是三年前米哈游喊出的口號(hào)，世超當(dāng)初聽(tīng)著也是小小激動(dòng)了一把，但近幾年好像都沒(méi)啥動(dòng)靜了，也就覺(jué)得這不過(guò)是給咱二次元畫(huà)的餅罷了。。。

但所謂“ 技術(shù)宅拯救世界 ”，米哈游在中二這方面從不讓人失望，前些天一個(gè)叫“LPM-1.0”的模型新鮮出爐，讓咱跟這張餅的距離又近了點(diǎn)兒。

LPM-1.0 （Large Performance Model）即大表演模型，由人工智能公司 Anuttacon 訓(xùn)練，背后正是米哈游聯(lián)合創(chuàng)始人蔡浩宇。

而在這次的視頻模型之前，他們還推出過(guò)二次元風(fēng)格非常濃郁的聊天模型“AnunNeko”，以及 AI 驅(qū)動(dòng)的游戲“Whispers from the Star”。

這游戲隔壁的小發(fā)還玩兒過(guò)：，挺特殊的。

從這些產(chǎn)品的定位也能看出，Anuttacon 的初衷就是做 AI + 游戲的一些前沿嘗試。

所以這次的 LPM-1.0 也不例外，你看名字，LPM 不就是“老婆們”么，這模型就是朝著把你的二次元老婆們復(fù)活來(lái)的。

蔡喵就是蔡浩宇

當(dāng)然，玩笑歸玩笑，模型能力從官網(wǎng)放出的展示來(lái)看，可是一點(diǎn)兒不胡鬧，其中讓人印象最深的就是這非常絲滑的實(shí)時(shí)對(duì)話了。

演示里根據(jù)之前米家的虛擬角色形象“鹿鳴”構(gòu)建了個(gè)真人版，可以在網(wǎng)頁(yè)中和她實(shí)時(shí)對(duì)話。

這里切換語(yǔ)言到中文后，讓她推薦二次元游戲，可以看到回答的效果非常自然，雖然播音腔濃厚了點(diǎn)，但聲音和表情的對(duì)應(yīng)是融洽的。

而且不同于一般的視頻模型，這里的展示是有一種互動(dòng)性，能持續(xù)進(jìn)行的。

這就是它的特殊之處了，LPM-1.0 的核心定位不是一次性的生成，而是持續(xù)性的表演，讓對(duì)話變得具有交互感。

所以與其說(shuō)它是視頻生成模型，倒不如說(shuō)它更像是之前數(shù)字人技術(shù)的升級(jí)版。

數(shù)字人其實(shí)大伙兒也不陌生，只要點(diǎn)開(kāi)過(guò)上面這種直播間，里面的主播就是數(shù)字人，輸入指令，你甚至能讓主播“喵”一百聲。。。

別看上面這位口型都對(duì)不準(zhǔn)，背后燒的 Token 可不少。

為了支撐她跟觀眾實(shí)時(shí)互動(dòng)，后臺(tái)需要一個(gè)低延遲語(yǔ)音對(duì)話 Agent，加上一套實(shí)時(shí)說(shuō)話的人臉生成系統(tǒng)，還得再套一層直播推流和運(yùn)營(yíng)控制臺(tái)，非常繁瑣。

而這次的 LPM-1.0 直接將前兩個(gè)部分整合了一下，直播互動(dòng)更方便了。

官方也直接告訴大伙兒，模型主打的就是無(wú)限的視頻生成時(shí)長(zhǎng)，只要你想，這對(duì)話能一直進(jìn)行下去。。。

既然是跟數(shù)字人技術(shù)對(duì)比，正好之前也有快手的 KlingAvatar-2.0 和字節(jié)的 OminiHuman 15，都是同類的生成模型，放在一起就能看出 LPM-1.0 的質(zhì)量怎么樣了。

這次的 LPM 模型分了兩種，一種是離線的 Base 模型，和普通的視頻模型一樣，給定提示詞去生成視頻；另一種就是 Online 模型，就是最開(kāi)始演示的那樣，具有交互感，實(shí)時(shí)生成的模型了。

這里先拿離線的 Base 基礎(chǔ)模型來(lái)舉例，生成 720p 分辨率的仿直播視頻，別的不說(shuō)，就“活人感”這方面還是很出色的。

在對(duì)比視頻里，最左邊的 LPM-1.0 跟另外幾個(gè)模型相比，生成時(shí)間更長(zhǎng)，持續(xù)性以及面部表情都更加自然。

一方面，人物能夠根據(jù)說(shuō)的話配合一些肢體動(dòng)作；另一方面，跟音頻的配合也更緊密，不會(huì)像其他模型那樣被背景音樂(lè)干擾，去跟不屬于角色的聲音對(duì)嘴型。

不過(guò)美中不足的是，當(dāng)切換到實(shí)時(shí)生成的 Online 模型，還原真實(shí)直播場(chǎng)景時(shí)，效果就打了個(gè)折。

比如下面官方給的 Demo，就只有 480p 的分辨率，雖然看著還行，但確實(shí)不如離線模型生成的穩(wěn)定，動(dòng)作大點(diǎn)就容易看出 AI 感。

再來(lái)看模型刻在名字里的表演，放到生成的視頻里，就是看人物的表情動(dòng)作和情緒變化對(duì)不對(duì)得上。

畢竟咱也刷到過(guò)那種用力過(guò)猛的，或者動(dòng)作肌無(wú)力的，只要表演的度把握不好，就容易出現(xiàn)偽人感。

看 Demo 對(duì)多種情緒的展示，絕望憤怒等情緒中規(guī)中矩，但一些波動(dòng)比較小的情緒，像悲傷或者沮喪，面部細(xì)節(jié)還挺多的，表現(xiàn)的效果也非常自然。

不過(guò)，表演這塊兒人類還是很挑剔的，再加上蘿卜青菜各有所愛(ài)，所以到底哪種程度剛剛好咱也說(shuō)不太準(zhǔn)兒。

但要是后面能給一些更細(xì)的，更可控的參數(shù)選項(xiàng)，這發(fā)揮空間就更大了。

那這么好玩兒的模型，Anuttacon 是怎么搓出來(lái)的呢？

其實(shí)這得歸功于 LPM 新的流式架構(gòu)了，這架構(gòu)非常靈活，而參數(shù)大概在 17B（170 億）左右，原生支持文本，語(yǔ)音和圖片輸入，原理上后期也能拓展到視頻輸入。

至于模型最重要的視覺(jué)能力，Anuttacon 則走了個(gè)捷徑，訓(xùn)練時(shí)是在阿里的開(kāi)源模型 Wan 2.1-I2V 上的，效果拔群。

這也是開(kāi)源的好處，節(jié)省出這些造輪子的功夫，也好給咱帶來(lái)更多好活兒。

除此之外，模型還原生支持“全雙工”的自然對(duì)話，就是既有“聽(tīng)”的反饋，又有“說(shuō)”的表演。

這依賴于新引入的交替式雙音頻注入機(jī)制：模型內(nèi)部的偶數(shù)層處理說(shuō)話音頻，奇數(shù)層處理傾聽(tīng)音頻。

說(shuō)大白話就是把對(duì)話音頻拆成兩部分處理，一部分負(fù)責(zé)體現(xiàn)聆聽(tīng)，另一部分負(fù)責(zé)表演說(shuō)話，將交互拆成不同內(nèi)容進(jìn)行處理，更細(xì)了，也就更自然了。

當(dāng)然，模型輸出的形式還是視頻，所以和視頻模型一樣，怎么控制人物主體的一致性還是必須要解決的難題。

從模型的技術(shù)報(bào)告里能看出，他們的方案是不依賴單張圖片，而是拿 1 張全局圖、1-4 個(gè)身體多視角圖、1-8 種面部表情圖綜合起來(lái)控制。

除了加多參考圖，模型內(nèi)部還特意對(duì)表情圖和視角圖進(jìn)行了特征區(qū)分，換句話說(shuō)就是模型在生成視頻時(shí)，能認(rèn)出特征的不同類型，不容易因?yàn)樘卣鳑_突而陷入混亂。

而在這些基礎(chǔ)上，還有一堆注意力細(xì)節(jié)的調(diào)控，以及特征錨點(diǎn)的設(shè)置，總之就是拼盡全力去確保人物做動(dòng)作時(shí)不變形。

當(dāng)然，由于這模型演示的場(chǎng)景人物動(dòng)作的幅度都比較小，樣本不多，所以其他情況的效果還有待實(shí)測(cè)，只能看后續(xù)有沒(méi)有其他模型按這個(gè)思路試試了。

那對(duì)話有了，人物也一致了，延遲是怎么降下來(lái)的呢？

其實(shí)也不復(fù)雜，就是先拿主干模型生成粗略的草稿，再拿細(xì)化模型填補(bǔ)面部和動(dòng)作細(xì)節(jié)，分工明確，流水線式生成。

這么一來(lái)，推理步驟被壓縮成了 2+1，一共才三步，再加上一些流式編碼和并發(fā)執(zhí)行技術(shù)，整個(gè)對(duì)話過(guò)程的延遲被大幅降低。

在技術(shù)報(bào)告里，他們還透露了具體的架構(gòu)，就是用主干（Backbone）加細(xì)化（Refiner）的方式將原來(lái)龐大的擴(kuò)散模型轉(zhuǎn)換成了簡(jiǎn)單的自回歸網(wǎng)絡(luò)。

而有了這些技術(shù)的助力，也就能支撐 LPM-1.0 去無(wú)限時(shí)長(zhǎng)的實(shí)時(shí)（低延遲）對(duì)話了。

當(dāng)然，以上這些咱也只是云了一波，因?yàn)檫@次的發(fā)布并不是模型或者產(chǎn)品的發(fā)布，只是技術(shù)和樣例的展示。

換句話說(shuō)，雖然一些技術(shù)思路以及視頻的效果都挺亮眼，但咱還用不到，而且到手里用起來(lái)具體什么樣也是未知。

不過(guò)就上面展示的效果來(lái)看，喜歡看直播的家人們有福了，因?yàn)橐院笃聊磺翱雌饋?lái)形形色色的主播，后面坐著的可能連人都不是了。。。

撰文：風(fēng)華

編輯：早起 & 江江 & 面線

美編：煥妍

圖片、資料來(lái)源：

LPM技術(shù)報(bào)告，NVIDIA官網(wǎng)，X，小紅書(shū)，知乎，網(wǎng)絡(luò)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

柬埔寨國(guó)王在京手術(shù) 洪森攜子看望：感謝中方

魯中晨報(bào) 2026-04-22 08:56:05
2 跟貼 2
美方已與古巴會(huì)談：要求古巴引入"星鏈" 釋放政治犯

魯中晨報(bào) 2026-04-21 09:56:06
15299 跟貼 15299

湖北松滋市教育局通報(bào)“某學(xué)校要求走讀生將背包改為透明書(shū)袋”：已責(zé)令涉事學(xué)校立即糾正、認(rèn)真整改

環(huán)球網(wǎng)資訊 2026-04-21 12:17:57
8135 跟貼 8135

大爺駕駛MPV強(qiáng)穿掛壁公路，出來(lái)時(shí)全車被刮花

荔枝新聞 2026-04-22 05:14:55
57 跟貼 57
寧德時(shí)代麒麟凝聚態(tài)電池發(fā)布，最高續(xù)航1500公里

新京報(bào) 2026-04-21 20:38:22
1247 跟貼 1247

“領(lǐng)小姐姐看電影不買(mǎi)吃喝好意思么”，山東臨沂一影院條幅令人不適，當(dāng)?shù)兀阂岩筇幚?/a>

瀟湘晨報(bào) 2026-04-21 16:44:21
859 跟貼 859

格力回應(yīng)鋁線電機(jī)爭(zhēng)議：相關(guān)工程機(jī)已停產(chǎn)，海信稱靠多三兩銅多500元時(shí)代已終結(jié)

紅星資本局 2026-04-21 20:40:16
10 跟貼 10
男子爬上泰山“五岳獨(dú)尊”石刻拍照，景區(qū)：將核查其身份進(jìn)行處理

揚(yáng)子晚報(bào) 2026-04-17 12:09:40
1135 跟貼 1135

曹德旺現(xiàn)身福耀玻璃年度股東會(huì) 力挺兒子曹暉

每日經(jīng)濟(jì)新聞 2026-04-22 00:51:05
291 跟貼 291
中國(guó)軍艦大片震撼上新！“雷達(dá)一開(kāi)，其他都是透明的……”

環(huán)球網(wǎng)資訊 2026-04-22 09:00:22
0 跟貼 0
俄軍總參謀長(zhǎng)稱已完全控制盧甘斯克地區(qū)

財(cái)聯(lián)社 2026-04-21 17:16:23
1872 跟貼 1872
上海一家?jiàn)W樂(lè)齊超市銷售的經(jīng)典凱撒沙拉檢出李斯特菌國(guó)標(biāo)要求“不得檢出”

信網(wǎng) 2026-04-21 19:25:05
123 跟貼 123
黎巴嫩再成戰(zhàn)場(chǎng) 民眾：在這沒(méi)有人沒(méi)有失去過(guò)親近的人

新京報(bào) 2026-04-20 08:22:24
888 跟貼 888
小伙80萬(wàn)元開(kāi)面館十幾天倒閉，兩年后40萬(wàn)開(kāi)包子店，日營(yíng)業(yè)額過(guò)萬(wàn)正籌備第二家門(mén)店

極目新聞 2026-04-21 13:34:19
479 跟貼 479
80多年來(lái)首次放開(kāi)殺傷性武器出口日本邁出危險(xiǎn)的一步

上觀新聞 2026-04-21 21:18:03
1494 跟貼 1494
樓市去庫(kù)存成效正在顯現(xiàn)

經(jīng)濟(jì)日?qǐng)?bào) 2026-04-22 06:55:13
58 跟貼 58
經(jīng)濟(jì)大省調(diào)研行｜吞吐之間見(jiàn)活力——透視長(zhǎng)三角港口群的韌性支撐

新華社 2026-04-21 16:51:07
378 跟貼 378
可達(dá)5G的10倍全國(guó)首個(gè)Pre6G試驗(yàn)網(wǎng)在南京投入運(yùn)行

界面新聞 2026-04-21 16:08:31
1065 跟貼 1065
黑龍江國(guó)有林區(qū)：苗木產(chǎn)業(yè)激活森林經(jīng)濟(jì)新動(dòng)能

新華社 2026-04-22 10:32:10
10 跟貼 10
億縷陽(yáng)光｜在春天邂逅美好

環(huán)球網(wǎng)資訊 2026-04-21 20:39:50
140 跟貼 140
現(xiàn)代化道路上“一國(guó)都不能掉隊(duì)”，中國(guó)這樣踐諾篤行

中國(guó)網(wǎng) 2026-04-22 09:50:04
6 跟貼 6
上海最新確認(rèn)：涉事司機(jī)已被處罰！警方提醒：看到這個(gè)“小黑盒”立即舉報(bào)！

環(huán)球網(wǎng)資訊 2026-04-22 11:20:10
0 跟貼 0

差評(píng)XPIN

用知識(shí)和觀點(diǎn)Debug the world！

10612文章數(shù) 489596關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機(jī)

游戲

教育

健康

時(shí)尚

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

不是，怎么有模型叫“老婆們”，還能視頻通話啊？

魔獸世界：60版本最牌面的物理命中武器，誰(shuí)才是你心中的天花板？

牛彈琴：伊朗發(fā)出讓人毛骨悚然的警告 玩的就是心跳

牛彈琴：伊朗發(fā)出讓人毛骨悚然的警告 玩的就是心跳

一到NBA季后賽，四屆DPOY就成了主角

復(fù)婚無(wú)望！baby黃曉明陪小海綿零交流

伊朗拒絕出席 特朗普宣布延長(zhǎng)停火期限

凌晨突發(fā)！ChatGPT Images 2.0發(fā)布

四款全球首秀+AI落地 大眾汽車集團(tuán)在華轉(zhuǎn)型全面提速

態(tài)度原創(chuàng)

vivo Y600 Pro手機(jī)官宣4月27日發(fā)布，搭載10200mAh耐低溫電池

B社絕后神作真有過(guò)續(xù)作！慘遭腰斬 再無(wú)翻身之日

歡迎報(bào)考！開(kāi)封智慧健康職業(yè)學(xué)院2026單招報(bào)考指南

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

頂流復(fù)工，已判若兩人

牛彈琴：伊朗發(fā)出讓人毛骨悚然的警告玩的就是心跳

牛彈琴：伊朗發(fā)出讓人毛骨悚然的警告玩的就是心跳

伊朗拒絕出席特朗普宣布延長(zhǎng)停火期限

四款全球首秀+AI落地大眾汽車集團(tuán)在華轉(zhuǎn)型全面提速

B社絕后神作真有過(guò)續(xù)作！慘遭腰斬再無(wú)翻身之日