網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

螞蟻開源世界模型叫板谷歌Genie3，一張圖生成10分鐘穩(wěn)定長(zhǎng)視頻

2026-01-29 19:08:50　來源: 智東西

北京舉報(bào)

分享至

智東西
作者王涵
編輯云鵬

智東西1月29日?qǐng)?bào)道，今天，螞蟻靈波科技發(fā)布并開源了世界模型LingBot-World。該模型是一個(gè)專為交互式世界模型設(shè)計(jì)的開源框架。其核心LingBot-World-Base能夠提供高保真、可控制且邏輯一致的模擬環(huán)境。

LingBot-World由一個(gè)可擴(kuò)展數(shù)據(jù)引擎驅(qū)動(dòng)，通過從大規(guī)模游戲環(huán)境中學(xué)習(xí)物理規(guī)律與因果關(guān)系，可以實(shí)現(xiàn)與生成世界的實(shí)時(shí)交互。

該模型在視頻質(zhì)量、動(dòng)態(tài)程度、長(zhǎng)時(shí)一致性、交互能力等關(guān)鍵指標(biāo)上均逼近谷歌Genie 3。

▲LingBot-World能力表

體驗(yàn)地址：

https://technology.robbyant.com/lingbot-worldModel

開源地址：

Hugging Face：

https://huggingface.co/collections/robbyant/lingbot-world

魔搭社區(qū)：

https://www.modelscope.cn/collections/Robbyant/LingBot-world

Github：

https://github.com/Robbyant/lingbot-worldTech

技術(shù)報(bào)告：

https://github.com/robbyant/lingbot-world/blob/main/LingBot_World_paper.pdf

一、近十分鐘穩(wěn)定生成，鏡頭移開60s還能保持一致

針對(duì)視頻生成中最常見的“長(zhǎng)時(shí)漂移”問題即生成時(shí)間一長(zhǎng)就可能出現(xiàn)物體變形、細(xì)節(jié)塌陷、主體消失或場(chǎng)景結(jié)構(gòu)崩壞等現(xiàn)象，LingBot-World通過多階段訓(xùn)練以及并行化加速，實(shí)現(xiàn)了近10分鐘的連續(xù)穩(wěn)定無損生成，為長(zhǎng)序列、多步驟的復(fù)雜任務(wù)訓(xùn)練提供支撐。

▲一致性壓力測(cè)試，鏡頭最長(zhǎng)移開60秒后返回，目標(biāo)物體仍存在且結(jié)構(gòu)一致

▲高動(dòng)態(tài)環(huán)境下，鏡頭長(zhǎng)時(shí)間移開后返回，車輛形態(tài)外觀仍保持一致

▲鏡頭長(zhǎng)時(shí)間移開后返回，房屋仍存在且結(jié)構(gòu)一致

交互性能上，LingBot-World可實(shí)現(xiàn)約16 FPS的生成吞吐，并將端到端交互延遲控制在1秒以內(nèi)。用戶可通過鍵盤或鼠標(biāo)實(shí)時(shí)控制角色與相機(jī)視角，畫面隨指令即時(shí)反饋。

用戶可以通過文本指令觸發(fā)環(huán)境變化與世界事件，例如調(diào)整天氣、切換畫面風(fēng)格或生成特定事件等，且所有變化均可在保持場(chǎng)景幾何關(guān)系相對(duì)穩(wěn)定的前提下完成。

二、支持長(zhǎng)程任務(wù)訓(xùn)練，與場(chǎng)景多樣化生成

為解決世界模型訓(xùn)練中高質(zhì)量交互數(shù)據(jù)匱乏的問題，LingBot-World采用了混合采集策略：

一方面通過清洗大規(guī)模的網(wǎng)絡(luò)視頻以覆蓋多樣化的場(chǎng)景，另一方面結(jié)合游戲采集與虛幻引擎（UE）合成管線，從渲染層直接提取無UI干擾的純凈畫面，并同步記錄操作指令與相機(jī)位姿，為模型學(xué)習(xí)“動(dòng)作如何改變環(huán)境”提供對(duì)齊的訓(xùn)練信號(hào)。

得益于此，LingBot-World具備了良好的Zero-shot泛化能力。僅需輸入一張真實(shí)的城市街景照片或游戲截圖，模型即可生成對(duì)應(yīng)的可交互視頻流，無需針對(duì)單一場(chǎng)景進(jìn)行額外訓(xùn)練，降低了在不同場(chǎng)景中的部署與使用成本。

▲機(jī)器人穿梭在城市之間

具身智能的規(guī)模化落地還面臨一個(gè)核心挑戰(zhàn)，那就是復(fù)雜長(zhǎng)程任務(wù)的真機(jī)訓(xùn)練數(shù)據(jù)極度稀缺。

LingBot-World憑借長(zhǎng)時(shí)序一致性、實(shí)時(shí)交互響應(yīng)，以及對(duì)“動(dòng)作-環(huán)境變化”因果關(guān)系的理解，能夠在數(shù)字世界中“想象”物理世界，為智能體的場(chǎng)景理解和長(zhǎng)程任務(wù)執(zhí)行提供了一個(gè)低成本、高保真的試錯(cuò)空間。

同時(shí)，LingBot-World還支持場(chǎng)景多樣化生成，可以改變光照、擺放位置變化等，此功能也有助于提升具身智能算法在真實(shí)場(chǎng)景中的泛化能力。

結(jié)語(yǔ)：螞蟻補(bǔ)全物理感知拼圖

螞蟻連續(xù)發(fā)布三款“靈波”系列具身領(lǐng)域大模型，其通用人工智能（AGI）戰(zhàn)略由此完成從數(shù)字世界向物理感知層面的關(guān)鍵延伸，也讓其“基礎(chǔ)模型 – 通用應(yīng)用 – 實(shí)體交互” 的全棧技術(shù)路徑進(jìn)一步清晰。

從行業(yè)視角看，世界模型正成為連接生成式AI與具身智能的關(guān)鍵橋梁。LingBot-World在長(zhǎng)序列生成與零樣本泛化方面的能力，若能在實(shí)際應(yīng)用中驗(yàn)證，或可推動(dòng)相關(guān)領(lǐng)域從有限場(chǎng)景訓(xùn)練向開放場(chǎng)景適應(yīng)的演進(jìn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.