![]()
作者 | 姚戈
世界模型領域迎來了一個重要開源模型。
今天,螞蟻集團旗下的具身智能公司“螞蟻靈波”,正式發布并開源其通用世界模型 LingBot-World。與許多閉源方案不同,螞蟻靈波選擇全面開源代碼和模型權重,而且不綁定任何特定硬件或平臺。
去年 DeepMind 發布的 Genie 3,讓人們看到了世界模型能夠根據文本或圖像提示,實時生成一個可探索的動態虛擬世界。LingBot-World 沿襲了這條路線,并在交互能力、高動態穩定性、長時序連貫性以及物理一致性等維度取得了突破。
更令人驚喜的是,LingBot-World 呈現出從“生成”到“模擬”的跨越。隨著模型規模的擴大,靈波團隊觀察到,LingBot-World 開始表現出遠超普通視頻生成的復雜行為,涌現出對空間關系、時間連續性和物理規律的理解。
可以看到,鴨子腿部蹬水的動作、水面對擾動的響應、以及鴨子身體與水之間的相互作用都比較符合物理規律。
這顯示出模型不僅記住了視覺表象,還在某種程度上理解了流體力學等基礎物理機制。同時,水面對擾動的反應,顯示出模型對因果關系的理解。
用戶切換視角后再回來時,環境中的智能體(比如這只貓)仍能保持持久記憶。智能體即使沒有被觀察到,也能持續行動。這確保了當視角回歸時,世界狀態會自然推進。
當環境中智能體(這只貓)碰到沙發后,沒有穿透沙發,反而向空地走去。可以看到,LingBot-World 遵循了空間的邏輯,讓智能體運動具有物理的合理性。
這是一個長達 9 分 20 秒的視頻,沒有經過任何剪輯和拼貼。視頻為用戶第一視角,從一座破舊的古希臘神廟出發,沿城市小徑前行,經過一座新古典主義建筑,再向左進入一片復原的古希臘建筑群。
在近十分鐘內,畫面保持了較為穩定的物理狀態和視覺質量,這在目前的視頻生成模型和世界模型中都比較罕見。
不過,在視頻最后幾分鐘,建筑之間的位置關系似乎被模型遺忘了。在 7:00,新古典主義建筑和復原式古希臘建筑群是連接在一起的;但 7:31,從復原式古希臘建筑群望向新古典主義建筑時,新古典主義建筑消失了。8:30 回到新古典主義建筑時,它成為了一棟孤立的房子。
盡管存在這些細節瑕疵,LingBot-World 的進步依然顯著——單次生成接近 10 分鐘的連貫視頻,很可能刷新了當前視頻 / 世界模型的長度紀錄。作為對比,Veo 3 和 Sora 2 的單次生成上限分別為 8 秒和 25 秒,Runway Gen-3 Alpha 為 40 秒,Kling 最長支持 2 分鐘。
與其他交互世界模型相比,LingBot-World 在開源、提供 720p 分辨率的情況下,還保證了高動態程度和長生成跨度。
![]()
在 VBench 測試中,LingBot-World 全面領先于 Yume-1.5 和 HY World-1.5 等先進開源模型,證明了自己不僅是一個視頻生成器,更是一個強大的交互式模擬器。通過接收用戶輸入的動作指令,它能夠生成高度動態且物理一致的視覺反饋,保持在高動態度下的整體一致性,使視頻內容在長時間段內始終與最初的提示保持一致。
![]()
在看到大語言模型的局限后,世界模型成為火熱賽道。Google、李飛飛、Yann LeCun 以及眾多科學家紛紛指出,LLM 無法很好地理解物理世界、因果關系,而“世界模型”是 AI 走向真實物理世界深度理解的一個解。
至于“世界模型”究竟該長什么樣,行業至今尚無統一標準。
李飛飛的 Marble 正專注理解空間關系;英偉達把世界模型細分為預測模型、風格遷移模型、推理模型;DeepMind 團隊的 Genie 3,則試圖在同一個模型中,實現端到端的實時渲染。
路線的分歧,也反應了行業需求的多樣性,以及尋找解決方案的困難——無論是智能駕駛、具身智能,還是游戲,都在尋找各自需要的智能方案,以及合適的開發范式和入口。
螞蟻靈波的世界模型方案更接近 Genie 3,旨在成為一個通用模型,為 Agent、具身智能、游戲、仿真等領域提供理解世界物理規律的基礎設施平臺。
通過開源其訓練方法、模型權重等內容,螞蟻靈波不僅展示了其在具身智能領域的戰略布局,也為行業提供了探索世界模型更多可能性的契機,幫助降低驗證世界模型的門檻。
這一周,螞蟻靈波對外集中發布和開源模型研究成果,相繼發布并開源空間感知模型 LingBot-Depth、具身大模型 LingBot-VLA。
如今,隨著 LingBot-World 的發布,螞蟻靈波正從幕后走向臺前。螞蟻靈波的目標是打造一個開放、通用的智能基座,與越來越多行業和廠商共建生態。這一次,它用開源的方式,向世界拋出了自己的世界模型范式。
構建世界模型的夢想和努力
在深入探討螞蟻團隊通用世界模型的細節之前,我們需要花點時間,回顧一下 1990 年世界模型的開始。這將幫助我們更清楚地理解過去 30 多年中“世界模型”研究的變與不變、當前世界模型技術路線之爭的焦點,從而更好地理解螞蟻是在怎樣的方向和基礎上努力。
世界模型 40 年,變與不變
1990 年,強化學習領域奠基人、2024 圖靈獎獲得者 Richard S. Sutton 在人類認知學習過程的啟發下,在論文《Dyna, an Integrated Architecture for Learning, Planning, and Reacting》中提出了一個開創性架構:智能體不應只靠真實世界試錯學習,而應構建一個內部世界模型,在“腦海”中模擬動作后果,低成本地進行規劃與策略優化。
![]()
備注:圖片來自 Dyna 論文。圖片呈現的是 Dyna 框架的核心邏輯,智能體的目標是最大化其在時間維度上累積獲得的總獎勵。
在 Dyna 框架中,世界模型也被稱為動作模型,它被視為一個“黑盒子”,輸入當前的情境和動作,輸出對下一個情境和即時獎勵的預測。模型的作用是模擬現實世界,Agent 通過與現實世界的持續互動產生經驗,并利用這些經驗通過監督學習方法來改進模型,使其更接近真實的物理規律。
在 2026 年回顧這篇 36 年前的論文,會發現這份古早的研究為理解當下復雜的技術路線之爭提供了共同的根基——
對世界模型的探究,起源于對人類、機器,以及更廣泛的智能體如何學習和行動的好奇。
而“世界模型”作為一種方法,提出的解決方案是在模擬出的世界中,讓智能體學習、行動、獲得反饋和迭代。
Dyna 這篇論文的核心理念,成為了今天世界模型的研究的底層思路。
不管是 NVIDIA Cosmos、World labs、Google Genie,還是 LingBot-World,都沿襲了 Dyna 的核心理念:世界模型是為智能體提供“模擬經驗”的內部環境,使得智能體可以在一個虛擬的環境中進行規劃和策略訓練。
在不同方向的探索中,我們可以得到的共識是:世界模型從多樣化的輸入數據中學習對真實世界環境的內部表征,包括物理規律、空間動態和因果關系等。這些表征幫助模型預測未來狀態,模擬動作序列,并支持復雜的規劃與決策,而不需要反復進行真實世界的實驗。
36 年過去,我們正站在大語言模型的陰影和語境中討論世界模型。LLM 在理解真實物理世界、及模擬 / 預測未來后果等方面的局限,正加速科研和商業領域對世界模型的探索。
在 2025 年的一次訪談中,Dyna 的創作者 Richard S. Sutton 強調,LLM 已經走到了瓶頸。他指出,LLM 的核心缺陷在于,它們僅僅是在模仿人類行為,而無法理解世界、預測現實世界中的未來事件。他提倡放棄基于 LLM 的路徑,轉而開發基于強化學習、擁有世界轉換模型(Transition model of the world)。這種世界模型不僅能學習獎勵,還能從所有感官信息中獲取環境的豐富理解,最終能夠預測“如果做某事,后果將是什么”。
大語言模型在理解真實物理世界的不足,以及模擬 / 預測未來后果的不足,讓一批科學家轉向,在世界模型中尋找解法。
李飛飛認為 LLM 缺乏對物理世界的感知,提出“空間智能”(Spatial Intelligence)是 AI 的下一個北極星,AI 需要理解三維空間、幾何、物理規則以及因果關系,才能從“理解文本”邁向“理解并作用于物理世界”。
Yann LeCun 則批評 LLM 依賴文本概率預測,感知學習世界的方式背道而馳。為此,他推廣 JEPA(聯合嵌入預測架構),并成立 AMI Labs,通過世界模型的路徑實現 AGI,探索如何讓 AI 系統具備理解物理世界、持久記憶、邏輯推理以及復雜任務規劃能力。
DeepMind 聯合創始人兼 CEO Demis Hassabis 在今年 1 月的對談節目中強調,目前的 AI 系統還不能理解物理世界、因果關系、行為如何影響結果,而精確的世界模型是實現科學發現或理論創新的關鍵。他表示,Genie 這樣的模型還只是“胚胎期世界模型”,Genie 體現出的,生成關于世界的內容的能力,某種程度上體現了模型理解了世界的知識。
Google AI 團隊深度押注了世界模型的發展,并認為它會在 2026 年贏得重大發展。Hassabis 在談及 2026 年的突破和期待時提到,“最令我興奮的,莫過于進一步推動‘世界模型’的發展,提升其運行效率,從而使其能夠真正被用于我們通用模型中的‘規劃’環節。”這可能意味著,未來世界模型將融入 Gemini 這樣的基礎模型中。
世界模型的路線分歧
在探索 AGI 的道路時,螞蟻集團也看到了世界模型的潛力。
作為螞蟻集團旗下的具身智能企業,螞蟻靈波的定位是“智能基座公司”,致力于打造一個能夠理解世界、物理規律以及時空演化的 AI 系統。而世界模型正是實現這一目標的重要方式之一。
盡管各方都將世界模型視為未來的關鍵技術,然而不同公司選擇的路徑卻各不相同。總體上,這些路徑可以分為生成式和非生成式兩類,兩種路徑的核心區別在于預測空間。
NVIDIA Cosmos、DeepMind Genie 和 World Labs 都是生成式路徑的代表。
Cosmos 和 Genie 主要使用由像素構成的觀測空間,利用大規模高維視覺數據訓練,通過特定的時空架構設計,讓模型產生對三維物理世界的理解。Genie 3 官網中特別提到“Genie 3 的一致性是一種涌現能力……Genie 3 生成的世界更為動態和豐富,因為它們是基于世界描述和用戶動作逐幀創建的。”
World Labs 則另辟蹊徑,將預測空間設定為在 3D 空間中帶有位姿的幀,通過查詢待生成幀的位姿來生成新圖像。其發布的 RTFM 模型表明:“模型對世界的記憶(存儲在各個幀中)具備了空間結構;它將帶有位姿信息的幀視作一種‘空間存儲’,這賦予了模型一種弱先驗——即所建模的世界是三維歐幾里得空間,而無需強迫模型顯式預測該世界中的物體幾何結構。”
非生成路徑的代表是 Yann LeCun 的聯合嵌入預測架構(Joint Embedding Predictive Architecture, JEPA)。JEPA 通過編碼器將輸入轉化為潛空間(Latent Space),并在該空間內預測未來抽象表征(Embeddings),從而無需進行像素級的重建。
螞蟻靈波的 LingBot-World 選擇了類似 Genie 的路徑,試圖在此基礎上解決從視頻生成到世界模擬之間的技術障礙。
拆解 LingBot-World
在前文的案例和分析中,我們看到螞蟻靈波的 LingBot-World 沿襲了 Gienie 的生成式路線,同時在交互能力、高動態穩定性、長時序連貫性以及物理一致性上表現驚艷。
在此基礎上,螞蟻靈波選擇開源代碼和模型權重,并在論文中完整披露了從數據采集到訓練部署的全鏈路設計,鼓勵社區測試、使用和復現。
即使是在近 10 分鐘的超長視頻中、或是快速運動下,畫面中的物體依然保持了較為穩定的幾何物理特性,沒有出現視頻生成模型常見的崩壞。這種穩定性,源于其獨特的數據引擎和模型架構設計。
數據引擎
許多從視頻生成模型切入世界模型研發的團隊,很快會撞到數據瓶頸。
互聯網上浩如煙海的短視頻大多是“被動”記錄,缺乏因果鏈條。對于世界模型而言,它需要理解的是動作和后果之間的關系。
比如:“按下 W 鍵向前走,門是否會打開?”“繞到建筑背面,窗戶是否依然存在?”這類智能體動作與環境反饋之間的因果閉環,在普通視頻中幾乎不存在,在真實世界中規模化采集的成本也很高。
為了構建“動作 - 反饋”的閉環,LingBot-World 打造了從采集、處理到標注的流程。
LingBot-World 的數據包含通用視頻、游戲數據和合成渲染數據,以確保訓練語料的豐富性、高質量和交互性。為游戲數據,靈波團隊還開發了專門的平臺,捕獲 RGB 幀并嚴格對齊用戶的輸入和相機參數。合成數據由 Unreal Engine 生成,帶有精確相機數據和自定義軌跡。
![]()
備注:LingBot-World 數據處理和標注流程
在數據處理層面,靈波團隊首先對原始視頻進行質量篩選與切分,生成結構清晰的視頻片段;然后借助 VLM 視頻的視覺質量、場景類型和視角等,結合幾何標注提供必要的 3D 結構先驗,產出元數據。
在此基礎上,團隊引入三種不同粒度的描述標注,涵蓋視頻全過程的宏觀描述、去除了動作和相機數據的靜態描寫,以及帶有時間標注的描述。
模型構建和訓練
LingBot-World 將世界模型定義為一個條件生成過程,模擬由智能體動作驅動的視覺狀態演化。
從模型構建和訓練過程,我們可以看到,LingBot-World 是從“視頻生成模型”起步,通過不同階段訓練,讓模型從“生成”走向“模擬”。
從目標函數上看,這種模擬本質上是一種概率預測 。
LingBot-World 的目標函數明確表達了這一思想:
即在最大化給定歷史幀 ( ) 和動作序列 ( ) 的條件下,預測下一幀狀態 ( ) 的似然概率。
簡單來說,就是讓模型學會根據過去看到的畫面和執行過的動作,盡可能準確地預測下一幀畫面。
為了避免直接從零訓練導致的計算開銷和模式崩塌,LingBot-World 采取了分階段的訓練策略。
預訓練負責建立穩健的通用視頻先驗,確保高保真開放域生成;中訓練注入世界知識和動作可控性,使模型能夠模擬具有一致交互邏輯的長期堅持動態;后訓練使架構適應實時交互,采用因果注意力和少步蒸餾以實現低延遲和嚴格因果性。
![]()
備注:LingBot-World 模型訓練流程。
從“生成視頻”到“模擬世界”,LingBot-World 帶來的可能性
LingBot-World 的意義絕不僅在于生成一段精美的視頻,而在于它提供了一個高保真的物理交互沙盒,成為具身智能、自動駕駛與虛擬現實等下游任務的通用基礎設施。
LingBot-World 最直觀的突破在于它賦予了通過自然語言控制模擬過程。例如,通過輸入“冬季”或“夜晚”,模型會渲染出城堡結冰或夜晚燈光變化的物理效果,同時支持向“像素風”或“蒸汽朋克”等風格的切換。還可以在具體場景中精確注入特定物體。例如,在城堡上空觸發煙花,或在噴泉中生成魚和鳥。
備注:在環境中生成煙花效果
備注:改變環境整體風格
在自動駕駛訓練中,這種能力極具價值。算法團隊可以人為制造“鬼探頭”、極端天氣或突發交通沖突,構建出嚴苛的因果推理環境,從而低成本地解決智駕中的長尾問題。
深層物理特性的穩定性,則為這種模擬提供了實際應用的底座。得益于模型展現的長程記憶,生成的視頻序列具備了較高的 3D 一致性,這使得視覺信息可以直接轉化為場景點云,從而服務于 3D 重建或高精度仿真任務。
備注:LingBot-World 具有很好的 3D 一致性。可以看到,視角變化的情況下,房間結構和物理性狀仍然保持穩定。
這種穩定性試圖觸及具身智能訓練中的一個核心痛點:機器人的導航或復雜操作往往涉及跨越長時序的決策序列。LingBot-World 展現的 10 分鐘級別生成能力,在理論上為多步驟任務提供了更穩定的物理一致性。如果這種長程模擬能有效控制累積誤差,將有助于機器人在虛擬環境中進行高頻次、深度、低成本試錯。
在此基礎上,LingBot-World 與 LingBot-VLA(視覺 - 語言 - 動作模型)的結合,勾勒出了一種具身大腦的閉環方案。在這種設定下,世界模型充當了機器人的“內部模擬器”:在 VLA 模型輸出最終指令前,系統可以在虛擬空間中先行演練不同的動作軌跡,評估其物理后果,從而篩選出更符合物理規律且具備安全性的執行路徑。
令人驚喜的是,利用訓練 LingBot-World 的數據,螞蟻靈波團隊還微調出了動作智能體。智能體可以被置于 LingBot-World 打造的環境中,Agent 的動作改變會實時重塑環境狀態,而環境的演變則反過來決定 Agent 的下一步決策。
備注:靈波團隊利用 LingBot-World 相同數據訓練處的自主智能體,能在生成的世界中自主規劃并執行動作。
這種互動揭示了世界模型在“模擬沙盒”之外的另一種可能——它不僅能理解環境對智能體變化的響應,也具備預測智能體動作流的能力。
這意味著,世界模型未來或許不僅僅是訓練智能體的工具,也有可能成為驅動智能體(包括機器人)的底座。
項目官網:
https://technology.robbyant.com/lingbot-world
論文連接:
https://arxiv.org/abs/2601.20540
代碼和模型權重下載:
https://github.com/robbyant/lingbot-world
https://huggingface.co/robbyant/lingbot-world
https://www.modelscope.cn/models/Robbyant/lingbot-world-base-cam
會議推薦
InfoQ 2026 全年會議規劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產業落地,從技術前沿到行業應用,全面覆蓋 AI 與軟件開發核心賽道!集結全球技術先鋒,拆解真實生產案例、深挖技術與產業落地痛點,探索前沿領域、聚焦產業賦能,獲取實戰落地方案與前瞻產業洞察,高效實現技術價值轉化。把握行業變革關鍵節點,搶占 2026 智能升級發展先機!
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.