2026 年初,除了 OpenClaw,AI 行業最熱的關鍵詞,可能就是“世界模型”(World Models)了。
就在過去幾周內,圖靈獎得主Yann LeCun離開 Meta 后創辦的 AMI Labs 宣布完成 10.3 億美元種子輪融資,估值 35 億美元,創下歐洲 AI 初創公司史上最大種子輪紀錄。再往前推一個月,斯坦福大學“AI 教母”李飛飛創辦的 World Labs 剛剛宣布完成 10 億美元新一輪融資,投后估值 54 億美元。兩位 AI 巨頭在三周內合計募集超過 20 億美元,押注的都是同一件事:世界模型。
與此同時,Google DeepMind 的 Genie 3 已向美國用戶開放測試,能根據文本描述生成可實時交互的虛擬世界;英國自動駕駛公司 Wayve 以 86 億美元估值融資 12 億美元;Physical Intelligence 為其機器人基礎模型融資 6 億美元;游戲數據公司 Medal 的衍生實驗室 General Intuition 完成了 1.337 億美元的種子輪……資本正在以罕見的速度涌入這個領域。
英偉達機器人與杰出科學家總監 Jim Fan 最近說過一句話:“很少有人理解這場轉變的深遠程度。遺憾的是,世界模型目前最被炒作的用途是 AI 視頻生成。我有充分信心,2026 年將是大型世界模型為機器人技術和更廣泛的多模態 AI 奠定真正基礎的元年。”
3 月 19 日,科技博客 Not Boring 的作者 Packy McCormick 與 General Intuition CEO Pim De Witte 聯合發表了一篇約兩萬英文字的長文,題為“World Models: Computing the Uncomputable”,系統梳理了世界模型的歷史、技術路線、競爭格局與未來前景。這可能是目前公開發表的關于世界模型最完整的綜述性文章。
![]()
(來源:Not Boring)
Packy 在文中坦言,幾個月前 Pim 和聯合創始人 Kent Rollins 邀請他去紐約辦公室看了 General Intuition 的成果,從帶動作標簽的游戲片段中學習預測近未來的模型,此后經過數十小時的研究,他對模型能做什么的認知發生了根本轉變。Packy 說自己一直對 LLM 能否通往超級智能持懷疑態度,但世界模型讓他看到了一條不同的路徑:驅動超人類的、互補性的機器,去做人類做不到或不想做的事情。
在這篇文章發表的當下,世界模型領域正處于“知道大事要發生,但具體哪條路徑會勝出還不清楚”的階段。潛在方法 vs 生成式方法、VLAvs 原生世界模型 Agent、游戲數據 vs 機器人數據、推斷動作 vs ground truth 動作,這些技術路線的勝負還遠未決出。
可以確定的是,過去八年從“這能行嗎”到“Agent 真的能在夢中學習并遷移到現實”的進展速度,讓這個領域的大多數參與者都感到意外。Yann LeCun 拿著 10 億美元賭 JEPA 會通向真正的智能,Physical Intelligence 拿著 6 億美元賭 VLA 的工程迭代能跑贏理論上更優的架構,General Intuition 拿著 1.34 億美元賭游戲數據是連接數字世界和物理世界的最佳橋梁。這些賭注的結果會在未來幾年逐漸顯現。
在那之前,世界模型研究幾乎每天都在產生新的成果,GTC 上的演示還在繼續,新論文還在涌現。誰在贏并不重要,重要的是這個方向本身正在快速驗證一個八年前聽起來還像科幻的核心命題:在夢中訓練的 Agent,確實可以在醒來后做到之前做不到的事情。
需要提前說明的是,Pim De Witte 是 General Intuition 的創始人兼 CEO,他和團隊對世界模型有自己的技術判斷和商業立場。但這篇文章在呈現各技術路線的優劣時相當坦誠,包括對自身方法局限性的承認。
以下是對這篇博文的完整編譯呈現,讀者可以自行判斷哪些是客觀描述,哪些是立場表達。
“我昨晚想睡覺,結果大腦開始想象第二天可能遇到的所有場景,以及我會怎么應對。”
![]()
(來源:Not Boring)
這是一種常見的體驗。作為人類,我們輕松就能想象,無論是復雜的體育場、可能的浪漫邂逅,還是激烈的爭論。我們想象自己在下一場曼聯比賽現場,并不比想象和一個老朋友聊天更費力,盡管想象一場曼聯比賽包括了模擬數千人的行為,在傳統計算機和游戲引擎中,這可能需要數年時間。
想想要寫怎樣的代碼才能描述一場曼聯比賽:任何時刻,某個球迷可能舉起一面隨機的、自制的旗幟。整個體育場開始唱與之相關的歌。但不是所有人都會唱;有人會抱著孩子跳起來,而一對老夫婦靜靜地坐著,想著這可能是他們最后一次來看球,默默浸泡在每一秒的沉默里。
世界是一個意料之外的未來以某種可預測的方式展開的地方。作為人類,我們幾乎能以同等的努力和差不多的時間想象所有這些場景。計算機做不到。
傳統計算在這種復雜性面前無能為力,這并不奇怪。想象一下,要預測并編寫每一個動作的代碼,以及所有這些動作之間的交互。數學上,在傳統引擎中,模擬 N 個球迷至少是一個 O(N) 或 O(N2) 的問題。每個人、每面旗幟、每把椅子、每個球,都必須被顯式計算,而且它們之間的交互也需要計算。
在機器人領域,機器必須在相同的時間內對現實世界的各種情況做出反應,無論這些情況有多復雜。但在傳統計算中,不同情況可能需要截然不同的模擬時間。這一直是機器人和具身 AI(embodied AI)進步的主要瓶頸。
世界模型是對這個問題的一種解決方案。
世界模型從視頻中學習預測這些動態,通常還包括視頻中所采取的動作。它們將那些動態的、在計算上難以大規模模擬的情況,包括像足球比賽那樣隨機的、依賴動作的群體行為,壓縮成神經網絡中的一次固定成本操作。
在世界模型中,整個體育場作為一次固定成本的前向傳播(forward pass)被模擬出來。場景的復雜度不會讓“引擎”在推理時指數級地慢下來,因為世界的模式已經在訓練階段被吸收進了權重(weights)。
怎么做到的?靠動作。
動作是一種預測展開中的動態的壓縮形式:它們包含了在環境中推演未來狀態所需的信息,直到更多動作發生并向環境注入新輸入。每一個動作攜帶了足夠的信息來預測接下來會發生什么,直到下一個動作更新畫面。
![]()
(來源:Not Boring)
這種以行動為條件(action-conditioned)的方法讓模型能夠交互式地學習和規劃。今天,這在即使是最好的模擬引擎中也做不到,更不用說以可預測的計算成本來實現。動作幫助模型像我們一樣與世界交互。
一次又一次,每一天,你觀察,你計算,你決定做什么,你行動。這就是生活。在任何時刻,你收集到的關于空間和時間的所有信息,都坍縮成了你采取的那個動作。
對計算機而言,動作是繞過模擬成本的作弊碼。如果人類大腦比最好的 LLM 效率高得多,那么我們可以通過觀察人類如何回應環境中無數變量來幾乎免費獲得所有那些計算。這給了我們一種高效進行非確定性計算的方式,創造出在傳統計算約束下不應該可能的模擬。
這種計算不可計算之物的能力,是我們相信世界模型將以當前模型架構無法做到的方式推動具身 AI 進步的原因。
把模型想象成夢。
你有沒有做過這樣一個夢:你只是站在那里看著正在發生的事情,無法干預?那就是視頻模型。
現實世界不同。它會對你所做的或指示去做的事情做出回應,并預測可能發生的全部范圍的事情,而不僅僅是單一最可能或最有趣的下一幀。
你有沒有做過清醒夢(lucid dream)?就是那種能夠在大腦生成的夢境中塑造故事走向的夢,那就是世界模型。
更規范地說,標準視頻模型基于概率預測下一幀,P(x_{t+1} | x_t),而世界模型基于干預(intervention)預測下一個狀態,P(s_{t+1} | s_t, a_t)。
那個 a_t(t 時刻的動作)就是魔法所在。
![]()
(來源:Not Boring)
General Intuition 認為(并且正在看到早期跡象),世界模型是一種新的、對于需要深度時空推理的環境而言可能比 LLM 更強大的基礎模型類別。像我們的現實世界這樣的環境。
世界模型,這些從觀察世界和其中所采取的動作中學習的系統,是一種根本性的新型基礎模型。它們可以計算以前不可計算的東西。
它們的重要性將遠超當前任何人的認知,因為它們提供了一條僅靠語言和代碼無法達到的通往通用智能的路徑。畢竟,作為人類,就是在一生中基于我們所經歷、觀察和學習的東西來采取行動。
停一下,你可能會對“世界模型提供了一條 LLM 無法走通的通往通用智能的路徑”這個說法感到困惑,這可以理解。
世界模型最近獲得了大量關注。Yann LeCun 一直對 LLM 是通往通用智能之路持懷疑態度,他剛宣布為 AMI 融資 10.3 億美元。李飛飛的 World Labs 也融了超過 10 億美元來追求世界模型。Google DeepMind 擁有科技行業最接近無限印鈔機(互聯網廣告)的東西,也在押注世界模型。但我們迄今從這些投資中看到的,主要是炫酷的視頻和 3D 世界。
LLM 能引用莎士比亞、解決 Erd?s 問題(埃爾德什問題,是指著名匈牙利數學家保羅·埃爾德什提出的數百個數學難題和猜想,主要集中在數論、組合數學、圖論和幾何等領域)。世界模型看起來更像是通往元宇宙的路徑,而不是通往通用智能的路徑。
但世界模型還沒有 LLM 的熱度,部分原因是它們的定義仍然模糊。什么是世界模型?我們已經說了視頻模型不符合定義。3D 空間模型也不算。話雖如此,兩者都可能是通往世界模型的路徑。今天驅動機器人的模型是世界模型嗎?不完全是,雖然有些是,即使不是的那些也和世界模型架構共享特征。
一如既往,炒作加劇了混亂。AMI Labs 的 CEO Alexandre LeBrun 對 TechCrunch 說:“我預測世界模型將成為下一個流行詞。六個月后,每家公司都會自稱世界模型公司來融資。”
炒作只是一小部分。所有在這個領域構建的人都相信:世界模型是控制物理世界中機器的路徑。路徑的具體形態可能有差異,但所有人都相信未來要從世界模型中走過。
Agent 能在自己的夢中學習嗎?
世界模型不算個新概念,而是人類最古老的想法之一。自從人類獲得了思考自身在宇宙中位置的能力,我們就在思考我們的現實是否只是一個模擬。
公元前 380 年,柏拉圖通過蘇格拉底提出了“洞穴寓言”(譯者注:出自《理想國》第七卷)。想象一些人類住在地下的洞穴里,脖子被鎖鏈鎖住,被迫盯著墻上的影子看。這些人會相信那些影子就是現實本身,而實際上它們只是現實的影子。柏拉圖暗示,我們都困在洞穴里,脖子被鎖著,把我們的感知誤當成了真正的現實。
八十年后,中國道家哲學家莊周在“蝴蝶夢”中思考了類似的問題:從前莊周夢到自己變成了一只蝴蝶,翩翩起舞,自得其樂,不知道自己是莊周。突然醒來,分明是莊周。但他不知道,是莊周夢到自己變成了蝴蝶,還是蝴蝶夢到自己變成了莊周。(譯者注:出自《莊子·齊物論》,原文:“昔者莊周夢為胡蝶,栩栩然胡蝶也,自喻適志與,不知周也。俄然覺,則蘧蘧然周也。不知周之夢為胡蝶與,胡蝶之夢為周與?周與胡蝶,則必有分矣。此之謂物化。”)
幾個世紀過去,隨著技術能力的進化,科幻作家加入了探問現實本質的悠久傳統。Frederik Pohl 在 1955 年寫了《世界地下的隧道》,Daniel F. Galouye 寫了《模擬三號》(Simulacron-3),Stanislaw Lem 寫了《非我仆》(Non Serviam),William Gibson 寫了《神經漫游者》(Neuromancer),Neal Stephenson 寫了《雪崩》(Snow Crash)。所有這些作品都用文字描繪了模擬世界。
1977 年,科幻大師 Philip K. Dick 在法國梅斯的一次演講中自信地告訴聽眾:“我們生活在一個由計算機編程的現實中,我們唯一的線索就是當某個變量被改變、我們的現實發生某種變化的時候。”
大多數人對“模擬”的第一次接觸可能是《黑客帝國》(The Matrix)。在原始劇本中,沃卓斯基姐妹把矩陣構想為由鎖鏈中的人類大腦集體產生的模擬,人腦聯網形成了一個神經網絡。
制片方覺得“人類就是計算機”這個概念對大眾來說太難理解了,于是做了一個熱力學上有問題的決定,把人類變成了為模擬提供動力的電池。商業上這可能是正確的選擇。黑客帝國系列全球票房接近 20 億美元。更重要的是,它向大眾引入了一個概念:一個與“真實”世界無法區分的模擬世界。
這個想法之所以抓住了我們的集體想象力,是因為它確實是那種恰到好處的詭異,而且出人意料地難以反駁。如果觀察是一樣的,動作是一樣的,那么計算就是一樣的。如果你看到的是一樣的,做的也是一樣的,那么你是在模擬中還是在現實中并不重要。你的大腦對兩者的處理方式完全相同。Neo 在 Morpheus 喚醒他之前完全不知道自己在矩陣里。
克里斯托弗·諾蘭在 2010 年上映了《盜夢空間》(Inception)(原文注:有一個意思的事是:在 Google DeepMind 的世界模型 Genie 內部負責智能體開發的團隊,其名稱就叫作 Inception)。
夢中夢中夢。諾蘭的核心前提是,夢是一個可控的空間,可以從中提取信息,或者更重要的是,可以向其中植入信息。
但這一切都只是科幻,對吧?
1990 年,于爾根·施密德胡伯(Jürgen Schmidhuber,LSTM 之父)當時還是慕尼黑工業大學的年輕研究者,發表了《讓世界可微分》(Making the World Differentiable)。這篇論文提出構建一個循環神經網絡(RNN),賦予它兩個任務:第一,學習預測模擬世界中接下來會發生什么;第二,用這個模擬世界來訓練一個 Agent 在其中行動。
![]()
(來源:Not Boring)
Agent 完全不需要與“真實”環境交互。它可以在模型內部學習。在夢中學習。
第二年,因“苦澀的教訓”(Bitter Lesson)聞名的 Richard Sutton 也構想了一個類似的想法。在《Dyna: 一個整合學習、規劃和反應的架構》中,他主張學習、規劃和反應不應該是分離的系統,而應該統一在一個單一架構中。這意味著從技術上說,構建一個世界的模型、在其中練習、然后將學到的東西遷移回現實,是可能的。
兩篇論文都極具遠見,它們對后來的研究產生了持久影響。但在當時,兩篇論文幾乎就是科幻。
1990 年,全世界的計算能力大約是今天的百萬億分之一到千萬億分之一。當時全球可能只有 10 到 100 個 gigaFLOPS 的總容量。僅 2024 年一年就售出了數十 zettaFLOPS(10^22 FLOPS)的計算能力。1990 年,全球數字數據大約是 10 PB,這個體積小到連我們現在一次訓練所用視頻數據的 0.005% 都裝不下。到 2026 年,這個體積已經爆炸式增長了 2,200 萬倍,達到 221 ZB。
但技術在進步,最強大的夢不會死去。
近三十年后,2018 年 3 月,David Ha(當時在 Google Brain)和 Schmidhuber 發表了題為《世界模型》(World Models)的論文。這篇論文問了一個問題:Agent 能在自己的夢中學習嗎?
![]()
(來源:arXiv)
為了回答自己的問題,Ha 和 Schmidhuber 構建了一個有三個組件的系統:一個視覺模型(V)將原始像素觀察壓縮成緊湊表示,一個記憶模型(M)即循環神經網絡學習預測接下來會發生什么,以及一個微小的控制器(C)僅基于 V 和 M 的輸出來決定做什么。
世界模型就是 V + M:它可以接收觀察并想象合理的未來。控制器就是 Agent 或策略(policy):它選擇采取哪些動作。
![]()
圖丨世界模型 + 智能體(來源:arXiv)
Ha 和 Schmidhuber 在一個賽車游戲和一個第一人稱射擊游戲的觀察數據上訓練了他們的世界模型。世界模型生成了新的數字世界。然后他們讓 Agent 完全在世界模型幻想出的夢境中練習。之后,他們將學到的策略遷移回實際環境。
它成功了。Agent 能夠解決在現實中從未遇到過的任務。夢境足夠真實。
從計算機科學的角度看,這確實讓人震撼。但真的那么出人意料嗎?這不就是人類導航世界的方式嗎?
Ha 和 Schmidhuber 指出,人類不斷在腦中運行世界模型。一個面對 100 英里時速快球的棒球擊球手,必須在球的位置的視覺信號到達大腦之前就決定如何揮棒。每次擊球不全是三振出局的原因,是擊球手并非對現實做出反應,而是對大腦“內部世界模型”關于球將在哪里的預測做出反應。
加州大學爾灣分校認知科學教授 Donald Hoffman 把這個想法推得更遠。他認為我們所有人都戴著“現實頭盔”走來走去,將量子世界令人目眩的復雜性簡化為一個用戶友好的界面。現實太豐富了,所以我們通過一種持續的清醒夢來導航它。
這個兔子洞想挖多深都可以。但一路挖到底,都是世界模型。
Ha 和 Schmidhuber 表明,計算機或許能夠像人類一樣對待世界:創建模擬以根據行動預測未來狀態,基于這些預測采取行動,然后更新并循環往復。
是行動,而非言語。
語言是不夠的(代碼也是)
來玩一個游戲。拍五次手。
現在,不要用物理動作拍手,試著僅用文字來描述拍手。雙手在空間中的位置、相對位置、以皮秒為單位的變化、接觸點、聲音、雙手靠近和分開時的樣子、手掌如何擠壓對方、兩掌之間的空氣發生了什么、你拍手時視野中看到了什么。別忘了你的手臂,它們怎么彎曲來配合拍手?記得也要精確到皮秒。
你袖子上的布料有什么反應?背景中在發生什么?你旁邊的人注意到你在拍手了嗎?他們怎么反應的?你有沒有因為在會議中間按照一篇不該看的文章的指示拍手而被解雇?描述一下你老板額頭上那根青筋,它在跳嗎?
你做不到,對吧?好的,停下來。觀點已經證明了。
語言是對現實一種極度有損的壓縮。
語言當然重要。它是我們溝通和協調的方式。“你比我猜”這個游戲表明,要傳達想法,語言可以比動作高效得多。LLM 在這個能力上很重要。但光靠語言是不夠的。
代碼呢?代碼是一種非常精確的語言,讓機器執行操作。我讓 Claude“寫一個雙手在真實環境中拍五次的模擬代碼”,生成出的結果“看起來非常痛苦”。
![]()
圖丨由 Claude 生成的拍手模擬(來源:Not Boring)
有一種信念認為,隨著規模擴大,語言和代碼將能夠解決所有時空智能(spatial-temporal intelligence)挑戰,產生通用人工智能(AGI)或超級人工智能(ASI)。有人主張代碼是解決許多現實世界智能挑戰的關鍵,因為它可以精確地指令所有物理形態。
我們不認同這個信念。基于代碼的模擬是夢境的一個糟糕版本。它受規則約束,無法處理現實的隨機混亂。
要了解世界,你必須與之交互。
赫爾曼·黑塞 1946 年獲諾貝爾文學獎的小說《玻璃球游戲》中,讀者被引入了卡斯塔利亞(Castalia),一個致力于純粹思想的未來知識烏托邦。卡斯塔利亞的核心是一個將所有人類知識綜合成單一形式語言的精密游戲,即書名所指的“玻璃球游戲”。玩家像作曲一樣“作局”。一步棋可能將一首巴赫康塔塔與一個數學證明和一段孔子的文字聯系起來。這個游戲是終極抽象:所有人類文化壓縮成符號操作。
![]()
(來源:Not Boring)
主角約瑟夫·克內希特升到了“玻璃球游戲大師”,這是卡斯塔利亞的最高職位。但他逐漸感到幻滅。游戲雖然優美,但它是貧瘠的。卡斯塔利亞的知識分子深度退縮進了抽象,失去了與世界的接觸。他們能用非凡的優雅來表征現實,但無法在現實中行動。克內希特最終決定離開卡斯塔利亞,去做一名普通的家庭教師。他選擇了混亂的、具身的、不可預測的世界,而非完美的符號世界。
大語言模型就是我們的卡斯塔利亞人。它們是符號的精湛操弄者,能在人類全部文本知識之間建立聯系。它們能討論物理學、作詩、寫代碼、解釋棒球規則。它們真的是人類歷史上最偉大的智力成就之一。
但它們完全運作在表征的領域。它們能描述拍手,但不能拍手。它們能談論重力,但不像一個幼兒那樣了解重力。幼兒通過成千上萬次跌倒和踉蹌,用身體學到了“下”意味著什么。
語言模型把預測下一個 token 做到了極好。唯一的問題是,token 就像柏拉圖洞穴墻上的影子。你不能用編碼來模擬一個真實的體育場人群,正如你不能用描述來達到那里。
現實世界是,或者說曾經是,不可計算的。
如果語言和代碼這兩個人類最強大的發明都不足以表征我們的世界,我們還剩什么?
答案是世界模型。
世界模型提供了一條通往 AGI 的替代路徑。它們提供了一條計算今天不可計算之物的路徑。它們從克內希特所追尋的那種與現實的混亂接觸中學習。世界模型提供了一種高效進行非確定性計算的方式,運行在傳統計算約束下不應該可能的模擬。
世界模型不是 LLM 的替代品。語言仍然是必要的;文本可以用來為世界模型設定條件,告訴它們想象什么場景、追求什么目標、給它們一個長期目標。思考和行動協同工作。但行動必須來自文本以外的地方。
約瑟夫·克內希特必須從卡斯塔利亞走下來。
真正的智能必須來自對世界的觀察;來自理解動作及其后果;來自語言只能指向的那些東西。
道可道,非常道。(譯注:出自《道德經》開篇,原文“道可道,非常道”。作者將其與后一句《圣經》引文并置,構成一組東西方哲學的呼應,語言能表達的終究有限,真正的智能不在文字之中。)
太初有言(In the beginning was the Word)。然后人類誕生,不完美地、不可預測地行動(譯注:“In the beginning was the Word”出自《圣經·約翰福音》1:1,原文為古希臘語“?ν ?ρχ? ?ν ? λ?γο?”,中文和合本譯為“太初有道”。但原文作者在這里刻意利用了“Word”一詞的雙關,它既是《圣經》中萬物之始的“道/圣言”,也是大語言模型所處理的“文字/語言”。作者的意思是:正如《圣經》敘事中“道”先于一切存在,在 AI 的發展敘事中,語言模型也先于世界模型出現;但正如人類隨后以不完美的行動進入世界,世界模型也隨之而來,將 AI 從純粹的語言推向行動。此處譯為“言”而非傳統的“道”,以保留這層含義)。
也許事情就是這樣展開的。太初有 LLM。然后世界模型誕生。
什么是世界模型?
世界模型模擬環境,并在你于其中行動時做出回應。
更準確地說,世界模型是一種交互式預測模型,在動作的條件下模擬時空環境。
LLM 預測句子中的下一個詞,世界模型預測下一個狀態(即當前狀態的即時未來),條件是當前狀態和控制輸入。
更簡潔地說:LLM 學習語言的結構。世界模型學習因果的結構。
這是世界模型的一個簡單定義。它是準確的,但不足以理解世界模型如何工作。要理解這一點,你需要知道四件事:世界模型做什么、如何構建、為什么“動作”如此重要、以及世界模型和策略(policy)之間的關系。
想想接球時發生了什么。你的眼睛接收一個場景:投球者的手臂、飛行中的球、風、刺眼的陽光,所有這些。從這些感官數據的洪流中,你的大腦構建了一個關于正在發生什么的壓縮模型,關鍵是,還有即將發生什么的模型。它預測球在未來幾百毫秒內的軌跡。然后向你的手發送一個運動指令。你接住了球。整個循環——觀察、預測、行動——在不到一秒的時間內完成,不涉及任何語言或“思考”。
世界模型在計算上做同樣的事情。它接收觀察(通常是視頻幀,但也可以使用任何感官數據),構建環境狀態的壓縮內部表示,并預測該狀態在響應動作時將如何變化。
它本質上是一個學習到的物理引擎,但不依賴手寫方程。它不是從第一性原理計算重力、碰撞和摩擦,而是觀看了重力、碰撞和摩擦數十億次并學到了模式。
這使世界模型成為構建 Agent(即在環境中行動的 AI 系統)的強大工具。世界模型以三種方式幫助 Agent。
首先,它們充當替代訓練場。Agent 可以在世界模型內部(本質上在夢中)練習,并將學到的東西遷移回現實。這對安全(有些事情不應該在真實世界中測試或訓練)和成本/樣本效率(真實世界數據昂貴、難以收集、數量有限)很重要。
其次,它們使更長時間跨度的規劃成為可能。Agent 可以在做出承諾之前“想象”不同動作的后果,就像棋手提前想幾步棋一樣,只是這里的棋盤可以是任何環境或真實世界。
第三,它們為 Agent 提供了豐富的世界表征來學習行為。在世界模型的內部表征上訓練的 Agent 學會“看到”世界中那些對行動有意義的特征,而不是原始像素。
出于這三個原因,世界模型的承諾是它們是通往泛化的路徑。如果你能創建以現實世界的方式響應動作的世界,你就能用它們安全地、經濟地、高效地訓練能在任何虛擬世界或現實世界中行動的具身 Agent。
需要明確的是,這是世界模型中的核心問題:模擬環境是否足夠忠實于現實,以至于你可以在其上訓練并將訓練遷移到真實世界,或者從一般意義上來說,你是否可以“在模擬中預訓練”。越來越多的證據表明,答案是肯定的。
Allen Institute for AI(Ai2)最近發布了 MolmoBot,一個“完全在模擬中訓練的開源機器人模型套件”。Ai2 說:“我們的結果表明,針對操作任務的模擬到真實的零樣本遷移是可能的。”
參與該項目的普林斯頓教授和 Google DeepMind 研究者 Dhruv Shah 分享說:“在容易模擬的任務范圍內,一個純模擬訓練的策略優于在數千小時真實數據上訓練的最先進 VLA 模型!”
![]()
圖丨 MolmoBot(來源:arXiv)
這是一個相當驚人的發現。General Intuition 以及更廣泛的世界模型領域的一個重大關注點,是擴大容易模擬的任務范圍。
其工作方式如下:首先,世界模型想象出逼真的環境和未來狀態,理想情況下以它們所訓練的真實和虛擬世界的方式響應動作或指令。接下來,Agent 在生成的世界中被放出來訓練。然后,Agent 被帶回到真實環境中,在它們學到的東西上進行測試。
這就是 Ha 和 Schmidhuber 在 2018 年展示的內容,至今仍是該領域的核心承諾。
世界模型是如何構建的?
世界模型相當年輕。沒有哪種單一方法或組合被證明具有絕對優勢,這意味著通用世界模型的最終架構仍是一個開放問題。但訓練有一些可重復的要素。
從數據開始;大量的觀察數據。通常,觀察與產生它們的動作配對。這種配對可以有多種方式實現。觀察(通常是視頻)預先收集,動作要么與之同時記錄,要么在事后通過另一個模型推斷。或者,模型通過自己采取動作來學習,通過與環境直接交互生成自己的觀察和動作數據。
當訓練數據是觀察或視頻時,原始幀作為一個環境隨時間展開的觀察。這些視頻理想情況下帶有產生它們的動作標簽(要么是同時記錄的,要么是用單獨的 AI 模型推斷的)。
動作提供了因果鏈接:某人做了什么導致環境改變了。一個游戲畫面中玩家向左轉、鏡頭移到走廊。一段駕駛錄像中方向盤轉動、車輛沿曲線行駛。一次遙操作中機械臂伸出、杯子移動。在每種情況下,模型看到一個前態、一個動作和一個后態。
世界模型的核心目標保持不變:給定當前狀態和一個動作或指令,預測下一個狀態。它看到第 t 幀和動作 a,然后嘗試產生第 t+1 幀的狀態。
但為所有東西預測原始像素級世界可能很昂貴,而且往往是浪費。視頻幀中的大部分內容從一個時刻到下一個時刻不會改變;墻還在原地,天空還是天空。幀內的大部分細節是冗余的;天空的顏色,墻壁的紋理,都可以用更緊湊的形式描述。
所以現代世界模型涉及一個潛在空間(latent space):一種壓縮的、學習到的表示,只保留最本質的信息。視覺編碼器將每一幀壓縮為一個緊湊向量(場景的數學指紋),模型學習預測下一個指紋來響應動作,而不是 4K 幀中的每一個像素。這就是計算效率的來源。
為了準確建模世界的演變,世界模型還必須學習表征完整的可能結果集合。這種結果的不確定性通常被稱為環境的隨機性(stochasticity)。世界模型必須學習應對它還不知道的東西(認識不確定性,epistemic uncertainty:例如,一個從未見過紅綠燈的模型不知道黃燈之后是紅燈)和固有不可知的東西(偶然不確定性,aleatoric uncertainty:像擲骰子這樣的隨機性,aleatoric 這個詞源自拉丁語中“骰子”的意思 alea)。
即使模型已經學到了關于環境行為的所有可學的東西,接下來會發生什么幾乎總有一些固有的不確定性。這與純娛樂視頻模型不同,后者只需要能預測一種常見的世界狀態演化就能表現良好。
如果你用一種直接的預測方法(例如用均方誤差 MSE 訓練的樸素模型)來預測一輛車轉彎,模型可能變得“模糊”,因為它在平均化每一個可能的結果。車可能轉彎留在左車道,也可能變道到右車道。真正最小化誤差的軌跡是一個不合理的結果:車留在兩條車道的中間。這就是模糊性,不同的模型以不同方式處理它。
擴散模型(Diffusion models)通過逐漸向結果擴散來避免這個問題,使模型能夠鎖定結果分布的一個特定模式,采樣出一個清晰的、合理的未來,而不是平均化所有可能性。
自回歸模型(Autoregressive models)通過每個結果使用多個 token 也能處理多模態;通過逐個采樣 token,確保未來的 token 預測與先前的一致。
JEPA 風格的架構則通過完全回避來解決模糊性。JEPA 在很大程度上避免顯式建模那個分布,因為它從不解碼回像素空間。它在一個平均化不那么災難性的空間中運作,因為我們不期望這些模型預測幀,而是期望它們發展出對下游任務有用的表征。
這個過程的輸出取決于你需要什么。如果你在構建一個可視的世界模擬器,一個你可以觀看或探索的東西,你會通過視覺解碼器將潛在預測解碼回像素,產生合理未來的想象視頻。這就是 Google DeepMind 和 World Labs 的演示看起來逼真和令人印象深刻的原因。
有很多方法用于訓練世界模型。記住這一點:觀察數據輸入,與導致觀察中所發生事情的動作配對,訓練世界模型預測下一個狀態;Agent 訓練在這些世界中預測下一個動作。
為什么動作是終極壓縮形式
這是世界模型背后的一個關鍵洞察:動作是終極壓縮形式。
考慮當你決定向左邁步避開水坑時發生了什么。你的大腦處理了視覺場景(人行道、水坑、周圍的人、路緣、駛來的公交車),預測了即時未來(水坑不會移動,公交車會駛過,身后的人會繼續走),評估了選項(向左走、向右走、跳過去、接受鞋子弄濕),然后選擇了一個。
一個外部觀察者看不到你腦袋里面的東西,不知道你到底在想什么,不知道你在潛意識里處理什么。他們不知道你是否疲倦或是否趕時間。他們不知道你的道德準則,不知道你會怎么回答電車難題。他們不需要知道。他們看到所有那些近乎瞬時計算的輸出:向左邁步。
當然,不是每個人都做出正確的決定。把視頻播放下去,你也能學到后果。向左邁步,踩進一個更大的水坑。向左邁步,被一輛車蹭到。向左邁步,撞到一個嬰兒車里的嬰兒。通過數十億次的觀察、指令和動作,我們不僅學到了人類如何基于輸入決定回應,還學到了那些決定的后果。集體世界模型學會了比任何個體都更聰明地行動。
如果你能完美地重建一個人的觀察流和動作流,你就擁有了他們與現實交互的幾乎完整的記錄。世界模型學習的正是這個映射。它將空間和時間壓縮成緊湊的表示,然后用動作來推演接下來會發生什么。這就是世界模型計算效率如此高的原因。
這也是世界模型能處理傳統模擬不能處理的隨機性的原因。在傳統模擬引擎中,每一種可能的行為都必須被編碼。如果你想讓一千個球迷對進球做出逼真反應,你需要為每種類型的反應寫規則。計算成本隨著 Agent 數量和交互復雜度擴展。
在世界模型中,成本固定為一次神經網絡傳播。隨機的、混亂的、人類的現實已經被烘烤進了學習到的權重中,從模型訓練所用的數百萬小時視頻中吸收。模型不需要計算一群人應該做什么。它已經看到了人群實際做什么,并用這些信息做出概率預測。
傳統計算是確定性的:已知輸入、已知規則、已知輸出。現實世界不是確定性的,所以世界模型甚至不嘗試編碼這些東西。它們觀察、學習、行動,以固定的計算成本,無論場景有多復雜。
世界模型與策略
還需要做一個區分,這個區分在關于世界模型的日常討論中經常被混淆。
世界模型是環境的模擬;它接收動作并產生預測的觀察;它向你展示如果你做某事會發生什么。
策略(Policy)是在該環境中行動的 Agent 的大腦。它接收觀察(通常還有指令)并產生動作;它決定做什么。
世界模型是夢。策略是做夢的人。做夢的人行動,夢境回應。夢境回應,做夢的人行動。
實際上,兩者之間的關系比這個區分所暗示的更加親密和交織。最近的研究已經在探索在世界模型基礎上訓練策略,或從一開始就將兩者一起構建。從世界模型的權重開始,這是一個已經學會預測接下來會發生什么的系統,然后,不是訓練模型預測未來幀或狀態,而是訓練它預測未來動作。
![]()
(來源:Not Boring)
一個學會預測世界的系統也能更快地學會如何在其中行動。理解和行動不是兩個螺栓在一起的獨立技能,而是同一個技能的不同角度。至少我們的研究以及其他實驗室的研究開始表明如此。
這意味著,如果你構建了一個足夠好的世界模型,你也能更有效地訓練一個策略來在它生成的世界中行動。
直覺和想象力原來是同一枚硬幣的兩面。
世界模型簡史
一方面,現代世界模型的歷史應該很容易總結。自 Ha 和 Schmidhuber 發表《世界模型》以來只有八年。另一方面,八年里發生了太多事。在這段時間里,該領域經歷了四個浪潮。
![]()
(來源:Not Boring)
第零浪潮(1990-1991 年)是深度學習之前的時代。研究者首次表述了 Agent 可以學習世界的內部模型并用它進行預測和規劃的想法。這是 Richard Sutton 和 Dyna,Jürgen Schmidhuber 和《讓世界可微分》。在我們有計算、數據或架構之前,我們有了夢想,在夢境空間中等待現實趕上來。
第一浪潮(2018-2019 年)問的是:“這真的能行嗎?”
基于 Ha 和 Schmidhuber 的工作,第一個范式使用變分自編碼器(VAE)來壓縮幀,用循環神經網絡(RNN)建模動態,并在生成的夢境中訓練策略。當時的問題是在想象中學習、在夢中學習是否可行。研究者使用小模型和簡單環境來生成概念驗證結果。毫不夸張地說,下一個大趨勢在起步階段看起來就像個玩具。(譯注:這里化用了硅谷知名投資人、a16z 合伙人 Chris Dixon 2010 年的一篇著名博文《下一個顛覆性技術在早期往往看起來像玩具》的標題)
《基于模型的 Atari 強化學習》引入了 Atari 100k 基準:SimPLe 算法能否僅用 10 萬步真實環境步驟(大約兩小時的游戲時間)來學習 Atari 游戲。答案是肯定的。SimPLe 學會了玩 26 個 Atari 游戲,在樣本效率上擊敗了競爭模型。
![]()
圖丨 SimPLe 內部的世界模型(來源:Not Boring)
但它能玩得和人類一樣好嗎?
這是第二浪潮(2020-2022 年)的問題:“世界模型能達到人類水平嗎?”
Danijar Hafner 在 Google DeepMind 開發的 DreamerV2 很快給出了答案。他們使用了循環狀態空間模型(RSSM),具有離散的潛在表征,該系統維持著一個關于世界的壓縮運行記憶,并隨每次觀察進行更新。
DreamerV2 成為第一個在 55 個游戲的 Atari 基準上達到人類水平的世界模型 Agent。它完全在想象中訓練,在單塊 GPU 上。
同年,另一個 DeepMind 團隊在《Nature》上發表了論文,描述了 MuZero 模型。MuZero 也擊敗了 Atari 游戲(和 Go 等其他游戲),但采用了幾乎完全相反的哲學方法。DreamerV2 生成了可觀察的夢境環境并在其中訓練,而 MuZero 從未生成任何可觀察的東西,完全在它自己發明的抽象潛在表征中規劃,而且它做得很好。
事實上它做得太好了,以至于超越了專門針對 Go 的模型。2016 年,DeepMind 的 AlphaGo 以 4 比 1 擊敗了人類圍棋冠軍李世乭。它是在大量人類專家對局加上自我博弈的基礎上訓練的,游戲規則是硬編碼的。第二年,AlphaGoZero 在完全沒有人類對局數據、只有規則的情況下通過純自我博弈,以 100 比 0 擊敗了 AlphaGo。
同期,AlphaZero 將 AlphaGoZero 的方法推廣到國際象棋和將棋等其他游戲,幾小時內就在兩者上實現了統治。然后在 2019 年,MuZero 純粹通過觀察和結果,從零開始學習了包括規則、游戲動態和價值函數在內的一切。它在 Go、國際象棋和將棋上匹配了 AlphaZero(后者知道規則),同時還泛化到了 57 個 Atari 游戲(那里“規則”甚至不是一個定義良好的概念)。
每個新模型中,人類之前硬編碼的東西,包括規則、策略、位置價值,都被移除了。模型從零學習每一個。MuZero 是這個進程的終點,它完全是自主學習的產物。
MuZero 做到這一切,卻從未想象過未來的棋盤狀態。它想象的是隱藏狀態,即它在訓練期間自己發明的抽象向量,不保證與任何人類可觀察或可解釋的東西對應。一個人類看著 MuZero 關于“三步之后”的內部表征,完全不知道它在想什么。然而它超越了所有之前的模型。
MuZero 的成功意味著,該領域現在有了兩個對立的思想流派:生成式世界模型(產生可觀察的未來)和潛在世界模型(在抽象空間中預測)。從那以后,世界模型的進展在兩個方向上都發生了。
在潛在一側,2022 年 Yann LeCun 從他在 Meta 和 NYU Courant 的雙重位置發表了一篇重要的立場論文,提出了一種與生成式模型根本不同的哲學——更像 MuZero 的路線:《通向自主機器智能的路徑》。他的新世界模型公司 AMI 就以這篇論文命名。
LeCun 的聯合嵌入預測架構(JEPA, Joint Embedding Predictive Architecture)反對完全生成像素。與 MuZero 類似,JEPA 不預測世界“看起來”會怎樣,而是預測它“意味著”什么。它預測未來狀態的抽象表征,刻意丟棄不可預測的視覺細節。
![]()
(來源:arXiv)
同年,在生成式一側,由 Vincent Micheli 和 Eloi Alonso(General Intuition 的未來聯合創始人)開發的 IRIS(2022)將世界建模重新定義為在圖像 token 學習詞匯上的語言建模。IRIS 不使用循環狀態空間模型,而是在離散視覺 token 上使用 GPT 風格的自回歸 Transformer。實際上,IRIS 將語言模型的機制應用到了世界建模上。
這把 LLM 的擴展(scaling)特性直接帶入了世界建模:高效的注意力機制、擴展定律,以及所有為大語言模型構建的工程基礎設施,現在都可以應用于學習物理世界。IRIS 是第一個在與人類相同的可用游戲數據量(兩小時)下、通過想象學習方法超過人類的模型。
先暫時擱置 JEPA,到這個時間點為止,世界模型中幾乎所有工作都發生在游戲中。值得在第二和第三浪潮之間停下來,體會一下 AI 與游戲之間的特殊關系。
游戲在 AI 發展中一直扮演重要角色。Claude Shannon 1950 年的論文《編程計算機下國際象棋》是 AI 的奠基文獻之一。1959 年,Arthur Samuel 的跳棋程序引入了機器學習這個概念。世界第一次意識到智能機器可以在任何事情上擊敗人類,是 IBM 的深藍擊敗 Garry Kasparov 下國際象棋。
在 DeepMind 成為 AI 實驗室之前,Demis Hassabis 是一個游戲設計師。17 歲時,他設計了商業上很成功的《主題公園》。DeepMind 的奠基性突破是 2015 年發表在《Nature》上的 DQN 論文,展示了用深度強化學習從原始像素玩 Atari 游戲。然后是 2016 年的 AlphaGo 擊敗世界圍棋冠軍,圍棋曾被認為需要一種獨屬于人類的直覺,其可能的棋盤位置比宇宙中的原子還多。
從 AlphaGo 到 AlphaFold 的路徑恰好經過了世界模型所形式化的那個洞察。Hassabis 曾說:“如果我們能模仿這些玩家的直覺,那不是太不可思議了嗎?順便一提,他們只是業余生物學家。”
General Intuition 就以 Hassabis 的這句話命名,它指向一個未來:模型驅動的研究遠超像素所能描述的動態,超越游戲本身,深入我們的身體。然后 DeepMind 教會了機器折疊蛋白質。AlphaFold 為 Hassabis 和他的團隊成員 John Jumper 贏得了 2024 年諾貝爾化學獎。
游戲當然很有趣。但游戲之所以不斷出現,是因為游戲是唯一一個你能獲得大量帶標簽的時空數據的領域,這些數據具有清晰的動作-結果對、一致的物理規則、明確的獎勵信號,以及一個可以進行數百萬次實驗的可控環境。真實世界不具備這些特性。
游戲是具身 AI 的實驗臺。但它們只是雄心的一小部分。要讓世界模型真正有用,它們需要與現實世界交互。
那就是第三浪潮(2023-2024 年),它問的是:“世界模型能真正實現交互嗎?”
第一個答案來自駕駛領域。GAIA-1(2023 年)在 Wayve 開發,將 IRIS 首創的序列建模方法擴展到 90 億參數并在真實世界駕駛視頻上訓練。它可以根據動作(轉動方向盤)、文本提示(“雨天,高速公路”)或兩者同時來生成駕駛場景。領導這項研究的 Anthony Hu 現在在 General Intuition 領導世界建模工作。
GAIA-1 確認了大家在 LLM 中觀察到的擴展定律也適用于視覺世界模型。更多數據和更多參數能可預測地帶來更好的表現。這不是理所當然的。它意味著前進的路徑是明確的,即使成本高昂:擴大規模,模型就會變得更好。
第二年,由 General Intuition 未來的聯合創始人 Eloi Alonso、Adam Jelley 和 Vincent Micheli 開發的 DIAMOND(2024 年)開辟了新的架構前沿。與之前自 IRIS 以來壓縮觀察到離散 token 并自回歸預測的做法不同,DIAMOND 使用擴散模型直接預測未來幀。
視覺保真度有了實質性提升,而這種豐富度直接轉化為更好的 Agent 表現。離散 token 丟棄的那些微妙的視覺細節,比如告訴你一個表面很滑、一扇門半開著、一個人即將改變方向的小線索,事實證明它們對決策很重要,仔細想想這并不奇怪。
值得指出的是,世界建模中許多開源進展都建立在 DIAMOND 架構之上。第一個 AI 生成的多人游戲 Multiverse 是基于 DIAMOND 的,被稱為“第一個世界模型游戲引擎”的 Alakazam 也是。DIAMOND 本質上是生成式世界模型領域的 Deepseek 或 Llama。
DIAMOND 本身在 Atari 100k 上創造了新的最佳成績,并展示了一些抓住公眾想象力的東西:在反恐精英(Counter-Strike)游戲數據上訓練,它從大約 87 小時的素材、在單塊 GPU 上,產生了一個完全交互的、可玩的神經游戲引擎。它證明了可以實時運行一個交互式的 3D 世界模型。
![]()
(來源:arXiv)
DIAMOND 擅長玩 Atari。Agent 玩真正的游戲并在那里收集真實數據,用這些數據訓練世界模型。然后它在世界模型的合成環境中測試自己,在那里變得更好,然后回到外面進行更多真實交互。這種在 ground truth 和合成之間來回循環的方式,就是世界模型改進的方式,幾乎像在清醒夢中解決問題,然后在醒來后的現實中測試它們。這就是前面提到的 Dyna 范式。
這個循環在真實世界條件下也能工作嗎?答案也是肯定的。而且效果很好。
GAIA-2(2025 年 3 月)將擴散方法推向了其最雄心勃勃的應用:多攝像頭自動駕駛模擬。它可以生成以自車動態、其他 Agent 軌跡、天氣、一天中的時間、道路結構為條件的高分辨率環視駕駛視頻。簡而言之,它可以再現真實駕駛的全部復雜性。它可以模擬在真實道路上太危險或太稀有而無法收集的場景:突然的加塞、緊急制動、行人走下路緣。
GAIA-1 和 2,以及 DIAMOND,和 IRIS 一樣,都是現在在 General Intuition 工作的研究者的成果。擴散或流匹配(flow-matching)模型如 GAIA-2 是團隊當前研究工作的起點。
但這不是唯一的方法。
Google DeepMind 是這個領域的核心玩家之一。他們的世界模型 Genie(2024 年)是一個 110 億參數的模型,在未標注的 2D 平臺游戲互聯網視頻上訓練。它完全從零學習了一個動作空間;沒有人告訴模型控制方式是什么。給它任何圖像,它就能從中生成一個可玩的世界。
OpenAI 的 Sora(2024 年,Sora 2 在 2025 年跟進)和 Google 的 Veo 3(2025 年)將視頻生成推向了非凡的視覺質量,并將這些系統明確定位為“世界模擬器”。
該領域的詞匯可能會變得混亂。讓我們說清楚。視頻生成模型產生美麗的視覺序列,但它們并不完全是我們一直在描述的那種世界模型。在這些視頻中,你不能采取動作并看到環境實時回應你的干預。它們預測一個場景隨時間會看起來怎樣,但不試圖建模因為你做了什么而發生了什么。
想想看一個駕駛電影和實際握方向盤駕駛的區別。視覺輸出可能看起來相似,但底層計算根本不同。交互性,即那種采取動作并觀察其后果的能力,是世界模型和一個非常令人印象深刻的視頻之間的分界線。
交互性也是影響現實世界所需要的。
這是第四浪潮的核心問題,也是我們現在所處的浪潮:“模型能在真實世界中行動嗎?”
也就是說:在世界模型中訓練的 Agent 能否在研究環境之外工作,在真實車輛、真實機器人、真實部署中?
Comma.ai 在自動駕駛領域走了最直接的路徑:他們完全在學習到的世界模型內部,即在“夢境”中,訓練了一個駕駛策略,并將其部署在 openpilot 中,他們運行在真實車輛上的開源駕駛輔助系統。世界模型訓練的策略優于傳統模仿學習和在常規模擬器中訓練的策略。這可以說是第一個由世界模型訓練的 Agent 驅動的消費產品。
在機器人領域,Meta 的 V-JEPA 2 使 LeCun 的潛在預測哲學具象化。這是迄今為止最清晰的大規模概念驗證。這個 12 億參數的模型在超過一百萬小時的視頻上通過自監督掩碼預測進行預訓練:沒有標簽,沒有文本。
第二階段,僅在 Droid 數據集的 62 小時機器人數據上進行微調。事實證明這足以產生一個支持零樣本規劃的動作條件化世界模型。V-JEPA 2 在新環境中零樣本部署在真實的 Franka 機械臂上執行取放任務。它完全在潛在空間中規劃,不需要像素生成、任務特定訓練或手工設計的獎勵。而且它很快,像素空間方法需要幾分鐘來規劃一個動作,V-JEPA 2 只需幾秒。
Google DeepMind 的 SIMA 2 采取了完全不同的方法。與構建專門的世界模型不同,它微調了 Gemini 使其直接在 3D 游戲環境中作為 Agent 行動。SIMA 2 可以推理高層目標、遵循復雜的多步驟指令、與用戶對話,并泛化到未見過的環境。
它代表了一種替代范式:不是構建專門的世界模型,而是利用已經嵌入在一個經過人類全部知識訓練的模型中的隱式世界知識。
這是該領域的開放問題之一。這種使用大型基礎模型或視頻模型作為 Agent 的基礎,而不是從零開始在世界模型中訓練 Agent 路徑,最終會勝出嗎?
事實上有許多開放問題,以及幾乎同樣多的世界模型初創公司在嘗試回答它們。
世界模型的當前格局
到了當下這個時刻,很清楚的是,才華橫溢的研究者和投資者都對世界模型的潛力感到興奮,那些大額融資輪次就是證據。
World Labs 融資 10 億美元,估值 54 億美元。AMI Labs 融資 10.3 億美元,估值 35 億美元。General Intuition 完成 1.337 億美元種子輪。Decart 以 31 億美元估值融資 1 億美元。Physical Intelligence 以 56 億美元估值融資 6 億美元。Wayve 以 86 億美元估值融資 12 億美元。Google DeepMind 正在將資源傾注到 SIMA、Genie 和 Veo 中,并用它來驅動 Waymo 等計劃。
不太清楚但更有趣的是,我們處于這項技術發展的這樣一個節點:我們知道大事正在發生,但具體哪種方法或哪種方法組合會勝出還不確定。
世界模型有三種主要的方法類型:當前基礎模型、世界模型、具身 Agent。
盡管方法不同,所有人共享同一個最終目標。最終目標是產生能泛化并在各種環境(包括現實世界)中做事的 Agent。一些 Agent 方法用 LLM 作為跳板,另一些從視頻模型開始。一些 Agent 方法用世界模型作為訓練環境。還有一些 Agent 直接從經驗中學習。
基礎模型
當前的基礎模型學會了理解世界數據但不能模擬隨機世界環境本身。它們處理文本、圖像、視頻等輸入,并學會預測、生成或重建。但它們還沒有給 Agent 一個行動的地方。它們不是動作條件化的。它們不回應或交互。它們是可以構建世界模型的潛在基底,或者在某些情況下是 Agent 預訓練的基礎。
大語言模型從驚人數量的文本中學到了世界有結構。它們知道杯子被推下去會掉,火是熱的,下雨天不帶傘出門會被淋濕。它們編碼了大量的因果和物理知識。但這些都不是來自經驗。像數字版的卡斯塔利亞人,它們閱讀了關于世界的描述而非感知它。這使它們作為推理和規劃的骨干極其有用,這也是為什么你會在許多 Agent 架構中找到嵌入的 LLM。
但光靠語言模型無法模擬機械臂去拿杯子時會發生什么。在世界模型的語境中,LLM 在討論 VLA(視覺 - 語言 - 動作模型)時特別相關,后者利用了為 LLM 開發所投入的巨大研究、資本、工具和基礎設施來引導能在物理世界中做事的機器人。
視頻模型
沒有人會把 LLM 和世界模型搞混,但很多人會把視頻模型和世界模型混為一談。這些模型在互聯網上大量的視頻數據上訓練,自身也能產出非凡的視頻。Sora 可以生成一個女人走過霓虹燈下東京街頭的令人信服的鏡頭。Veo 3 可以渲染帶同步對話的照片級場景。但你不能和它們交互。你不能在其中采取動作并看環境實時回應。它們預測場景隨時間看起來怎樣,但不試圖建模你做什么導致了什么。
當然,界線會變得模糊。Odyssey(由自動駕駛重量級人物 Oliver Cameron 和 Jeff Hawke 創立)在構建“以視頻做夢的世界模擬器”。目前它們不讓你采取動作并看環境回應,但確實讓你在視頻播放中途通過提示來實時引導方向。界線在哪里?
無論界線在哪,這些視頻模型都在變好。但視頻模型并不完全是我們定義的世界模型;它們是一個跳板。Runway 從視頻生成公司起步,但已得出結論,物理感知的視頻生成是通向更大目標的路徑。這催生了 GWM-1,它們明確標注的“通用世界模型,為實時模擬現實而構建”,它是交互式、可控、通用的。真正的價值,無論在財務上還是社會上,不會來自視頻本身,而是來自將視頻用作訓練環境、走向控制具身系統的模型。
3D 重建和生成模型
更進一步,如果你能在視頻生成模型描繪的場景中導航呢?那感覺像一個世界,對吧?
李飛飛領導的 World Labs 是這個類別中最有趣的例子。雖然 World Labs 是大多數人會與“世界模型”聯系在一起的公司,但 World Labs 目前并沒有在構建文章所定義的世界模型。在早期,World Labs 聚焦于沉浸式虛擬世界,但不是動作條件化的。它的第一個產品 Marble 從文本、圖像、視頻或 3D 布局生成和編輯持久的 3D 環境。
Marble 目前還不是交互式的,除了可以在生成的環境中移動。World Labs 自己在 Marble 產品頁面上將交互性定位為未來的機會:“未來的世界模型將讓人類和 Agent 都以新方式與生成的世界交互,解鎖更多模擬、機器人等領域的應用場景。”不過值得注意的是,World Labs 最近已經開始探索直接生成幀而非底層 splats(高斯潑濺譯注:這里的 splat 指的是Gaussian Splatting(高斯潑濺),一種 2023 年興起的 3D 場景表示方法。它用大量 3D 高斯函數來表示場景,渲染速度快、質量高,是當前 3D 重建領域的主流技術之一。World Labs 的 Marble 產品此前基于這類 3D 表示方法,而非逐幀生成視頻)的世界模型。
世界模型
現在來看真正的世界模型。世界模型是 Agent 可以行動的環境,而且它實時回應。它是一個模擬、一個夢,從觀察和動作數據中學習而來,而不是手工編碼的。Agent 采取動作,世界改變,Agent 觀察發生了什么。重復百萬次,跨越巨量多樣的情況,希望你得到一個能泛化的 Agent。
關鍵區分在于:世界模型是動作條件化的。它根據 Agent 做了什么來預測世界接下來看起來會怎樣。
直覺很簡單。一個只在真實世界數據上訓練的機器人見過有限的廚房、有限的杯子、有限的杯子掉落方式。把它放在一個沒見過的廚房、遇到一個沒見過的杯子,它就困難了。而在世界模型中訓練的機器人,原則上見過無限的廚房,因為世界模型可以生成它們。在現實世界中稀有、昂貴或危險的情況,在模擬中變成常規。分布外變成了分布內。
世界模型內部有兩種主要方法:潛在世界模型(Latent World Models)和生成式世界模型(Generative World Models)。
兩種方法都依賴潛在狀態,但生成式世界模型依賴的潛在狀態是用重建目標(自編碼器)設計的,這使幀預測成為可能;而潛在世界模型直接構建自預測表征。比喻一下:潛在世界模型生于黑暗并仍然活在黑暗中;生成式世界模型只是生于黑暗。
潛在世界模型
潛在世界模型是 MuZero 的后裔,但被放到了像現實世界這樣的開放式、無規則環境中。
這是 Yann LeCun 當前的領域。LeCun 在 1990 年代用 LeNet 開創了現代計算機視覺架構,引入了卷積神經網絡(CNN)的概念。2010 年代他倡導自監督學習,主張人工標注數百萬樣本無法擴展到真正的智能,模型應該從原始數據中創建自己的信號。2020 年代他領導了 JEPA 團隊。
LeCun 作品中的深層線索是教模型自動從原始數據中學習有用的世界表征。潛在世界模型是這條線索中最新的、也許是終極的分支。
這種方法在哲學上是視頻模型或 3D 重建模型的對立面。后者關心產生和理解每一個像素,而 JEPA 說“別費那個勁了”。JEPA 不預測像素。LeCun 的話是:“世界是不可預測的。如果你試圖構建一個預測未來每一個細節的生成式模型,它會失敗。JEPA 不是生成式 AI。”
JEPA 學習在抽象的壓縮空間中表征視頻并在那里做預測,刻意丟棄不可預測的視覺細節。這使 JEPA 在規劃和表征學習方面可能非常高效。AMI Labs 就是 LeCun 賭這個方法是通向真正智能路徑的產物,投資者最近用 10.3 億美元支持了他。
LeCun 認為,看似最大的權衡——用保真度換速度——其實不是權衡。他的立場是,你丟失的細節正是你應該丟失的,試圖預測每一個像素不僅昂貴而且實際上是反生產力的,模型在固有不可預測的視覺細節上浪費了容量,而不是學習真正重要的抽象因果結構。想象一下,如果你想象接球時需要模擬每一個光子,你的大腦可能會爆炸。
但還有其他權衡需要注意。一個是潛在模型更難評估。你不能看著輸出直觀判斷它是否合理(像你對生成視頻那樣),它們也不能作為人在回路系統的訓練場,因為人類無法在潛在空間中操作。我們需要看到世界才能在其中行動。
另一個相關的缺點是,當你無法可視化預測或解釋損失時,迭代速度會變慢。人類非常擅長注意到視覺上的不對勁;我們沒有進化出在預測的潛在編碼中發現差異的能力。而迭代速度是現代 ML 中最重要的東西,因為現代 ML 的進步主要來自經驗性搜索,而不是提前知道正確的設計。
潛在模型出于類似原因在訓練上也更具挑戰性。學習目標中缺乏強監督會導致坍縮(collapse)問題,JEPA 的目標是基于過去的編碼預測未來的編碼,但你可以用平凡的編碼滿足這個目標(比如把一切都設為 0,損失為 0),所以需要確保表征不會坍縮。
在創建 Agent 可以訓練的環境的光譜上,一端是今天實用的,另一端是柏拉圖式的理想。潛在世界模型幾乎是 VLA(我們接下來會討論)的對面,更接近研究者認為的技術上的柏拉圖理想,但在今天的實踐中面臨真正的挑戰。話雖如此,新方法如 LeJepa 正在縮小差距。
![]()
(來源:Not Boring)
Chris Manning、Ian Goodfellow 和 Fan-Yun Sun 也加入了潛在世界模型的陣營,創立了潛在實驗室 Moonlake。Manning 幫助開創了神經自然語言處理并共同創建了 GloVe。Goodfellow 發明了 GAN(生成對抗網絡)。
Moonlake 的計劃很有趣:生成完整的游戲環境來吸引人類玩家并收集動作標簽數據,然后在語義/符號空間而非像素空間中建模世界。也就是說,他們用美麗的游戲環境吸引真實的人類玩家(因為需要人類生成動作標簽數據),但一旦有了數據,就完全丟棄像素,轉而在抽象表征上訓練。
最終,潛在和生成式模型不應該被視為對立的。Moonlake 的混合方法就是證據。它們只是服務于不同目標。潛在世界模型由于丟棄了一些信息通常計算效率更高,在表征學習和規劃方面有優勢。生成式世界模型應該更通用,因為理論上它們捕獲了所有視覺信息,在可解釋性和泛化方面有優勢。
生成式世界模型
生成式世界模型是我們所知的最接近模擬人類感知現實的東西。如果我們的世界是一個模擬,它可能是某種生成式世界模型。
這是 General Intuition 主要聚焦的范式。這也是 Google DeepMind 發布 Genie 3 時震撼世界的那個范式。
生成式世界模型產生人類可觀察的、交互式的未來,你可以看到、在其中行動、從中學習。你可以看到模型認為接下來會發生什么。模型接收一個狀態和一個動作,產生一個合理的下一個狀態,你可以在其中再次行動。這就像你能看到并操控的夢境。
這對訓練循環在很多情況下有改進作用。生成式和潛在模型都可以在想象中學習。但當視覺細節很重要,或者下游任務尚不確定時,帶有所有像素級細節的生成式世界模型學習,往往表現更好。這只在生成的環境足夠豐富以供學習時才有效。生成的世界越偏離現實,Agent 學到的教訓越差。這正是 DIAMOND 所展示的:當生成世界中有更多細節時,Agent 更聰明。
General Intuition 在這個擴散和流匹配架構上構建,部分由現在是其聯合創始人的研究者開發,他們構建了 IRIS、DIAMOND 和 GAIA-2。
Wayve 是自動駕駛領域生成式世界模型的領導者。通過使用大型潛在擴散世界模型離線做夢,他們旨在夢出在現實中需要數百萬英里駕駛才能找到的邊緣案例,在上面訓練駕駛策略,在模擬中評估策略表現,然后將夢境經驗蒸餾成一個更小的可以實時推理的車載策略。Wayve 創始人 Alex Kendall 最近展示了在日本道路上的零樣本駕駛。
Decart 將生成式世界模型應用于實時生成模擬,產生響應用戶動作的可玩世界。有趣的是,Decart 目前運行在英偉達 GPU 上,但計劃使用 Etched 的 Sohu 芯片,這是一種為運行 Transformer 設計的定制 ASIC,可以改善延遲并運行連續推理。
Runway 也在模糊視頻生成和世界生成之間的界線。Runway 聯合創始人兼 CTO Anastasis Germanidis 解釋了公司的進化:“要構建世界模型,我們首先需要構建一個非常好的視頻模型。我們相信這是構建世界模型的正確路徑,教模型直接預測像素是實現通用模擬的最佳方式。”Google DeepMind 也采取了類似方法;Genie 3 是建立在 Veo 之上的。
這些世界模型極其重要。但請記住,它們只是等式的一半。從一開始,無論是 1990 年的 Schmidhuber 還是 1991 年 Sutton 的 Dyna,計劃都是用世界模型訓練 Agent 在世界內部行動,然后將那些學習遷移到現實世界。
具身 Agent
我們想分享目前市面上幾個主要的具身智能體案例及其各自的方法:Physical Intelligence 和其他機器人公司的 VLA(視覺-語言-動作模型)、DreamerV4 的潛空間世界模型智能體、Google Deepmind 的 Sima2 通用具身智能體,以及 General Intuition 的通用智能體方法。
Physical Intelligence 與 VLA(視覺-語言-動作模型)。現代多模態 LLM 配備了 VLM(視覺-語言模型),一個能看能讀的模型。給它一張圖片和一個問題,它就能產出連貫的、有依據的答案。當你給 Claude 發一張山的照片讓它定位時,它就在使用 VLM。
2023 年 Google DeepMind 發表了 RT-2 論文,提出了一個方案:取一個理解場景和該做什么的 VLM,然后加上一個動作頭(action head),將人類語言指令翻譯成機器人理解的指令,比如改變位置或旋轉。從那時起,VLA 成為機器人領域的主導范式,效果出人意料地好。
![]()
圖丨 Google RT-2(來源:Google)
其他所有范式都在說:“圖像、視頻、空間和動作與文字有本質不同。我們需要用不同于生成文字的模型的方式來訓練和架構生成它們的模型。”VLA 說:“這可能是對的!那些方法可能在柏拉圖式理想上更好。但在實踐中這不重要,因為視覺 - 語言模型的基礎設施和數據遙遙領先。”
Not Boring 之前關于機器人的文章中,Standard Bots 的 Evan Beard 寫了一個“辛辣觀點”:我們使用語言模型基礎設施不是因為它是機器人的完美架構,而是因為我們作為一個物種,已經將數萬億美元和無數工程時間投入到了構建 LLM 基礎設施中。復用這臺機器太誘人了。
當然這種方法有挑戰:機器人領域的成功迄今嚴重依賴擴散式控制;LLM 是自回歸和基于 token 的,容錯空間更小;物理動作不能干凈地映射到 token。此外,與世界模型相比,VLA 需要收集大量真實世界機器人數據;它們在分布外的泛化似乎不太好。
盡管如此,Physical Intelligence(π)已經用 VLA 押注走得很遠了。他們的第一個通用策略 π?繼承了互聯網規模預訓練的語義知識和視覺理解,在 7 個不同機器人平臺的 68 個獨特任務上訓練,比如疊衣服、收拾碗碟、布線、組裝箱子、裝雜貨,所有這些都需要真實世界中的靈巧操作。
后續的 π?.5 在新環境中表現更好。π*?.6 表明機器人可以從經驗中學習并隨時間改進。最近的“具有長短期記憶的 VLA”則展示了機器人可以清理整個廚房、為食譜準備食材、烤芝士三明治。帶記憶的機器人在第一次失敗后會嘗試不同方法。
MEM 沒有改變底層架構。大部分參數仍然在語言骨干中,動作頭仍然在推理之后。但 Physical Intelligence 的存在提出了一個迷人的問題:這些架構限制在實踐中真的重要嗎?
如果說潛在世界模型在“柏拉圖式←→實用主義”光譜的一端,VLA 就在另一端。
Pi 至今能夠通過工程手段繞過架構限制來制造越來越有能力的機器人。他們的進步沒有放緩,似乎在加速。
這是有歷史先例的賭注。理想的技術,那些技術上優越的解決方案,并不總是贏家。這是 W. Brian Arthur 1989 年論文《競爭性技術、遞增回報與歷史事件的鎖定》的關鍵啟示。市場常常收斂于最先被采用的技術,因為采用創造了遞增回報。這也是 Sara Hooker 2020 年論文《硬件彩票》的要點:“一個研究想法獲勝是因為它適合當時可用的軟件和硬件,而不是因為這個想法優于替代研究方向。”
從外部看,Pi 的策略似乎是乘著 Transformer 架構的遞增回報,試圖在世界模型特定架構獲得牽引力之前用 VLA 創造路徑依賴,贏得自己的“硬件彩票”。它們不是唯一做這個賭注的公司。Skild,最接近的直接競爭者,也在 VLA 上構建。
最近,據《華爾街日報》報道,前 OpenAI 首席研究官 Bob McGrew 正在為他的新公司 Arda 以 7 億美元估值融資 7,000 萬美元,描述聽起來至少涉及 VLM 和 VLA:開發 AI 和軟件平臺,包括一個可以分析工廠車間視頻并用它來訓練機器人自主運行工廠的視頻模型。
我個人不認為 VLA 和世界模型真的在競爭。它們試圖從不同方向達到在物理世界中行動。VLA 是語言優先的,世界模型是視頻-動作優先的。兩者可能會趨同,都成為解決方案的一部分。
DreamerV4——潛在世界模型 Agent。
潛在方法對 Agent 訓練有天然的優雅。因為潛在世界模型在壓縮的抽象空間中運作,Agent 的規劃和策略學習可以非常高效地發生,不需要像素生成。Agent 基本上通過思考來練習。
典型例子是 Google DeepMind 的 Danijar Hafner 開發的 Dreamer。Dreamer 的洞察很優雅:如果你有一個足夠好的潛在世界模型,訓練期間完全不需要觸碰真實環境。Agent 完全在潛在空間中想象動作序列及其后果,接收獎勵信號,更新策略,全程沒有一次真實世界交互。當它最終進入真實環境時,它已經知道該做什么了。
Dreamer 在從游戲到連續控制到機器人的廣泛任務中取得了不錯的成績。據 The Information 最近報道,Hafner 和 Wilson Yan 正在籌集 1 億美元建立一家名為 Embo 的世界模型公司。
挑戰在于,Agent 學到的行為只和潛在表征一樣好。如果世界模型的抽象編碼遺漏了某些因果上重要的東西,比如決定機器人是否打滑的地板紋理,或決定物體能否被抓取的精確角度,Agent 不會知道要關注它,因為模型沒有編碼它。垃圾進,垃圾出,但垃圾是看不見的。
SIMA 2——基于 VLM 骨干的通用具身 Agent
Google DeepMind 在 2025 年 11 月發布了 SIMA 2。它將 Gemini 骨干與在 3D 游戲環境中訓練的世界模型相結合,賦予 Agent 對語言的理解(可以接收和推理目標)以及執行目標的時空理解。
與 VLA 不同的是“公民身份”(citizenship)的方向。在 VLA 中,語言是一等公民,圖像是二等公民。在配備世界模型的 Agent 中,視頻是一等公民,動作從一開始就被引入,訓練數據直接對齊我們尋找的下游行為。Agent 的基本能力是時空的。如果你告訴它需要做什么,它知道如何在世界中移動去做。
SIMA 2 可以獨立玩游戲,可以學習、推理和改進。它玩得越多就越好,不僅在它玩過的游戲中,而且在任何游戲中。它甚至能在任何生成的世界中玩,即使從未見過。Google DeepMind 認為這是“朝著創造能在任何地方幫助完成任何任務的 AI 邁出的一步,包括有朝一日在現實世界中”。
General Intuition——從動作和世界模型出發的通用 Agent
與 Google DeepMind 類似,General Intuition 也相信通用 Agent 將在具身系統如何運作以做有用的事情方面發揮重要作用。
首先創建夢境。然后讓 Agent 在其中奔跑。讓它們玩耍、犯錯、學習、獲勝。然后將那些學習遷移到其他夢境,甚至遷移到真實世界。
回想《黑客帝國》。當 Neo 需要學功夫時,他插入了一個虛擬道場,在一個優于“真實世界”的訓練環境中與 Morpheus 對練。之后?“I know Kung Fu。”世界模型就是虛擬道場。Neo 就是 Agent。
這是 Ha 和 Schmidhuber 八年前提出的問題:Agent 能在自己的夢中學習嗎?
在非常短的時間內,這個領域已經有了答案:能,只要你擁有動作標簽數據(或能獲得它)。
到目前為止寫到的每一種方法最終都撞上同一面墻:需要更好的數據。視頻很豐富,但它缺乏深度。它沒有動作標簽。沒有知道什么動作導致了我們看到的東西,視頻數據就像柏拉圖洞穴墻上的影子。
Yann LeCun 可能是對的,你可以推斷動作。但任何使用推斷動作的人都有單獨的擴展定律要考慮:推斷動作本身需要計算、時間和注意力。雖然推斷動作可能在基準測試上看起來不錯,但在邊緣案例上會嚴重掙扎。即使推斷得好的動作也只是某人實際所做的近似:有些東西在視頻中根本看不到,比如從駕駛艙著陸時移動方向舵。提示:如果你不做,你會墜機。這就是為什么 ground truth 至關重要。
在 General Intuition 之前,是 Medal
之前談到了游戲在 AI 發展中的重要性。除了 AlphaGo 和深藍這些有意使用游戲的案例,還有更豐富的游戲與 AI 之間偶然聯系的歷史。
英偉達是你可能知道的例子。Jensen 于 1993 年創立英偉達為游戲制作實時圖形芯片。1999 年發布第一個“圖形處理單元”(GPU)GeForce 256。幾年后研究者開始用 GPU 做神經網絡實驗。2007 年英偉達發布 CUDA。2009 年斯坦福三位研究者展示 GPU 可以將深度學習的無監督學習加速 70-100 倍。
![]()
圖丨 GeForce 256(來源:Nvdia)
2012 年 AlexNet 團隊用 GPU 在 ImageNet 競賽中碾壓對手。一年內深度學習界全部切換到 GPU。然后比特幣礦工開始用 GPU,然后是以太坊礦工,直到以太坊轉向 PoS,留下 GPU 過剩。同月加密貨幣見頂,英偉達股價也跌了 66%,直到 OpenAI 發布 ChatGPT,此后英偉達市值增長了 10 倍到今天的 4.4 萬億美元。
誰能預測到這一切?
13 歲時我自學了逆向工程,學會編程來構建一個私人 RuneScape 服務器。RuneScape 開發者從游戲中移除了荒野和自由交易功能,我想把它加回來,所以學會了逆向工程。到 18 歲時這個業務年收入約 150 萬美元,但因為成年后要承擔法律責任我不得不關閉。
賺了足夠的錢后,我 19 歲加入了無國界醫生組織(MSF),待了三年從事埃博拉和人道主義地圖工作。在 Google Crisis Response 待了一段時間,然后我對游戲的熱情又回來了。
2018 年,我和之前構建 RuneScape 服務器的同事一起做了一個叫 Get Wrecked 的游戲,獲得了大量注冊但很快流失玩家,競技游戲需要足夠的玩家流動性。為了解決這個問題,他們構建了一個在平臺上觀看游戲片段的功能。片段平臺 Medal 在 Rocket League subreddit 上爆紅。下載量太大了,很快就清楚這才是更大的機會。游戲從未發布。Medal 一直在增長。今天,全球玩家每年向 Medal 上傳超過 10 億個游戲片段。
這是一個構建世界模型和策略的絕佳數據集,而且不是計劃出來的。
Medal 的上傳量與 YouTube 相當。玩家每天上傳數百萬個片段,跨越數萬個環境,已經由玩家親手篩選出高光時刻和意外事件。換句話說,他們分享的是他們認為值得分享的內容:最佳表現、最瘋狂的遭遇、最驚險的瞬間。
Medal 數據有 YouTube 數據所沒有的東西。它附帶了社交網絡的元數據(瀏覽量、點贊、評論),更重要的是,游戲內動作。Medal 只在本地機器上記錄游戲動作,只存儲游戲內動作名稱(比如“前進”)而不是按下的按鍵。
每個片段都有玩家看到的確切內容,以及隨之而來的確切玩家動作,使用的是與當前控制機器人相同的許多系統。來自游戲的幀還有一個好處:信息完整。與真實世界視頻不同(你需要做姿態估計來推斷人類看到了什么,這本身是一個有損過程),在游戲中,錄制的內容和你看到的永遠一致。
這給了他們數萬億個玩家運行“觀察、預測、行動”循環的例子。這是智能的基礎,整個過程沒有信息損失。
![]()
(來源:Not Boring)
關于數據
還有一個重要區分需要厘清。人們把“數字的”和“合成的”混為一談,但真正的區分不在于數據生成的環境,而在于數據本身。
物理世界中可以有合成數據(比如波士頓動力和其他機器人公司在人工建造的環境中訓練的那些),數字世界中也可以有人類 ground truth 數據。Medal 的游戲數據是“數字環境中的人類 ground truth 數據”,捕獲的是真實的人類反應,是“觀察→預測→行動”循環。
![]()
(來源:Not Boring)
最接近的類比是 GitHub 數據。它捕獲了人類工程師編碼的歷史,被用來訓練出了能比人類編碼更好的機器。問題是這個想法在計算機之外是否也能工作。General Intuition 相信(并正在看到跡象),從游戲數據中學習可以遷移到物理世界。
游戲被證明是學習智能的完美訓練場。它們包含數千個模擬世界,具備物理、策略、合作、文本、界面使用、競爭和長時間跨度規劃。它們足夠復雜到需要直覺,又足夠結構化到可以大規模學習。
僅靠物理世界數據無法達到學習通用智能所需的多樣性或規模。LLM 缺乏關于動態和原子的數據。但游戲充當了理想的中介:數字世界的比特與物理世界的原子之間的橋梁。
不過也存在威脅。LeCun 認為,如果你足夠擅長推斷動作,每個視頻都是動作標簽數據。長期來看這可能是對的,但今天極其不實用。
一切都是權衡。最優路徑可能在 VLA 今天所處的位置(最實用但最不優雅的方案)和 AMI 有朝一日可能到達的位置之間的某個地方。一切歸結于你對數據的態度。
數據是任何想解決具身 AI 的公司面臨的核心問題。General Intuition 相信他們的數據集是通用模型數據問題最優雅的答案。
對于通用模型,可以在幾乎任何可想象的真實世界情況中直覺式、自發式地驅動具身 AI 的模型,問題不僅僅是你能獲得多少數據。在把數據扔給問題之前,你需要理解你的遷移曲線(transfer curves)。
小步、大躍和遷移曲線
Not Boring 之前關于機器人的文章寫過,構建經濟上可行的具身 AI 有兩種方法:小步(Small Step)或大躍(Giant Leap)。Standard Bots 追求小步方法:在現場邊賺錢邊學習,一個用例接一個用例。他們跨越許多不同的行業和任務收集多樣的真實世界數據。
General Intuition 和 Standard Bots 從光譜的兩端來到同一個問題。
![]()
(來源:Not Boring)
General Intuition 試圖從數字端解決泛化:賭注是游戲數據將產生關于物理和動作的廣泛先驗。Standard Bots 試圖從物理端解決泛化:賭注是真實世界部署將產生關于操作和工業任務的廣泛先驗。
這兩種方法是互補的。GI 的世界模型可以成為 Standard Bots 后訓練的起點。GI 提供在數字環境中觀察到的數據上訓練的基礎模型(可擴展且經濟地收集),Standard Bots 用他們有償收集的特定用例數據進行后訓練。
General Intuition 認為更具挑戰性的方法是收集大量數據然后希望它泛化到分布外任務。通用模型需要太多跨越太多情況的數據,無法全部通過付費讓人演示任務來收集。
此外,同一領域的更多數據不會自動教模型處理它從未見過的情況。在預訓練階段,并非所有數據都是平等的。我還沒有遇到一個構建通用機器人模型的人,能指出擴展定律證明他們可以僅通過添加更多數據來解決分布外用例。
這些擴展定律還不存在。
據 General Intuition 目前所知,有三種不同的遷移曲線決定世界模型是否能泛化到新的物理環境。它們目前還不太被理解,但可以命名為:輸入模態遷移、傳感器遷移和環境遷移。
第一種是輸入模態遷移:策略在物理系統的自由度之間泛化得如何?對于一個具有 20 到 60 個自由度的人形機器人來說,這條曲線很陡。手指運動不獨立于手臂。從游戲手柄訓練然后期望它干凈地遷移到 20 自由度的人形手,這在研究層面是一個沒有擴展定律支撐的賭注。
第二種是傳感器遷移:如果工作負載需要專門的物理傳感器(觸覺反饋、本體感受、深度),需要多少傳感器特定數據才能讓模型可靠地推理?特斯拉明確地解決了這個問題,花了多年弄清楚在完全放棄 LiDAR 芯片之前需要多少 LiDAR 數據。
第三種是環境遷移:當環境變得更復雜、更隨機、更多人時,表現如何衰退?在一個有千人的體育場中預測正確動作,比在空曠場地上困難得多。復雜度不是線性擴展的。
這三條曲線相互作用。在你能映射它們之前,你無法知道你實際需要多少什么類型的數據,也就無法證明大規模去收集數據的資本支出合理性。
General Intuition 的賭注是坍縮這個問題。通過聚焦游戲控制器輸入,他們將輸入模態遷移減少為一條已經解決的曲線,他們有數十億個人類使用控制器的片段。這消除了一個未知數。通過聚焦基于視覺的輸入而非專業傳感器,他們消除了第二個未知數。
幾乎每個物理系統都配備了類似游戲控制器的輸入模態,包括方向盤、鍵盤鼠標和實際的游戲控制器。大多數都很直接。即使人形機器人也配備了它們。挑戰只是如果自由度超過控制器能做的,遷移會更差。所以人形機器人在路線圖上更靠后,但他們認為沒有物理限制表明不能圍繞接口限制進行構建。
簡而言之:如果你可以用游戲控制器控制幾乎任何物理系統,而 General Intuition 擁有世界上最多的“玩家使用控制器采取動作時會發生什么”的數據,他們的 Agent 應該能夠控制幾乎任何物理系統。
唯一剩下的問題是關于環境遷移:在夢中訓練的 Agent 能在現實中操作嗎?
世界模型的超人類未來
在 General Intuition 位于紐約和日內瓦的辦公室里,過去的幾周充滿了瘋狂與驚喜。我們在這里寫到的一切都比預期的效果更好。和其他人一樣,我們正在增強一種信念:在夢中訓練的 Agent 可以在現實中操作。
為什么世界模型能遷移?
觀察-預測-行動循環是因果結構系統一般如何工作的一種抽象。一旦世界模型通過多樣的游戲集看到了 N 個世界的變體,只需要少量微調就能理解第 N+1 個對應真實世界的變體的動態。
世界模型學習建模現實的因果關系。如果這種因果關系在足夠基本的層面被理解,世界模型就應該能泛化到新場景。
General Intuition 的目標是讓具身 AI 理解世界,讓他們的模型在任何環境中控制機器,包括現實世界。他們的目標是為機器人帶來一個突破時刻,突然之間,進步顯而易見,模型易于使用。
這個突破不會看起來像 LLM 的突破。LLM 因為開始像人類一樣跟我們對話而變得主流。我們不希望機器只是做人類做的事。事實上,機器的意義在于做人類做不到的事,賦予我們超能力。
機器人不需要長得像我們才能為我們工作。人形機器人作為形態因素在很大程度上是基于一個假設選擇的:它們有最多的數據可以從互聯網上的人類視頻中學習。
如果你不需要那些視頻,如果你可以直接從各種具身形態的電子游戲動作中學習,而且只需要少得多的數據就能遷移到現實,那個假設就不成立了。機器人的未來應該由更簡單、更便宜的系統塑造:只具有與實際工作匹配的自由度的機器。
人類身體是一個不可思議的通用平臺,但對于任何特定任務來說,它很少是最優(或最具成本效益)的形式。與其復制我們的解剖結構,不如鏡像我們已經本能使用的接口:操縱桿、方向盤、游戲手柄和鍵盤。這些工具是幾十年迭代的產物,將人類意圖壓縮成一個干凈的、通用的動作空間,就像語言對思想所做的那樣。
General Intuition 還在積極研究模擬,最終將使他們的系統超越目前用像素描述的一切,延伸到所有受因果關系支配的東西。他們使用的方法非常通用。這還很遙遠,但是必要的一步。
如果我們能建模三維性、物理和時間及其交互,那么在超人類的宏觀和微觀尺度上操縱這些領域的能力就在地平線上了。前方還有大量工作。今天沒有人能夠模擬一個生物細胞,更不用說由 10^30 個細胞組成的生態系統。但 Pim 說令他著迷的是,我們不需要映射現實的所有細節。我們只需要觀察那些細節如何體現在動作中,并用那些動作來預測接下來會發生什么,一遍又一遍。
構建這些模型也伴隨著巨大的責任,這是我非常嚴肅對待的事情。
![]()
(來源:Not Boring)
我來自最容易受到 AI 位移影響的一代人;我的一半童年朋友找不到工作。我正在花大量時間探索如何在這場轉變中帶上我的社區和我這一代人。例如,像特斯拉一樣,Medal 擁有超過 100 億美元的全球硬件基礎設施,GPU、CPU,插著電,有散熱,由超過 1,500 萬用戶驅動。
我們正在積極探索讓社區分享即將到來的東西的方式,例如通過讓用戶的 GPU 提供推理服務來產生收入,或從我們的游戲設備進行遙操作。如果通用智能的需求接近我們的預期,這可能是我們這一代人所見過的最大經濟順風。
這些現在只是我的夢想。但有一天,它們不再只是夢想。有一天,我們把無聊的問題留給超級智能,這樣我們就可以從游戲設備上探索星空或深海,夢想下一個獨屬于人類的、最有趣的、不無聊的事情。
參考資料:
https://www.notboring.co/p/world-models#footnote-3-191268033
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.