henry 發自 凹非寺
量子位 | 公眾號 QbitAI
繼“下一個詞預測”之后,世界建模將成為新的預訓練范式。
這是英偉達機器人主管Jim Fan給出的最新判斷。
![]()
他認為,2026年將成為大世界模型(Large World Models)真正為機器人領域以及更廣義的多模態AI奠定基礎的第一年。
謝賽寧隨即轉發表示贊同:“事后看來顯而易見”。
![]()
在這篇長文中,Jim Fan討論了世界模型的定義與應用,尤其聚焦于物理AI領域的發展,同時展望了新的推理形式:
- 世界建模(world modeling)是在給定一個動作的條件下,預測下一個合理的世界狀態(或一段更長時間范圍內的狀態)。
- 當前世界模型的主要炒作集中在AI視頻領域,而2026年將迎來物理AI的爆發。
- 世界模型需要更廣義的預訓練目標:下一個世界狀態不應只包含RGB,還必須覆蓋3D運動、本體感覺與觸覺。
- 將出現一種新的推理形式:在視覺空間中的思維鏈,而非語言空間中的思維鏈。
以下為分享全文:
第二個預訓練范式
下一個詞預測(Next word prediction )曾是第一個預訓練范式,而現在我們正在經歷第二次范式轉變:
世界建模(world modeling),或者說“下一個物理狀態預測”
很少有人真正理解這一轉變的深遠意義。不幸的是,目前世界模型最被炒作的應用仍然是AI視頻(接下來可能是游戲)。
我非常有信心地說:2026年將成為大世界模型(Large World Models)首次為機器人領域,以及更廣義的多模態 AI 奠定真實基礎的一年。
在這個背景下,我將世界建模定義為:在給定一個動作的條件下,預測下一個合理的世界狀態(或一段更長時間范圍內的狀態)。
視頻生成模型是其中的一種實現形式,其中“下一個狀態”是一系列RGB幀(通常為 8–10 秒,最長可達數分鐘),而“動作”是一段描述要執行什么的文本。
訓練過程就是對數十億小時視頻像素的未來變化進行建模。
本質上,視頻世界模型就是可學習的物理模擬器和渲染引擎。
它們能夠捕捉反事實情景(counterfactuals),即預測如果采取不同動作,未來可能會如何不同——這就是推理。世界模型從根本上以視覺為中心。
相比之下,VLM本質上是以語言為中心的。從最早的原型(e.g. LLaVA, Liu et al. 2023)開始,整體路徑基本一致:視覺在編碼器處進入,然后被送入語言主干網絡。
隨著時間推移,編碼器不斷改進,架構變得更簡潔,視覺試圖變得更加“原生”(如全模態模型)。
然而,視覺仍然是二等公民,無法與領域多年構建的LLM能力相比。(LLM)這條路線方便,因為我們熟LLM的擴展性,架構設計、數據配方、評測指標(如 VQA)都高度優化為語言服務。
對于物理AI來說,2025年以VLA為主:在預訓練VLM上接入機器人動作解碼器。
嚴格來說,它更像是 “LVA”:語言 > 視覺 > 動作,等級遞減。
方便是方便,但VLM中大多數參數用于知識(例如“這一團像素是可口可樂品牌”),而不是物理(“如果你傾倒可樂瓶,它會灑成棕色水洼,弄臟白色桌布,還可能損壞電機”)。
VLA的設計在知識檢索上很強,但物理能力分配不足。多階段嫁接的設計,也違背我對簡潔優雅的偏好。
從生物學角度看,視覺主導了我們的皮層計算。大約三分之一的大腦皮層用于在枕葉、顳葉和頂葉區域處理像素。
相比之下,語言依賴于一個相對緊湊的區域。視覺是連接我們大腦、運動系統和物理世界的最高帶寬通道。它閉合了“感知—運動回路(sensorimotor loop)”——這是機器人最需要解決的回路,而且在中間不需要語言。
自然界給了我們一個最具說服力的例證:高靈巧物理智能幾乎不依賴語言——猿類。
我見過猿類駕駛高爾夫球車,用螺絲刀更換剎車片,動作就像人類機械師一樣。
它們的語言理解能力不超過BERT或GPT-1,但它們的物理技能遠遠超過我們當前最先進的機器人。
猿類可能沒有優秀的語言模型,但它們顯然擁有對“如果……會怎樣”的穩健心理表征:即對物理世界如何運作、以及在其干預下會如何反應的理解。
世界建模的時代已經到來。
這是帶著苦澀教訓的時代。正如Jitendra常提醒我們這些“擴展成癮者”:
- 監督是AI研究者的鴉片。
YouTube的海量視頻和智能眼鏡的興起,將以遠超文本訓練規模的原始視覺流捕捉世界。
我們將看到一種新的預訓練形式:下一個世界狀態將不只包含RGB——3D空間運動、本體感覺和觸覺感知才剛剛開始。
我們將看到一種新的推理形式:在視覺空間中的思維鏈,而不是語言空間中的思維鏈。
你可以通過模擬幾何關系和接觸來解決物理謎題,想象物體如何移動和碰撞,而無需將其翻譯成字符串。語言是一種瓶頸,是一種腳手架,而不是基礎。
我們將面臨一系列新的潘多拉盒問題:即便未來模擬完美,動作該如何解碼?
像素重建真的是最優目標,還是應該進入其他潛在空間?需要多少機器人數據?遠程操作的擴展是否仍然可行?
完成這些之后,我們是否終于迎來機器人領域的GPT-3時刻?
Ilya 說得沒錯:AGI尚未收斂。我們又回到了研究時代,而沒有什么比挑戰第一性原理更讓人興奮的了。
世界模型作為新的范式
總體來看,這篇新文章可以被看作是Jim Fan在2025年機器人年終總結中第三點的延伸與展開。
當時,他提出:基于VLM的路線,本質上主要服務于語言和知識,而不是物理世界本身
![]()
那時,他已經把問題說得很直白:
VLM的參數主要面向語言和知識,而非物理世界。
視覺編碼器在訓練中會主動丟棄細節,但機器人操作恰恰依賴這些細節。
因此,VLA并不會隨著VLM的scale自然增強。
而最近這篇關于world modeling(世界建模) 的長文,則可以看作是Jim Fan對這一判斷的系統性展開與進一步思考。
對于他的觀點,業內大佬和網友也紛紛表達了看法。
來自Google DeepMind的Genie 3聯合負責人、世界模型團隊負責人Jack Parker-Holder也在轉發分享了他對世界模型應用場景的理解:
- 世界模型本身就是一類全新的基礎模型。它們既服務于交互式媒體(視頻模型),也服務于具身AGI。世界模型是連接虛擬與物理兩個領域的橋梁,其真正價值在于跨任務、跨領域的泛化能力。
![]()
換句話說,就像LLM作為基座模型既能編程又能解數學題一樣,放到世界模型上,視頻生成與具身操控也可以兼容
而谷歌、英偉達等玩家,也都在虛擬游戲、視頻以及物理機器人領域同步布局。
不過,前英偉達機器人研究主管Arsalan Mousavian也提醒:
- 對于大型世界模型(LWM)來說,這是一個非常棒的愿景,但從像素到物理的躍遷仍然很陡峭。
![]()
要讓世界模型成為可靠的動作生成骨干,還必須解決以下問題:
- 幾何一致性:確保運動學和物體恒常性在物理上成立。
- 同一性保持:避免跨實體的幻覺預測,例如機器人A在預測過程中突然變成機器人B。
- 推理速度:降低實時循環延遲。大型世界模型計算量大、延遲高,而機器人需要高頻率響應。
- 動作采樣:世界模型可以預測結果,但我們仍然需要對動作進行采樣。
在數據量和計算需求上,這一目標將使當前的動作策略擴展(action-policy scaling)顯得相對溫和。
此外,jim fan提到的視覺推理也引發廣泛討論:
- 推理不一定非得依賴語言——視覺模擬(幾何、接觸、運動)本身就能構成推理過程。
![]()
- 機器人正是視覺為中心的基礎模型大顯身手的完美舞臺。2026將是多模態、多輪交互代理(機器人/CUA)之年,而這一場比賽的勝者,必然會在游戲中更加重視視覺模態。
![]()
- 猿猴的比喻非常貼切。我們太過癡迷語言,以至于忘記了靈巧的行動能力并不一定需要詞匯量。2026年或許是機器人技術最終停止依賴語言模型,轉而構建原生系統的一年。
![]()
而除開英偉達、谷歌等巨頭在世界模型技術路線的押注外,商業層面也在快速推進——
一周前,李飛飛創辦的World Labs正以約50億美元估值進行新一輪融資,規模最高可達5億美元。
LeCun前段時間創辦AMI Labs(Advanced Machine Intelligence,AMI)也吸引了包括Cathay Innovation在內的潛在投資者,傳聞其融資估值可能達到35億美元。
參考鏈接:https://x.com/DrJimFan/status/2018754323141054786
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.