![]()
一個大語言模型寫詩、答題、總結報告,它表現得游刃有余。但如果你讓它預測一個玻璃杯從桌邊滑落后會發生什么,或者指揮一臺機器人在雜亂的車間里搬運零件,它很可能一塌糊涂。
Google DeepMind首席執行官德米斯·哈薩比斯也在公開場合指出,當前AI存在"智能不均衡"的問題,能解出高難度數學題,卻搞不定基本的物理直覺。
這個判斷,正在引發AI行業有史以來規模最大的一次技術路線轉向。
2026年3月,楊立昆離開Meta后創立的新公司Advanced Machine Intelligence(AMI Labs)完成了10.3億美元的種子輪融資,估值約35億美元,投資方包括英偉達和多家頂級機構。這距離李飛飛創立的World Labs完成10億美元融資,僅僅過去了數月。
兩家公司押注的,是同一個賽道:"世界模型"。
世界模型的核心思路,是為AI構建一套內部的物理模擬器,讓它在真正行動之前,能夠在腦子里先"預演"后果。這與人類思考方式更為接近,也是機器人、自動駕駛和工業自動化等實體應用真正落地所必需的能力基礎。
"世界模型"并非一種單一的技術,它是至少三種截然不同的技術路線的統稱,每一條路線背后的邏輯、優勢和適用場景都大相徑庭。
第一條路是楊立昆力推的JEPA路線,即聯合嵌入預測架構。
JEPA的關鍵在于"放棄細節"。傳統模型試圖在像素級別預測世界的每一幀畫面,而JEPA學的是更抽象的"規則",它會丟掉背景樹葉上的光影變化,專注于理解場景中物體運動的核心模式,就像人類看一輛車行駛時追蹤的是軌跡和速度,而不是每片窗玻璃的反光角度。
這種"放棄"帶來的好處是極高的效率。JEPA模型計算量小、延遲低、對噪聲不敏感,非常適合對實時響應要求苛刻的機器人控制和醫療輔助決策。Meta的V-JEPA 2是這一路線目前最成熟的公開成果,已被證明能在視頻理解任務中達到業界領先水準。
第二條路是World Labs代表的高斯散射(Gaussian Splatting)路線。
第三條路是Google DeepMind和英偉達主導的端到端生成路線。
DeepMind的Genie 3和英偉達的Cosmos平臺,代表的是一種最為激進的方案:模型本身就是物理引擎。它實時接收用戶操作,逐幀生成場景、物理動力學和光照響應,而不是把結果輸出到外部引擎。Genie 3已經被Waymo用于訓練自動駕駛系統,英偉達Cosmos則專門為機器人和自動駕駛開發者提供合成極端場景的能力,讓高風險的真實路測變成可以無限重復的數字實驗。
這條路線的代價是高昂的算力消耗,但它提供了目前最為靈活和強大的合成數據工廠能力。
三條路線之間并非非此即彼的競爭關系,混合架構正在出現。大語言模型繼續承擔推理和溝通的接口角色,而世界模型在后端處理物理和空間信息,二者分工協作,各司其職。
超過20億美元的資本押注,正在告訴整個行業:下一個AI時代的入場券,是理解物理世界的能力,而不僅僅是預測下一個詞。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.