![]()
無論是自動駕駛還是具身智能,都在走向大規模基于世界模型的訓練之路。
作者丨劉欣
編輯丨馬曉寧、陳彩嫻
世界模型在人工智能領域中扮演著重要角色,能夠有效為智能體提供對復雜現實世界的內在表征,使其像人類一樣理解世界運行的邏輯與因果關系,對自動駕駛、具身智能的突破性發展至關重要,它已成為學術界和工業界的研究熱點。
2015年8月5日,雷峰網、AI 科技評論 GAIR Live 品牌舉辦了一場主題為“世界模型——通向通用智能的關鍵拼圖”的線上圓桌沙龍。
圓桌主持人為清華大學智能產業研究院( AIR )助理教授、智源學者趙昊,并邀請了寧波東方理工大學助理教授金鑫、浙江大學特聘研究員廖依伊、布里斯托大學助理教授楊夢月、伯克利人工智能實驗室博士后研究員鄭文釗一起進行了一場深度的討論。
會上主持人趙昊帶頭討論世界模型,先是探討其定義、范圍,接著分析強化學習界與計算機視覺界的世界模型的不同,隨后圍繞視頻生成、三維重建等內容,剖析通用視頻生成模型向真正的世界模型的發展路徑,最后關注于落地場景,聚焦于自動駕駛以及具身智能,并探討構建其世界模型的難點和方向。
其中,四位嘉賓圍繞具身智能世界模型的構建分別提出了自己的獨到見解:
鄭文釗認為具身智能的問題與自動駕駛相似,未來應該實現重建與生成的結合、提升三維建模精度,以及更精準地判斷因果性,使因果性與物理規律更好契合,但由于具身智能的數據稀缺,純數據驅動很難訓練出符合物理規律的世界模型,因此需要更好地建模物理規律,甚至將其“注入”模型。除了“真實到仿真再到真實”的路徑,更優的方向可能是數據驅動與物理規律結合——探索如何通過某種方式將物理規律注入數據驅動模型,這可能是未來的趨勢。
金鑫也表示物理規律、物理真實性( physical world intelligence )對具身智能的世界模型很重要,探索方向不僅依賴數據驅動,還借鑒了傳統仿真領域的經驗,結合圖形學中的物理建模方法(如楊氏模量、彈簧 - 質量模型等基于規則的物理仿真)與數據驅動的生成模型(如 AIGC 生成模型),希望讓具身智能的世界模型既能保證物理真實性,又能實現外觀真實。
楊夢月則提出了她自己的思路,在具身場景中,通過某種機制或智能體捕捉物理規律,將其整合成因果模型,再利用該模型進行反事實預測或推斷。
最后廖依伊對金鑫和鄭文釗的觀點表示贊同,還發出了路線選擇的疑問,她認為核心問題在于:是否必須顯式建模 3D ?在 2D 層面能否學好交互?若有足夠訓練數據,2D 學習交互可能更簡單——比如疊衣服、泥巴落地等非剛性物體場景,在 3D 中建模難度極大。如何做好 2D 與 3D 的結合,仍是難題。
![]()
以下是此次圓桌討論的精彩分享,AI 科技評論進行了不改原意的編輯整理:
01
如何定義世界模型?
趙昊:大家好,歡迎來到本次線上研討會。我們將圍繞“世界模型——通向通用智能的關鍵拼圖”這一主題展開討論。我是趙昊,此前曾在北京大學和英特爾研究院工作,目前任職于清華大學智能產業研究院( AIR ),主要從事計算機視覺、圖形學與機器人的交叉研究。世界模型作為串聯這些領域的核心技術,我對其始終秉持堅定的信念。
在正式開始前,我想先界定一下世界模型的范疇。從最狹義的角度來看,是自動駕駛領域的世界模型,這也是目前研究較多的方向;進一步拓展,則是具身智能的世界模型;再往上,第三層可涵蓋通用視頻生成或傳感器生成模型;而最廣義的層面,我認為是訓練智能體的世界模型。
今天參與討論的幾位老師雖多來自計算機視覺領域,但考慮到AI科技評論的廣泛視野,我們的討論范圍應當進一步擴大。盡管部分領域,如自然語言處理( NLP )、智能體( Agent )等,我個人并非深耕其中,但既然舉辦此次線上研討會,就應當拓展討論邊界,最終聚焦到第四層級的核心議題——通用智能如何在世界模型中誕生。
當然,考慮到今天受邀的幾位老師多具備計算機視覺( CV )背景,我們的討論可以從自動駕駛領域切入,再逐步向外延伸。畢竟不同領域的科學原理在本質上存在共通之處。
金鑫:謝謝趙老師的開場。大家好,我是金鑫,目前任職于寧波東方理工大學信息學部。寧波東方理工大學是一所新型研究型大學,目前正在全球范圍內廣納賢才。
我是中國科學技術大學博士,研究方向包括空間智能及世界模型相關工作,一直與趙老師團隊合作推進自動駕駛相關研究,涉及基于 Occupancy-based 的生成等方向等等。
廖依伊:大家好,我是浙江大學特聘研究員廖依伊。我的求學和工作經歷如下:我在浙江大學獲得博士學位,在德國馬普所從事博士后研究,所在組是搭建 KITTI 數據集的 Autonomous Vision Group ,在組里期間我主導了 KITTI-360 數據集的構建工作,所以開始涉足自動駕駛相關研究。圍繞世界模型的方案,我們做了街景重建與生成。
我們近期研發的 HUGSIM 是一款基于 3D 高斯的仿真器,能夠與自動駕駛算法實現互動。正如趙老師所說,這屬于狹義的世界模型研究。今天非常期待能與各位老師探討,從狹義到廣義的世界模型發展。
楊夢月:我是楊夢月,去年10月加入布里斯托大學擔任助理教授,之前在 UCL 攻讀博士學位,導師是汪軍教授。我的研究方向最初是因果表征學習,后來結合強化學習( RL )相關內容,近期轉向世界模型研究,尤其聚焦于世界模型對世界規則的理解。我的研究方向可能不太偏向 CV ,更多側重于因果理解和表征學習。
鄭文釗:我是鄭文釗,目前在伯克利人工智能實驗室從事博士后研究。我本科和博士均畢業于清華大學,本科就讀于物理系。博士期間,我主要從事相似性度量等基礎研究,后期也涉足自動駕駛領域。我們始終堅持基于世界模型的自動駕駛,之后也會將世界模型拓展至更通用的智能領。
趙昊:接下來我們正式進入討論環節。開頭的這兩個話題,我想把我們討論的世界模型的 Scope 變得更大一點。
剛剛結束的智源大會也讓我學到了很多新知識。我個人主要是做 CV 的,CV 領域長期以來的觀點是通過重建物理世界、再做仿真和渲染來構建世界模型,但在這次大會上,許多 senior 學者從更抽象的角度看待世界模型,將其視為通向通用智能的關鍵拼圖。盡管我們可能從自動駕駛汽車、機器人的角度出發,但第一部分,我想從更通用的人工智能角度來思考這個問題。
GPT 為代表的 LLM 無疑是當前人工智能領域的典范,但它也面臨一些問題。首先是數據短缺, 數據耗盡后 GPT 的發展可能會停滯;其次,GPT 距離通用智能還有差距,它存在一些無法完成的任務。在智源大會上,我發現許多通用人工智能研究者也在關注世界模型,盡管他們心中的世界模型可能與我們 CV 領域狹義的虛擬世界模型不同,但他們都暢想,未來像 GPT 這樣的 Agent 能夠在真實物理世界中不斷探索學習,從而實現通用人工智能。這是一個 bigger scope 。
我們可以將范圍稍作限制,聚焦于 LeCun 團隊的世界模型研究,如 JEPA 、 V-JEPA 等,這些研究更 grounded ,方便我們展開討論。
經常有人問我,CV所做的視頻生成、三維重建等世界模型,與 LeCun 所說的通用世界模型有何區別與聯系。二者確實存在較大差異。了解 LeCun 學術流派的人知道,他創辦 ICLR 會議的核心關注點是表征學習。他所研究的世界模型更多是一種能夠表達和預測世界的通用表征思路,這種思路也更易被不具備太多三維視覺知識的通用人工智能研究者所理解。所以,我想從最寬泛的表征學習視角出發,聽聽大家的看法。我隨機點一位,有請楊老師。
楊夢月:我一直從事表征學習相關研究。在我看來,CV與表征學習之間存在gap。表征學習的本質是理解圖像或視頻背后的構成的 factor。圖像和視頻是高維空間的表現,而控制這種表現的其實是低維feature space (特征空間)中的特征。
我們可以有多種方式來表示特征空間,例如大模型的 embedding (嵌入)是一種表現;我們也可以將特征空間完全可解釋化,明確某個具體嵌入所對應的物理概念和語義含義。
當前大模型的訓練方式本質上是對數據的模仿,并不關注表征學習層面,因此可能僅學到數據表面的樣子,容易出現“幻覺”問題,無法真正理解世界正在發生的事情,也不清楚自身行為及其可能導致的結果。
表征學習更偏向于可解釋的范疇。也就是說,我們希望 Agent 是真正理解世界背后的規則,——這個世界由哪些 factor 構成,這些 factor 之間又存在怎樣的關系。 一旦理解了這些,智能體在做決策時,就不會僅僅基于像素級的圖像進行預測并以此決策,而是通過理解事件背后的邏輯來行動。例如,知曉兩個因素之間的關聯:當機械臂要將小球運到終點時,有兩種選擇——推球或者抓球。若它掌握了物理規則,就會知道當地面摩擦力較高時,推球并非最佳選擇,轉而選擇抓起小球直接送至終點,從而達成目標狀態。
世界模型的定義一直較為模糊,視頻生成、 VLA 乃至空間智能等相關技術都被籠統地歸為世界模型范疇。但現在越來越多的研究者認為,若要讓智能體真正具備決策能力,必須讓它理解世界的運行邏輯,否則決策可能因“幻覺”失效,尤其在高安全性場景中,看似無害的動作可能導致一些比較危險的狀態。
因此,要實現通用智能、讓智能體理解世界,還是要走表征學習的路子。表征學習包含多種技術,我們所研究的因果分析便是其中之一。這種技術不僅關注 factor 間的相關關系,更著重探究因果關系,而掌握因果關系能幫助智能體做出更優決策。以上就是我的觀點。
趙昊:楊老師的觀點很有意思,即當前的表征可能只有 correlation ,而缺乏因果關系,這確實是值得深入研究的方向。那么,楊老師認為完整的三維或四維世界表示作為一種 factor 表示方式,是否是必需的呢?
楊夢月:我認為構建 3D 或 4D 表示是一種新視角,對幫助到智能體理解世界,但它們之間的聯系還需進一步探索,目前這方面的研究還比較匱乏。
在世界模型層面,我們通常對其有明確的界定標準。普通的預測模型(比如視頻生成過程)往往是基于當前狀態預測下一個狀態,而世界模型要有智能體交互的屬性。具體來說,能被統稱為世界模型的模型,其邏輯應該是“當前狀態 + 智能體動作”通過模型函數映射到“下一狀態”。這里的動作既可以是顯性的,也可以是隱性的,關鍵是模型要能明確回答“當前采取某動作后,下一步會呈現什么狀態”。
按照這個定義,當前的3D、4D 生成技術雖然實現了對世界的重建,但尚未充分融入動作因素,也沒有考慮到動作對空間內部各因素相互作用的影響,因此與嚴格意義上的世界模型仍有差距。
當然,目前世界模型的定義還比較寬泛,但如果要進一步明確其核心內涵,就必須在模型中構建交互層面的建模,這是不可或缺的關鍵環節。
趙昊:我完全同意。我們 CV 領域的研究者常常關注傳感器數據的渲染質量,卻不太重視交互輸入,這是我們領域存在的一個較大問題。不過,目前在自動駕駛和機器人領域,已有不少視覺模型研究引入了動作因素。
聽到楊老師的觀點,她認為我們當前研究的最大問題是缺乏動作因素,我自己也意識到了這一點。我也分享一個觀點:我們真的必須依賴 3D 表征嗎?看起來 3D 表征并非在所有場景下都是必需的,比如我們根據牛頓定律建模了以后,模型就可以根據物理規律來運行輸出,這就不需要表征學習。但是物理規律也可能失效,比如現在有了極限情況,你必須引入相對論來修正。
我們計算機視覺和圖形學領域的研究者可能存在一種幻覺,認為只要重建并仿真世界,就能完全掌握其規律,但物理模型永遠不可能達到完美。所以從宏觀意義上看,或許完全數據驅動的表征學習反而是更正確的路徑。這一點我想聽聽鄭文釗的看法,因為我知道他有些論文僅在占用率( occupancy )層面開展研究,不會對傳感器數據進行真實渲染。
鄭文釗:謝謝趙老師。我接著剛才的話題談談我的觀點。如前所述,狹義的世界模型是對環境的建模,核心是接收智能體的交互動作作為輸入,并輸出對應的反饋。
我們早期基于占用率的世界模型研究中就引入了 action ,當時我們認為世界模型不僅要對行為做出反饋,還應輸出動作,因此在論文中將其定義為“泛化的世界模型”,但這一觀點在審稿人中存在爭議。直到現在,大家對世界模型的定義仍有分歧:它僅僅是對世界環境的建模并提供反饋,還是需要包含對世界運行規律的自主建模?
但我認為,若要邁向通用智能,世界模型的定義必須更泛化一些。這也是我認同 LeCun 觀點的原因,他所強調的世界模型偏向通用范疇。從 LeCun 對智能系統的描述來看,其中包含世界模型、記憶模塊、行為模塊等,分別對應空間智能、行為智能等能力,可見世界模型在通用智能中扮演著重要角色。
盡管存在爭議,但從宏觀角度而言,我們的核心目標是結合動作對環境進行建模。接下來我想談談世界模型與表征的關系:世界模型在某種程度上是更具泛化性的語言模型。大語言模型的核心范式是 next token prediction ,當然現在有一些不同的語言模型并非采用這種范式。語言并不是數據驅動學習到的表征方式,它是人類通過數千年文化歷史凝練而成的對世界的描述,是人類定義好的認知框架。 從這個角度來看,語言模型其實也是在預測未來會發生什么。
除了語言之外,是否存在其他更完備、更細節的世界表征方式?這也是我認為世界模型能成為比大語言模型更通用的基礎模型的原因——如果 CV 領域未來會出現類似大語言模型的核心模型,其形態很可能是世界模型,而其中最核心的就是表征的選擇。在 NLP 中,表征選擇很直接,就是語言本身。但在視覺領域或更通用的場景中,表征選擇需要更深入的考量:可以選擇像素,但像素僅能反映二維空間信息;我們之前的研究選擇占用率作為表征,因為世界本質是三維的,可以稱為三維空間中的“像素”,類似于體素( Voxel ),能更底層地描述三維空間。
不過,是否存在更高層次的表征?這也是 LeCun 團隊的研究方向。我推測他們可能認為僅在像素空間建模不夠完善,更傾向于類似大語言模型選擇語言模態的思路——在視覺領域選擇更合適的表征。例如 JEPA 、 V-JEPA 通過自監督學習提取特征,而他們最近發布的 DINO-World ,則選擇 DINO 作為世界表征,因為 DINO 本身已包含對世界的語義提取。這些思路的共性是:世界模型的表征未必局限于像素,完全可以是更高層次的 feature 。
因此,若要將大語言模型的范式泛化至通用智能,世界模型是核心路徑,而表征選擇是關鍵。像 JEPA 、 DINO 等模型在語義描述上表現出色,但一個理想的世界模型表征還需具備其他特性:一方面要能對世界進行抽象的語義描述,另一方面要具備三維建模能力。因為我們所處的世界是三維的,未來邁向通用智能的話,要把三維空間最本質的東西建模出來。
廖依伊:我非常贊成鄭老師剛才的觀點。不同的世界模型,包括 LeCun 提出的世界模型,我們基于純視頻生成的世界模型,核心區別其實在于對“ x ”的定義。正如楊老師之前強調的,如果我們將世界模型定義為“當前狀態 x(t) + 動作 a(t) → 下一狀態 x(t+1) ”的映射關系,那么它們的核心差異就在于如何定義“ x(t+1) ”這個輸出目標。
以視頻生成為例,我們并非直接在像素空間操作,而是在潛空間( latent space )中進行,比如 VAE 的潛在空間。但 VAE 的潛在空間設計目標是服務于像素解碼,因此未必能充分學習到語義信息。這也是鄭老師提到的 JEPA 、 V-JEPA 及 V-JEPA 2 等工作的價值——它們通過自監督學習,目標是獲取更具語義的特征。
LeCun 在 V-JEPA 2 中的思路也是如此:先通過無監督學習得到潛空間,再引入動作監督進行 post training ,最終將其轉化為世界模型。可見在這一框架下,表征學習與世界模型是相輔相成的:良好的表征學習是構建高性能世界模型的基礎。
一個值得探討的問題是,語義更豐富的世界表征是否更合理?從直觀上看,若潛空間的特征能實現更好的解耦并蘊含更豐富的語義,后續的世界模型學習確實會更高效,這一點我非常認同楊老師的觀點。
關于是否需要引入 3D 建模,我的看法是:如果僅考慮最簡單的動作場景——即自身的剛性運動( rigid motion )(比如相機位姿變化),那么 3D 重建本身就能發揮重要作用。在 3D 重建任務中,一旦完成建模,就相當于將動作因素(這里的相機位姿變化)從狀態中完全解耦出來。這意味著我們無需再通過學習的方式額外建模相機位姿,而是可以直接基于新的視角進行渲染,這與楊老師提到的“潛空間中可解耦因素”的思路是一致的。因此,3D 建模的一大優勢在于能夠顯式地將這類可解耦的因素(如相機位姿)完全解耦。當然,對于一些難以解耦的復雜特征,仍然可以保留。
趙昊:廖老師說得非常好。我一直在思考,盡管潛在向量沒有顯式的 3D 信息,但作為一種抽象表征,或許能找到其與物理屬性的關聯。比如512維的 token 中,某些維度可能對應材料屬性,某些對應幾何結構,甚至可能包含表達復雜運動的向量。這是一個很有潛力的研究方向。
不過關于是否引入 3D 信息,核心爭議在于“是否讓模型更好學”。廖老師的思路是引入 3D 表征,讓剩余維度專注學習物理建模難以覆蓋的復雜特征,這很合理。但也有學者持不同觀點,比如彭老師推崇 large view synthesis network ,認為未來無需依賴 3D 歸納偏置。這個話題比較專業,我們先從更宏觀的層面繼續討論。有請金老師分享對世界模型表征學習思路的看法。
金鑫:Richard Feynman 所說的“ I could never create something I didn’t understand. ”,我無法創造我不理解的東西。所以剛才楊老師等幾位老師提到的內容,核心其實都指向表征學習——我們首先要理解世界,找到合適的表征,這個表征可能是3D的,也可能不是,比如 V-JEPA 、 I-JEPA 這類模型最初針對圖像構建表征,就是在做這樣的探索。
找到合適的表征后,再基于它建立蘊含物理規律和機制的世界模型。這條路徑的核心是“先理解再構建”,把表征學習放在第一步,也就是先實現對世界的理解。
我們團隊近期一直在研究的“解耦表征學習”概念,源自2013年 Bengio 的研究,剛才廖老師也提到了這個關鍵詞——希望把 3D 相機位姿、 3D 歸納偏置解耦出來。今年我們在 ICCV 2025 舉辦了一個 workshop ,主題是“解耦表征學習與可控生成”,雖然聚焦可控生成,但仍被歸入表征學習專題。
我對楊夢月老師那篇引用率很高的 Causal VAE 論文非常熟悉,經常讓學生以它為 baseline 對比表征解耦的性能。我們做了很多表征解耦的工作,因為我們認為理解世界的方式有很多,自監督學習、 MIM 等都是,而表征解耦也是其中一種,能將特征層面、特征域、特征空間中的因素分離,找到關鍵因素并讓它們保持正交。比如在圖像中,將物體的大小、顏色、屬性等在特征域中明確解耦,這不僅能提升 AI 的可解釋性,還能為后續的生成、世界模型構建、高層規劃等任務提供便利。
趙老師從 JEPA 思路出發探討世界模型,我覺得很有道理。 JEPA 也是先通過感知理解世界,再建立世界模型,這與“先理解再創造/生成”的邏輯一致。現在大模型也強調融合理解與生成能力,包括我們后面要討論的“生成與理解、重建是否需要統一”,這些概念和思路其實是相通的。
我再補充一個觀點,我之前做過很多圖像視頻編碼壓縮的研究,有句話印象很深——“壓縮即智能”。深度學習的本質是一個熵減的過程,去除圖像、視頻中的冗余和相關性,保留最核心、最原始的關鍵信息。
在編碼壓縮領域,那些無法再進行熵估計和冗余去除的信息,就是我們理想中的表征。做世界模型時也是如此,需要找到這些關鍵因素和表征,它們可能無法完全理想化解耦,正如楊老師所說,可能存在關聯和因果關系。這就是我的觀點。
02
RL 與 CV 的世界模型有何不同?
趙昊:接下來我們進入下一個問題。楊老師剛才提到,當前許多視頻生成工作因缺乏動作因素而存在不足。那么 RL 界與 CV 界的世界模型有哪些不同?我認為動作因素可能是主要差異。接下來我們具體探討技術路徑,如何讓世界模型真正對動作、決策制定發揮作用。有請金老師先發言。
金鑫:雖然我自己親手寫 RL 代碼的經驗不多,但通過和學生的討論(我的學生中有做 RL 的),我了解到強 RL 分為基于模型( model-based )和無模型( model-free )兩種類型。其中,基于模型的 RL 所構建的“模型”,我的理解是對環境的一種代理或模擬。簡單來說,就是建立一個環境模型,然后用這個模型輸出環境的轉移函數等信息,智能體基于這些信息進行學習。
2018 年 David Ha 和 Jürgen Schmidhuber 關于世界模型的那篇論文,就和強化學習做了一些對比。所以我個人理解,強化學習中基于模型的“模型”,與 CV 領域用于自動駕駛等場景的世界模型模擬器,核心都是通過模擬環境讓智能體進行交互訓練。
我們CV里面經常會用到 “ simulator ”(模擬器)這個詞,它本質上就是對環境的模擬 —— 構建出環境后,讓智能體在里面通過動作交互進行訓練,這和趙老師一直強調的“ action ”是相呼應的。這只是我的個人理解,可能不一定準確,歡迎大家交流指正。
楊夢月:我在強化學習方面的研究相對多一些。我認為 RL 與 CV 的世界模型的核心區別在于服務對象不同。 CV 界的核心是建模世界本身,關注如何刻畫世界的形態;而 RL 界的核心是智能體,建模世界的最終目的是服務于智能體,讓它掌握世界知識,進而提升自身的決策策略 policy 。
正如趙老師所說, NLP 領域面臨數據有限的問題, CV 領域雖然數據量更大,但也可能存在類似瓶頸。我們近期在世界模型研究中使用了一個較新的觀點,名為“開放性”( open endedness ),其實質是“自我提升智能體”( self-improve agent )。具體來說,若想提升智能體性能,我們可以通過數據訓練,但當數據量有限,無法支撐智能體理解世界上所有事件間的關系時,就需要讓智能體主動探索,比如通過自問自答的方式學習。
例如在代碼生成領域,讓智能體自己提出新的代碼問題;在開放世界游戲中,讓它自主構建 task 。生成 task 的過程本身就是世界模型的建模過程,但其最終目標是提升智能體的決策能力和泛化能力,而非讓智能體簡單過擬合于某個特定環境,而是使其具備理解世界、自主構建世界模型的能力。
趙昊:比如做 RL 的研究者,就算沒有圖像,他們將編碼環境中“智能體自己給自己出題”的過程也稱為世界模型嗎?
楊夢月:最廣義的世界模型,可以建模任何規則,這些規則不一定局限于物理規則,數學規則、代碼運行機制等也屬于規則范疇。世界模型的核心目標是讓智能體在特定環境或任務中,具備理解該環境或任務規則的能力。
世界模型的建模方式具有多樣性,生物、化學等領域都有其獨特規則。但這些規則未必都像物理規則那樣明顯,也未必有成熟的模擬器支持訓練。許多環境中的規則是隱性的,比如 ChatGPT ,它的生成規則也屬于一種世界規則,但這種規則的概率屬性就非常大。
所以對于不同的環境,可能都有其對應的世界模型建模方法,這些方法都可以統稱為世界模型。
我今年在 ICLR 上組織了一個關于世界模型的研討會,當時我們希望征集的稿件能覆蓋各個領域,比如自然科學、社會科學、數學等。實際上,我們也收到了一些比較特別的投稿,它們都將自己的研究稱為世界模型。我認為世界模型最核心的特質是能夠建模世界背后的規律,并且智能體能夠借此與世界進行交互。
廖依伊:我覺得楊老師剛剛的觀點非常有意思,這讓我想到一個問題:CV 所說的世界模型是否無法服務于 Agent 的訓練呢?可能有的也未必。
RL 界的世界模型和 CV 界的世界模型有什么不同?我的理解是這樣的,一方面,正如我們之前討論的“ x(t) + a(t) → x(t+1) ”框架, CV 界確實更關注與圖像平面相關的狀態變量 x ;而在 RL 界,狀態變量不一定局限于圖像平面,可以是任意形式的抽象狀態。另一方面,據我觀察, RL 在涉及世界模型時,通常不僅要預測下一狀態 x(t+1) ,還要學習獎勵( reward )。如果能直接學到獎勵,就可以基于此進行強化學習訓練和后續決策。
但目前 CV 界在視頻生成(無論是 3D 還是純視頻路線)中,更關注預測下一時刻的視覺呈現,比如畫面“長什么樣子”,卻很少考慮獎勵機制。舉個例子,在視頻生成中,即使模擬車輛即將撞車,模型也可能因為缺乏撞車數據而繼續生成車輛前行的畫面,不會提示“撞車”這個負面結果。所以,獎勵確實是 CV 界世界模型目前較少考慮的點。
比如 LeCun 團隊今年在 ICML 上發表的“ Navigation World Model ”研究,就將自身運動作為 action ,輸出圖像平面結果,并基于“目標圖像”( goal image )定義獎勵。在這種情況下,即使模型沒有直接學習獎勵,也能通過生成圖像與目標圖像的對比構造獎勵,進而基于模型的控制思路遍歷路徑空間,實現導航、抓取等任務。這么做的話還是可以服務于 Agent 的。
趙昊:廖老師提到的這一點很關鍵:我們現在做的這些世界模型,大部分確實沒有考慮 reward 。這是一個很好的研究方向,我們都可以嘗試探索。如果能在今年的 ICLR 和 CVPR 投稿中探討“如何在 CV 的視頻生成世界模型中引入獎勵”,會是非常好的選題。感謝廖老師的分享。最后有請鄭老師也來分享一下看法。
鄭文釗:我對 RL 其實不是特別懂,所以簡單說一下我的觀點,不一定正確。但我很認同剛才幾位老師的看法,總結來說,我認為 RL 界的世界模型和 CV 界世界模型主要區別在于, RL 界的世界模型更類似判別式模型,當 Agent 在環境中執行某個動作后,它會輸出一個獎勵值。而 CV 界的世界模型更像生成式模型,它不會評判行為的好壞,而是告訴你這個行為會導致世界呈現出什么樣的狀態。
比如在自動駕駛場景中,若使用 RL 界的模型,當車輛前行即將撞車時,它只會反饋“撞上了,獎勵值為-1000”,而不會展示撞車后的畫面;但 CV 界的世界模型會生成撞車后的具體圖像,而非直接告知后果。這是第一個區別。
第二個區別,我結合剛才楊老師的觀點補充一下,判別式模型在很多情況下聚焦于從輸入 x 到輸出 y 的映射,而生成式模型則會同時對 p(x,y) 進行建模。由此我認為, RL 界的世界模型更多是一種局部模型,它必須依賴 Agent 獲取反饋,正如楊老師所說,其核心是為 Agent 服務。但 CV 界的世界模型更接近獨立運行的模型,它可以不依賴智能體,獨立建模世界的運行規律。 而且它是全局模型,如果有 Agent 在其中交互,理論上也能基于模型計算獎勵。不過目前這類獎勵計算的方法還比較缺乏,但基于模型對未來的預測,其實是有可能推導出獎勵的。
這就引出了第三個區別, RL 界的世界模型更多是反饋機制,不涉及動作建模,動作由 Agent 單獨處理;而 CV 界的世界模型可以給出 Action 。總結來說,CV 界的世界模型更通用,涵蓋世界與動作建模; RL 界的世界模型則更狹義,主要是對智能體動作的反饋。
趙昊:我總結一下,當前 CV 界的世界模型已經取得不錯進展,動作因素也已被引入,但尚未大規模應用并產生變革性影響,關鍵就在于缺乏獎勵機制。只要定義好獎勵,我們現在做的視頻生成模型、數據生成模型就能很快在自動駕駛、具身智能、通用智能體等領域發揮作用。這是一個很好的趨勢性觀點。
03
通用視頻生成
趙昊:我們已經討論完兩個比較抽象的問題,接下來進入專場環節,聚焦視頻生成、三維重建等內容。第一個問題通用視頻生成模型什么時候能變成真正的世界模型?
通用視頻生成模型的發展速度遠超我的預期。去年三月,很多圖形學老師還認為視頻生成模型缺乏物理規律,發展尚早,現在這些聲音已經很少了,數據驅動的力量確實不容小覷。我很好奇大家對其發展速度和演變趨勢的看法,請廖老師先講。
廖依伊:謝謝趙老師。關于通用視頻生成模型的發展,我確實不敢下結論,因為它的進步正如您所說,超乎想象。至于“通用視頻生成模型如何變成真正的世界模型”這個問題,我認為答案相對清晰,還是要回到我們之前達成的共識,世界模型需要具備動作( action )和因果性( causality )。
當前最先進的視頻生成方法大多采用“三維注意力機制”( 3D attention ),將空間( spatial )和時間( temporal )維度的 token 聯合處理生成視頻。但真正的世界模型需要滿足“ x(t) + a(t) → x(t+1) ”的邏輯,即基于當前狀態和動作,預測下一幀的觀測結果。
近期已有相關研究嘗試引入因果信息,例如在注意力機制中限制時序依賴——第二幀僅關注第一幀和自身,第三幀僅關注前兩幀和自身,通過這種方式強化因果關系,我認為這是合理的探索方向。而動作因素的引入仍存在開放性問題:比如建模自身相機位姿這類動作相對容易,但世界中其他動態物體的動作是否需要建模?若要建模,該如何設計?當然,也可以如鄭老師所說,將無關動態歸為噪聲,建模未來的所有可能性,但世界模型的核心目標是什么、動作部分如何設計,這里還有很多問題。
趙昊:我完全同意這個觀點。以前我認為開發基于 diffusion 的 Game Engine 沒什么用,因為它短期內不可能替代游戲行業,且這類模型缺乏三維表征。但現在我認為它是重要的代理任務( Proxy Task ),比單純的多媒體視頻生成模型更接近世界模型的終極目標,是很好的研究載體。因此,動作條件下的通用視頻生成模型若能進一步優化,我們就離真正的世界模型更近一步。接下來有請鄭老師分享看法。
鄭文釗:我比較同意剛才廖老師的觀點。關于通用視頻生成模型與世界模型的區別,之前很多人認為,前者可能存在虛假內容,后者需在視覺和物理層面都真實,但這種看法并不本質。隨著技術發展,視頻生成模型中可能隱含物理規律,至于具體怎么做,是否通過三維表征實現更優建模,屬于技術路徑問題,并非核心差異。
實際上,當前許多生成模型已能建模部分物理規律。伯克利的 Trevor 老師曾有一篇有趣的研究講過,盡管物理規律難以直接定義,但數據驅動的視頻生成模型可通過學習挖掘物理規律,即數據驅動在一定程度上能捕獲物理規律。因此回到核心問題,我認為廖老師的觀點非常正確:通用視頻生成模型與世界模型目前最大的gap,在于對動作的反饋機制。具體包括:一是動作的定義方式(如路徑類動作易定義,但復雜交互動作如何定義);二是視頻生成模型能否對動作做出準確反饋;三是反饋與動作之間是否存在合理的因果關系。
趙昊:聽完鄭老師的分享,我忍不住想分享自己的觀點。我認為當前通用視頻模型要發展為真正的世界模型,缺少的是編輯能力、文本對齊能力和指令遵循能力。今年年初, GPT-4o 等模型的編輯能力給人帶來巨大震撼——用戶輸入指令后,模型能精準執行。如果這不是專門調優的結果,那么這類模型的圖片編輯能力已接近世界模型,因為它能將任意指令轉化為對應的視覺內容(盡管在精細的數量、位置描述上仍有不足)。
我認為編輯能力是比 action condition 更好的 task 。當通用視頻生成模型能像 GPT-4o 一樣,通過文本指令實現高精度編輯時,無論其內部原理如何,它必然已經學到了關于世界的某些知識。所以我的觀點是,通用視頻生成模型除了通過動作條件(如游戲引擎類模型)這條路徑外,視頻編輯能力的突破也至關重要 —— 編輯能力做好了,它就會無限接近真正的世界模型。這算是我的一個“暴論”,接下來有請楊老師分享觀點。
楊夢月:我對視頻生成領域了解不深,但聽了剛才的分析后有一些想法。我怕在使用視頻生成大模型時,有時會覺得生成內容奇怪,可能是因為未遵循因果關系。但因果關系是否為必需,需根據具體場景判斷。若要利用模型訓練 Agent ,使其在真實世界具備決策和探索能力,就需要模型貼近真實,遵循因果關系;但從視頻生成角度,可能無需嚴格遵循因果或物理規則。因為人類要創作,有時會突破常規認知,反而能產生新穎的創意。
當前視頻生成模型多基于被動數據學習,若數據本身帶有傾向性,模型可能學到人類收集數據時的集體意識,進而迸發新的創造力。因此需具體場景具體分析,部分場景需要因果關系支撐。
關于廖老師提到的動態建模問題,世界模型的定義本就非常廣義。 Multi-Agent 系統就是完全動態的,具有“智能體策略相互影響的循環關系”,例如自動駕駛場景中,兩輛車決策會相互作用,但這種動態過程仍存在某種均衡。這又回到最初的問題:如何衡量動態中的不變?可能需要引入獎勵模型,才能分析場景需求,從動態中提取靜態知識。
趙昊:楊老師的觀點很有意思。 CV 研究者常認為,能真實重建物理世界的才是好的世界模型,但大家使用 Sora 時,常讓它生成不符合真實物理的內容。或許生成真實內容并非評判世界模型好壞的唯一標準。
我觀察 Sora 的 dashboard 發現,流量最高、被用戶推崇的視頻,大多是那些 “不太可能在真實世界中出現” 的內容,它們可能符合基礎物理規律,但在現實中難以見到。這確實很有意思。接下來有請金老師分享對通用視頻生成模型的看法。
金鑫:幾位老師剛才從物理真實性、可編輯性等方面都做了很好的分享。楊老師的觀點讓我想到一個點:生成與物理事實相違背的內容,即“反事實生成”( counterfactual generation )。我記得之前某本書中提到智能的幾個階段,第一階段是“觀察”,第二階段是“行動”,第三階段是“想象”,是“ what if ”,想象“如果做了這件事會怎樣”,這種反事實生成能力或許是關鍵。
我認為真正的世界模型若能生成全新場景或反事實結果,可能更接近通用智能,甚至涌現出新能力。若世界模型能學到甚至超越人類總結的既定的物理規則,會非常令人興奮。這是我的觀點。
趙昊:金老師的觀點很有啟發性。我剛才提到生成視頻中存在不符合真實物理規律的內容,這是否真的代表模型具備反事實生成能力?我覺得不一定。反而可能是因為 Sora 等模型在訓練數據中學習了大量互聯網視頻中的特效內容,這些內容并非真實物理世界的記錄,模型過擬合到了訓練集中的視覺特效素材上。
廖依伊:我想結合楊老師和金老師的觀點提個問題。若我們的最終目標是通用智能體,使其能在真實世界交互并完成任務,那么這些視覺特效數據對智能體而言是干擾還是有用呢?
楊夢月:我可以回答這個問題。今年有一個令我印象深刻的新流派,叫做 open endedness 。他們認為,在數據有限的情況下,要提升 Agent 決策能力,需不斷為其生成新任務和新環境,這些環境可包含前所未有的元素。
我曾與蘇昊團隊交流,他們現在也要涉足視頻生成領域,因為他們是做 robotics 的,我就問為什么。他們表示,其實是希望將視頻生成的結果用于訓練 robotics agent ,提升其某些能力。因為對于機器人而言,在真實環境中的探索代價是非常大的,比如讓智能體在真實環境中學習時,即使是在樣本復雜度可能不高的場景,在線探索也有很大的風險和代價,因此,通過視頻生成輔助生成訓練數據,讓智能體能夠先獲得一些先驗和反事實知識能在很大程度上提升樣本效率。
趙昊:open endedness (開放性),這個詞很好。關于通用視頻生成中的視覺特效數據是否“有毒”,這個觀點很值得探討。這很像 NLP 領域的問題:有些數據存在錯誤或冗余,被稱為“有毒數據”或“垃圾數據”,網上生成的這類內容可能也存在類似問題。如何讓通用視頻生成模型在垂直領域做好對齊,視頻生成領域遲早會走到這一步。
04
自動駕駛的世界模型發展到哪兒了?
趙昊:好,我們進入下一個問題,回到我們的老本行,來聊聊自動駕駛。我們都做了這么多年,什么時候才能到 L4 啊?首先有請金老師分享。
金鑫:很多學術界原本研究自動駕駛的老師,現在轉向了具身智能領域,這確實是很現實的情況。在我看來,學術界的特點是把技術做到 60% 或 70%,搭建好方法和原型后,剩下的 “最后一公里” 或 “最后 10%”會交由工業界完成。學術界注重方法與預研,工業界則更快地將其集成產品,因為他們有更多優秀工程師和具備產品思維的產品經理。這是互聯網與 IT 技術發展至今的規律。
自動駕駛問題已相對清晰,所以并非是這些學術界的老師放棄了自動駕駛,反而它已接近落地階段。在硅谷, Waymo 的自動駕駛出租車服務每天都在跑。我之前和華為的王新宇老師在論壇交流時,他提到自動駕駛的后續核心是工程化集成,華為也投入了很多人力做這些 dirty work 。
從自動駕駛轉向具身智能,要解決的問題更多、更復雜,這正是學術界需要重點突破的方向。在我看來,這不是跟風轉向,而是合理的研究遞進。自駕已經有了很多的方案,已經可以帶來價值了,可以先投入到市場,之后有了新問題之后大家可以繼續研究。
趙昊:金老師認為自動駕駛已發展到一定階段,剩余工作由工業界大規模落地。我基本贊同,但覺得還存在一些技術問題。一是分辨率有待提高,二是視頻長度不足。這些技術難題大概率會在今年得到徹底解決。對于自動駕駛的場景片段( CLIP ),真實數據通常是十幾秒的片段,我認為如果模型能在一分鐘內保持穩定的生成質量就足夠了;分辨率則是另一個技術難題,目前車廠使用的數據分辨率較高,但模型生成的分辨率仍偏低,這是很具體的技術層面問題。
關于如何服務決策,我認為今年還剩最后一個關鍵問題,“在自動駕駛世界模型中如何定義獎勵( reward )”。目前動作和高質量傳感器數據生成能力已經具備,就差獎勵機制。一旦獎勵建模完成,方法論就能形成閉環,通過持續驗證優化,真正邁向 L4 級。接下來有請廖老師談談自動駕駛世界模型的下一步方向。
廖依伊:我的觀點和金老師略有不同。金老師提到自動駕駛已有很多落地算法,這一點我認同:如果將世界模型定義為生成環境觀測、將 AD 模型定義為生成動作,那么在 AD 模型方面確實已有相對成熟的算法投入實際運行。但我認為,目前還沒有特別有說服力的工作,能證明自動駕駛世界模型在訓練閉環中真正發揮了關鍵作用。
現在 CV 界的人,在世界模型研究中,關注的都是損失函數,都是圖像生成或渲染質量,無論是重建還是生成路線,都以峰值信噪比( PSNR )等指標衡量,而沒有回到 Agent 上去。因為生成任務更容易推進,大家更多先追求 “生成得好”。但實際中,路上跑的系統大多還是基于大量數據的模仿學習訓練而成。
目前,世界模型即便被應用于自動駕駛,可能也只是作為驗證工具,比如驗證車輛在場景中能否正常行駛。但真正將世界模型納入訓練閉環,用它支持 Agent 訓練并證明其有效性的工作,目前還較為缺乏。當然也有一些初步的相關嘗試,例如地平線的 RAD 在 3D 高斯場景中開展了自動駕駛強化學習微調。我認為從世界模型的角度來看,仍有許多問題值得探索。比如,當前的 3D 高斯技術以及我們自研的模擬器,是否真的能有效縮小領域差距( domain gap ),這一點就非常需要驗證。
金鑫:我同意廖老師的觀點。剛才說的是自動駕駛整體算法層面,而針對自動駕駛世界模型,我認為它才剛起步,或者說在追求更完備解決方案的道路上,大家的思路才剛轉變。兩年前,大家可能還在想著收集數據、自監督訓練,但慢慢發現,數據無法窮盡所有邊緣案例( corner case ),每次遇到新案例就補數據,這種方式永遠無法覆蓋所有情況。于是大家才轉向借助閉環模擬器(即世界模型)來輔助訓練,不需要依賴持續收集數據就能學好,這個思路轉變其實才剛剛開始,還處于早期階段。
趙昊:總結廖老師的觀點,下一步我們要走向大規模基于世界模型的訓練,我完全同意。這其中最核心的問題就是 reward 如何定義。接下來有請鄭老師分享自動駕駛世界模型的發展趨勢和下一個突破點。
鄭文釗:我整體還是比較認同廖老師的觀點。在 sora 等模型出現后,大家開始探索如何將其遷移到自動駕駛場景,有些工作直接使用自動駕駛數據訓練,但本質上仍在像素( Pixel )空間建模;當然還有另一類方法,比如我們之前做的工作,直接在三維空間(如占據空間、邊界框空間,或是后來的高斯空間)中建模,探索如何讓世界模型真正在三維空間用起來。
自動駕駛的特點是,對世界模型的精度要求極高,比如停車時可能需要厘米級的精度,“看起來對”是一回事,“實際能用”是另外一回事。像 sora 這類模型,看起來沒裝上,但是差幾厘米,后果差別是很大的。因此,自動駕駛世界模型目前的關鍵問題是:如何實現對未來的精準預測,以及對動作的精準響應能力。
從當前趨勢來看,有一些工作開始走三維與二維結合的路線。三維重建的優勢是在三維空間中精度較高,但缺乏想象能力,生成效果可能不夠自然,兩者結合可能是自動駕駛世界模型未來的發展趨勢之一。
第二點是泛化能力的提升,這關系到世界模型如何更好地落地。我認為泛化性可分為兩個層面:第一是泛化到數據未覆蓋但符合物理規律的場景;第二類似之前提到的反事實( counter factual )泛化,即泛化到不真實的場景。我們需要第一種,比如數據中沒有撞車案例,模型能否想象出真實的拐彎碰撞場景。
第三點是如何用好世界模型,這也是金老師和廖老師提到的未來發展方向。結合我們早期的探索,我認為可以從兩方面入手:一是讓世界模型具備預測 action 的能力。這類似人類開車,人具有有預測未來的能力,但很多時候人的動作是下意識的本能判斷(無需刻意思考左拐加速的后果);二是在有時間的情況下,模型可以像人一樣“深思熟慮”,比如模擬左拐、右拐的結果后選擇最優動作。因此,世界模型在自動駕駛中的應用不應僅作為訓練的獎勵機制,更應轉化為一種預測范式,既包含“系統一”的本能反應,也包含“系統二”的深度決策。
趙昊:感謝鄭老師。我們聊了很多專業細節,不知道普通聽眾會不會覺得難以理解?整體而言,鄭老師提到的一個觀點很有意思:當前自動駕駛世界模型的基準( Benchmark )性能還比較低,比如占據預測( occupancy )指標在部分數據集上僅二十幾,有些數據集能到四十幾,可能要等指標提升到70左右,才能說模型相對成熟。
這就引出一個問題:隨著 VGGT 等視覺基礎模型的發展,自動駕駛數據集上的指標卻難以上漲,大家覺得有什么新機會能推動指標提升嗎?
鄭文釗:有時可視化結果看起來不錯,但指標只有20,這正反映了自動駕駛對精準度的嚴格標準。趙老師提到的方向很關鍵:目前在基礎層面,自動駕駛還缺乏像 VGGT 那樣成熟的感知基礎模型。現在大家訓練的模型多基于早期的 ResNet 等架構,或未經過大規模數據訓練的骨干網絡( backbone )。未來若能出現專為自動駕駛設計的感知基礎模型( perception foundation model for autonomous driving ),性能應該會有較大飛躍。
趙昊:我們最近用 VGGT 更多是做重建和仿真。長期來看,我和同行聊過一個觀點:遲早會出現自動駕駛垂類的動態基礎模型。現在已不是單純的 VGGT ,而是有了動態版本的 SpatialTracker V2 ,它的性能非常強,我們最近的工作都基于它。自動駕駛場景是動態的,必然需要適配動態場景的模型。如果能有這類垂類的 SpatialTracker V2 模,當前的范圍檢測、 occupancy mapping 等任務的指標都可能大幅提升,我們可以期待,這樣的工作誰能做出來,一定會很有影響力。
或許不如把所有自動駕駛數據整合起來,訓練一個專屬的 SpatialTracker ,說不定今年自動駕駛感知任務能迎來突破。之前大家覺得 Waymo 上模型的檢測性能已觸頂,但今年或許能再漲一漲。最后有請楊老師分享看法。
楊夢月:我對自動駕駛領域的具體方法并不十分熟悉,但從金老師提到的關聯、干預與反事實推理角度來看,我們希望智能體具備反事實想象能力,那它就必須理解場景的因果結構——這源于圖靈獎獲得者朱迪亞·珀爾( Judea Pearl )提出的“因果階梯”概念,他是因果推理領域的核心研究者。
因果推理的核心是“三層階梯”,而實現三層階梯的根本要求是理解系統內部的運行規則。因此,若要確保智能體具備想象能力,或是滿足安全層面的高要求,它必須掌握具體的物理規則和環境規則。此外好的世界模型,也無法捕捉現實世界的所有情況。這一方面受限于數據,另一方面因為世界模型在訓練之初就應處于動態更新的閉環中,從 RL 的角度來看,這個過程是:首先通過經驗數據訓練出轉移模型,再基于轉移模型做出決策。而決策結果與轉移模型預期結果的差異,就可以用來更新世界模型。因此,我認為提升模型性能的一個重要方向是:不能僅依賴訓練數據進行訓練,還需要通過兩方面發力 —— 一方面要思考如何在真實系統中進行干預并獲取真實反饋,這種干預是基于當前對世界的理解(比如已有的世界模型)做出的決策;另一方面,當決策執行后,將收到的真實反饋用于更新當前的世界模型。
因此,模型訓練應從兩方面展開:一是從數據和仿真器中學習;二是在保證安全的前提下,讓智能體在真實環境中進行一定程度的探索,通過真實反饋持續自我更新。
05
具身智能的世界模型應該如何構建?
趙昊:我們接著討論下一個話題:具身智能的世界模型應該如何構建。具身智能世界模型目前尚未形成明確的范式、規范和定義,需要一個好的切入點來證明其價值,推動領域發展。
我覺得,具身智能的世界模型需要一個“觸發器”,一個能證明其價值的場景,這樣這個領域才能真正發展壯大,目前還缺少這樣的閉環機制。我還沒找到特別好的思路,也沒看到成熟的案例,但今年有兩個工作讓我印象深刻:一是賀老師團隊的呂江燃在 ICCV 會議上做的工作,能用具身智能世界模型實現非預編程操作( non-prehensible manipulation );二是董老師團隊的寧川若同學在 RSS 會議上發表的《 Prompting with Future 》,用高斯世界模型展現了規劃能力。這兩個工作可能是目前具身智能世界模型領域相對閉環的 baseline 案例,不過都還處于初期階段。想先問問鄭老師,若要研究具身智能世界模型,您認為哪些技術路徑比較值得探索?
鄭文釗:我覺得具身智能的問題特點與自動駕駛有相似之處,比如都對三維精度有極高要求,甚至比自動駕駛更嚴格。自動駕駛場景相對宏大,而具身智能的抓取等場景可能需要毫米級精度——一旦誤差超過范圍,就可能抓取失敗,這是第一個挑戰。第二,物理規律在具身智能中扮演更重要的角色:自動駕駛的物理規律相對簡單(如車輛行駛),涉及的重力等復雜物理作用較少;但具身智能的抓取場景中,物理規律至關重要,這也是為什么大家常做 real2sim2real 的研究——需要先將真實場景映射到仿真空間,而仿真空間必須明確建模物理規律。
從發展階段看,具身智能的世界模型整體比自動駕駛稍落后,但有其獨特性,比如已有工作嘗試在仿真空間中建模物理規律,而自動駕駛領域缺乏對物理引擎( Physics engine )的深度建模,這是具身智能的一大特點。
未來具身智能世界模型的發展,我認為有兩個方向:一是像自動駕駛中提到的,實現重建與生成的結合,提升三維建模精度;二是更精準地判斷因果性,并讓因果性與物理規律更好契合。由于具身智能的數據稀缺,純數據驅動很難訓練出符合物理規律的世界模型,因此需要更好地建模物理規律,甚至將其“注入”模型。除了 real2sim2real 的路徑,更優的方向可能是數據驅動與物理規律結合——探索如何通過某種方式將物理規律注入數據驅動模型,這可能是未來的趨勢。
金鑫:我跟鄭老師觀點相似。我們最近半年也在做類似探索。記得去年年底會議上碰到廖老師,討論她的 HUGSIM 工作時,我曾建議是否考慮加入物理規則,讓仿真層( SIM layer )更具物理屬性。當時廖老師反問:“物理性對自動駕駛任務真的那么重要嗎?” 這個問題讓我深思,后來發現確實如此,自動駕駛中,除了天氣光照、路面積水反光(比如陳寶權老師團隊做的相關研究)等邊緣場景,對物理規律的依賴并不強。但具身智能不同,機器人的夾爪摩擦力、力反饋,以及軟體、流體、鉸接體等的物理屬性,對任務影響極大。因此,物理真實性( physical world intelligence )對具身智能的世界模型反而更重要。
我們的探索方向和鄭老師提到的很接近:不僅依賴數據驅動,還借鑒了傳統仿真領域的經驗,結合圖形學中的物理建模方法(如楊氏模量、彈簧 - 質量模型等基于規則的物理仿真)與數據驅動的生成模型(如 AIGC 生成模型),希望讓具身智能的世界模型既能保證物理真實性,又能實現表現真實( appearance real )。
楊夢月:我對具身智能領域的了解確實比較有限,更多是從各位的觀點中學習。我的想法是,在具身場景中,能否通過某種機制或智能體捕捉物理規律,將其整合成因果模型,再利用該模型進行反事實預測或推斷,大概是這樣的思路。
趙昊:我覺得這個觀點很有意思,這也是今年的一個重要趨勢。比如近期的 4KAgent 表現出色。我隱約感覺到,今年存在“算法 Agent 化”的趨勢。這個理論在2023年就已出現(比如 Visual Programming 團隊關于 tool using 的 best paper ),但今年堪稱“ Agent 元年”,連寫代碼都能被 Agent 替代,因此,今年或許可以重新審視 Auto ML 、視覺編程等方向。
這個思路很有價值:世界模型未必是客觀被動的、被物理規則固化的存在,它能否成為主動演變的“環境 Agent ”,在與數據的互動中持續優化?這是今年值得探索的有趣方向。
廖依伊:我總體贊成金老師和鄭老師的觀點,思路確實比較相近。從自動駕駛世界模型到通用具身智能世界模型,兩者差異顯著:自動駕駛中,智能體與環境的交互很有限,主要是與路面的交互,路面可建模為平面,自車可用基礎模型簡化,其他物體(如車輛、行人)也有特定模型,場景相對局限。因此,自動駕駛中無論是視頻生成還是其他任務,都容易回歸到 3D 建模,且 3D 渲染高效,操作便捷。
但具身智能中, 3D 固然重要(因涉及交互),但維度復雜度大幅提升——既包括智能體自身的維度,也包括與環境交互的維度。我一直在糾結路線選擇:是走 2D 路線,還是 3D 路線?比如今年 Cosmos 的工作采用“ 3D+2D ”模式,先通過仿真器生成 Mesh ,再驅動生成逼真視頻,這確實是未來趨勢之一,但未必是唯一趨勢。核心問題在于:是否必須顯式建模 3D ?在 2D 層面能否學好交互?若有足夠訓練數據, 2D 學習交互可能更簡單——比如疊衣服、泥巴落地等非剛性物體場景,在 3D 中建模難度極大。如何做好 2D 與 3D 的結合,仍是難題。
趙昊:完全同意。若 3D、4D 仿真過于復雜,不顯式建模或許更好。
金鑫:還要考慮訓練復雜度和推理效率——機械臂等硬件的算力有限,復雜建模會更麻煩。
趙昊:感謝四位老師的分享。希望今天的安排大家滿意。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.