
![]()
“當AI擁有「思維鏈」,賦予機器想象力的世界模型訓練新范式。”
作者丨吳彤
編輯丨林覺民
在人工智能研究正以前所未有的速度迭代的今天,一位研究者如果同時聚焦于世界模型與具身智能這類高度前沿的課題,并且強調產業應用和市場接受度才是技術真正的試金石,這可能本身就成為了一種值得關注的信號。
寧波東方理工大學助理教授金鑫便是這樣一位研究者。
我們近期的一次交流,恰逢他的團隊在美國圣地亞哥NeurIPS會議的活動告一段落——他與上海交通大學、布里斯托大學、清華大學等高校的合作者們在那組織了一場關于“具身世界模型”( Embodied World Models for Decision Making)的研討會,并有多位學界和產業界大咖受邀參加并作報告。
從早期的圖像視頻信號處理、壓縮等底層視覺任務,到近年聚焦于表征解耦、世界模型、空間智能等方向,金鑫的研究不斷從低維信息向高維信息躍遷,不斷嘗試新的挑戰,試圖讓機器變得更加智能,更好地理解物理世界并服務實際產業,其研究路徑也反映出AI領域逐漸從簡單的感知走向更加復雜的認知與決策。
然而,當對話觸及這些光環之下的研究內核時,他表現出一種審慎。
“這只是我們團隊現階段一些非常初步的探索和個人的淺見,”金鑫談到他目前重點投入的空間智能研究時這樣說,“這個領域大家都還在摸索,遠未到形成定論或技術成熟的時候。”
這種謙遜并非客套。他解釋道,當一項技術——例如構建能夠理解物理規律、并能與真實世界交互的“世界模型”——其底層范式尚未確立時,任何聲稱找到了“唯一正確路徑”的論斷,都可能被視為一種“過度宣稱”。“我們更希望這些討論能被同行看作是一種‘供參考’的交流,而不是要去定義什么或下結論。”
這種態度或許正是面對一個熱絡領域時所必需的清醒。
盡管研究涉獵廣泛,但從對話中可以梳理出金鑫團隊當前的核心思路:他們正嘗試走一條“混合”(Hybrid)路徑。即在構建世界模型時,將能明確描述的物理規則(如碰撞檢測、摩擦力)通過知識嵌入的方式“教”給模型,同時,對那些難以公式化的復雜現象(如軟體物體的形變、大氣流動),則交給數據驅動的方法讓模型自行領悟。
目前,他們將這套方法首先應用于工業制造場景,稱之為“工廠世界模型”,并與寧波當地的制造業龍頭企業合作進行驗證。在他看來,工業場景中的規則和需求相對明確,或是這條艱難技術路徑一個可行的切入點。
2025年12月13日,金鑫教授在雷峰網舉辦的GAIR大會現場,做了題為《空間智能技術在自動駕駛及具身機器人中的初步探索與應用》的分享。以下是具體內容,雷峰網做了不改變原意的編輯和整理。
01
大會分享
01、空間智能(世界模型)的起源
我是寧波東方理工大學的助理教授金鑫,今天有機會和大家分享我們課題組的研究,以及目前在寧波本地產業化的一些應用。
我就職的寧波東方理工大學是一所比較新的高校,今年剛開始第一屆本科招生。如果大家聽說過南方科技大學、西湖大學和深理工,可能對這類新型高校有所了解,我們同樣屬于這類新體制高校。
今天我將圍繞空間智能(Spatial Intelligence)做簡單介紹,包括目前在自動駕駛和機器人領域的一些初步探索。
空間智能這個概念并非全新,早在SLAM技術時期就已經被討論。2024年,斯坦福大學的李飛飛教授將這個理念進一步拓展,延伸到與物理世界的交互、感知和理解,從而拓寬了這一概念的內涵。
![]()
目前,在自動駕駛、機器人,以及AIGC、AR、VR等行業中,空間智能技術都得到了應用。例如,李飛飛教授的公司就在進行相關原型和Demo的研發,比如近期發布的Marble 3D世界模型,通過一張圖片,生成鍵盤可交互的3D世界,使得智能體可以在其中進行學習。此外,今年8月,谷歌DeepMind團隊發布了Genie 3,引起了許多企業和產業界的關注。因為相比2024年年底李飛飛教授團隊發布的偏動畫風格的世界模型,Genie 3在寫實性、一致性以及物理正確性上都達到了更高水平。
我們看到了世界模型取得了較大的進步,或者說是一次技術躍遷。在這種背景下,目前它已經能夠實現較好的環境建模。雖然尚未展示AI智能體在其內部的訓練效果或過程,但可以預見在不遠的將來,這可能成為繼數據增強、數據合成等方法之后,為人工智能訓練提供高效路徑的另一種選擇——即通過世界模型進行訓練。
02、如何切入空間智能
我們團隊在剖析這一領域時,將空間智能或世界模型劃分為三個部分:
![]()
首先,第一部分是空間感知。
我們認為這是最基礎的部分,因為它肩負著構建3D世界的基本功能,可稱之為3D建模(3D modeling或special perception)。這包括世界模型的搭建,以及如何將物理定律融入甚至嵌入到整個3D或4D空間中。與以往更注重重建的3D技術不同,現在更需要理解整個世界的運行邏輯、物理規則和一些第一性原理。
第二部分是空間交互(special interactivity)。
這意味著所構建的世界模型需要支持智能體(如汽車、機器人)在其中進行交互,具備與環境互動的接口和能力。我們認為這對于具身智能、群體智能至關重要,因為它不僅涉及智能體與環境的交互,也包括智能體之間的多智能體交互。這是世界模型的一項進階能力。
第三部分是關于空間的理解、泛化與生成。
這里我想引用Richard Feynman教授的一句話:“凡我不能創造的,我就不能理解。”也就是說,如果我能打造出這樣一個世界模型,那我一定充分理解了世界的本質。這其實就是對空間的充分理解和泛化,并由此衍生出生成能力。很自然地,我們會聯想到前面提到的,在世界模型中可以生成大量的數據。
基于這個總體理解,我們又將工作進一步細分為兩個方向:空間構建(spatial modeling) 、智能體訓練(AI agent training)。
![]()
空間構建即我前面提到的感知、理解和生成,其目標是先搭建出仿真環境。隨后,AI智能體(如人或機器人)可以置身于這個環境中進行訓練,就像圖中所展示的迷宮一樣,讓智能體在其中不斷學習以達到最終目標。
因此,這是一個“建模-訓練”的兩階段過程。這兩部分實際上可以形成一個不斷優化迭代的閉環:機器人訓練得更智能,就能用來構建更復雜的環境;進而在更復雜的環境中,又能訓練出更智能的智能體。如此循環,形成一個不斷升級的飛輪效應,實現閉環優化。
03、UniScene
接下來的工作,我將圍繞這兩大部分展開,介紹我們課題組今年在空間建模和AI智能體訓練方面的幾項代表性工作。由于時間有限,技術細節不會展開過多,但基本上都是圍繞自動駕駛和機器人場景進行的探索。
首先介紹第一項工作,是已被CVPR接收的UniScene。
它專注于駕駛場景的生成。我們后續的相關工作,包括UniSceneV2、ORV、OmniNWM等都已公開,有興趣可以參考。
![]()
那么,為什么我們需要生成自動駕駛場景的數據呢?
為什么不直接像特斯拉那樣,在車輛上安裝攝像頭采集視覺數據?
這種方式當然可行,但目前只有特斯拉能夠在其遍布全球的車輛上大規模部署攝像頭進行采集。而在中國,一方面,許多整車廠沒有特斯拉那樣龐大的車隊規模;另一方面,由于合規和隱私等問題,通過真實采集很難覆蓋足夠多的corner case或危險情況。因此,我們需要通過生成式方法,借助世界模型來合成這部分極其逼真且極具價值的“corner case”場景數據。
![]()
這里展示了一些前人的工作,包括DriveDreamer、DreamerBVG等頂尖研究機構和汽車廠商的研究。我們的工作選擇了Occupancy(占據柵格) 這種體素網格形式,作為進行多模態生成的語義表示。
之所以選用Occupancy,是因為它本身蘊含了豐富的語義信息(如哪里有車、人、道路),同時也包含了必要的幾何信息。它正好介于視頻和激光雷達點云之間:既不像視頻那樣有精細的像素級信息,但它能明確知道場景中物體的類別和大致位置,這對駕駛來說通常已足夠;它也不具備激光雷達那樣精確、抗干擾的深度感知能力,但保留了粗粒度的幾何結構。
![]()
![]()
因此,我們認為Occupancy是一個很好的“橋梁”,能夠將場景理解和建模有效地連接起來。所以我們采用了以Occupancy為中心(Occupancy-centric)的生成方案。
簡單來說,我們將Occupancy作為條件,進而生成視頻和雷達點云。目前,駕駛場景生成涉及多種模態,例如鳥瞰圖、圖像、視頻、雷達等。我們希望以Occupancy為中心,將所有模態統一起來,相當于構建一個全面的、可用于自動駕駛的閉環仿真器(Closed-loop simulator)或統一模型(Unified Model)。這套鏈路對業內同行應該不陌生。相比于以往生成技術在成本和數據質量上的局限,我們這項工作在當時是比較領先的。
直觀來說,我們的技術路線分為兩步:
首先,我們用一個簡單的鳥瞰圖布局(BEV layout)作為輸入,它大致描述了駕駛場景的布局(例如,紅色代表道路,藍色是車道線,橙色是車輛)。將這個布局輸入模型后,第一步是生成對應的語義Occupancy(占據柵格)。
第二步,以此Occupancy為中心,分別衍生生成激光雷達點云和多視角視頻。這是一個兩階段的解耦過程。我們采用這種設計的原因,在多個國際頂會上發表的論文中已經給出了答案,有興趣的可以深入查閱。今年在ICCV會議上,我們也專門組織了一個研討會,探討模態解耦與信息交互方式帶來的優勢。
![]()
這種技術最終實現的效果,如本頁視頻所展示,是我們能夠通過Occupancy生成,第一步先生成一個在語義和幾何之間比較平衡的粗粒度結果,從而獲得對場景的理解。以此為基礎,再去“生成”或者說“合成”(用“合成”這個詞可能更容易理解)這類駕駛視頻數據。之后再進一步通過投影映射,得到對應的激光雷達點云。
今年10月底,我們發布了第二個版本(V2),核心在于進一步提升了數據質量并擴大了數據規模。我們這次在NuPlan數據集上進行了Occupancy標注,將數據量擴展上去,并且輸出的模態不再僅限于RGB視頻和點云,還新增了深度圖和語義分割這兩個模態。
![]()
相較于V1版本,V2還多了一個功能:我可以根據車輛傳感器的具體位置,生成對應不同視角下的感知數據。
V2版本上線后,在不到一周的時間里,就在GitHub上獲得了數百個star(目前應該已超過2000個star)。
現在我們正與理想汽車合作,用他們內部采集的一些存在鏡頭畸變的相機數據,來測試我們的生成器(或稱仿真器)是否足夠泛化,能否合成出帶有此類畸變的視頻。這類生成數據對他們自動駕駛算法的迭代優化能起到很大作用,且成本較低。
04、OmniNWM
近期,我們與本論壇的組織者趙昊老師合作,推出了OmniNWM。這項工作的核心亮點在于,我們引入了一個閉環的“規劃-生成”串聯機制。
![]()
簡單來說,我們將規劃的軌跡也作為一種條件輸入到生成器中。這樣做的目的是,根據輸入的這條軌跡,來預測在執行該軌跡的未來狀態下,場景會發生怎樣的變化。
或者說,就是當我給定一個左轉或右轉的指令(或者說軌跡)后,我需要讓我的世界模型能夠預測,在執行這條軌跡之后,未來的場景會如何變化。這就是我們所做的擴展,稱之為“萬能的駕駛導航世界模型”。
這個模型需要同時預測全景的RGB視頻、語義分割、深度圖,以及對應的3D結構和未來的規劃軌跡。其重點在于三個維度的擴展:
狀態(State)維度的擴展:生成的輸出不再只是原始的視頻,還包括對應的深度、語義分割以及Occupancy等信息。這是對狀態表示的豐富。
動作(Action)維度的擴展:我們的輸入從離散的軌跡指令,映射到歸一化、連續的表示,并以此作為條件,來生成對未來世界更多樣化的預測。因為世界模型一個非常重要的功能就是能夠預測未來狀態,這是我們在動作維度做的擴展。
閉環獎勵(Reward)優化:我們進一步將整個流程閉環。對于生成結果的好壞評估,不再依賴于外部模型,而是直接在世界模型內部完成。具體來說,我們通過計算生成的、內在的Occupancy(占據柵格)的一些指標——如碰撞量、邊界量、速度標量等,基于這些預設規則來計算一個獎勵(Reward),并反饋給整個環路。這樣,它就形成了一個“生成-評測”的閉環系統。這也是一個重要的擴展貢獻。
在此之后,我們將整套思路和方法論遷移到了機器人領域,應用于具身智能場景,進行機器人場景的數據合成。
方法論是相同的,都是以Occupancy這種中間模態為中心作為橋梁,來生成后續的視頻,這可以稱之為“機器人世界模型”或“機器人視頻生成”。
我們目前已經能夠處理并展示一些比較困難或亮眼的案例,例如針對軟體、繩體等物體的數據合成。特別是在與當前主流仿真器(如Isaac sim 5.0)兼容的情況下,能夠較好地合成并仿真這些有一定難度的案例,并實現批量化的并行數據生成。
05、InterVLA
對于機器人數據采集,目前非常需要以“人”為中心,或者說“第一人稱視角”的本體數據。我們很早就意識到了這個問題,從2024年年底就開始了相關工作。
![]()
過去的數據采集,通常是架設一個第三方相機來拍攝機器人與人的交互。我們發現這種方式缺少了從機器人“自身”出發、以第一視角進行交互的視角能力。
因此,我們構建了一個新的基準數據集——InterVLA,旨在補充機器人第一人稱視角數據的缺失。
具體做法其實很簡單,我來展示一下InterVLA的數據集大概是什么樣子。例如,在展示的這個場景中,會有一位指令官和一位助手。指令官下達指令:“把桌子上的藥瓶遞給我”。這位助手就模擬機器人的視角,去把桌子上的藥瓶(例子中是杯子)拿起來遞過去。
![]()
整個采集過程是:我們的學生會在頭上和胸前佩戴GoPro相機,來模擬機器人。在聽到指令官下達指令后,模擬機器人應該做出的反應。同時,我們對場景中的物體級資產也進行了標定,并將整個場景搬入動作捕捉系統中。
我們使用了戴總他們提供的相機,包括一個光慣融合的方案,搭建了這個采集場景。讓學生貼上標記點,從而采集他們對應的動作,得到完整的運動信息。
![]()
整個數據集包含了大約3.9千個序列。雖然總時長不長,但我們的目標是在高校實驗室條件下,優先將整個技術鏈路走通,而非單純堆砌數據量。數據集的樣本構成包括:第一人稱視角視頻、第三人稱視角視頻、以及通過動捕采集得到的動作數據。
此外,我們還利用ChatGPT對整個事件(從開始到結束)進行了文本描述,將動作過程用語言形式刻畫出來,進而支持動作軌跡建模。這個數據集可以支持較多的下游任務,例如人體運動估計、人機交互等。
![]()
![]()
06、DreamVLA
接下來,我們在兩個討論較多的任務上進行了探索,即“抓放”這類桌面整理或簡單的機械臂任務,研究世界模型如何與當前主流方案進行接口對接,并提出了DreamVLA模型。
![]()
為什么提出Dream VLA?我們先看原有的VLA(視覺-語言-動作)模型環路存在哪些問題。
最左邊的圖A展示的是經典的“語言-動作模型”:它根據看到的圖像和接收的文本指令,直接輸出動作。
圖B和圖C則是在此基礎上,增加了一些更人性化的中間目標(Subgoal)。
![]()
例如,通過設定分步驟的Subgoal,或者用Subgoal的圖像進行像素級的驅動,來幫助模型完成任務。比如,一個“去拿水”的簡單指令,實際上包含了“走到隔壁房間”、“找到水”、“把水拿回來”等多個子目標。通過不斷給出這些子目標策略或圖像,來監督模型完成整個任務。
我們的想法其實更貼近人的思維方式。就像下面這句話說的,人在進行這類操作之前,通常會先在腦中“構思”一個思維鏈,這是一個多模態的推理鏈條。這啟發自大語言模型中的“思維鏈”概念。我們在思考,如何將這種思想引入VLA模型?于是,我們提出了Dream VLA。
具體來說,Dream VLA 的做法是:在將輸入交給最終的擴散變換器以生成策略或動作之前,讓模型先輸出一些中間產物,我們稱之為“世界嵌入”或“世界知識”。例如,哪些地方是需要移動的、其深度應該如何被估計、以及對應的語義應如何預測。這相當于加入了幾個僅在訓練時使用的、中間層的“潛在嵌入”。
這與LeCun的卷積神經網絡思想有相似之處,都是在潛在空間中運作,并不直接輸出最終的像素級結果或動作,而是讓網絡在潛在空間中形成一種較強的思維鏈模式。
![]()
這里展示了一些中間的可視化結果,比如動態區域。我們使用CoTracker作為光流軌跡的提取器來進行中間層的監督。同時,為了防止不同模態之間的相互干擾,與之前的工作類似,我們也采用了模態解耦學習的方案,通過掩碼的方式隔離各模態信息,減少干擾。
這是在仿真器上的一些結果,以及在真實環境中的測試。相比于之前的Open-VLA等方案,我們的方法泛化性更好,并能實現更快、更高效的收斂。
07、Orientation Foundation Model + VLA
在此基礎上,我們又思考了另一個問題:人類對于方位感其實非常強。當然,這因人而異。我自己方向感就比較強,習慣根據太陽光等外部環境來定位方向。但對于機器人而言,它同樣需要這種方位感知能力。
我們發現,目前主流的控制方案,即使是對于“抓放”這類簡單的桌面任務,也很難像人一樣擁有很好的方位感。
![]()
具體來說,就是“方位感知”能力。
比如,當機器人去抓一瓶水時,它的機械臂通常喜歡直接從正上方去抓瓶蓋。但人是不會這樣做的,人會從側面去抓瓶身。因此,我們設計了一個模塊化的方案(而非端到端),通過模塊串聯的方式,賦予機器人這種方位感知能力。我們稱之為“方位基礎模型”。
最終實現的效果是,比如在抓取錘子、電鉆時,能準確抓握其手柄;在抓取水瓶時,能去抓瓶身。這就是我們為它增加的能力。相關的實驗數據這里就跳過了。
08、Disentangled World Models
最后,我想介紹一項工作:我們將“解耦學習”進一步嵌入到世界模型中,做了一個原型。
![]()
在仿真環境(比如強化學習訓練常用的MuJoCo)中,經常會遇到一個問題:模型對許多干擾因素非常不魯棒,很容易受到光照、背景等與任務無關因素的影響。我們就在探索如何將這類非任務相關的因素排除在外,這是一個比較抽象的問題。
我們采用的方法是“解耦學習”,將這些因素進行遍歷和分析,從而提取出關鍵因子。在我們的表示空間中,將那些對任務至關重要的關鍵因素抽離出來,使得在訓練時能更好地聚焦于有效信息。
簡單說,第一步是提取和解耦信息,找出哪些環境因素對任務至關重要;隨后,通過離線與在線相結合的方式進行最終的模型訓練。我們在仿真環境中測試了這種方法對智能體訓練的有效性。相比原有方法,它能帶來顯著提升,尤其是在訓練效率方面。因為找到了數據中的關鍵要素,或者說最有效的那部分信息,這對其訓練加速是有幫助的。
以上是我今天匯報的全部內容。如果大家有興趣,可以進一步關注我們的公眾號或與我微信聯系。我目前也在探索一些產業化的可能性。所展示的技術僅代表我們實驗室目前可行的方案,期待有進一步的交流機會,謝謝。
02
問答環節
01、研究進展
首先想問一下您的研究轉變,為什么現在的研究與世界模型相關?
從去年(2024年)年初開始,實驗室的重點開始慢慢聚焦到世界模型這一領域,我們將其稱為世界知識或空間智能。
這標志著一個維度的提升:實驗室的研究逐漸從處理圖像、視頻等2D視覺信號內容,轉向理解3D、4D乃至更高維度的視覺信號,其核心是讓AI獲得對物理空間的認知能力。選擇世界模型和具身智能這類集成應用化、交叉性強的領域,是為了更好地凝聚實驗室的力量,并吸引更多跨領域的人才。
我們今年有相關論文產出。例如,在剛剛于美國圣地亞哥舉辦的NeurIPS會上,團隊與其他兄弟單位合作的兩篇論文受到廣泛關注,其中一篇還做了口頭報告。
![]()
![]()
(NeurIPS會場展示DreamVLA(一作張文垚)和SoFar(一作齊澤坤))
能否簡要概括一下這幾篇論文的研究亮點或解決的核心問題?
如下圖所示,我們將空間智能的整個流程分為兩個階段。第一階段是世界的建模,即如何構建世界模型;第二階段是智能體訓練,即在構建好的世界中如何訓練具身智能體。
在世界建模階段,我們關注如何建立一個與真實物理世界一致、符合物理規律的模型,強調其物理真實性和物理基礎,避免出現幻覺或違反物理事實的情況。我們在ICCV 2025 的文章Disentangled World Models、CVPR 2025 的UniScene、系列工作OmniNWM,都屬于這一范疇,重點在于打造物理真實的世界模型。
![]()
在第二階段,即具身智能體訓練部分,我們關注如何訓練智能體。當前主流方法是模仿學習或端到端的VLA。而我們提出的特色方法是通過類人的學習方式。我們認為人在學習新技能前并非直接上手操作,而是會運用思維鏈或高層抽象思考等方式。
我們研究的重點是如何讓AI在訓練過程中產生自我想象的能力,即在行動之前能夠形成完整的思維鏈。
例如,當任務是將一瓶水從我所在的房間拿到隔壁房間時,AI在行動前就會思考:需要先抓起瓶子,走到門口開門,找到隔壁房間,再開門進入,找到桌子并把水放下。這套邏輯是在行動前就在腦中規劃好的可能性。
今年是您獨立指導博士生的第幾年?您是如何篩選進入實驗室的學生的?
我從2022年就開始帶博士了,這期間寧波東方理工大學提供給了我很好的科研環境,團隊Senior教授和校領導也充分給予信任和幫扶,使得我們近幾年的學生培養取得了初步成效,去年團隊有一位博士同學(徐良)獲得國家獎學金,今年團隊增加到兩位(李博涵、王允楠)。
我最看重的是學生的自驅力。我不需要每天盯著學生,而是希望他們能主動、快速地給我反饋。背景和能力都可以培養,但自驅力和對科研的熱情是最核心的。我希望學生不是為了學位而讀博,而是真正覺得研究有趣,并能從中獲得成就感。學生眼里要有光,愿意探索新技術,對這個領域有熱情。
因為這個行業競爭激烈,如果內心不熱愛,會非常痛苦,隨之而來的壓力和焦慮也會很大。真正喜歡技術,對新進展感到興奮,這才是關鍵。
在招生時,雖然自驅力可能被臨時表現,但我有自己的考察方式。學校也支持靈活的方案,我會讓學生先來實習半年左右,支付一部分津貼,這是一個相互磨合和考核的過程。如果合適,今年的招生名額就確定給他;如果不合適,對雙方的損失也不會太大。
02、場景選擇
目前構建世界模型時,選擇的仿真場景是會優先考慮常見環境嗎?
我目前所在的學校是寧波東方理工大學。寧波最強的產業是制造業,截至2024年底,寧波擁有104家國家級制造業單項冠軍企業,數量居全國各城市第一,連續7年保持“單項冠軍第一城”,例如奧克斯空調、均勝電子、吉利汽車等,團隊與之都有非常緊密的合作。
基于這樣深厚的工業背景,我們在研究世界模型和具身智能時,首先瞄準的是工業場景,而非家庭、零售或教育等領域。具體來說,我們聚焦于制造業,并將我們的世界模型稱為“工廠世界模型”。我們的目標很明確:在工廠環境中,充分模擬多樣的生產作業情況,支持機器人的訓練及交互操作。
那么,當前學術界研究世界模型的團隊,其最大的差異點是否體現在所選擇的場景上?
可能還不是。因為目前大家的研究尚未進入大量鋪設具體場景的階段。
例如,像LeCun團隊代表的基于潛在變量的世界模型,或李飛飛團隊Marble項目代表的以渲染、所見即所得的視覺模型為例,他們可能還處于探索技術路徑和底層原理的階段,尚未深入到具體場景。越是知名的研究機構,越傾向于引領技術路徑和范式的制定。 而我們作為處于快速發展階段的團隊,我們認為需要兩條腿走路:既要探索前沿的技術路線,又要找到有特色的應用場景。
你們構建世界模型的具體步驟是怎樣的?以及數據方面,是否主要采集靜態數據?
不,數據分為兩部分。
靜態數據主要指資產性的內容,例如生產線上的桌子、椅子、流水線等物體級別的靜態資產。
動態數據則包括最簡單的RGB視頻,以及雷達激光點云,甚至動作捕捉系統獲得的光慣混合數據(結合可見光與IMU慣性測量單元),這些用于體現物體的運動和動態信息。
兩者都是必需的。因為世界本身就是實時變化、包含動態與靜態的整體。
因此構建步驟是:先以靜態數據為基礎,再加入動態示教數據。最關鍵的是納入規則,這些規則可以是顯性的或隱性的,例如“水往低處流”、牛頓定律等第一性原理或物理規律。這是模型的靈魂所在。
所以技術路徑是自上而下的:先定義物理規則,再疊加動態數據,最后以靜態數據打底。具體步驟會涉及數據采集、處理與合成,進而訓練模型,使其具備生成能力。
當前世界模型之所以可行,關鍵在于其生成能力。過去,構建數字場景需要“手搓”——即對現實物體或場景進行一對一的手工建模或CAD仿真,效率低且成本高。
而如今AIGC技術的發展,使得我們能夠通過生成方式快速創建出物理正確、視覺真實的場景,這在效率和成本上都是量級提升。這正是世界模型如今興起的根本原因。
在構建世界模型的各個步驟中,您認為哪個部分技術難度最大?哪個部分成本最高?
成本最高的部分是前期靜態資產和動態場景數據的創建與采集。例如,要生成成千上萬個各不相同的工業零部件模型,這部分工作量成本很高。而技術難度最大的,則在于如何將軟體、彈性體、流體等第一性原理和物理規則有效嵌入模型中,使其更真實更好地服務智能體學習。
03、一些討論
從技術路徑上看,您認為當前一些視頻生成模型(例如Sora)是否能夠演進為世界模型?這條路徑是否正確?
我認為問題不在于路徑是否正確,而在于它適用于哪些場景、能解決哪些問題。例如,Sora在游戲、娛樂、影視媒體等行業中,作為內容生成工具肯定有其價值并能發揮作用。在游戲、娛樂、影視媒體等行業,Sora這類模型能夠生成以假亂真的內容,稱其為這些特定場景下的世界模型并無不可。
然而,當任務升級到需要精細空間感知和動作策略的領域,例如機器人精細操作或自動駕駛,僅依靠視頻生成能力的模型就顯得不足了。它難以支撐智能體衍生出必要的空間感知能力、操作靈活性,尤其是像人形機器人全身控制這類復雜的局部運動能力。因此,Sora是否為世界模型,取決于應用場景。對于某些應用,它是一個可用的世界模型;但對于需要處理更高維度數據、更復雜交互的場景,它存在局限性。
具身智能的載體多樣,例如工業場景中的汽車、機械臂等不同機器人形態。它們的感知和控制策略是否存在差異?你們是否需要為不同形態設計特定的世界模型?
目前來看,無論是自動駕駛還是工業機器人、機械臂,大家逐漸趨向于采用數據驅動的端到端模式,例如視覺-語言-動作模型。如果世界模型是為了服務這種VLA范式,那么我就不需要區分載體是汽車還是機器人。
以往基于規則的方法確實需要為不同載體甚至不同品牌的機器人設計獨立系統。但現在大家希望統一起來,一方面是因為端到端的數據驅動方法展現了統一的可能性,另一方面是為了避免重復造輪子。這是當前的一個趨勢。
前幾天我和港中深韓曉光老師交流時,他也提到一個觀點:端到端方法雖然簡化了許多流程,但也讓過程變得更像黑盒,缺乏可解釋性。因此他也在關注顯式3D研究和可解釋性AI。可解釋性也是您實驗室的三大方向之一。
是的,我和韓老師很熟,也曾討論過這個問題,因此我們實驗室還是比較傾向于前面提到的Hybrid混合的路徑:既利用端到端黑盒方法的能力,也結合顯性、可解釋的組件。
韓老師也提到,端到端和數據驅動的大模型趨勢,可能讓一些傳統的研究方式(比如精巧的算法設計)變得“沒意思”或失去空間。您會有這種困擾嗎?
我給您舉個例子。今年CVPR期間,當時我和一位老師提出了一個相關問題:現在企業界將大模型路徑做得如此成熟、強大,我們學術界的研究是否顯得像小作坊,意義不大了?
這和你剛問的問題很像。那位資深教授的回答很有意思。他指出,公司追求這些技術的核心目的往往是快速實現商業變現。如果你理解了企業追求快速變現這個邏輯,那么在做研究時,就要思考你的目標是否也是為了快速變現。如果不是,就不必焦慮。當企業在變現過程中遇到困難或不順利時,他們就會尋求改變,那時他們會重新將目光投向高校,尋找可能帶來新變現機會的技術。技術是持續發展的,當前看似強大的路徑未必完全正確,總需要新的突破。像Transformer、Diffusion這類奠基性技術最初也都是從高校誕生的。所以,不必過于焦慮和悲觀。
你們如何讓仿真環境中的智能體掌握一部分物理規律?例如,讓它拿起玻璃杯、鐵杯或塑料杯摔到地上,它對不同材質的感知和造成的結果應該是不同的。你們如何處理這種差別?
這取決于你的世界模型是否足夠強大。在理想情況下,一個強大的世界模型應該在仿真環境中真實地還原玻璃、塑料、鋼鐵等材質的物理屬性。這就是我之前強調的世界建模要追求物理真實性。
如果能做到這一點,那么你提到的問題就自然解決了——在仿真環境中訓練出的智能體,其行為結果會與真實世界一致,因為它在數字世界里見識到的物理規律是真實的。所以,難點和核心仍然在于如何構建出高度物理真實的世界模型本身。
所以你們實際上是多管齊下:在數據采集階段就力求高質量,同時結合規則設計,再通過數據驅動的方式進行訓練,多種方法結合讓模型理解物理規律。
是的。我們采用知識庫與數據庫結合的方式。對于有明確物理規則、能夠用公式描述的,比如碰撞檢測、摩擦力等,我們直接將這些先驗知識作為約束或規則嵌入系統。
而對于難以精確描述的現象,比如流體、氣體的運動,則采用數據驅動的方法。
我一直強調我們是混合路徑:對有明確先驗知識的,通過知識注入或添加約束;對難以言說的規律,則依賴大量數據,讓模型自己從中學習并領悟那種“感覺”。
舉個例子,我們的合作方是汽車零部件供應商,負責汽車座艙坐墊的生產安裝。坐墊是軟的,類似注塑材質,這種軟體物體的仿真和建模就非常困難,處理難以用簡單規則描述的復雜物理現象。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.