![]()
編輯|Panda
長期以來,AI 領域一直懷揣著一個宏大的夢想:創造出能夠像人類一樣直觀理解物理世界,并在從未見過的任務和環境中游刃有余的智能體。
傳統的強化學習方法往往比較笨拙,需要通過無數次的試錯和海量的樣本才能學到一點皮毛,這在獎勵信號稀疏的現實環境中簡直是災難。
為了打破這一僵局,研究者們提出了「世界模型」這一概念,即讓智能體在腦海中構建一個物理模擬器,通過預測未來狀態來進行演練。
近年來,雖然能夠生成精美像素畫面的生成式模型層出不窮,但對于物理規劃而言,沉溺于無關緊要的細節(如背景煙霧的流動)往往是低效的。真正的挑戰在于,如何在錯綜復雜的原始視覺輸入中提取抽象精髓。
這便引出了本研究的主角:JEPA-WM(聯合嵌入預測世界模型)
從名字也能看出來,這個模型與 Yann LeCun 的JEPA(聯合嵌入預測架構)緊密相關。事實上也確實如此,并且 Yann LeCun 本人也是該論文的作者之一。更有意思的是,在這篇論文中,Yann LeCun 的所屬機構為 Meta FAIR。不知道這是不是他在 Meta 的最后一篇論文?
![]()
- 論文標題:What Drives Success in Physical Planning with Joint-Embedding Predictive World Models?
- 論文地址:https://arxiv.org/abs/2512.24497
JEPA-WM 繼承了 JEPA 的衣缽,不再糾結于像素級的重建,而是在高度抽象的表征空間內進行預判。在這項研究中,團隊試圖通過對架構、目標函數和規劃算法的全方位掃描,揭示究竟是什么驅動了物理規劃的成功,并試圖為機器人裝上一個更理性的「大腦」。
JEPA-WM 核心方法
該團隊將 JEPA-WM 的訓練與規劃流程形式化為一套統一的「終極指南」,重點在于如何在學習到的特征空間中模擬動力學。
1. 層次化的編碼與預測架構
![]()
在訓練階段,模型主要由四部分交織而成:
![]()
2. 多步展開與動作調節細節
![]()
在訓練時,模型不僅要預測下一幀,還要學會在沒有真實觀測反饋的情況下,基于自己的預測結果遞歸生成后續狀態。為了提高效率,采用了截斷反向傳播(TBPTT),即只針對最后一步的預測誤差計算梯度,而切斷之前的累積梯度。
在動作信息如何干預預測過程上,該團隊對比了三種關鍵方案:
- 特征調節(Feature Conditioning):將動作向量直接拼接到每一個視覺特征向量上,增加了預測器的隱藏層維度。
- 序列調節(Sequence Conditioning):將動作作為一個獨立的 Token 插入到 ViT 的輸入序列中,通過注意力機制進行信息分發。
- 自適應層歸一化(AdaLN):動作嵌入被投影為縮放和偏移參數,在每一個 Transformer 塊中動態調制歸一化統計量,這能有效防止動作信號在深層網絡中「淡出」。
3. 規劃邏輯:在嵌入空間中尋找最優解
![]()
實驗與結果:從模擬器到真實機械臂
研究團隊在 Metaworld(42 個操縱任務)、Push-T(物體推送)、PointMaze(導航)以及 DROID(真實機械臂數據集)上進行了評估。
1. 規劃器之爭:梯度 vs 采樣
實驗結果揭示了一個有趣的現象:在像 Metaworld 這種成本曲線相對平滑的任務中,基于梯度的 Adam 或 GD 優化器表現驚人,因為它們能順著梯度迅速找到目標。但在 2D 導航(Wall, Maze)任務中,梯度法極易卡在局部極小值(例如對著墻猛撞而不懂得繞過門口),此時基于采樣的交叉熵方法(CEM)憑借其探索能力完勝。
![]()
此外,新引入的Nevergrad(NG)規劃器在無需調參的情況下展現了與 CEM 相當的實力,尤其適合跨任務遷移。
2. 關鍵因素的「貢獻度」
為了量化不同設計決策對智能體最終表現的影響,研究團隊采用了一種嚴謹的控制變量法。
他們以一個基礎配置(DINO-WM 結合 ViT-S 編碼器及 6 層預測器)為基準,獨立改變每一個核心組件,從而在復雜的系統工程中剝離出真正驅動性能增長的關鍵因子。通過在 Metaworld、Push-T 等多種異構環境下進行數以萬計的幕(Episode)測試,實驗揭示了世界模型在處理物理邏輯時的內在偏好。以下是影響物理規劃成敗的核心貢獻因素:
本體感受的顯著增益:引入機器人內部狀態信息(如關節角度、末端位姿)能夠一致性地提高規劃成功率。在 Metaworld 任務中,這能有效減少機械臂在目標點附近震蕩的情況,提供更精準的距離感知。
![]()
編碼器架構:DINO 系列編碼器(DINOv2/v3)在所有任務中均表現出對 V-JEPA 等視頻編碼器的明顯優勢。這歸功于 DINO 強大的細粒度目標分割能力,這對于需要精確感知物體位置的操縱和導航任務至關重要。在視覺復雜度更高的真實數據(DROID)中,DINOv3 的優勢進一步擴大。
動作調節技術的微妙差異:實驗發現 AdaLN(自適應層歸一化)調節技術在平均性能上表現最強,且計算效率更高。它通過在 Transformer 的每一層注入動作信息,有效防止了控制信號在深層網絡傳遞過程中的消失,相比傳統的特征拼接(ftcond)或序列拼接(seqcond)更具穩健性。
![]()
訓練上下文長度的權衡:預測器需要至少 2 幀上下文來推斷速度信息,這在 W=1 與 W=2 之間的巨大性能鴻溝中得到了印證。然而,盲目增加上下文長度(如 W > 5)反而有害,因為這會減少訓練中看到的獨特軌跡數量,并可能引入無用的梯度噪聲。
![]()
模型規模:這是一個令人意外的發現:在簡單的模擬環境(如 Maze, Wall)中,增大模型規模(從 ViT-S 到 ViT-L)非但沒有幫助,反而可能由于嵌入空間過于復雜而導致規劃效率下降。但對于復雜的現實數據(DROID),大容量的編碼器和更深的預測器則展現出了明確的正相關收益,說明任務的物理復雜度決定了智能體所需的智力上限。
多步損失的對齊作用:在訓練中加入 2 步展開損失能顯著改善預測器的長時穩定性,使其訓練任務與測試時的遞歸規劃任務更加對齊。對于最復雜的 DROID 任務,最佳的展開步數甚至需要達到 6 步。
3. 提出的最優解
研究最終匯總所有洞察,提出了針對不同任務的最優配置:在模擬器中使用 ViT-S 配以 AdaLN,而在真實復雜場景中使用 DINOv3 ViT-L 配以 12 層深度的預測器。
![]()
在與 DINO-WM 和 V-JEPA-2-AC 的直接較量中,該模型在幾乎所有維度上均取得了領先。
更多詳情請參閱原論文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.