網易首頁 > 網易號 > 正文申請入駐

LeCun在Meta還有論文：JEPA物理規劃的「終極指南」

2026-01-04 14:22:45　來源: 機器之心Pro

北京舉報

分享至

編輯｜Panda

長期以來，AI 領域一直懷揣著一個宏大的夢想：創造出能夠像人類一樣直觀理解物理世界，并在從未見過的任務和環境中游刃有余的智能體。

傳統的強化學習方法往往比較笨拙，需要通過無數次的試錯和海量的樣本才能學到一點皮毛，這在獎勵信號稀疏的現實環境中簡直是災難。

為了打破這一僵局，研究者們提出了「世界模型」這一概念，即讓智能體在腦海中構建一個物理模擬器，通過預測未來狀態來進行演練。

近年來，雖然能夠生成精美像素畫面的生成式模型層出不窮，但對于物理規劃而言，沉溺于無關緊要的細節（如背景煙霧的流動）往往是低效的。真正的挑戰在于，如何在錯綜復雜的原始視覺輸入中提取抽象精髓。

這便引出了本研究的主角：JEPA-WM（聯合嵌入預測世界模型）

從名字也能看出來，這個模型與 Yann LeCun 的JEPA（聯合嵌入預測架構）緊密相關。事實上也確實如此，并且 Yann LeCun 本人也是該論文的作者之一。更有意思的是，在這篇論文中，Yann LeCun 的所屬機構為 Meta FAIR。不知道這是不是他在 Meta 的最后一篇論文？

論文標題：What Drives Success in Physical Planning with Joint-Embedding Predictive World Models?
論文地址：https://arxiv.org/abs/2512.24497

JEPA-WM 繼承了 JEPA 的衣缽，不再糾結于像素級的重建，而是在高度抽象的表征空間內進行預判。在這項研究中，團隊試圖通過對架構、目標函數和規劃算法的全方位掃描，揭示究竟是什么驅動了物理規劃的成功，并試圖為機器人裝上一個更理性的「大腦」。

JEPA-WM 核心方法

該團隊將 JEPA-WM 的訓練與規劃流程形式化為一套統一的「終極指南」，重點在于如何在學習到的特征空間中模擬動力學。

1. 層次化的編碼與預測架構

在訓練階段，模型主要由四部分交織而成：

2. 多步展開與動作調節細節

在訓練時，模型不僅要預測下一幀，還要學會在沒有真實觀測反饋的情況下，基于自己的預測結果遞歸生成后續狀態。為了提高效率，采用了截斷反向傳播（TBPTT），即只針對最后一步的預測誤差計算梯度，而切斷之前的累積梯度。

在動作信息如何干預預測過程上，該團隊對比了三種關鍵方案：

特征調節（Feature Conditioning）：將動作向量直接拼接到每一個視覺特征向量上，增加了預測器的隱藏層維度。
序列調節（Sequence Conditioning）：將動作作為一個獨立的 Token 插入到 ViT 的輸入序列中，通過注意力機制進行信息分發。
自適應層歸一化（AdaLN）：動作嵌入被投影為縮放和偏移參數，在每一個 Transformer 塊中動態調制歸一化統計量，這能有效防止動作信號在深層網絡中「淡出」。

3. 規劃邏輯：在嵌入空間中尋找最優解

實驗與結果：從模擬器到真實機械臂

研究團隊在 Metaworld（42 個操縱任務）、Push-T（物體推送）、PointMaze（導航）以及 DROID（真實機械臂數據集）上進行了評估。

1. 規劃器之爭：梯度 vs 采樣

實驗結果揭示了一個有趣的現象：在像 Metaworld 這種成本曲線相對平滑的任務中，基于梯度的 Adam 或 GD 優化器表現驚人，因為它們能順著梯度迅速找到目標。但在 2D 導航（Wall, Maze）任務中，梯度法極易卡在局部極小值（例如對著墻猛撞而不懂得繞過門口），此時基于采樣的交叉熵方法（CEM）憑借其探索能力完勝。

此外，新引入的Nevergrad（NG）規劃器在無需調參的情況下展現了與 CEM 相當的實力，尤其適合跨任務遷移。

2. 關鍵因素的「貢獻度」

為了量化不同設計決策對智能體最終表現的影響，研究團隊采用了一種嚴謹的控制變量法。

他們以一個基礎配置（DINO-WM 結合 ViT-S 編碼器及 6 層預測器）為基準，獨立改變每一個核心組件，從而在復雜的系統工程中剝離出真正驅動性能增長的關鍵因子。通過在 Metaworld、Push-T 等多種異構環境下進行數以萬計的幕（Episode）測試，實驗揭示了世界模型在處理物理邏輯時的內在偏好。以下是影響物理規劃成敗的核心貢獻因素：

本體感受的顯著增益：引入機器人內部狀態信息（如關節角度、末端位姿）能夠一致性地提高規劃成功率。在 Metaworld 任務中，這能有效減少機械臂在目標點附近震蕩的情況，提供更精準的距離感知。

編碼器架構：DINO 系列編碼器（DINOv2/v3）在所有任務中均表現出對 V-JEPA 等視頻編碼器的明顯優勢。這歸功于 DINO 強大的細粒度目標分割能力，這對于需要精確感知物體位置的操縱和導航任務至關重要。在視覺復雜度更高的真實數據（DROID）中，DINOv3 的優勢進一步擴大。

動作調節技術的微妙差異：實驗發現 AdaLN（自適應層歸一化）調節技術在平均性能上表現最強，且計算效率更高。它通過在 Transformer 的每一層注入動作信息，有效防止了控制信號在深層網絡傳遞過程中的消失，相比傳統的特征拼接（ftcond）或序列拼接（seqcond）更具穩健性。

訓練上下文長度的權衡：預測器需要至少 2 幀上下文來推斷速度信息，這在 W=1 與 W=2 之間的巨大性能鴻溝中得到了印證。然而，盲目增加上下文長度（如 W > 5）反而有害，因為這會減少訓練中看到的獨特軌跡數量，并可能引入無用的梯度噪聲。

模型規模：這是一個令人意外的發現：在簡單的模擬環境（如 Maze, Wall）中，增大模型規模（從 ViT-S 到 ViT-L）非但沒有幫助，反而可能由于嵌入空間過于復雜而導致規劃效率下降。但對于復雜的現實數據（DROID），大容量的編碼器和更深的預測器則展現出了明確的正相關收益，說明任務的物理復雜度決定了智能體所需的智力上限。

多步損失的對齊作用：在訓練中加入 2 步展開損失能顯著改善預測器的長時穩定性，使其訓練任務與測試時的遞歸規劃任務更加對齊。對于最復雜的 DROID 任務，最佳的展開步數甚至需要達到 6 步。

3. 提出的最優解

研究最終匯總所有洞察，提出了針對不同任務的最優配置：在模擬器中使用 ViT-S 配以 AdaLN，而在真實復雜場景中使用 DINOv3 ViT-L 配以 12 層深度的預測器。

在與 DINO-WM 和 V-JEPA-2-AC 的直接較量中，該模型在幾乎所有維度上均取得了領先。

更多詳情請參閱原論文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.