網易首頁 > 網易號 > 正文申請入駐

物理AI的「原生」時刻：原力靈機發布具身大模型DM0

2026-03-11 16:32:04　來源: 機器之心Pro

河北舉報

分享至

當前，大語言模型（LLMs）和視覺語言模型（VLMs）在語義領域的成功未能直接遷移至物理機器人，歸根結底在于其互聯網原生的基因。主流的 “預訓練 - 后適配”（Pretrain-then-Adapt）的范式依賴互聯網靜態數據，導致模型先天缺失物理基礎（Physical Grounding），在落地時往往顧此失彼：要么導致操作與導航的模塊割裂，要么引發災難性遺忘，在追求控制精度的過程中丟失了核心的通用推理能力。

圖 1：DM0 在異構語料庫上進行預訓練 —— 無縫整合互聯網、自動駕駛和具身操作數據。

為了打破這一局限，原力靈機聯合階躍星辰提出一種名為 DM0 的具身原生（Embodied-Native） VLA 模型，其工作核心在于「從 0 開始」：從訓練的最初階段，就采用統一的視角，將具身傳感器與運動數據視為與語言、視覺數據同等重要的一等公民。

作為一個端到端模型，DM0 可以無縫統一機器人的精細操作（Manipulation）與移動導航（Navigation）。在 RoboChallenge 真實世界基準測試 Table 30 中，DM0 在單任務（Specialist）和多任務（Generalist）兩種設置下均以顯著優勢領先現有 SOTA 模型，展現出極其強大的物理世界泛化與執行能力。

論文名稱： DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI
論文鏈接：https://arxiv.org/html/2602.14974v1
DM0 GitHub ： https://github.com/Dexmal/dexbotic
DM0 Hugging Face： https://huggingface.co/collections/Dexmal/dm0

方法與架構：多源混合訓練與空間腳手架

真正的通用機器人需要一個具身原生模型，這要求模型必須調和異構數據源 —— 涵蓋互聯網語料、自動駕駛日志以及機器人操作軌跡，學習既具有豐富語義又具備物理可執行性的表征。為此，DM0 并未采用簡單的端到端多層感知機映射，而是設計了一套精妙的多源混合訓練與具身空間腳手架（Embodied Spatial Scaffolding）架構。

整體模型架構

圖 2：DM0 架構圖，包含 VLM 主干和基于流匹配（Flow Matching）的動作專家。

DM0 的核心架構由兩個主要組件構成：

1.VLM 主干網絡：基于 Qwen3-1.7B 大語言模型構建，并增加了一個強大的感知編碼器 PE，負責多模態感知、語義理解以及在機器人環境中的具身推理。輸入的多視角圖像會被調整為 728×728 的高分辨率，經過感知編碼器處理后，提取出細粒度的視覺特征。

2. 動作專家：這是一個基于流匹配的連續控制模塊。它不直接從圖像提取特征，而是接收來自 VLM 主干網絡提取的鍵值（KV）緩存作為條件輸入，從而生成平滑、精確的連續控制動作。

在推理時，DM0 支持兩種模式：既可以直接從多模態觀察和指令中預測連續動作；也可以先通過 VLM 生成文本形式的具身推理過程，隨后將這些推理文本作為條件，引導動作專家輸出動作。

多源混合訓練

聯合優化語言目標與連續控制目標往往會破壞預訓練 VLM 中保存的語義表征。為了解決這個問題，DM0 采用了一種受知識隔離（Knowledge Insulation）啟發的混合梯度策略。

具體而言，在針對具身機器人數據進行訓練時，動作專家的梯度不會回傳給 VLM 主干網絡。這種解耦操作有效防止機器人動作數據對 VLM 通用常識的侵蝕。與此同時，VLM 仍然會繼續使用非具身數據進行更新，不斷優化其通用語言和視覺理解能力。此外，VLM 還被監督預測離散的動作 Token，促使它編碼出有利于下游連續動作預測的動作相關語義。

具身空間腳手架

為進一步彌合高級語言推理與低級動作控制之間的鴻溝，本文創新性提出一套分層預測框架 —— 具身空間腳手架。在訓練中，模型被要求順序執行以下輔助任務，構建出空間維度的思維鏈（Spatial CoT）：

1. 子任務預測：將復雜的總指令分解為一系列可解釋、易管理的子步驟。

2. 目標邊界框預測：在視覺觀察中預測出目標物體或目標區域的 2D 邊界框。

3. 末端執行器軌跡預測：預測機器臂末端在主攝像機視圖下的未來 2D 軌跡。

4. 離散動作預測：預測代表機器人控制命令的離散 Token。

這種設計如同為模型搭建一層層腳手架，引導其從抽象的語義意圖，逐步過渡到以物體為中心的空間定位，再到動作相關的幾何軌跡，最終落地為底層控制。這種信息瓶頸機制不僅過濾了任務無關的噪聲，還極大地限制了動作策略的解空間。

三階段訓練配方：從互聯網原生走向具身原生

圖 4：預訓練、中期訓練、后期訓練的數據混合比例。

DM0 的強大不僅源于架構，更歸功于其精心設計的三階段訓練 pipeline，總計消耗了高達 1.2T Token 的數據。預訓練階段在大規模的互聯網、自動駕駛和具身數據上建立強大的多模態感知；中訓練階段加入動作預測，并在跨多種機器人平臺的具身數據上把模型錨定為可執行的控制，同時保留通用對話能力；后訓練階段則收窄所使用的本體與數據范圍，以便在少數目標平臺上穩定視覺 - 運動對齊。

Pretraining

這個階段，模型在一套極其豐富的異構語料庫上進行聯合優化，參數全部解凍。數據不僅包含傳統的網頁文本、教育文獻、OCR 數據和通用 VQA，還極具前瞻性地引入 GUI 界面數據、自動駕駛深度檢測數據以及大量的具身數據。通過 1.13T Token 的大規模洗禮，模型在獲得語義知識的同時，隱式地掌握了物理先驗（如空間關系、深度結構、物理動力學）。

Mid-Training

中期訓練階段引入了動作預測模塊，數據規模約為 200M 樣本。此時，混合梯度策略（知識隔離）開始生效。數據混合了跨形態的單臂 / 雙臂機器人軌跡（如 Franka、UR5、ALOHA）、仿真環境數據以及視覺 - 語言指令微調數據（如 Cambrian-10M、LLaVA-OV）。為了增強模型的長程規劃能力，本文還專門構建了具身推理（ER）數據集，包含任務分解、進度估計等訓練項。

Post-Training

后期訓練階段旨在將模型對齊到實際部署的硬件上。使用約 50M 樣本，將目標縮小至少數特定的真實機器人平臺。減少不同形態機器人的分布方差，使得模型能在目標機械臂上建立極其穩定的視覺 - 運動映射。

實驗結果：在 RoboChallenge 上的碾壓級表現

為全面驗證 DM0 的物理世界交互能力，DM0 在極具挑戰性的 RoboChallenge 真實世界基準 Table30 上進行評估。該基準包含 30 個需要多步推理和精確連續控制的長視野桌面操作任務。

單任務（Specialist）評估

表 1：RoboChallenge Table30 上 SOTA 開源 VLA 模型的對比結果。

如表 1 所示，DM0-Specialist 模型在僅有 2.4B 參數量的情況下，在 UR5、Franka、ARX5、ALOHA 等多個機器人平臺上，全面超越參數量更大的 Spirit-v1.5 (4B)、GigaBrain-0.1 (3B) 、pi0.5 (3B) 等 SOTA 開源模型，取得了 62.00% 的平均成功率。

值得注意的是，在諸如 “在籃子中整理水果”、“插網線” 和 “掃垃圾” 這類長時序、強交互的復雜任務中，DM0 甚至取得了 100% 或 80% 這樣接近完美的成績，而其他基準模型在這些任務上經常徹底失敗（0%）。

多任務（Generalist）評估

表 2：RoboChallenge Table30 上當前最佳的開源 VLA 多任務模型的對比結果。

在更考驗模型跨任務適應能力的多任務中（一個模型同時掌握某平臺下的所有任務），DM0-Generalist 同樣展現出壓倒性優勢，取得了 37.3% 的平均成功率和 49.08 的任務得分，大幅超越了之前最強的 pi0.5 模型的 17.67% 和 31.27；特別是在 “堆疊彩色方塊”、“將鞋子放在鞋架上” 等需要高精度空間理解的任務中，DM0 依然能夠打出滿分。

表 5：DM0 具備在具身場景中預測子任務的思維鏈（CoT）能力。

除了卓越的動作執行能力，由于實施了知識隔離，處于 Mid-Training 階段的 DM0 依然完美保留了多模態對話能力。在具身場景的物體檢測、復雜圖表 OCR 識別、甚至是作為手機智能體（Mobile Agent）識別外賣按鈕的任務中，它也能對答如流。

結論與未來展望

DM0 從根本上重新思考了通用機器人策略的開發路徑。它證明了與其讓純語義的大語言模型在事后去適應機器人身體，不如在預訓練的萌芽期，就將物理世界的感知與多源數據相融合，構建一個真正意義上的具身原生 VLA 模型；其獨創的混合梯度訓練保護了認知不退化，而具身空間腳手架則賦予了模型三維空間的推理直覺。

盡管 DM0 已經樹立了一個強大的基準，但這僅僅是 Physical AI 邁出的一小步。論文的最后，作者團隊也指出了幾個極具潛力的演進方向：

1. 具身原生的 Scaling Laws： DM0 目前依然是一個 2B 級別的輕量化模型。未來，團隊計劃將其擴展至 7B 甚至 30B 規模，并吞吐更為龐大的仿真 + 真實的混合數據集，以期觀察到在物理推理層面的涌現能力。

2. 更廣闊的多模態感知：現實世界的物理交互絕不僅限于看和說。DM0 的預訓練階段未來有望直接整合觸覺反饋、音頻以及純深度信息，讓機器人即便在視野受限的動態環境中依然游刃有余。

3. 長程推理與世界模型：現有的空間腳手架雖然解決了部分規劃問題，但跨越超長時間維度的任務仍是業界難題。未來，若能將世界模型整合進 DM0 ，賦予機器人在腦海中預演動作后果并進行長期規劃的能力，真正的全能型 Physical AI 將不再遙遠。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.