網易首頁 > 網易號 > 正文申請入駐

小米首代機器人VLA模型開源，雷軍把門檻打下來了，消費級顯卡可跑SOTA

2026-02-12 13:41:34　來源: 機器人前瞻

北京舉報

分享至

仿真測試跑贏全球30款競品。

作者 |李水青

編輯 |漠影

機器人前瞻2月12日報道，今天，小米開源其首代機器人VLA（視覺-語言-動作）大模型——Xiaomi-Robotics-0。

該模型擁有4.7B參數，采用MoT混合架構實現“大腦小腦”協同，在LIBERO、SimplerEnv、CALVIN三大主流仿真基準測試中，包攬所有細分項SOTA（行業最佳）。

在真機評估中，Xiaomi-Robotics-0在疊毛巾、拆樂高等任務中動作連貫、反應靈敏。并且，該模型能在消費級顯卡上實現實時推理。

▲將毛巾攤平-疊好

為了訓練模型Xiaomi-Robotics-0，小米利用了一個龐大的數據集，包含2億級機器人軌跡數據與超過8000萬個通用視覺-語言數據樣本，其中包括338小時樂高拆卸、400小時毛巾折疊的數據。

目前，小米已開源了Xiaomi-Robotics-0的模型權重和完整代碼，包括技術報告也可以在下面地址中查看。

技術主頁：

https://xiaomi-robotics-0.github.io

開源代碼：

https://github.com/XiaomiRobotics/Xiaomi-Robotics-0

模型權重：

https://huggingface.co/XiaomiRobotics

01.

拿下三大主流仿真測試SOTA

拆樂高、疊毛巾都勝任

Xiaomi-Robotics-0在三項仿真基準測試的所有Benchmark、30種模型對比中，均取得了SOTA性能。

具體而言，它在LIBERO上的平均成功率達到98.7%。在SimplerEnv上，其在視覺匹配（85.5%）、視覺聚合（74.7%）和WidowX（79.2%）方面均表現出色。在CALVIN上，它在ABC-D和ABCD-D分割上的平均長度分別達到4.75和4.80。

在VLM基準測試中，其預訓練模型與基礎預訓練VLM的性能相當。Xiaomi-Robotics-0保留了VLM本身的多模態理解能力，尤其是在具身更相關的Benchmark中表現較好，這是之前的很多VLA模型所不具備的。

▲該模型在VLA、VLM的Benchmark以及真實機器人的效果指標

在真實機器人評估中，Xiaomi-Robotics-0在兩項具有挑戰性的雙手機器人操作任務——樂高拆卸和毛巾折疊中，實現了高成功率和強大的吞吐量，手眼協調表現較好。

以下是部分真機運行片段：

▲將大塊積木逐步拆成小塊

▲主動將多余毛巾放回以進行疊放

02.

采用MoT混合架構

大小腦聯動實現精準手眼協同

為了兼顧通用理解與精細控制，Xiaomi-Robotics-0采用了主流的MoT （Mixture-of-Transformers）架構。

該架構包括一個視覺語言大腦（VLM）和一個動作執行小腦（Action Expert）。

視覺語言大腦：團隊采用了多模態VLM大模型作為底座，它負責理解人類的模糊指令，如“請把毛巾疊好”，并從高清視覺輸入中捕捉空間關系。

動作執行小腦：為了生成高頻、平滑的動作，團隊嵌入了多層的 Diffusion Transformer (DiT)。它不直接輸出單一動作，而是生成一個“動作塊”（Action Chunk），并通過流匹配（Flow-matching）技術確保動作的精準度。

▲模型架構及訓練方法

這種“大腦+小腦”的組合，讓模型既能聽懂指令，又能像人類一樣，在動作執行時保持極高的物理靈活性。

▲主動靈活調整自身動作

03.

基于2億級數據訓練

分兩階段進化

如何讓模型既不丟失常識，又精通“體力活”？

團隊的訓練利用了一個龐大的數據集，其中包含約2億個機器人軌跡時間步長，和超過8000萬個通用視覺-語言數據樣本。機器人數據來源于開源數據集和通過遠程操作收集的內部數據，包括338小時的樂高拆卸數據、400小時的毛巾折疊數據。

與此同時，團隊還設計了一套訓練配方，包括跨模態預訓練和后訓練兩個階段。

1、跨模態預訓練：提高模型動作分布預測能力

大部分VLA模型在學動作時往往會“變笨”，失去本身的理解能力。團隊通過多模態與動作數據的混合訓練，讓模型在學會操作的同時，依然保持較強的物體檢測、視覺問答和邏輯推理能力。

VLM協同訓練：團隊首先引入了Action Proposal機制，強迫VLM模型在理解圖像的同時預測多種動作分布。這一步是為了讓VLM的特征空間與動作空間對齊，不再僅僅是“紙上談兵”。

DiT專項訓練：隨后，團隊凍結VLM，專注于訓練DiT，學習如何從噪聲中恢復出精準的動作序列。這一階段，團隊去除了VLM的離散Token，完全依賴KV特征進行條件生成。通過DiT專項訓練，模型可以生成高度平滑、精準的的動作序列。

▲多模態數據與跨本體機器人數據的分布

2、后訓練：保障動作連貫流暢

這是解鎖物理智能的核心路徑。針對推理延遲引發的真機“動作斷層”問題，團隊采用異步推理模式——讓模型推理與機器人運行脫離同步約束、異步執行，從機制上保障動作連貫流暢。

▲異步推理示意圖，模型推理延遲不影響真機連續性運行

為進一步強化模型對環境變化的響應敏捷性與運行穩定性，團隊引入了：

Clean Action Prefix：將前一時刻預測的動作作為輸入，確保動作軌跡在時間維度上是連續的、不抖動的，進一步增加流暢性。

Λ-shape Attention Mask：通過特殊的注意力掩碼，強制模型更關注當前的視覺反饋，而不是沉溺于歷史慣性。這讓機器人在面對環境突發變化時，能夠展現出極強的反應性物理智能。

▲團隊采用特殊的注意力掩碼機制，有效緩解動作慣性

04.

結語：VLA模型加速走向消費級部署

小米此次開源的Xiaomi-Robotics-0采用大小腦分工的MoT混合架構，既保留了VLM的多模態知識儲備，又解決了傳統VLA模型“學動作、忘視覺”的災難性遺忘問題。

值得關注的是，該模型能在消費級顯卡上實現實時推理，具身智能模型的部署門檻正下沉到普通開發者桌面，機器人軟件棧的平民化正在加速到來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

2月27日，河南。男子拉板車送禮，網友：最實在的娘家侄子

中安在線 2026-03-01 19:58:19
8 跟貼 8
“手機將全面漲價”沖上熱搜

南方都市報 2026-02-27 14:31:12
20512 跟貼 20512

極氪公布春節十大獵裝旅行路線，揭秘深度自駕游版圖

魯中晨報 2026-02-26 12:29:41
15583 跟貼 15583

切斷霍爾木茲海峽后會發生什么？專家：布倫特原油可能率先突破80美元

財聯社 2026-03-01 11:29:10
7350 跟貼 7350
年前100多元一斤，年后價格腰斬！有湖北人已迫不及待下單

環球網資訊 2026-02-27 09:52:19
526 跟貼 526

“反詐老陳”賬號被封，本人回應：問心無愧！MCN機構：即刻解除所有合約，雙方合作立即終止

都市快報橙柿互動 2026-03-01 07:15:47
1177 跟貼 1177

明天開學會下雨嗎？上海下周開啟新一輪入春沖刺

縱相新聞 2026-03-01 18:41:13
16 跟貼 16
月月315｜男子花52.5萬全款購買婚房，5年多未等來房產證，湖南岳陽縣住建局：房款未進入開發商賬戶，正全力推動解決

大風新聞 2026-03-01 14:34:03
74 跟貼 74

湖南將派出14個副廳級領導擔任組長的督導組，赴市州督導

湖南日報 2026-03-01 14:28:00
9 跟貼 9
男子爬到何仙姑雕像頭頂拍照，山東蓬萊閣景區回應：“八仙過海”石雕屬于公共區域無人值守，后續會加強巡邏

三湘都市報 2026-02-28 13:37:39
1196 跟貼 1196
重慶奉節通報“地下暗河疑被養豬場污染”：已成立專班

澎湃新聞 2026-03-01 16:46:27
3 跟貼 3
中東航班深夜返航有旅客中途暴哭：安全最重要

看看新聞Knews 2026-03-01 10:35:03
128 跟貼 128
銘記場面 |武磊時隔288天回歸賽場海港不敵國安無緣超級杯冠軍

上觀新聞 2026-03-01 23:57:39
1 跟貼 1
全國政協會議議程來了

央視新聞客戶端 2026-03-01 09:49:59
49 跟貼 49
剛剛 | 退錢了！有人退了3萬多！

天津廣播 2026-03-01 08:20:12
686 跟貼 686
外媒：比利時與法國合作扣押一艘據稱屬于俄“影子艦隊”油輪

環球網資訊 2026-03-01 19:01:39
7 跟貼 7
“太恐怖，iPhone半夜自己給陌生人打47分鐘電話！”

都市快報橙柿互動 2026-02-25 11:28:41
54 跟貼 54
私家車路口自燃鹽城公交司機聯手緊急撲救

射陽市民 2026-03-02 00:29:06
0 跟貼 0
再現逆轉！中國男籃擊敗中國臺北男籃，世預賽賽場斬獲連勝

澎湃新聞 2026-03-01 17:52:27
0 跟貼 0
2萬余名旅客滯留阿聯酋政府將承擔因此產生費用

看看新聞Knews 2026-03-01 18:15:18
0 跟貼 0

機器人前瞻

專注于機器人報道的媒體

375文章數 8關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

藝術

數碼

本地

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

小米首代機器人VLA模型開源，雷軍把門檻打下來了，消費級顯卡可跑SOTA

榮耀發布機器人手機、折疊屏、人形機器人

媒體：美以能精準"斬首"背后 摩薩德的"手筆"令人咋舌

媒體：美以能精準"斬首"背后 摩薩德的"手筆"令人咋舌

火箭輸給熱火：烏度卡又輸斯波教練

黃景瑜 李雪健坐鎮！38集犯罪大劇來襲

中東局勢升級 如何影響A股、黃金和原油

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態度原創

以《生化危機》命名？Capcom解答對RE引擎的誤讀

看！這位伊朗超模如何顛覆你的美麗認知！

榮耀Magic V6海外發布：厚度僅8.75mm三年內第四次打破紀錄

津南好·四時總相宜

媒體：美以能精準"斬首"背后摩薩德的"手筆"令人咋舌

媒體：美以能精準"斬首"背后摩薩德的"手筆"令人咋舌

黃景瑜李雪健坐鎮！38集犯罪大劇來襲

中東局勢升級如何影響A股、黃金和原油

理想汽車2月交付26421輛歷史累計交付超159萬輛