網易首頁 > 網易號 > 正文申請入駐

機器人的手終于跟上腦子了？騰訊系創企推出端到端VLA模型

2025-12-11 18:46:22　來源: 機器人前瞻

北京舉報

分享至

機器人前瞻（公眾號：robot_pro）
作者許麗思
編輯漠影

機器人前瞻12月11日報道，今天，星塵智能發布端到端全身VLA模型——Lumo-1，讓機器人心手合一，想清楚就干活，借助具身化VLM、跨本體聯合訓練、推理-動作真機訓練、以及強化學習校準對齊等方式，配合繩驅機器人S1的真機訓練，將大模型“心智”轉化為全身到手的絲滑操作。

Lumo-1展現出較強的操作智能與泛化能力，在多步驟長時序、精細靈巧操作、可泛化抓取放置等三大類核心操作任務中，超越了π0、π0.5等先進模型，尤其在未見過的物體、場景和指令等分布外情況（Out of Distribution，簡稱OOD），以及抽象、模糊、需擴展推理的指令中，優勢明顯。

▲通用抓取放置測試結果

▲長時序與靈巧操作任務對比結果

一、熱面包、整理文具、打包食物，讓機器人像人一樣推理、行動

人類執行復雜任務時不只是調用“動作庫”，而是實時進行多層次推理——理解抽象語義、拆解子任務、感知空間關系、規劃運動路徑。

從走路、跳舞到后空翻，動作模仿教會了機器人“怎么動”，而到端盤子、分揀水果、熱食物等復雜操作時，機器人不能只模仿，更要識別復雜環境，理解“為什么做”的任務意圖，再轉化為“動手這么做”的連貫操作。

Lumo-1就賦予了機器人像人一樣推理，從而像人一樣行動的能力。

比如，盡管沒見過這塊面包，Lumo-1可以讓機器人通過推理識別它，推理出加熱＝用微波爐，以及開門、拿起、放入、關門、旋鈕、等待、取出等……無需編程，長序列全靠推理完成。

機器人可以在混亂桌面中快速找齊文具，還能精細處理不同形狀、材質和尺寸的物品。

在執行把可樂放進藍盤的任務時，當可樂靠近機器人左臂時，推理用左臂抓取；當人為在左臂與可樂間增加障礙物（未訓練場景），實時推理出“左臂受阻→右臂繞行成本更低”，自主切換策略。

機器人在給玩偶配對時，能推理出不同玩偶（雪寶、米妮、三眼怪）與紙片上哪個角色（艾爾莎、米奇、巴斯光年）來自同一動畫。

打包食物時，機器人全程快速絲滑，面對奧利奧、油條等分布外物體也能執行。

在紙上機器人報個菜名，比如“腸仔意面”，它就能識別并挑選出對應食材。

二、三階訓練，VLM認知轉化為VLA智能

Lumo-1包括了三階段訓練架構：

階段1：具身化VLM（Embodied VLM）

在精選的視覺-語言數據上持續預訓練，讓模型具備空間理解、規劃、軌跡推斷等“具身語義”。Lumo-1在7個經典具身推理基準中大部分超過RoboBrain-7B、Robix-7B等專用模型。

▲精選數據集旨在不損傷預訓練VLM的通用多模態理解與推理能力前提下，強化核心具身推理能力

階段2：跨本體聯合訓練

融合跨機器人、多視角軌跡、VLM數據上聯合訓練，強化了指令跟隨、物體定位與空間推理能力，使模型開始理解“動作是什么，與指令和觀測是什么關系”。

▲Astribot S1機器人上收集的樣本任務

階段3：真機推理-動作訓練（S1軌跡）

利用繩驅機器人Astribot S1高度仿人的示教軌跡，進行帶推理過程的動作訓練，讓模型習得真實世界可執行的動作模式，比如：怎么用雙手協同處理物體、如何執行長序列操作、如何將推理一步步落實為軌跡等。

最后，加入強化學習推理-行動對齊（RL Alignment），校準對齊高級推理與低級動作之間的誤差，設計了視覺、動作與推理一致、動作執行、推理格式等多維度的獎勵信號，通過基于GRPO的學習方案鼓勵模型選擇更準確、連貫、符合物理規則的動作。

實驗表明，該方案使模型在任務成功率、動作合理性與泛化能力上顯著超越模仿專家示范的原始表現。

三、三大技術拆解：層層遞進的“推理-動作”引擎

1、動作空間建模：從”高頻噪聲”到”關鍵路徑”

在Lumo-1里，通過動作空間建模SAT（Spatial Action Tokenizer），機器人將動作軌跡轉化為可復用、組合的“動作單詞庫”，能像寫句子一樣組合動作，或者復用、解釋和預測動作。

技術上，SAT將連續動作軌跡壓縮成最短路徑點，并把旋轉/平移的增量動作聚類成緊湊token等，在保持動作空間意義時，減少數據收集引入的無關噪音，比FAST與分桶方法等更緊湊和穩定。

2、結構化推理：讓機器人擁有“常識與思考能力”

Lumo-1將推理拆解為兩個維度：文字推理與視覺推理。

模型進行多種形式的具身文本推理：

抽象概念推理整合視覺觀測和指令以推斷隱含語義（”低熱量”→排除可樂）；
子任務推理旨在推斷到達最終目標的最優中間步驟（微波爐加熱→開門→取物→放入→關門→旋鈕→取出）；
視覺觀測描述強調對顯著場景特征和可操作物體的準確識別和分析；
運動推理包括對夾爪空間關系的文字推斷，以及運動方向的闡述。

然后再進一步執行視覺推理，以實現基于感知的推斷和運動估計。

通過結構化推理（Structured Reasoning），機器人大腦不再死記軌跡，而是形成解釋動作的結構化推理鏈，從執行動作到「執行想法」，使「為什么這樣做」先于「怎么做」。

最終，它把視覺理解映射為路徑點預測，讓2D預測自然落到3D控制上，實現更有目的性、情境化的動作生成。

在S1真機部署中，讓機器人“把代表愛情的花放進花瓶”，S1能理解玫瑰代表的文化隱喻；當指令換成”把KFC里的東西放進藍色容器”，它能推理出炸雞、漢堡等關聯物品。在“把畫海洋的工具放進綠盤子”這種任務中，S1也能準確找到藍色的畫筆。

3、強化學習推理-行動對齊（RL Alignment）

Lumo-1在最后加入強化學習推理-行動對齊（RL Alignment），校準對齊高級推理與低級動作之間的誤差，在真實軌跡中反饋迭代，通過視覺、動作與推理一致、動作執行、推理格式等多維度GRPO風格獎勵信號，鼓勵模型選擇更準確、連貫、符合物理規則的動作。

四、AI模型能力提升，是機器人大規模落地的關鍵

星塵智能團隊采用數據受限擴展定律驗證訓練策略，結果顯示：在固定模型規模下，數據多樣性（場景、物體、指令的覆蓋面）對泛化能力的影響遠超數據重復次數。這說明了，除了堆數據量，也可以抓數據質量。

另外，Lumo-1在7個多模態基準測試中的6個優于backbone模型Qwen2.5-VL-7B，并超越專門的具身模型RoboBrain-7B和Robix-7B。更關鍵的是，融入動作學習后，模型的核心多模態感知和推理能力未受損——這證明“推理”與“動作”并非零和博弈。

目前，AI模型能力不足是導致了機器人沒能真正大規模落地的關鍵原因。而當機器人不再只靠預設腳本，而是能夠在開放環境中理解語義、拆解任務并自主執行時，具身智能也就加快從“能動”走向“會做事”的新階段。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

霍啟剛公開個人財產：多項房產為其與郭晶晶共同持有

大象新聞 2026-01-11 22:05:12
4945 跟貼 4945
官宣殲10CE零損擊落多架戰機

北京青年報 2026-01-12 12:38:35
625 跟貼 625

中國U23男足戰勝澳大利亞隊距亞洲杯出線一步之遙

極目新聞 2026-01-11 21:38:26
1603 跟貼 1603

馬斯克顛覆式提出能源終極方案

第一財經資訊 2026-01-11 19:07:23
1244 跟貼 1244
-6℃！上海冷到發紫！馬上氣溫大轉折，直沖19℃，羽絨服可以放假了？

上觀新聞 2026-01-12 09:44:12
17 跟貼 17

WTT多哈冠軍賽｜國乒新年首站無緣冠軍：女隊失利是偶然，男隊形勢很嚴峻

文匯報 2026-01-12 11:12:10
35 跟貼 35

攝影比賽第一名疑似AI圖片被取消成績主辦方：作品不符合原創性規則

封面新聞 2026-01-11 17:01:04
656 跟貼 656
馬斯克稱4年后機器人將完勝人類醫生學醫將毫無意義

第一財經 2026-01-11 15:59:52
2104 跟貼 2104

保定一畝泉斷流60年后復涌，水利局：降水量大和生態治理的效果

新京報 2026-01-11 23:14:14
1 跟貼 1
海底撈就餐送“黃金小馬”沖上熱搜

極目新聞 2026-01-11 15:27:52
474 跟貼 474
致3人死亡，東莞“3·29”較大道路交通事故調查報告公布

南方都市報 2026-01-12 13:50:08
2 跟貼 2
男子質疑改簽機票后“退改費用”接近原票價2倍，平臺回應：票價浮動后的差價也包含在內

極目新聞 2026-01-11 14:55:30
733 跟貼 733
茶葉保質期標注“100年”？知名品牌回應

環球網資訊 2026-01-10 09:52:17
705 跟貼 705
上海“七連9”靚號78萬元起拍，僅1人報名、無人出價流拍

現代快報 2026-01-11 19:16:17
866 跟貼 866
那些用開塞露涂臉的人，后來都怎么樣了？

科普中國 2026-01-12 11:21:30
11 跟貼 11
歐爾班：向烏撥款8000億歐元？“我們拒絕！”

參考消息 2026-01-12 10:09:04
164 跟貼 164
為什么豪華酒店早餐多有班尼迪克蛋？

中國新聞周刊 2026-01-11 22:25:04
96 跟貼 96
大連8米高夢露雕像悄然被撤，商場人員：我也是今天上班才知道，集團有新的規劃

極目新聞 2026-01-12 13:00:56
2 跟貼 2
布倫森26+6+8阿夫迪亞25+5 尼克斯終結開拓者5連勝

北青網-北京青年報 2026-01-12 09:51:15
16 跟貼 16
國內金飾價格跟隨國際金價走高最高報1429元/克

財聯社 2026-01-12 11:36:05
38 跟貼 38
招錄8027人！湖北省考報名即將開始，年齡放寬至38歲

極目新聞 2026-01-12 12:07:55
0 跟貼 0
南京路步行街一家店：面包半敞開，還算衛生嗎？

上觀新聞 2026-01-12 13:57:06
0 跟貼 0
開盤20分鐘兩市成交額突破1萬億預計全天成交超3.8萬億

財聯社 2026-01-12 09:52:29
0 跟貼 0
學校門口廢棄公廁“霸位”超五年

上觀新聞 2026-01-12 13:57:04
0 跟貼 0

機器人前瞻

專注于機器人報道的媒體

300文章數 7關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

旅游

家居

數碼

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
你的工作機密，保護好了嗎？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

機器人的手終于跟上腦子了？騰訊系創企推出端到端VLA模型

小米二手車價大跳水：SU7半年跌5萬元

臺媒：大陸在朱日和基地復制"總統府" 不可掉以輕心

臺媒：大陸在朱日和基地復制"總統府" 不可掉以輕心

聰明的球員，不是教練教出來的

閆學晶：脫離群眾太久 忘了自己的根

揭秘“穩賺不賠”的代工項目騙局

增配不加價 北京現代 第五代 勝達2026款上市

態度原創

消息稱泡泡瑪特本月推“潮玩手機”，或與“年輕化主流品牌”合作

包絡石木為生 野性舒適

2025年星閃終端產品出貨量突破1億臺 商用產品超600款

閆學晶：脫離群眾太久忘了自己的根

增配不加價北京現代第五代勝達2026款上市

包絡石木為生野性舒適

2025年星閃終端產品出貨量突破1億臺商用產品超600款