![]()
機器人前瞻(公眾號:robot_pro)
作者 許麗思
編輯 漠影
機器人前瞻12月11日報道,今天,星塵智能發布端到端全身VLA模型——Lumo-1,讓機器人心手合一,想清楚就干活,借助具身化VLM、跨本體聯合訓練、推理-動作真機訓練、以及強化學習校準對齊等方式,配合繩驅機器人S1的真機訓練,將大模型“心智”轉化為全身到手的絲滑操作。
Lumo-1展現出較強的操作智能與泛化能力,在多步驟長時序、精細靈巧操作、可泛化抓取放置等三大類核心操作任務中,超越了π0、π0.5等先進模型,尤其在未見過的物體、場景和指令等分布外情況(Out of Distribution,簡稱OOD),以及抽象、模糊、需擴展推理的指令中,優勢明顯。
![]()
▲通用抓取放置測試結果
![]()
▲長時序與靈巧操作任務對比結果
一、熱面包、整理文具、打包食物,讓機器人像人一樣推理、行動
人類執行復雜任務時不只是調用“動作庫”,而是實時進行多層次推理——理解抽象語義、拆解子任務、感知空間關系、規劃運動路徑。
從走路、跳舞到后空翻,動作模仿教會了機器人“怎么動”,而到端盤子、分揀水果、熱食物等復雜操作時,機器人不能只模仿,更要識別復雜環境,理解“為什么做”的任務意圖,再轉化為“動手這么做”的連貫操作。
Lumo-1就賦予了機器人像人一樣推理,從而像人一樣行動的能力。
比如,盡管沒見過這塊面包,Lumo-1可以讓機器人通過推理識別它,推理出加熱=用微波爐,以及開門、拿起、放入、關門、旋鈕、等待、取出等……無需編程,長序列全靠推理完成。

機器人可以在混亂桌面中快速找齊文具,還能精細處理不同形狀、材質和尺寸的物品。
在執行把可樂放進藍盤的任務時,當可樂靠近機器人左臂時,推理用左臂抓取;當人為在左臂與可樂間增加障礙物(未訓練場景),實時推理出“左臂受阻→右臂繞行成本更低”,自主切換策略。

機器人在給玩偶配對時,能推理出不同玩偶(雪寶、米妮、三眼怪)與紙片上哪個角色(艾爾莎、米奇、巴斯光年)來自同一動畫。
打包食物時,機器人全程快速絲滑,面對奧利奧、油條等分布外物體也能執行。

在紙上機器人報個菜名,比如“腸仔意面”,它就能識別并挑選出對應食材。

二、三階訓練,VLM認知轉化為VLA智能
Lumo-1包括了三階段訓練架構:
階段1:具身化VLM(Embodied VLM)
在精選的視覺-語言數據上持續預訓練,讓模型具備空間理解、規劃、軌跡推斷等“具身語義”。Lumo-1在7個經典具身推理基準中大部分超過RoboBrain-7B、Robix-7B等專用模型。
![]()
▲精選數據集旨在不損傷預訓練VLM的通用多模態理解與推理能力前提下,強化核心具身推理能力
階段2:跨本體聯合訓練
融合跨機器人、多視角軌跡、VLM數據上聯合訓練,強化了指令跟隨、物體定位與空間推理能力,使模型開始理解“動作是什么,與指令和觀測是什么關系”。
![]()
▲Astribot S1機器人上收集的樣本任務
階段3:真機推理-動作訓練(S1軌跡)
利用繩驅機器人Astribot S1高度仿人的示教軌跡,進行帶推理過程的動作訓練,讓模型習得真實世界可執行的動作模式,比如:怎么用雙手協同處理物體、如何執行長序列操作、如何將推理一步步落實為軌跡等。
最后,加入強化學習推理-行動對齊(RL Alignment),校準對齊高級推理與低級動作之間的誤差,設計了視覺、動作與推理一致、動作執行、推理格式等多維度的獎勵信號,通過基于GRPO的學習方案鼓勵模型選擇更準確、連貫、符合物理規則的動作。
實驗表明,該方案使模型在任務成功率、動作合理性與泛化能力上顯著超越模仿專家示范的原始表現。
三、三大技術拆解:層層遞進的“推理-動作”引擎
1、動作空間建模:從”高頻噪聲”到”關鍵路徑”
在Lumo-1里,通過動作空間建模SAT(Spatial Action Tokenizer),機器人將動作軌跡轉化為可復用、組合的“動作單詞庫”,能像寫句子一樣組合動作,或者復用、解釋和預測動作。
技術上,SAT將連續動作軌跡壓縮成最短路徑點,并把旋轉/平移的增量動作聚類成緊湊token等,在保持動作空間意義時,減少數據收集引入的無關噪音,比FAST與分桶方法等更緊湊和穩定。![]()
2、結構化推理:讓機器人擁有“常識與思考能力”
Lumo-1將推理拆解為兩個維度:文字推理與視覺推理。
模型進行多種形式的具身文本推理:
- 抽象概念推理整合視覺觀測和指令以推斷隱含語義(”低熱量”→排除可樂);
- 子任務推理旨在推斷到達最終目標的最優中間步驟(微波爐加熱→開門→取物→放入→關門→旋鈕→取出);
- 視覺觀測描述強調對顯著場景特征和可操作物體的準確識別和分析;
- 運動推理包括對夾爪空間關系的文字推斷,以及運動方向的闡述。
然后再進一步執行視覺推理,以實現基于感知的推斷和運動估計。
通過結構化推理(Structured Reasoning),機器人大腦不再死記軌跡,而是形成解釋動作的結構化推理鏈,從執行動作到「執行想法」,使「為什么這樣做」先于「怎么做」。
最終,它把視覺理解映射為路徑點預測,讓2D預測自然落到3D控制上,實現更有目的性、情境化的動作生成。
在S1真機部署中,讓機器人“把代表愛情的花放進花瓶”,S1能理解玫瑰代表的文化隱喻;當指令換成”把KFC里的東西放進藍色容器”,它能推理出炸雞、漢堡等關聯物品。在“把畫海洋的工具放進綠盤子”這種任務中,S1也能準確找到藍色的畫筆。
3、強化學習推理-行動對齊(RL Alignment)
Lumo-1在最后加入強化學習推理-行動對齊(RL Alignment),校準對齊高級推理與低級動作之間的誤差,在真實軌跡中反饋迭代,通過視覺、動作與推理一致、動作執行、推理格式等多維度GRPO風格獎勵信號,鼓勵模型選擇更準確、連貫、符合物理規則的動作。
四、AI模型能力提升,是機器人大規模落地的關鍵
星塵智能團隊采用數據受限擴展定律驗證訓練策略,結果顯示:在固定模型規模下,數據多樣性(場景、物體、指令的覆蓋面)對泛化能力的影響遠超數據重復次數。這說明了,除了堆數據量,也可以抓數據質量。
另外,Lumo-1在7個多模態基準測試中的6個優于backbone模型Qwen2.5-VL-7B,并超越專門的具身模型RoboBrain-7B和Robix-7B。更關鍵的是,融入動作學習后,模型的核心多模態感知和推理能力未受損——這證明“推理”與“動作”并非零和博弈。
目前,AI模型能力不足是導致了機器人沒能真正大規模落地的關鍵原因。而當機器人不再只靠預設腳本,而是能夠在開放環境中理解語義、拆解任務并自主執行時,具身智能也就加快從“能動”走向“會做事”的新階段。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.