![]()
![]()
北京人形正式開源XR-1具身大模型、RoboMIND 2.0數據集及ArtVIP虛擬資產庫。
作者 |江宇
編輯 |漠影
機器人前瞻12月19日報道,今年4月,北京人形機器人創新中心(以下簡稱“北京人形”)的“具身天工Ultra”機器人憑借自主完賽,拿下了全球首個人形機器人半程馬拉松冠軍,成為“最能跑”的人形機器人。而在不久后的8月,具身天工Ultra和天軼2.0再次憑借全自主的方式斬獲2金6銀2銅,證明了機器人不僅能跑,還能“干活”。
可以看出,北京人形真正聚焦的目標,一直在于讓機器人在現實場景里做到“能干活、會干活”。
在北京人形機器人創新中心,具身天工機器人已經以全自主、無遙操的方式上崗執行導覽任務,并依靠北京人形打造的“慧思開物”平臺實現了導覽過程中的多機協同和全局調度,整個過程無需人工干預。
![]()
如今,圍繞讓機器人“能干活、會干活”這一目標,更底層的模型與數據訓練能力也正式對外開源。12月18日,北京人形宣布XR-1具身VLA模型,以及配套的數據基礎RoboMIND 2.0、ArtVIP最新版正式開源,XR-1 模型是目前首個且唯一一個通過具身智能國標多維度測試的VLA模型。
開源XR-1的背后,北京人形正在努力解答一個核心問題:為什么機器人看得懂卻做不好?
為此,機器人前瞻采訪了XR-1跨本體VLA模型研發負責人伍堃,從模型設計、訓練體系到真實落地三個層面,復原XR-1走出實驗室、走向實干的路徑。
01.
從“看得見”到“做得對”
XR-1補上機器人最難的一課
當AI能寫詩、能生成視頻,機器人卻連“拿穩一杯水”都難?核心問題在于視覺感知與動作執行的割裂。
很多傳統機器人更像“死記硬背的學徒”,很難將高維度的圖像輸入映射到低緯度的機器人控制信號,只要物體位置變了、角度變了、環境多了干擾,就容易抓不穩、捏碎、甚至直接失敗。
為修復這道斷層,北京人形團隊獨創并研發了Unified Vision-Motion Codes(UVMC)多模態視動統一表征。
它可以被理解成機器人的“拼音系統”:先把視覺信息與動作經驗壓縮成可復用的“動作代碼”,通過模型,從看到的畫面中獲得一個初步的動作趨勢信號,類似于條件反射,再進一步生成更加精確的底層機器人控制信號,使得機器人做到知行合一。
這樣即便遇到沒見過的場景,機器人也能夠以更接近“條件反射”地給出合理動作。比如當機器人看到杯子傾倒,它會自動生成對應的“動作代碼”,再進一步預測關節角度與3D坐標,完成扶正動作。
UVMC之外,XR-1的“實干能力”由三項特性順勢撐起來。
第一是跨數據源學習:面對真機數據采集成本高、量級有限的問題,XR-1不僅學習機器人數據,還能讀懂互聯網上海量的人類第一視角視頻,讓學習素材呈指數級增長。
第二是跨模態對齊:借助“拼音系統”(UVMC)將視覺信息與動作關節配對,讓模型建立“畫面—動作”的對應關系,把“知”更穩定地轉成“行”。
第三是跨本體控制:通過可變維度輸入與去本體化抽象表征提升遷移能力,使同一個“大腦”能適配不同構型機器人。
目前,XR-1已在至少6種完全不同的機器人上完成測試并實現適配。

▲行業內首個連續開關通行5扇門
此外,為了把這套能力練成可遷移的“基本功”,XR-1還采用三段式訓練范式。
先做視動統一表征訓練,融合機器人數據與互聯網視頻,形成可調用的“動作字典”,再進行跨本體數據強化訓練,強化對通用物理規律與動作模式的掌握。最后,針對具體場景做少量微調,把通用能力運用到真實的任務場景中。
性能對比上,XR-1相較國際先進VLA模型在多類復雜任務中成功率領先,部分高難度任務可達到其他頭部模型兩倍水平。
![]()
這套從感知到動作的模型路徑,使機器人在面對環境變化時不再頻繁“失手”,而是能夠維持任務連續性,為真實場景中的長期運行創造條件。
02.
實戰加上仿真
把機器人“訓練營”搭起來
讓機器人“干好活”不只靠模型,更離不開大量高質量、可控的數據。在這套開源組合里,XR-1負責“學會怎么做”,RoboMIND 2.0是XR-1的重要數據來源,提供海量真實機器人操作數據與仿真模擬數據。ArtVIP則是北京人形開源的仿真資產庫,為RoboMIND補齊高質量仿真數據與可交互環境,把“虛擬特訓”和“真實實戰”接到一起。
具體到RoboMIND 2.0本身,相比1.0版本,它在數據規模和類型上都做了擴展。
多本體雙臂操作軌跡從10+萬條升級到30+萬條,覆蓋具身天工等6種機器人本體,多場景多任務從5大場景、479個任務、38種技能,擴展到10+場景、739項任務、129種技能。

▲RoboMIND數據集包含的部分任務樣例
最關鍵的是,RoboMIND2.0新增了1.2萬條帶觸覺的真機操作數據,這部分觸覺數據的引入可讓模型成功率平均提升約30%。
而ArtVIP也并非“泛泛的仿真素材包”,而是面向復雜鉸接物體的高精度虛擬資產庫,覆蓋26類共206種高精度可動物件(如櫥柜、烤箱、折疊椅、抽屜、電風扇、剪刀等),在還原視覺外觀的同時,以高保真方式復現物理特性。

北京人形也一并開源了6個支持全場景交互的虛擬機器人訓練場(包含中式客廳、廚房、臥室、起居室等常見環境),讓模型能在遵循物理法則的“數字孿生演練場”里反復練習復雜物體的靈巧操作,從而顯著降低真機采集與試錯成本。

RoboMIND 2.0和ArtVIP在一定程度上緩解了具身智能在訓練中高質量數據稀缺的問題:一邊用真實軌跡提供動作邊界與細節,一邊用高保真虛擬資產擴展覆蓋面,讓XR-1的訓練不再被“少量昂貴樣本”鎖死,而是更接近可規模化、可組合的數據供給。
03.
從實驗室走向應用現場
XR-1的“實干表現”開始顯露
技術的價值終要靠應用檢驗,XR-1及其配套體系已在多個真實場景中完成“實干”試煉。
在北京昌平的福田康明斯工廠,具身天工機器人和天軼機器人被應用到物料搬運線上。輪式底盤的天軼機器人滑行到物料箱前后,機械臂能夠穩定扣住箱體兩側,再把箱子放入指定層架,整套動作連貫順暢。
![]()
▲天軼機器人正在搬運物料箱
雙足底盤的具身天工則更考驗穩定性,把箱子往高處放置時重心會變化,機器人也同時兼顧下肢電機扭矩與機械臂關節的靈活控制。
![]()
▲具身天工機器人正在搬運物料箱
面向更高風險、精細化要求更強的場景,北京人形也把具身能力推進到電力巡檢與檢修環節,通過與中國電科院的合作,北京人形以機器人代替人類進行高危電力巡檢工作。
在李寧運動科學實驗室,具身天工機器人也能穿上李寧跑鞋與運動服飾完成奔跑,進行長時間高強度的運動裝備測試,并實時反饋裝備數據信息。
![]()
▲具身天工機器人穿上跑鞋與運動服飾正在進行奔跑測試
開源后,這些經過實戰驗證的技術方案將對外開放,助力企業、科研機構、高校快速適配國標要求,避免重復造輪子,加速全行業機器人實用化進程。
從這些落地的應用案例可以看到,XR-1所具備的可遷移、可復用的能力,已經為機器人行業的規模化部署提供了可行性樣本演示。
04.
結語:開源給行業搭橋
讓機器人能干活、更好用
當具身智能進入更復雜、更多樣的真實場景,機器人能否在真實環境中把活持續干下來,并在可接受的成本下反復復用,成為新的衡量維度。
開源方案降低了起點門檻,也縮短了試錯路徑。對于正處在走向規模化前夜的具身智能行業而言,北京人形這類圍繞具身智能全棧技術的開源方式,能讓更多人更快把機器人用起來,也讓“能干活、會干活”的機器人更快來到所有人身邊。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.