數據這個難題,一直在和具身從業者“相愛相殺”。
一方面,所有人都認為高價值數據是決定機器人智能的關鍵,但另一方面,各種數據采集路徑依舊沒有統一。
不管是學習人類視頻、在仿真環境中生成無限合成數據,還是使用觸覺手套、高精度機械臂、靈巧手等設備遙操,具身數據始終難以突破采集成本高、效率低、難規模化、不同本體互通難、泛化能力不足等問題。
甚至,國內具身領域還出現了“數據四小龍”的名號。
在這個分類中,智元機器人被看作遙控真機數據派,銀河通用走仿真數據路線,它石智航則是人類視頻數據的代表,而大力落地UMI(無本體模仿學習)的公司,鹿明機器人是有些代表性的一家。
鹿明機器人成立于2024年9月,創始人喻超是前追覓人形機器人業務負責人,擁有近10年具身機器人研發經驗。曾帶隊完成了小米Cyberdog的研發量產項目。
過去一年,這家公司推出過多款機器人整機產品,還自主研發FastUMI Pro數據采集系統。這個系統是鹿明針對UMI落地的產品,也是它現在的業務重點。
![]()
*鹿明的整機和數據采集系統
UMI是一種比較新興的數據采集模式。
根據一些定義,它的核心目標是通過一套統一的數據表達與采集方式,覆蓋不同形態、不同自由度的操作系統。這種模式首先將人類示教、視覺感知和操作軌跡映射到一個獨立于具體機器人形態的中間空間,并利用硬件設備記錄完整的運動軌跡和空間數據,再經過模仿學習算法的加工,把人類在現實世界中的自然操作轉化為機器人可學習的數據。
相比其他數據采集方式,UMI的主要特點是成本低、采集效率高,可以跨本體,能夠讓同一份操作數據在不同硬件平臺上被理解和學習。
2025年下半年,海外的兩個明星產品,Generalist的新模型Gen 0,以及Sunday Robotics,都采用了UMI。
*利用鹿明FastUMI Pro采集數據,復現復雜任務
鹿明機器人也設計了UMI 數據采集系統——FastUMI Pro。目前,這家公司已經與三菱電機、中遠海運、德馬科技等產業巨頭達成戰略合作,圍繞工業場景展開探索。
在最近的一場分享中,喻超稱,2026年,鹿明將達成超100萬小時的具身真機數據產能,目標建設全球規模最大的高質量真機數據集。
鹿明機器人的聯席CTO丁琰,此前在上海AI Lab擔任研究員,在一星機器人擔任過CTO,是國內最早推動UMI落地的從業者之一。
他觀察到,現在UMI正處于快速落地的階段,但同時也有很多不為人知的問題:
首先,市場快速涌現出多種UMI數采設備,但訓出來的UMI模型卻很少。
這是因為大量的UMI數據從生成之初就不具備進入訓練管線的條件,也就是數據質量不合格。
很多人認為只要拿著夾爪、錄制一段視頻,就能生成UMI訓練數據。但事實遠非如此。真正的UMI 數據,本質上是 AI 對物理世界的“對齊”與“復現”。
可以訓練的UMI數據必須滿足幾個條件。第一是每一幀視覺和空間位姿都要嚴格對齊。另外,UMI可以集成多個傳感器,每個傳感器之間也要做到毫秒級的同步。比如,一個人想去拿眼前的一瓶水,不對齊的話得反應好幾秒,水就可能拿不起來。
而且,一個好的軌跡必須可以在物理空間運動中可復現。本質要求是希望UMI采集的數據是高一致性的、高密度的,并且有可復現的時序數據結構。
![]()
而且,現在很多數據是低質量的“臟數據”以及讓模型學習異常困難的“廢數據”。
“臟數據”中包含大量抖動、漂移、時間錯位,雖然有感知價值,但難以支撐動作策略學習。在單視角UMl + imitation learning場景中,這些“噪聲”不會被海量數據抵消,反而會被模型持續放大。
“廢數據”,完全復制人在自然狀態下隨性的動作,沒有注入采集技巧,無法用于模型訓練。舉個疊衣服的例子,人類自然的疊衣服動作對于機器人來說往往是無效的,因為機器人需要特定的“技巧性動作”(比如特定的抖動、鋪平軌跡)才能理解物理特性。
沒有經過設計的、缺乏“信息密度”的自然行為數據,機器人看了也學不會,數據不僅要“真”,還要“有教學意義”。
現在很多UMI設備采不出滿足條件的數據,有兩個根本原因。
第一個核心問題是核心硬件模組能力不夠。如果UMI的CMOS組件或者主控芯片,性能非常差,就會導致畫面覆蓋有限,畫質不好,曝光也不好,幀率比較抖動,破壞了動作和視覺的因果關系。模仿學習是機器看到什么畫面就做什么動作,但畫面和動作完全無法對齊,導致這個模型沒辦法學習。
第二,市面上很多產品不是系統設計的,而是很多現成模塊拼湊起來,用USB Hub連接的。這使得產品的帶寬架構非常脆弱,每個模塊都會搶帶寬。一旦有什么負載,就會出現掉幀等一系列問題,所以數據的質量就非常糟糕,不能穩定復現交互記錄。
![]()
丁琰介紹,正是希望UMI“正確”落地,鹿明在硬件產品、數據采集及模型訓練生態等維度都做了布局。
首先是公司自主研發的FastUMI Pro(無本體模仿學習)數據采集系統,將單條數據采集時間從50秒縮短至10秒,效率提升5倍,同時將綜合成本降至傳統方法的五分之一。
并且,FastUMI Pro還集成了為UMI場景定制的高性能傳感器,能實現60Hz高頻記錄,讓多模態信息的毫秒級同步,使數據有效率從行業普遍的70%提升至95%以上。
據稱,現在全球具身智能圈里超過三分之二的團隊,正在使用FastUMI Pro。
![]()
*鹿明FastUMI Pro
在這次交流中,鹿明的創始團隊還向現場媒體分享了更多對具身數據和UMI的看法。
以下是交流節選:
Q:目前具身智能的數據獲取主要受限于高昂的成本與極低的效率。行業內正圍繞遙控真機采集、仿真模擬、互聯網視頻學習三種方案展開探索。怎么看待這三個方案?
鹿明:我習慣從控制論和信息熵的角度來看待這個問題:
仿真數據不產生新的信息增量。仿真出的環境,跳不出構建系統時設定的規則。它能讓動作更絲滑,但給不了機器人面對物理世界時的“信息錨點”。
網絡視頻訓練的是機器人的“大腦”,讓它看懂世界,但這離真正的“上手干活”還差一層。
真機數據是解決物理交互的唯一路徑。有多少真實的交互數據,機器人就有多少處理復雜物理問題的能力。
視頻數據負責理解環境,真實數據負責物理交互,仿真增加信息的豐富度。
Q:你覺得未來UMI和遙操作分別占多大比例?
鹿明:我們覺得UMI可能是數據采集的終極解決方案。從第一性原理來看,人手直接操作是真實物理世界中效率最高的數據采集方式。如果將人手的采集效率定義為 00%,那么UMI這種“人手持夾爪”的采集效率已經達到了90%,已經逼近數據采集的效率極限。
從2024年Pi0模型的1萬小時真機數據,到2025年Gen-0模型使用的27萬小時UMI數據,2026年的頭部算法公司的訓練數據規模必然會突破百萬小時。隨著需求的快速增長,具身智能數據領域的市場需求必然爆發。
在2023年至2024年間,遙操作占據了絕大部分的市場份額,但進入2025年和 2026年后,UMI的市場份額會迎來爆發式增長。
Q:目前業內主流的數采工廠大多是為輪式人形機器人設計的,場景往往局限于一張桌子、幾個積木或水杯,空間相對固定。相比之下,UMI似乎天然具備擺脫空間約束的優勢。那么,一個理想的UMI數采工廠應該如何設計?它的環境空間又該如何高效復刻?
鹿明:這是一個非常深刻的問題,涉及行業內的一個普遍誤區。
首先,關于UMI“不需要空間限制”或“可以隨意眾包”的觀點其實并不準確。事實上,高質量的UMI數據采集依然需要嚴密的物理空間設計,甚至有著極其嚴苛的規則限制。如果任由數采員無限制、無規則地自由發揮,產生的數據一致性將極差,最終導致模型無法收斂。這些關于空間設計的約束和技巧,是數據的核心商業機密之一。
關于 UMI 素材工廠的形態,我們認為應根據任務場景進行差異化設計:
第一是桌面任務:雖然形式上也是桌子和物品,但我們會在工作站部署特殊的采集裝置。在這種半開放環境下,通過特定的設備配置,確保在看似自由的操作中捕捉到高一致性的數據特征。
還有移動操作任務:這是UMI真正的優勢賽道。針對這類需要空間流轉的任務,我們提供了一套完整的解決方案:通過集成頭部相機、特殊傳感器以及雙手夾爪的硬件組合,記錄人在空間中移動、交互的全過程。
但必須強調的是,即使在移動操作中,數采員也并非“隨意亂走”。我們會制定一套復雜的空間引導規則,通過軟硬件結合的方式,確保采集過程既具備現實世界的豐富度,又符合模型訓練所需的邏輯一致性。目前,鹿明已經擁有三個成熟的數采工場,將通過這種“有規則的自由”,持續輸出百萬小時級的高質量具身數據。
Q:具身公司采用了UMI訓練后,模型能力有沒有顯著提升?有Benchmark嗎?
鹿明:通過UMI能讓模型的上限提升,目前算是行業內的共識。
至于Benchmark,在模型泛化能力的考驗上,很多行業里的公司傾向于用某個單一任務的成功率來看具身智能模型是否實現泛化。
舉個例子,比如說你要去評驗一個任務,它可能會出現很多“極端/邊緣場景”(corner case)。為了這些場景,唯一的途徑可能就是堆數據,堆的越多模型見過的場景越多,成功率才會提升。
比如在Generalist疊紙盒子這個案例上,隨著數據越來越多,成功率是明顯提升的。
Q:怎么看數據、模型以及跨本體泛化的關系?
鹿明:這里的邏輯比想象中更加復雜,其實可以定位為數據、模型與硬件本體三個核心維度。
首先,數采硬件作為直接決定性因素,性能高低決定了數據的質量,進而數據質量決定了模型的智能上限。劣質數據絕無可能訓練出優秀的模型。鹿明首創了“為模型成功率負責”的系統工程范式,從硬件設計源頭保障數據質量。在UMI設備最核心的空間精度上,FastUMI Pro達到了1mm,是全球最高精度。
模型訓練完成后需要部署在硬件本體上,若本體執行能力不足,模型的效果也無法得到極致發揮,它們之間是相互影響的關系。我們即將發布一款最適配UMI數據的輕量型機械臂,希望通過算法與硬件的深度耦合,將性能的表現提升到極致。
針對跨本體的物理泛化問題,其實我只要在不同的機械臂上放一模一樣的相機,末端執行器也保持相同,數據就可以互用了。
Q:整體看下來,你覺得數據采集過程中最難的是什么?
鹿明:人,人,還是人。 流程設計得再完美,最后執行的還是人。
數據需要高度的一致性,但“千人千面”很難統一,比如抓門把手關門,十個人有十種關法。如果這種不規范的數據喂進去,模型就徹底亂了。
為了解決這個問題,我們走過不少彎路。最初我們用了一個笨辦法:每采一段數據就丟進小模型里訓一下,能訓通就說明數據好。但成本太恐怖了,算力貴如金。
后來我們做了一套全自動的評估體系。這套體系的核心就是解決“前處理”和“后處理”的矛盾。以前大家都是采完一堆拿回去慢慢挑,但經驗告訴我:數據必須瞬時評估。
通過軟件的自適應培訓方式,熟練采集工14天可以將數據有效率提升到95%以上
如果你不在采的那一刻告訴他“這條不行,重來”,那最后收回來的全是廢數據。所以我們堅持要做及時評估系統,通過軟硬件結合,在采集發生的瞬間就卡死質量關。這不是拍腦袋決定的,而是從無數“廢數據”堆里總結出來的實戰經驗。
因此以“可復現”作為第一性原理做數據治理,我帶著團隊建立了8道工業級數據質量評估體系,只交付100%可復現軌跡。不同類型的客戶會給我們提出不同的標準,在給客戶交付數據的時候,我們數據質量都能夠符合、甚至遠高于客戶的標準。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.