![]()
圖片來源:網絡
在具身智能的激進演進中,行業正迅速撞上一面無形的墻:數據荒。
如果說 2025年是具身智能的“硬件元年”,那么2026年則是徹底的“數據決戰”。從OpenAI支持的模型演進路徑看,數據需求正呈指數級爆發。從 Pi0 的 1 萬小時訓練,到 Gen-0 的 27 萬小時。業內普遍預判,2026年頭部具身大模型所需的真機訓練數據將達到百萬小時級別。
然而,現實是數據獲取低效且昂貴 。傳統的遙操作方式不僅每小時成本高達數百美金,且充斥著大量無法復現、傳感器不同步的“廢數據” 。在 Scaling Law 的物理戰場上,誰能率先規模化地開采出高純度的“物理石油”,誰就擁有了定義下一代通用機器人標準的話語權 。
鹿明機器人(LUMOS)占據了一個獨特的生態位,不做單純的整機商,要做具身智能時代的“超級數據工廠” 。這家成立僅一年的公司,不僅要做“賣水人”,還要“定義水的標準”。
這份自信源于團隊的硬核背景。創始人喻超畢業于清華大學,自2016年起從事機器人學習算法領域研究,曾主導構建追覓科技具身機器人業務,并參與開發了小米CyberDog等多款消費級機器人產品。CTO曹俊亮是上海交通大學機械工程博士,曾深度參與過多款性能優異的具身機器人產品的研發工作。聯席CTO丁琰為紐約州立大學人工智能博士、前上海AI lab明星研究員,是一支擁有深厚產業經驗和技術積累的團隊。
2025年12月,鹿明機器人宣布完成Pre-A1、Pre-A2兩輪融資,金額數億元,投資方包括鼎暉投資,南京創投、金景資本、金固股份、申能誠毅等知名投資機構。
“量產老兵”基因,讓喻超對“不能落地的實驗室技術”有著天然警惕 。喻超提出了一個 “鹿明指數”:場景價值 / (數據成本 × 硬件成本),試圖用工業邏輯拆解 AI 的高昂成本 。
鹿明研發的 FastUMI Pro 系統,將單條數據采集從 50 秒縮短至 10 秒,效率提升 5 倍,綜合成本砍掉 80% 。通過獨創的 8 道工業級數據質量評估體系,鹿明將數據有效率從行業普遍的 70% 提升至 95% 以上。其野心在于“去耦合”,讓一套數據適配數十種機械臂,打破數據孤島,讓機器人說同一種“語言” 。
這是一個從“工具”到“平臺”,再到“生態”的精密布局。
對于2026年,鹿明設定了一個驚人的目標:建立100萬小時的UMI數據產能。在AI領域,數據量的量級躍升往往意味著智能的涌現。如果說GPT-3的出現是因為互聯網文本數據達到了某個臨界點,那么鹿明正在賭的,就是具身智能的“ChatGPT時刻”將在這100萬小時的數據堆疊中誕生。
以下為創投家與喻超、丁琰的完整對話,略有刪減
創投家:為什么在這個節點選擇創業?
喻超:我的技術信仰始于 2016 年看到的 Pieter Abbeel(現 OpenAI 首席科學家)關于神經網絡控制機器人的博士后論文。那是全球首次證明人形機器人的控制可以被神經網絡范式(而非復雜的數學建模)替代。
于是在2016年毅然決然加入了一家創業公司,這應該是國內第一家用端到端方式控制人形機器人的公司,我在那邊做算法負責人,我們開發出了人形機器人,并且用純端到端的方式實現了RL的行走。2020年,我加入追覓,從0到1搭建人形機器人相關業務,帶領團隊完成了追覓對于小米cyberdog項目的量產交付。
2024年,我選擇創業,是因為看到了大模型技術在NLP領域的突破,我相信Scaling Law在具身智能領域也是成立的,通用智能與機器人相結合的拐點已經到來。
而且看到了行業存在很多待解的痛點,比如基礎設施不夠完善,無法支撐具身智能在場景里規模化落地,現在正是構建行業基礎設施、建立數據標準的最佳時機。
創投家:為什么提出"鹿明指數"來衡量公司價值,這個公式具體是什么?
喻超:場景價值比較好理解,是具身智能在場景里面能實現的規模化價值。為什么要除以數據成本和硬件成本呢?數據成本是通向更好智能性所需要的成本。硬件成本是最終在實際場景里面落地消耗的邊際成本。數據成本和硬件成本越低,才能釋放出更大的場景價值。
基于這樣一個指數定義,我們還有一個觀點,基礎設施的完善是場景高質量落地的前提。可靠、符合場景要求的硬件本體是具身智能的落地保障,而高質量、低成本、可規模化的數據,是提升模型泛化能力的基礎。
基于這個認知,我們一直圍繞著本體、場景、數據這樣一個飛輪來布局公司業務。“本體”是場景落地的關鍵保證,我們在過去也推出了4款不同的“本體”,適應不同場景。場景部分,我們跟三菱、中遠海運、德馬科技形成了比較深度的戰略合作。在場景里面落地的過程中,數據規模化又能帶來智能化的提升,這是最關鍵的點。
剛好FastUMI Pro的低成本、高效率數據采集能力,能夠撬動這樣的循環。這個指數體系指導我們不是單純追求某一個維度的優化,而是系統性地構建從硬件、數據到模型的全棧能力,最終實現場景價值的最大化。
創投家:詳細聊一下FastUMI Pro系統。
丁琰:FastUMI Pro是我們從學術界的FastUMI升級到工業級的無本體數據采集軟硬件系統。我從2024年3月份就一直從事UMI相關研究,是大陸最早做UMI的人,沒有之一。
我們做了大量工程化和標準化的獨創工作。首先是硬件層面,FastUMI Pro集成了為 UMI 場景定制的高性能傳感器,能穩定實現了60Hz 高頻記錄,并保障了多模態信息的毫秒級同步,能夠滿足未來一兩年模型推理速度提升的需求。
軟件層面,為了實現了數據與本體的完全解耦,能夠快速適配市場上數十種不同的機械臂,這意味著鹿明在底層協議和適配算法上做了大量的獨創開發,使得“一套數據,全機通用”。
數據質量管理方面,獨創了 8 道工業級數據質量評估體系。這套體系能夠從源頭過濾掉視覺與位姿未對齊、傳感器不同步、軌跡不可復現的“廢數據”,將數據有效率從行業普遍的 70% 提升至 95%以上。與傳統遙操作采集方式相比,FastUMI Pro通過創新的硬件架構與軟件算法,將單條數據采集時間從50秒縮短至10秒,效率提升5倍,同時將綜合成本降至傳統方法的五分之一。
創投家:現在市面上做具身智能數據采集設備的很多,大家都聲稱“低成本、即插即用”你們和他們的區別是什么?
丁琰:現狀非常殘酷。設備很多,模型很少。 很多團隊買了低成本UMI設備,但行業內幾乎看不到公開、穩定、可復現的UMI模型案例。原因不在訓練階段,而在于大量的UMI數據從生成開始就不具備進入訓練管線的條件,說白了就是數據不合格。
市面上有一些產品并非系統設計的,而是很多模塊“拼湊”出來的,這樣一來,產品的帶寬架構非常脆弱,出現掉幀等一系列問題,導致無法穩定Replay交互記錄。
創投家:“廢數據”和“臟數據”二者有什么區別?
丁琰:這是我們獨創的觀點。很多人直接找眾包團隊去采集,覺得“天然去雕飾”最好,但這其實是“廢數據”。 舉個例子,疊衣服,人類自然的疊衣服動作對于機器人來說往往是無效的,因為機器人需要特定的“技巧性動作”(比如特定的抖動、鋪平軌跡)才能理解物理特性。沒有經過設計的、缺乏“信息密度”的自然行為數據,機器人看了也學不會,數據不僅要“真”,還要“有教學意義”。
“臟數據”是指那些包含抖動、漂移、時間錯位的數據。在單視角(Single View)的UMI采集下,這些噪聲不會因為數據量的增加而被平滑掉,反而會被放大。 這就好比你給模型喂了大量“手抖”的示范,模型最終學出來的策略也是抖動的、不可用的。所以我們強調,數據質量的高低不只是清晰度,而是“有效的信息密度”和“物理交互的精確性”。
創投家:你們怎么保證交付的數據“100%可用于模型訓練”?
丁琰:我們獨創了8道工業級數據質量評估體系,從硬件設計源頭保障數據質量,為模型成功率負責。我們解決了最難的毫秒級同步問題,確保視覺、觸覺等多模態信息在60Hz的高頻下嚴格對齊,這是物理世界能被“Replay”(復現)的物理基礎。
創投家:既賣采集設備,又賣數據集,還做機器人本體。你們到底想成為誰?
喻超: 我們的使命是成為全球領先的具身智能定義者和實踐者。我們為行業提供數據和硬件的基礎設施,聯合我們的生態伙伴一起,用數據驅動智能,同時讓智能去賦能千行百業,讓機器人走進千家萬戶。
創投家:對于2026年,你們設定的核心里程碑是什么?
喻超: 2026年我們要建成100萬小時的具身真機數據產能,目標是建成全球最大的具身真機數據集。這是具身智能Scaling Law生效的臨界點,也是我們作為行業“數據燃料”供應商的護城河。
創投家:目前鹿明的目標市場主要在國內嗎?海外市場有哪些規劃?
喻超: 我們的客戶不局限于國內。全球具身智能圈內,有超過三分之二的頂尖團隊,正在使用FastUMI Pro,FastUMI Pro已經成為行業內驗證和開發UMI能力的 “標配裝備”,我們非常看重海外市場,會持續積極布局。
創投家:作為一家初創公司,進入競爭激烈的具身行業的,你們會感到壓力嗎?
喻超: 坦率說,壓力一直都有。但是只要公司跑得足夠快,所有的外部環境變動或競爭都不會成為致命問題。
我們的核心邏輯是搶占時間差。到2026年,我們要建立全球最大的UMI數據集。這種數據的先發優勢和生態位占領,是很難在短時間內被追平的。(作者|郭虹妘,編輯|陶天宇)
更多對全球市場、跨國公司和中國經濟的深度分析與獨家洞察,歡迎訪問 Barron's巴倫中文網官方網站
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.