2025年,人形機器人與具身智能賽道正經歷著前所未有的爆發式增長,政策與資本的雙重驅動,讓這個曾經停留在實驗室的概念,加速走向產業應用。
在技術層面,從社區安防巡邏、老人護理,到工業車間巡檢、家庭服務,具身智能機器人如今被寄予厚望,正從單一功能工具向多場景智能體進化,市場普遍認為,隨著硬件成本下降與算法迭代,具身智能將成為繼自動駕駛后,下一個萬億級賽道。
然而,繁榮背后,一個致命的“死結”正扼住行業咽喉:數據稀缺與孤島化。當A公司的人形機器人在產線上跑完傳送帶分揀數據時,其視覺傳感器捕捉的環境數據無法被B公司的機器人復用;當開發者為某品牌機器人訓練的避障模型,換個硬件就需要從頭適配;當企業花數百萬采集的力控軌跡數據,因格式不統一只能躺在硬盤里沉睡……具身智能的“智能”二字,似乎正被數據瓶頸死死困住。
在此背景下,機器人大講堂獲悉,埃夫特啟智近期升級了大衍數據平臺,該平臺以“數據-模型-仿真一站式智能開發”為核心,正試圖用技術突破該問題,重塑具身智能的數據飛輪模式,平臺于8月29日正式亮相,并向全行業開放公測。
![]()
▍行業陷入“成長的煩惱”
物理交互數據是具身智能成長的“食糧”,有機器人企業測算,僅家庭服務一個場景,目前就存在超10億條的交互數據缺口。雖然數據缺口巨大,但多模態整合確實是行業大難題,視覺、力觸覺、軌跡等多模態數據的采集與整合,復雜度遠超傳統AI。同時,由于行業缺乏統一標準,不同廠商的機器人數據格式千差萬別,接口協議更是“各立門戶”,數據難以流通復用。
據悉,大多實驗室開發鏈路因此非常離散,資源重復浪費,開發者不得不“重復造輪子”。例如有實驗室就數據采集用得A工具、清洗卻需要用B系統、訓練靠C平臺、部署則依賴D軟件。由于硬件廠商各自為戰,數據平臺格式不兼容,缺乏結構化預處理與工程工具鏈,生態割裂嚴重,目前各大廠商建設的數據平臺基本是自用,且模型無法共享,開發者不得不為割裂的工具鏈重復投入,協作低效,動作復現困難。
不僅僅是真實數據采集和處理應用,仿真與真機之間的鴻溝更是讓企業頭疼不已,由于各家企業的產品構型有所差異,開發者仿真與真機鴻溝明顯,測試成本高,大多仿真環境下訓練的模型,由于仿真數據的真實性不足,多模態高質量數據稀缺,因此仿真數據到了真機上常常“水土不服”。這些痛點的核心,指向一個結論:具身智能的發展急需一個簡潔易用的工具鏈平臺,加快打通數據工程、具身模型訓練、仿真測試、真機部署全流程。
而大衍數據平臺的出現,正是為了重新打通這個閉環。
▍大衍數據平臺如何重建數據工程
據悉,大衍數據平臺是一個聚焦工業場景,面向全行業機器人廠商、開發者的通用型具身開發工具鏈平臺。但它并非簡單的各類工具拼湊,而是聚焦工業場景,旨在以一個更全棧的視角,解決機器人開發過程中“數據采集、處理、訓練、仿真、部署”等系列工具鏈不足的痛點問題,從而推動具身智能從實驗室走向落地應用,填補技術的落地鴻溝。
![]()
在數據工程的采集與清洗環節,跨品牌具身數據全流程統一治理是大衍平臺的核心特性,這使其更容易打破不同廠商的“數據孤島”。由于大衍數據平臺支持統一的數據協議定義、多模態數據接入 SDK,采用轉碼、過濾、時間戳對齊等自動化數據預處理流程,通過預處理流程和工程工具鏈,實現數據采集,并且其設計了跨項目的數據目錄結構與可視化瀏覽界面,還提供各種模態的數據清洗算子,支持用戶自定義算子上傳,并針對特定任務實現清洗邏輯的順序編排,支持語義標簽模板復用與版本控制以及跨團隊權限與協作機制,從而讓采集和清洗流程更加清晰,讓團隊協作效率大幅提升。
在數據標注方面,大衍數據平臺不僅支持CV、NLP等傳統單模態標注,更針對具身智能特點,開發了多模態標注工具,標注后能將異構數據統一為標準化格式,作為訓練輸入。另外平臺還支持智能標注,加快標注效率。
在數據格式標準化處理方面,多品牌異構機器人的數據格式碎片化、任務協同低效、場景遷移成本高,大衍數據平臺將不同格式的數據,轉化為平臺定義的標準格式,從而解決數據格式碎片化、缺乏數據結構標準的老大難問題。例如其目前就支持樂聚、零次方等多品牌機器人異構數據的采集、清洗、標注、存儲,產出平臺支持的統一格式的高質量數據集。
![]()
▍打造模型訓練工具鏈新范式
大衍數據平臺通過全棧技術整合,全面支持從預訓練、微調到底層算力的多樣化計算范式:
在預訓練階段,平臺支持集成自研基座模型及RDT、Pi0、GR00T等主流開源模型,支持掛載真實/仿真數據集,實現大規模多模態數據訓練。微調層面支持開發者通過LoRA等輕量化技術實現參數高效更新。
算力調度上,平臺實現單機單卡到超大規模集群的靈活覆蓋。單機單卡場景支持RTX 4090等消費級顯卡運行輕量化推理(如1.8B模型推理延遲低至36ms),但是存在顯存與IO瓶頸,而多機多卡場景通過Kubernetes+Volcano調度框架統一納管云邊異構資源,構建跨集群協同計算流水線,結合端云一體編排技術,實現千卡級GPU集群的分布式訓練自動化,大幅提升強化學習、增量學習等復雜任務的并行效率,推動具身智能從實驗室原型到真機落地的規模化演進。
![]()
在仿真模型測試環節,平臺內置高保真仿真環境,支持多品牌機器人硬件異構適配、主流模型集成,基于統一的硬件適配層與部署協議,平臺能快速實現多品牌機器人一鍵部署,開發者可先在仿真中測試模型,再部署到真機。
▍從“技術概念”到“產業價值”落地
大衍數據平臺的價值,不僅在于技術突破,更在于解決實際場景中的問題。
目前,在應用環節,大衍平臺實現了多模態感知驅動的智能生成技術,通過融合視覺感知、物理交互數據與強化學習算法,平臺能實現復雜場景的智能軌跡生成。
如家具行業的工業噴涂場景中,產品具有單批產量小,批次多的特點,但傳統噴涂依賴人工經驗編程,軌跡調整需2~3天,很難開始換線柔性化生產,而平臺可根據工件三維數據及人工噴涂等多源數據,通過對加工件實現3D視覺掃描,模型自主規劃、自動生成最優噴涂軌跡,換線時間由2小時縮短至15分鐘,從而實現了噴涂機器人的可復制性。
![]()
此外,本項目還實現了5G與機器人的相結合,利用5G的低延時(uLLRC)的特征,將機器人的數據實時采集到大衍數據云平臺,既可以對噴涂機器人進行實時監控,也可以立刻結算出工人的工作量,使用的耗材等情況。目前,埃夫特在江西贛州打造的未來綠色產能共享平臺已經部署近10臺噴涂機器人,通過接入RaaS平臺與大衍數據平臺,創造了巨大的經濟和社會效益。
▍讓具身智能“飛入尋常百姓家”
大衍數據平臺的出現正在重塑具身智能行業的發展邏輯,其核心價值在于提供開箱即用的全流程工具鏈,使企業及用戶無需重復投入數據采集、模型訓練等基礎設施,顯著降低研發成本。平臺通過高效的數據采集機制,持續積累多場景具身數據資源,為具身智能的迭代提供底層支撐,同時打破行業數據孤島現狀,推動跨領域數據資源的整合與共享。
在生態賦能層面,大衍數據平臺還憑借開放的協議接口和標準化工具鏈,大幅降低開發者的重復開發成本,支持第三方快速構建多樣化應用,形成“數據流通-模型共享-應用協同”的良性循環,加速具身智能在工業、家庭、醫療等場景的深度滲透,實現從垂直領域應用到橫向生態協同的跨越。
可以預見,隨著數據孤島的消解與開發門檻的降低,具身智能的規模化應用迎來新契機。大衍數據平臺通過技術重塑數據飛輪,以工具鏈支撐與數據資產積累的雙輪驅動,促進行業從孤立技術探索向協同生態進化轉型,推動具身智能從概念邁向產業化實踐,為行業伙伴提供共建機器人自主進化新范式的核心引擎。
平臺將于9/1號開放公測,歡迎關注!公測網址如下:
https://dayan.openminddp.com/v
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.