網易首頁 > 網易號 > 正文申請入駐

大衍平臺如何重塑具身智能的數據飛輪生態？

2025-08-29 18:06:03　來源: 機器人大講堂

安徽舉報

分享至

2025年，人形機器人與具身智能賽道正經歷著前所未有的爆發式增長，政策與資本的雙重驅動，讓這個曾經停留在實驗室的概念，加速走向產業應用。

在技術層面，從社區安防巡邏、老人護理，到工業車間巡檢、家庭服務，具身智能機器人如今被寄予厚望，正從單一功能工具向多場景智能體進化，市場普遍認為，隨著硬件成本下降與算法迭代，具身智能將成為繼自動駕駛后，下一個萬億級賽道。

然而，繁榮背后，一個致命的“死結”正扼住行業咽喉：數據稀缺與孤島化。當A公司的人形機器人在產線上跑完傳送帶分揀數據時，其視覺傳感器捕捉的環境數據無法被B公司的機器人復用；當開發者為某品牌機器人訓練的避障模型，換個硬件就需要從頭適配；當企業花數百萬采集的力控軌跡數據，因格式不統一只能躺在硬盤里沉睡……具身智能的“智能”二字，似乎正被數據瓶頸死死困住。

在此背景下，機器人大講堂獲悉，埃夫特啟智近期升級了大衍數據平臺，該平臺以“數據－模型－仿真一站式智能開發”為核心，正試圖用技術突破該問題，重塑具身智能的數據飛輪模式，平臺于8月29日正式亮相，并向全行業開放公測。

▍行業陷入“成長的煩惱”

物理交互數據是具身智能成長的“食糧”，有機器人企業測算，僅家庭服務一個場景，目前就存在超10億條的交互數據缺口。雖然數據缺口巨大，但多模態整合確實是行業大難題，視覺、力觸覺、軌跡等多模態數據的采集與整合，復雜度遠超傳統AI。同時，由于行業缺乏統一標準，不同廠商的機器人數據格式千差萬別，接口協議更是“各立門戶”，數據難以流通復用。

據悉，大多實驗室開發鏈路因此非常離散，資源重復浪費，開發者不得不“重復造輪子”。例如有實驗室就數據采集用得A工具、清洗卻需要用B系統、訓練靠C平臺、部署則依賴D軟件。由于硬件廠商各自為戰，數據平臺格式不兼容，缺乏結構化預處理與工程工具鏈，生態割裂嚴重，目前各大廠商建設的數據平臺基本是自用，且模型無法共享，開發者不得不為割裂的工具鏈重復投入，協作低效，動作復現困難。

不僅僅是真實數據采集和處理應用，仿真與真機之間的鴻溝更是讓企業頭疼不已，由于各家企業的產品構型有所差異，開發者仿真與真機鴻溝明顯，測試成本高，大多仿真環境下訓練的模型，由于仿真數據的真實性不足，多模態高質量數據稀缺，因此仿真數據到了真機上常常“水土不服”。這些痛點的核心，指向一個結論：具身智能的發展急需一個簡潔易用的工具鏈平臺，加快打通數據工程、具身模型訓練、仿真測試、真機部署全流程。

而大衍數據平臺的出現，正是為了重新打通這個閉環。

▍大衍數據平臺如何重建數據工程

據悉，大衍數據平臺是一個聚焦工業場景，面向全行業機器人廠商、開發者的通用型具身開發工具鏈平臺。但它并非簡單的各類工具拼湊，而是聚焦工業場景，旨在以一個更全棧的視角，解決機器人開發過程中“數據采集、處理、訓練、仿真、部署”等系列工具鏈不足的痛點問題，從而推動具身智能從實驗室走向落地應用，填補技術的落地鴻溝。

在數據工程的采集與清洗環節，跨品牌具身數據全流程統一治理是大衍平臺的核心特性，這使其更容易打破不同廠商的“數據孤島”。由于大衍數據平臺支持統一的數據協議定義、多模態數據接入 SDK，采用轉碼、過濾、時間戳對齊等自動化數據預處理流程，通過預處理流程和工程工具鏈，實現數據采集，并且其設計了跨項目的數據目錄結構與可視化瀏覽界面，還提供各種模態的數據清洗算子，支持用戶自定義算子上傳，并針對特定任務實現清洗邏輯的順序編排，支持語義標簽模板復用與版本控制以及跨團隊權限與協作機制，從而讓采集和清洗流程更加清晰，讓團隊協作效率大幅提升。

在數據標注方面，大衍數據平臺不僅支持CV、NLP等傳統單模態標注，更針對具身智能特點，開發了多模態標注工具，標注后能將異構數據統一為標準化格式，作為訓練輸入。另外平臺還支持智能標注，加快標注效率。

在數據格式標準化處理方面，多品牌異構機器人的數據格式碎片化、任務協同低效、場景遷移成本高，大衍數據平臺將不同格式的數據，轉化為平臺定義的標準格式，從而解決數據格式碎片化、缺乏數據結構標準的老大難問題。例如其目前就支持樂聚、零次方等多品牌機器人異構數據的采集、清洗、標注、存儲，產出平臺支持的統一格式的高質量數據集。

▍打造模型訓練工具鏈新范式

大衍數據平臺通過全棧技術整合，全面支持從預訓練、微調到底層算力的多樣化計算范式：

在預訓練階段，平臺支持集成自研基座模型及RDT、Pi0、GR00T等主流開源模型，支持掛載真實/仿真數據集，實現大規模多模態數據訓練。微調層面支持開發者通過LoRA等輕量化技術實現參數高效更新。

算力調度上，平臺實現單機單卡到超大規模集群的靈活覆蓋。單機單卡場景支持RTX 4090等消費級顯卡運行輕量化推理（如1.8B模型推理延遲低至36ms），但是存在顯存與IO瓶頸，而多機多卡場景通過Kubernetes+Volcano調度框架統一納管云邊異構資源，構建跨集群協同計算流水線，結合端云一體編排技術，實現千卡級GPU集群的分布式訓練自動化，大幅提升強化學習、增量學習等復雜任務的并行效率，推動具身智能從實驗室原型到真機落地的規模化演進。

在仿真模型測試環節，平臺內置高保真仿真環境，支持多品牌機器人硬件異構適配、主流模型集成，基于統一的硬件適配層與部署協議，平臺能快速實現多品牌機器人一鍵部署，開發者可先在仿真中測試模型，再部署到真機。

▍從“技術概念”到“產業價值”落地

大衍數據平臺的價值，不僅在于技術突破，更在于解決實際場景中的問題。

目前，在應用環節，大衍平臺實現了多模態感知驅動的智能生成技術，通過融合視覺感知、物理交互數據與強化學習算法，平臺能實現復雜場景的智能軌跡生成。

如家具行業的工業噴涂場景中，產品具有單批產量小，批次多的特點，但傳統噴涂依賴人工經驗編程，軌跡調整需2～3天，很難開始換線柔性化生產，而平臺可根據工件三維數據及人工噴涂等多源數據，通過對加工件實現3D視覺掃描，模型自主規劃、自動生成最優噴涂軌跡，換線時間由2小時縮短至15分鐘，從而實現了噴涂機器人的可復制性。

此外，本項目還實現了5G與機器人的相結合，利用5G的低延時（uLLRC）的特征，將機器人的數據實時采集到大衍數據云平臺，既可以對噴涂機器人進行實時監控，也可以立刻結算出工人的工作量，使用的耗材等情況。目前，埃夫特在江西贛州打造的未來綠色產能共享平臺已經部署近10臺噴涂機器人，通過接入RaaS平臺與大衍數據平臺，創造了巨大的經濟和社會效益。

▍讓具身智能“飛入尋常百姓家”

大衍數據平臺的出現正在重塑具身智能行業的發展邏輯，其核心價值在于提供開箱即用的全流程工具鏈，使企業及用戶無需重復投入數據采集、模型訓練等基礎設施，顯著降低研發成本。平臺通過高效的數據采集機制，持續積累多場景具身數據資源，為具身智能的迭代提供底層支撐，同時打破行業數據孤島現狀，推動跨領域數據資源的整合與共享。

在生態賦能層面，大衍數據平臺還憑借開放的協議接口和標準化工具鏈，大幅降低開發者的重復開發成本，支持第三方快速構建多樣化應用，形成“數據流通-模型共享-應用協同”的良性循環，加速具身智能在工業、家庭、醫療等場景的深度滲透，實現從垂直領域應用到橫向生態協同的跨越。

可以預見，隨著數據孤島的消解與開發門檻的降低，具身智能的規模化應用迎來新契機。大衍數據平臺通過技術重塑數據飛輪，以工具鏈支撐與數據資產積累的雙輪驅動，促進行業從孤立技術探索向協同生態進化轉型，推動具身智能從概念邁向產業化實踐，為行業伙伴提供共建機器人自主進化新范式的核心引擎。

平臺將于9/1號開放公測，歡迎關注！公測網址如下:

https://dayan.openminddp.com/v

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.