機(jī)器之心發(fā)布
想象一下,你正在訓(xùn)練一個(gè)未來的家庭機(jī)器人。你希望它能像人一樣,輕松地疊好一件襯衫,整理雜亂的桌面,甚至系好一雙鞋的鞋帶。但最大的瓶頸是什么?不是算法,不是硬件,而是數(shù)據(jù) —— 海量的、來自真實(shí)世界的、雙手協(xié)同的、長程的、多模態(tài)的高質(zhì)量數(shù)據(jù)。
因此為了整個(gè)具身智能探索加速,開源集合成為了大家的共同選擇,從谷歌 Open-X Embodiment、智元 AgiBot Digital World,到智源 RoboCOIN 與它石智航的 World In Your Hands,都在試圖構(gòu)建更龐大、更完善的數(shù)據(jù)集合,并開源給到全行業(yè)。
但在 1 月 6 日,有一家公司將這件事做到新高度,進(jìn)行了超過 1 萬小時(shí)、接近百萬 clips 的具身數(shù)據(jù)集合開放,這是行業(yè)最大規(guī)模、也是泛化程度最高的開源數(shù)據(jù)集合,它就是簡(jiǎn)智機(jī)器人的 “10Kh RealOmni-Open DataSet”
![]()
(下載地址為:https://huggingface.co/datasets/genrobot2025/10Kh-RealOmin-OpenData,其他數(shù)據(jù)正在陸續(xù)上傳。國內(nèi)也與阿里魔搭、百度百舸合作,方便國內(nèi)用戶下載。)
這批數(shù)據(jù)集合和之前不同點(diǎn)在哪兒?
總體規(guī)模大,這個(gè)體量甚至已經(jīng)超越很多具身公司自己所儲(chǔ)備的數(shù)據(jù),而在量大的同時(shí),這個(gè)數(shù)據(jù)集合還期望它更加“實(shí)用”
首先需要它具備足夠強(qiáng)的 “技能深度”,在簡(jiǎn)智開源數(shù)據(jù)集合中,沒有選擇去發(fā)散的擴(kuò)充技能數(shù)量,而是聚焦在 10 個(gè)常見家庭任務(wù)集合中,從而對(duì)應(yīng)每一項(xiàng)技能都有超過 1 萬 Clips 規(guī)模的數(shù)據(jù)覆蓋,這使得其不只是總體規(guī)模的最大,也是單個(gè)技能的行業(yè)最多
其次是質(zhì)量、模態(tài)的要求,這決定這些數(shù)據(jù)是否真正能被模型消化理解,而畫面的超大 FOV、清晰的畫質(zhì)是基礎(chǔ),保證可以全方位錄制到周圍的環(huán)境和人的操作細(xì)節(jié),簡(jiǎn)智這次數(shù)據(jù)集合的像素達(dá)到 “1600*1296”“30fps” 的水平
在這之上軌跡的精度是數(shù)據(jù)質(zhì)量的關(guān)鍵,厘米級(jí)的軌跡精度對(duì)人來說可能足夠精細(xì),但對(duì)于機(jī)器人來說則需要達(dá)到毫米級(jí)別,因此簡(jiǎn)智這次開源數(shù)據(jù)對(duì)比行業(yè),一方面具備了大多數(shù)不具備的軌跡信息,同時(shí)通過高精度 IMU 硬件和云端重建與還原,進(jìn)一步將軌跡提升到亞厘米級(jí)別。而在模態(tài)上,作為夾抓類的技能采集,夾抓的開合角度、位移也都在集合中包含。
![]()
而在技能方面,單手在實(shí)際場(chǎng)景中可以完成的任務(wù)優(yōu)先,因此難得是在數(shù)據(jù)集中,99.2% 都是 “雙手、長程任務(wù)”,這也讓它變得更落地—— 以第一批數(shù)據(jù)為例,平均 clips 長度為 1min37s。這意味著,它記錄的不是一張張靜態(tài)快照,而是從 “拿起散亂 T 恤” 到 “疊放整齊” 的完整過程,是動(dòng)作邏輯與因果的連續(xù)學(xué)習(xí)。
![]()
最后則是在相同技能下,數(shù)據(jù)的場(chǎng)景、目標(biāo)泛化上需要足夠豐富,人員的操作要足夠自然,而非單一場(chǎng)景的重復(fù)、動(dòng)作僵硬重復(fù),這樣才能讓模型在真實(shí)的生活中,應(yīng)對(duì)家庭環(huán)境、目標(biāo)類型千變?nèi)f化。簡(jiǎn)智這批數(shù)據(jù)來自 3000 個(gè)真實(shí)的家庭規(guī)模采集,以疊衣服為例,不同的衣服種類、平鋪的位置等多重因素變量都包含在其中,彌補(bǔ)了傳統(tǒng) “數(shù)采工廠” 方案過于單一的問題。
![]()
為什么有底氣開源這么大批量數(shù)據(jù)?
在這些大規(guī)模、高質(zhì)量、泛化程度高數(shù)據(jù)的背后,其實(shí)一套完整的 “數(shù)據(jù)生產(chǎn)鏈條”,在這方面簡(jiǎn)智也有自己的一套方法論,完成從采集設(shè)備到云端平臺(tái),再到數(shù)據(jù)的二次迭代的閉環(huán),這也使得簡(jiǎn)智在 2 個(gè)月時(shí)間內(nèi)就積累了近百萬小時(shí)規(guī)模的數(shù)據(jù)。
![]()
這其中,Gen DAS Gripper是能完成簡(jiǎn)智規(guī)模化采集的首要觸點(diǎn),它相比傳統(tǒng)的數(shù)據(jù)采集、UMI 等方案來看,可以更容易、快速地部署,不需要做任何的場(chǎng)地布置;同時(shí)全棧自研的 ISP 圖像處理、CMOS 傳感器,保證圖像高質(zhì)量、清晰。
同時(shí)可以做到基于車規(guī)級(jí) IMU、雙手設(shè)備同步,實(shí)現(xiàn)雙手技能的高精度坐標(biāo)對(duì)齊,異構(gòu)數(shù)據(jù)時(shí)間誤差小于 1ms
在設(shè)備端,具備超強(qiáng)壓縮能力:將數(shù)據(jù)體積壓縮至原大小的 2%,同時(shí)打通在線上傳通道,實(shí)現(xiàn)分鐘級(jí)快速上傳,大幅提升數(shù)據(jù)流轉(zhuǎn)效率。
Gen Matrix 則是中樞數(shù)據(jù)平臺(tái),它將收集后數(shù)據(jù)進(jìn)行高精準(zhǔn)的軌跡還原、對(duì)齊、清洗處理:將眾多分散設(shè)備數(shù)據(jù)收集,超強(qiáng)軌跡還原、環(huán)境重建能力,軌跡真值誤差小于 1cm,并將異構(gòu)數(shù)據(jù)進(jìn)行同步與清洗,保證數(shù)據(jù)質(zhì)量,并具備自動(dòng)化標(biāo)注、切片等進(jìn)階能力,可以高并發(fā)處理海量數(shù)據(jù)源。這在具身行業(yè)也是領(lǐng)先的數(shù)據(jù)平臺(tái)基建。
Gen ADP(AI Data Pipeline)則是規(guī)模化、自動(dòng)化數(shù)據(jù)產(chǎn)線,它是將 DAS 的數(shù)據(jù)完成自動(dòng)化的脈搏。它將標(biāo)注、加工流程自動(dòng)化,讓高質(zhì)量數(shù)據(jù)的產(chǎn)出像流水一樣持續(xù)、高速,2h 內(nèi)完成采集與處理全過程。目前據(jù)簡(jiǎn)智公開信息,已經(jīng)完成百萬小時(shí)規(guī)模數(shù)據(jù)累計(jì),并且每天以接近萬小時(shí)規(guī)模增長
![]()
開源是一件需要持續(xù)做、加速做的事情
具身智能的未來,建立在高質(zhì)量數(shù)據(jù)的基石之上。在今天來看,大家對(duì)于數(shù)據(jù)的格式、規(guī)范還尚不成熟,這大大的影響了模型方案的進(jìn)步速度,因此開源數(shù)據(jù)持續(xù)、加速推進(jìn),能快速填補(bǔ)數(shù)據(jù)鴻溝、統(tǒng)一技術(shù)標(biāo)準(zhǔn)、降低研發(fā)門檻、推動(dòng)生態(tài)協(xié)同與自主可控,最終加速具身智能從實(shí)驗(yàn)室走向規(guī)模化落地。
10Kh RealOmni-Open DataSet的開放,不僅是一份海量數(shù)據(jù)資源,更是一種通過共享加速創(chuàng)新的可能性。簡(jiǎn)智團(tuán)隊(duì)后續(xù)將繼續(xù)加強(qiáng)數(shù)據(jù)基建建設(shè),推出更多行業(yè)有益的數(shù)據(jù)、服務(wù),形成 “數(shù)據(jù)共享 — 模型優(yōu)化 — 場(chǎng)景落地 — 數(shù)據(jù)反哺” 的正向循環(huán)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.