網易首頁 > 網易號 > 正文申請入駐

智元開源具身數據集AGIBOT WORLD 2026，讓數據采集走進真實世界 | 前沿在線

2026-04-08 00:48:56　來源: 前沿在線

北京舉報

分享至

文：智元AGIBOT

排版：前沿在線編輯部

在計算機視覺領域，“ImageNet時刻”的出現曾經改變了一切。它不僅提供了數據，更定義了一個時代的研究范式。今天，具身智能同樣站在這樣的臨界點上。

2024年末，智元發布具身智能行業首個百萬真機數據集AGIBOT WORLD時，我們嘗試為這個領域提供一個新的起點。而現在，隨著研究不斷深入，新的需求也變得更加明確：研究者和開發者需要的，不再只是數據量，而是能夠真實承載物理世界復雜性的高質量數據。

基于這樣的創新研究需求，智元機器人正式開源——AGIBOT WORLD 2026 數據集，首個覆蓋具身智能全域研究的開源數據集。

該數據集基于海量真實場景，圍繞五大具身領域研究主題構建，每個主題均設有專屬采集方法與精細化的標注體系，以精準支持不同細分領域研究者的需求。數據集將分五個階段持續開源，覆蓋更多主題與場景，旨在為具身領域提供覆蓋廣泛、即取即用的高質量真實數據。同時，我們通過數字孿生技術，在仿真環境中1:1重建真實場景并采集數據，仿真數據同步開源。

我們希望通過全新的具身數據集明確一個更深遠的方向：讓機器人走出實驗室，在真實世界中呼吸、學習、進化。

項目主頁：agibot-world.com

開源地址：huggingface.co/datasets/agibot-world/AgiBotWorld2026

具身數據，不再是“理想環境”的產物

長期以來，機器人數據往往誕生于高度控制的環境之中。標準的樣板間、整潔的桌面、預設的初始位置、可預期的操作路徑，讓模型能夠快速學習，卻難以適應真實世界的復雜性。

而現實卻從來不是這樣的。一個普通的家庭廚房，可能同時存在遮擋、雜亂擺放、光照變化和動態干擾；一個商業空間中的任務，也往往需要在不確定條件下完成多步驟操作。正是在這些細節之中，機器人被真正賦予作業能力。

AGIBOT WORLD 2026的所有數據均采集自100%真實環境。覆蓋商業空間、酒店餐飲、家居、安防場景、工業物流等場景，復雜任務與隨機干擾并存，每一次操作都發生在真實世界的上下文之中。這意味著，數據不再是“被設計”的，而是“被經歷”的。也正因如此，每一條數據都天然具備遷移到真實應用中的價值。

新一代硬件采集，靈巧本體豐富末端

數據的質量，不僅取決于場景，也取決于采集它的“身體”。

AGIBOT WORLD 2026基于智元新一代以工業級標準打造的精靈G2通用機器人完成采集。這一硬件平臺搭載高性能關節執行器、多類型傳感器、高性能域控制器，支持高精度力控作業，并提供豐富的二次開發接口。結合Swift Picker夾爪與智元OmniHand五指靈巧手，同步采集多視角RGB(D)、觸覺、LiDAR點云、IMU及全身關節狀態、力傳感器等多模態傳感數據。

在同一任務中，機器人不僅“看到”，還“感受到”，并實時記錄自身的運動與反饋。這種多模態的統一采集，使得數據天然具備更強的表達能力，也更貼近真實部署時的系統狀態。

讓數據真正“像機器人在做事”

在采集方面，更進一步的問題是：數據是否真的反映了機器人“完整地在執行任務”？我們這一點上做了關鍵突破。

首先，全身控制（Whole Body Control）的引入，讓機器人不再只是局部執行動作，而是像人一樣以完整的身體參與任務。機械臂、腰部與手部在統一控制下協同運作，動作更加連貫自然，也更接近人類在現實世界中的行為方式。很多過去依賴“拼接動作”的任務，現在可以被一體化完成，這種能力會直接體現在數據之中。

與此同時，超視距遙操作構建了一種全新的采集方式。數采員可以跨地域地實時控制機器人，并通過第一視角，與機器人共享同一感知空間，使操作過程更加直觀與連續。人不再是“外部指揮者”，而是“在機器人身體中行動”，這種一致性，使采集到的數據天然具備更強的可遷移性，也成為釋放全身控制能力的最佳范式。

在更微觀的層面，力控采集的引入進一步改變了數據的表達方式。數據不再只是運動軌跡的記錄，而是包含了真實的接觸與力反饋信息。機器人在“觸碰世界”的過程中所感受到的變化，被完整保留下來，從而使模型能夠學習柔順操作、復雜接觸乃至精細的物理交互。

當這三種能力共同作用時，數據不再只是“動作的集合”，而是一次完整的、真實發生的物理行為過程。

工業級標準，讓數據可用可靠

所有數據在進入AGIBOT WORLD 2026數據集之前，都經歷了嚴格的驗證流程。原始數據采集完成后，都將通過算法策略訓練與真機測試，確保數據采集的有效性。所有數據均進入嚴格的 DaaS工業質檢流水線，依據統一標準進行多輪篩查與清洗，每一個環節都圍繞一個目標展開：確保交付結構清晰、標注精準、可直接用于模型訓練的高質量數據。

這也是智元始終堅持的一個原則——數據不僅要“看起來正確”，更要“用起來可靠”。

五大階段逐步登場，正式開源第一期“模仿學習”主題

創新自由采集范式

人類通過觀察與模仿掌握復雜技能，而機器人同樣可以借助專家示范，快速建立對任務的理解與執行能力，學習并泛化復雜的物理交互技能。這便是具身研究領域的關鍵方向之一“模仿學習”。AGIBOT WORLD 2026開源的第一期，正是圍繞這一研究方向展開。

不同于傳統固定腳本的采集方式，我們引入了智元創新的“自由采集范式”。數據采集員在真實場景中，根據實時情況靈活設計操作流程，使數據自然覆蓋不同物體種類、不同操作順序與不同動作路徑的組合，全面覆蓋多維度泛化需求。機器人通過靈活移動底盤、頭部運動、腰部旋轉及升降俯仰等擬人運動機制，實現了高效、自然且極具遷移價值的數據構建。

這樣的采集范式讓數據不再只是“標準答案”，而是一種具有泛化能力的經驗集合。

數據標注體系創新：從“動作”到“理解”

真實數據只是起點，更關鍵的是如何讓機器人真正“理解”。

在AGIBOT WORLD 2026數據集中，我們圍繞具身智能的核心問題，構建了一套覆蓋多層級的標注體系。一個任務不再只是簡單的動作序列，而是被拆解為從目標描述到步驟執行，再進一步細化到原子技能（如抓取、放置）、2D邊界框等屬性標注的完整結構。機器人不僅可以看到“做了什么”，還可以理解“為什么這么做”。

更重要的是，我們在數據中完整保留了錯誤修正過程的軌跡記錄。現實世界中，沒有任何操作是完美的，真正的智能體，必須具備在失敗中調整路徑的能力。當這些過程被記錄、被標注、被學習，模型才開始兼具任務精準性與自主糾錯能力的魯棒性。

具身智能的下一階段，會發生在真實世界里。它發生在我們每個人每天生活的廚房、商場、超市里，也發生在每一個需要被自動化與智能化的場景中。智元推出 AGIBOT WORLD 2026 所做的，是為這一階段提供技術底座。我們希望這不僅是一個數據集，更是一個起點。一個讓機器人從“可以被展示”，走向“可以被使用”的起點。

今天，我們正式向全球研究者、開發者開源 AGIBOT WORLD 2026 數據集。無論是學術界、還是產業界，都可以基于這一數據基礎，探索更真實、更可靠的具身智能能力。如果說過去的機器人更多停留在實驗室，那么接下來，它們將真正進入現實世界。

而這一切的發生，正從數據開始。

前沿動態前沿大會
前沿人物

點「在看」，給前前加雞腿

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.