正常人類洗4個水果,可能只需要1分鐘,但在北京人形機器人創新中心具身智能機器人數據與訓練基地,一個機器人洗完4個水果,需要8分鐘,而這還是在人工通過遙操作器控制的前提下完成的。
不過,要讓機器人真正有一天能進入家庭完成洗水果這件事,通過大量重復行為獲取訓練數據,再交由大模型學習,是必經之路。北京人形機器人創新中心具身智能機器人數據與訓練基地,正嘗試圍繞這一邏輯,開展數據采集、標注、質檢的工業化流程探索。
![]()
操作員正在操控機器人洗水果
遙操作器上有兩個供人操作的機械臂,每個機械臂有六個關節,三個可以左右移動,三個可以豎直移動,分別與實際完成洗碗動作的機器人關節一一對應。由于不如人類關節靈活,機械臂動作略顯緩慢。
目前,這位操作員已經完成了160遍,重復洗了640個水果。客戶的要求是500遍,意味著他至少還需要保質保量地再重復這個動作六天。
這500條數據,是為了讓大模型理解“把水果洗干凈”究竟意味著什么。因此,需要采集的不僅僅是“洗”這個動作數據。機器人的兩個夾爪和頂端各有兩個攝像頭,用于采集“干凈”這一視覺數據。此外,操作員還需要實時更換背景,比如將洗手池上的清潔劑換成洗潔精,調換海綿擦和鋼絲球的位置,以此提升模型的泛化性,讓未來機器人在不同場景下都能完成這一任務。
這只是北京人形機器人創新中心具身智能機器人數據與訓練基地的其中一個場景。除此之外,這里還根據客戶需求搭建了家居、商超、辦公、工業、醫藥、康養等領域的30余個場景,120多臺機器人正在人工操控下,緩慢、精準地完成指定動作,包括擺放水果、給嬰兒換尿布、整理工具箱、將礦泉水從冰箱拿至收銀臺等,每一個動作都至少需要重復上百遍。
![]()
機器人正在將礦泉水從冰箱拿至收銀臺
人形機器人想要真正走進生活或工業場景,需要處理復雜、多變的物理世界,涉及視覺、力覺、觸覺等多模態數據。但當前,機器人行業普遍面臨一個共同難題,缺乏足夠的訓練數據。
“跟小孩學習一樣,你要教他知識,這些數據就是知識“。北京人形機器創新中心具身數據負責人孔超告訴界面新聞。數據與訓練基地為解決這個問題提供了一個實際落地場景樣本,為模型提供海量、多樣、高質量的訓練數據,提升能力,幫助機器人更好的理解人類世界。
北京人形機器人創新中心產品負責人、具身智能機器人數據與訓練基地負責人蔣未來在接受界面新聞等媒體采訪時介紹,目前數據訓練基地的主要客戶以模型研發公司為主,客戶會指定特定的場景、任務以及數據數量。價格根據任務復雜度決定,簡單的操作一小時數據價格在百元級別,復雜的任務則可達千元。
目前,北京人形機器人創新中心具身智能機器人數據與訓練基地累計交付數據時長近兩萬小時。據蔣未來觀察,2026年,機器人行業對數據的需求量級迎來跨越式增長,“目前市場上的訂單或需求基本都是十萬甚至幾十萬小時的量級,跟去年相比至少乘以十”。
“但是只有合格的數據才是知識”,孔超強調。以洗水果為例,一旦順序錯誤,或者水果污漬沒有擦干凈,操作過程存在卡頓,質檢人員便會將這條數據視為無效數據。一條合格的質量的數據要求包含多個維度,但簡單來說,“越接近于人的操作的觀感,質量更好“,蔣未來表示。
為了提高采集的數據的質量,需要針對不同任務類型制定詳細的操作規范,比如操作員上崗前需通過標準化動作考核,確保同一任務在不同時間、不同人員執行下,采集到的動作軌跡具有高度一致性;數據質檢時,需要保證動作完整、標注準確等等。只有通過全部質檢的數據,才能進入算法訓練流程。四個月前,數據訓練基地剛剛成立時,質檢合格率可能不到50%,但目前來說,“整體的合格率應該在95%以上的“,蔣未來稱。
但蔣未來也坦言,真機采集模式需要投入大量資金采購機器人設備,設備還存在資產折舊問題,加上人員培訓、場地搭建等持續投入,使得數據采集的前期成本居高不下。
從行業發展維度來看,人形機器人數據領域尚未建立統一的確權、定價與交易規范,加之采集數據與機器人硬件構型深度綁定,即A機型采集的數據無法直接適配B機型的訓練需求,導致標準化的數據交易市場難以成型,大量數據的價值無法得到充分釋放與流轉。這套行業標準的統一與完善,仍需在全行業的實踐探索中逐步推進。
孔超在接受界面新聞采訪時表示,當前基地內的采集仍類似于“實驗室”環境,“如果想要真正具備接近人類的智能水平,還需要到真實的環境里去跑”,以提升泛化能力。
讓機器人直接進入工廠或諸多復雜真實環境存在較大風險。因此,孔超認為,無本體采集將成為未來機器人數據采集的主要趨勢,通過讓人佩戴頭環、手套等設備模擬機器人動作完成數據采集,再經算法清洗優化形成可用數據。在市場需求的推動下,預計今年無本體技術將更加成熟。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.