![]()
表面是數據之爭,實則是數據如何被連接與流動的規則之爭。
文|孟雯
最近具身智能的數據戰打得火熱。
前有騰訊發布Tairos具身智能開放平臺,后京東又上線了具身智能數據交易平臺,還要發動60萬人采集1000萬小時。
不久前,百度也推出具身智能數據超市,想要解決困擾行業已久的數據質量參差不齊、格式標準不一、使用成本高等痛點。
上周亦莊的人形機器人馬拉松大賽,更是把具身智能的熱度推向高潮。
榮耀機器人「閃電」跑完21公里,凈用時50分26秒,打破了人類男子半馬世界紀錄。一時間,評論區沸騰,“歷史性時刻”,“部署態元年”到來!
但仔細研究,會發現這更像一場“機械能力”的突破,而非“AI能力”的突破。「閃電」之所以能跑出這個成績,靠的是 0.95 米大長腿、自研液冷系統、電機關系從 420Nm 提升到 600Nm。
![]()
這些都是工程能力的積累,是榮耀把過去十幾年消費電子里的輕量化和結構設計能力,遷移到了機器人上。如果把同一套算法塞進另一臺機器人,大概率跑不出這個成績。
問題不在算法,而在“具身智能”這個詞,裝了太多含義。
連續跑21公里是一件事;能幫你干活,是另一件事;能在產線上連續工作8小時不停機,又是完全不同的一件事
而這三件事,對應的是三種完全不同的數據需求。
![]()
“缺數據”喊了三年
但沒人說清到底缺什么
“整個互聯網上能訓練的數據一共就沒有多少T,現在已經快不夠用了。”國內某頭部大模型廠商創始人在采訪中說,“現在大家更多是用檢索增強來落地B端,C端還是需要基座模型的進化才能突破。”
這是大模型(LLM)領域的真實焦慮。
如今,LLM的“數據焦慮”正蔓延到具身智能。去任何一場機器人相關的論壇,幾乎所有人都在說,數據不夠,是最大的瓶頸。
但如果再往下追問,到底缺的是什么數據?答案卻千差萬別。
LLM之所以能夠跑通規模定律(Scaling Law),有一個不能忽視的大前提:互聯網文本本身就是一個“閉環系統”。
一句話里同時包含意圖、語義、甚至隱含的推理路徑。模型要做的,便是不斷從這些閉環中提取規律。
所以你只需要“多喂”,模型“悟”得越多,能力就會自然涌現。
但具身智能沒有這樣的閉環。
你可以采集100萬小時的人類生活視頻,但里面并沒有機器人應該如何控制關節的信息;你可以構建1000萬個仿真場景,但它們往往缺少真實世界里的噪聲與長尾分布;你也可以通過遙操作積累10萬條任務數據,但一旦更換機器人本體,遷移效果就會明顯打折。
具身智能的數據,不是“被收集”的,而是在物理世界中被“制造”的。
而且不同類型的數據,對“規模”的反應也完全不同。所以把LLM的那一套邏輯原封不動搬過來,本身就是一種誤判。
如果把具身智能的數據拆開來看,會更清晰一些。它大致可以分為三類:運動控制、場景理解與任務決策。
運動控制數據告訴機器人“怎么動”,比如關節角度、力矩、運動軌跡等,這類數據高度綁定特定本體,天然不具備規模化復用能力。
場景理解數據告訴機器人“看到了什么”,比如視覺、空間、物體識別等,因為人看到的世界,和機器人看到的世界,在統計意義上是相似的,所以這類數據是目前唯一有可能跑通Scaling Law的層級。
最難的是任務決策數據,它要告訴機器人“該怎么辦”,這是整個體系里最稀缺的一類數據,因為它要求三件事同時成立:感知、判斷、執行,而且必須同步標注。
這三類數據,有些可以靠堆量解決,有些則完全行不通,換言之,在具身智能領域,Scaling Law不是“失效了”,而是“分層成立”。
行業里其實已經有人描述過這個問題。戴盟機器人接受媒體采訪時,稱具身智能的數據供給存在一個金字塔結構。
頂層是機器人本體數據,最精確,但最難擴展;中層是可部署采集數據,在精度和規模之間做平衡;底層是人類視角的大規模數據,最容易放量。
底層數據,可以靠“規模化”堆出來,負責訓練“認知”。頂層的數據,必須貼著本體打磨,負責訓練“執行”必須精細打磨,不存在“多多益善”。
這也是為什么,單純談“數據規模”已經不再有意義,關鍵在于“你在放大哪一層”。
沿著這個思路,學術界也開始嘗試給出新的解法。中山大學發表的開源項目PHYAgentOS,把認知層與執行層解耦,即大模型做認知入口,不做最終執行者。
![]()
這背后對應的,是一套新的數據分工方式:底層數據訓練認知能力,可以跨本體泛化;頂層數據訓練執行能力,始終綁定具體本體。
一旦這一結構成立,數據的使用效率會發生質變:不同層的數據,不再被強行塞進同一個模型里消化。
解決了“數據從何而來”,還要看數據如何“被消化”,這就涉及到當前行業里的幾條主流的技術路線。
VLA最常見,也最主流,它把視覺、語言、動作全部壓進一個模型,輸出控制信號,代表玩家是RT-2和π0,這一路線需要“圖像+指令+動作”三者同時存在的數據,缺一不可,采集成本很高,也最難規模化。
![]()
第二條路徑,是分層大模型。用LLM做高層規劃,再調用VLA或傳統控制算法執行。它犧牲了一部分端到端的一致性,但換來了更高的數據利用效率。典型代表包括谷歌的Gemini Robotics、北大的RoboOS,以及前面提到的PHYAgentOS。
第三種是當前最受關注的世界模型路線,如DreamDojo、PAR/PhysGen,強調直接從視頻里“悟”出物理規律,以及零動作預訓練,代表如國外的英偉達,國內的拓元智慧。
但不同玩家對同一路線也有著不同的理解。拓元智慧選擇在隱層空間(而非視頻畫面)做世界推演。
拓元智慧聯合創始人陳添水在接受奇點采訪時提到:“英偉達的One Action Model主要指建模action(動作),拓元同時建模action和physical,隱層特征(幾千維)比視頻像素(200萬像素)更高效,且能更好地支持action預測。”
![]()
物理token自回歸的運作方式:預測未來的幀與動作聯合體,與真實環境同步演化
圖靈獎得主楊立昆提出的JEPA同樣屬于這一范式,但它更偏向“預測式學習”,即在抽象空間里推演未來狀態,學習因果關系。
寫到這里,我們會發現,在具身智能領域,脫離模型架構去談“高質量數據”,本身并沒有太大意義。
零次方聯合創始人馬曉龍采訪中的話,精準點出了本質:“數據有沒有效,本質是匹配問題。對你的模型有用,對我的架構可能毫無意義,第三方換了場景又可能完全沒用。”
![]()
群核建道場,百度鋪管道,京東搭舞臺
帶著這樣思路再來看最近大廠的數據之爭,就會發現他們雖然都在“搶數據”,但搶的,根本不是一個東西。
差異不在“量”,而在“層”。
最底層,是群核科技。群和科技占據的是Scaling Law最可能成立的那一層:“物理正確”的空間數據。
根據招股書,群核已經積累了5億個3D室內場景、4.8億個3D模型,這些數據并非“采集”,而是來自真實商業使用中被反復調用、修改、驗證的結果。
![]()
群核科技推出的InteriorNet數據集(包含約1億3千萬圖像數據)
基于這些數據構建的SpatialVerse,是一個“可計算的物理空間”:球被扔出去會下落,門被推開會有阻力,地板存在摩擦力。
物理正確性,意味著它不依賴任何具體模型架構的演進。無論未來是Transformer、世界模型,還是其他范式,機器人最終都必須在符合真實物理規律的環境中完成學習和決策。
這意味著,一旦底層數據的Scaling Law成立,群核的價值會被指數級放大。它不需要押注“哪一個模型會贏”,它押注的是所有模型,都必須進入“道場”。
如果說群核解決的是“數據從哪里來”,那么往上一層,便是百度在做的事情:回答“數據如何流動”。
百度具身智能數據超市,是一個中立的數據流通平臺。它不參與機器人本體,也不直接生產數據,而是試圖把分散在不同企業、不同場景中的數據“組織起來”。
![]()
根據官方披露,目前具身智能數據超市已經接入十余家具身智能企業的數據,總量超過1000萬條。同時推出了“繁星計劃”,計劃招募約100家場景方開放真實空間。
更值得一提的是它的“重服務模式”。“百度數據超市上的數據需專業處理,暫無免費上傳機制。我們有高T工程師團隊免費支持客戶,僅收取算力和存儲費用。”百度智能云泛科技創新行業銷售總監徐良在采訪中提到。
這意味著,它并非一個簡單的撮合平臺,而更像一個帶有強加工能力的“數據代工廠”:數據需要被清洗、標注、結構化,才能進入可用狀態。
與此同時,百度還在補另一塊更底層的基礎設施:數據可信流通。包括云網端安全體系,以及面向出海的合規能力。“目前百度聯合頭部客戶開發的云網端安全方案,已經被應用到出口歐洲的產品中。”徐良補充道。
如果用一個更直觀的類比,百度更像是具身智能時代的“Visa”:它不直接參與交易,但決定了數據這筆“交易”,能不能發生、如何發生。
再往上走,是京東。
其實京東的價值有被嚴重低估。上線具身智能數據交易平臺,發動60萬人采集1000萬小時人類真實場景視頻數據,在亦莊馬拉松機器人賽事中,京東又作為AI科技戰略合作伙伴,提供了運輸、救援、換電、維修等全周期保障。
賽事直接帶動了超過20個機器人品牌銷售額翻倍,相關搜索量激增300%。
![]()
表面看是一次品牌和供應鏈能力的展示,但它真正解決的問題,其實在數據層。具身智能里,有一類數據天然無法復用:運動控制數據。它高度綁定具體本體、具體結構,幾乎不具備跨平臺遷移能力,也就很難像互聯網數據一樣形成規模化流通。
這恰恰是Scaling Law最難成立的一層。京東做的事情,是繞過“數據本身的可復用性”,直接讓這類數據在真實世界中產生商業價值:通過賽事、銷售、服務,把機器人推入高頻使用場景,讓每一次真實運行,都變成一次有效的數據積累。
![]()
當數據本身無法流通時,就用“交易”去放大它的價值。價值驅動需求,需求再反過來推動數據回流,這是在Scaling Law不成立的頂層,少數可行的商業閉環。
群核在最底層,提供“可以無限擴展的道場”;百度在中間層,打通“數據如何被加工與流通的管道”;京東在最上層,搭建“讓數據產生價值的真實舞臺”。
三者分別押注數據供給金字塔的不同層級,彼此錯位,卻又環環相扣。
![]()
協議之爭與終局想象
PHYAgentOS論文中有一句話讓我印象很深:Docs as API,不是讓 Agent 和硬件系統通過大量隱式消息、臨時狀態和難以追蹤的接口直接耦合,而是通過結構化文檔進行交互,核心載體包括 Markdown 文件。
![]()
我覺得這指向了具身智能數據之戰的終局想象:標準化協議,即不同數據層,如何被同一個系統理解?
底層是空間與視覺,中層是任務與流程,頂層是具體本體的控制信號,它們的數據結構、表達方式、甚至時間尺度都完全不同。
如果沒有一套統一的“解釋機制”,這些數據就只能各自為政。
問題的核心從“數據供給”,轉向“協議連接”。不過現狀是,大家都在做自己的標準,構建自己的“局部最優”。
小鵬、阿里、騰訊接連發布了各自的世界模型,英偉達的Cosmos已經在工業仿真上建立了壁壘,李飛飛的Marble API已對外開放,楊立昆的JEPA雖然還在科研期,但代表了最遠期的顛覆可能。
各家有各自的數據格式、仿真環境與API體系,背后綁定的是不同的技術路線與產品假設。
短期看,這種分裂不可避免,因為沒人會在早期階段主動放棄對體系的控制權。同時也意味著,協議層的統一,會比想象中更難。
它不會是一蹴而就的標準落地,更可能是一個漫長的博弈,在效率、控制力與生態開放之間反復拉扯,直到某種“足夠好”的共識形成。
![]()
結尾
榮耀「閃電」用50分26秒證明了機器人的“物理極限”已經超越了人類。
當未來有一天,我們讓機器人去做一件沒在數據集里出現過的事,比如拿起一個從沒見過形狀的杯子,用從沒標注過的方式,把它放進從沒仿真過的架子里,它還能“像人一樣”完成,具身智能才算“走到了終點。”
我相信,那一天會比我們想象的更近。
本文來自微信公眾號“奇點研究社”,作者:奇點團隊,36氪經授權發布。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.