網易首頁 > 網易號 > 正文申請入駐

具身智能數據戰：群核建道場，百度鋪管道，京東搭舞臺

2026-04-24 16:29:09　來源: 奇點研究社

廣東舉報

分享至

表面是數據之爭，實則是數據如何被連接與流動的規則之爭。

文｜孟雯

最近具身智能的數據戰打得火熱。

前有騰訊發布Tairos具身智能開放平臺，后京東又上線了具身智能數據交易平臺，還要發動60萬人采集1000萬小時。

不久前，百度也推出具身智能數據超市，想要解決困擾行業已久的數據質量參差不齊、格式標準不一、使用成本高等痛點。

上周亦莊的人形機器人馬拉松大賽，更是把具身智能的熱度推向高潮。

榮耀機器人「閃電」跑完21公里，凈用時50分26秒，打破了人類男子半馬世界紀錄。一時間，評論區沸騰，“歷史性時刻”，“部署態元年”到來！

但仔細研究，會發現這更像一場“機械能力”的突破，而非“AI能力”的突破。「閃電」之所以能跑出這個成績，靠的是 0.95 米大長腿、自研液冷系統、電機關系從 420Nm 提升到 600Nm。

這些都是工程能力的積累，是榮耀把過去十幾年消費電子里的輕量化和結構設計能力，遷移到了機器人上。如果把同一套算法塞進另一臺機器人，大概率跑不出這個成績。

問題不在算法，而在“具身智能”這個詞，裝了太多含義。

連續跑21公里是一件事；能幫你干活，是另一件事；能在產線上連續工作8小時不停機，又是完全不同的一件事

而這三件事，對應的是三種完全不同的數據需求。

“缺數據”喊了三年

但沒人說清到底缺什么

“整個互聯網上能訓練的數據一共就沒有多少T，現在已經快不夠用了。”國內某頭部大模型廠商創始人在采訪中說，“現在大家更多是用檢索增強來落地B端，C端還是需要基座模型的進化才能突破。”

這是大模型（LLM）領域的真實焦慮。

如今，LLM的“數據焦慮”正蔓延到具身智能。去任何一場機器人相關的論壇，幾乎所有人都在說，數據不夠，是最大的瓶頸。

但如果再往下追問，到底缺的是什么數據？答案卻千差萬別。

LLM之所以能夠跑通規模定律（Scaling Law），有一個不能忽視的大前提：互聯網文本本身就是一個“閉環系統”。

一句話里同時包含意圖、語義、甚至隱含的推理路徑。模型要做的，便是不斷從這些閉環中提取規律。

所以你只需要“多喂”，模型“悟”得越多，能力就會自然涌現。

但具身智能沒有這樣的閉環。

你可以采集100萬小時的人類生活視頻，但里面并沒有機器人應該如何控制關節的信息；你可以構建1000萬個仿真場景，但它們往往缺少真實世界里的噪聲與長尾分布；你也可以通過遙操作積累10萬條任務數據，但一旦更換機器人本體，遷移效果就會明顯打折。

具身智能的數據，不是“被收集”的，而是在物理世界中被“制造”的。

而且不同類型的數據，對“規模”的反應也完全不同。所以把LLM的那一套邏輯原封不動搬過來，本身就是一種誤判。

如果把具身智能的數據拆開來看，會更清晰一些。它大致可以分為三類：運動控制、場景理解與任務決策。

運動控制數據告訴機器人“怎么動”，比如關節角度、力矩、運動軌跡等，這類數據高度綁定特定本體，天然不具備規模化復用能力。

場景理解數據告訴機器人“看到了什么”，比如視覺、空間、物體識別等，因為人看到的世界，和機器人看到的世界，在統計意義上是相似的，所以這類數據是目前唯一有可能跑通Scaling Law的層級。

最難的是任務決策數據，它要告訴機器人“該怎么辦”，這是整個體系里最稀缺的一類數據，因為它要求三件事同時成立：感知、判斷、執行，而且必須同步標注。

這三類數據，有些可以靠堆量解決，有些則完全行不通，換言之，在具身智能領域，Scaling Law不是“失效了”，而是“分層成立”。

行業里其實已經有人描述過這個問題。戴盟機器人接受媒體采訪時，稱具身智能的數據供給存在一個金字塔結構。

頂層是機器人本體數據，最精確，但最難擴展；中層是可部署采集數據，在精度和規模之間做平衡；底層是人類視角的大規模數據，最容易放量。

底層數據，可以靠“規模化”堆出來，負責訓練“認知”。頂層的數據，必須貼著本體打磨，負責訓練“執行”必須精細打磨，不存在“多多益善”。

這也是為什么，單純談“數據規模”已經不再有意義，關鍵在于“你在放大哪一層”。

沿著這個思路，學術界也開始嘗試給出新的解法。中山大學發表的開源項目PHYAgentOS，把認知層與執行層解耦，即大模型做認知入口，不做最終執行者。

這背后對應的，是一套新的數據分工方式：底層數據訓練認知能力，可以跨本體泛化；頂層數據訓練執行能力，始終綁定具體本體。

一旦這一結構成立，數據的使用效率會發生質變：不同層的數據，不再被強行塞進同一個模型里消化。

解決了“數據從何而來”，還要看數據如何“被消化”，這就涉及到當前行業里的幾條主流的技術路線。

VLA最常見，也最主流，它把視覺、語言、動作全部壓進一個模型，輸出控制信號，代表玩家是RT-2和π0，這一路線需要“圖像+指令+動作”三者同時存在的數據，缺一不可，采集成本很高，也最難規模化。

第二條路徑，是分層大模型。用LLM做高層規劃，再調用VLA或傳統控制算法執行。它犧牲了一部分端到端的一致性，但換來了更高的數據利用效率。典型代表包括谷歌的Gemini Robotics、北大的RoboOS，以及前面提到的PHYAgentOS。

第三種是當前最受關注的世界模型路線，如DreamDojo、PAR/PhysGen，強調直接從視頻里“悟”出物理規律，以及零動作預訓練，代表如國外的英偉達，國內的拓元智慧。

但不同玩家對同一路線也有著不同的理解。拓元智慧選擇在隱層空間（而非視頻畫面）做世界推演。

拓元智慧聯合創始人陳添水在接受奇點采訪時提到：“英偉達的One Action Model主要指建模action（動作），拓元同時建模action和physical，隱層特征（幾千維）比視頻像素（200萬像素）更高效，且能更好地支持action預測。”

物理token自回歸的運作方式：預測未來的幀與動作聯合體，與真實環境同步演化

圖靈獎得主楊立昆提出的JEPA同樣屬于這一范式，但它更偏向“預測式學習”，即在抽象空間里推演未來狀態，學習因果關系。

寫到這里，我們會發現，在具身智能領域，脫離模型架構去談“高質量數據”，本身并沒有太大意義。

零次方聯合創始人馬曉龍采訪中的話，精準點出了本質：“數據有沒有效，本質是匹配問題。對你的模型有用，對我的架構可能毫無意義，第三方換了場景又可能完全沒用。”

群核建道場，百度鋪管道，京東搭舞臺

帶著這樣思路再來看最近大廠的數據之爭，就會發現他們雖然都在“搶數據”，但搶的，根本不是一個東西。

差異不在“量”，而在“層”。

最底層，是群核科技。群和科技占據的是Scaling Law最可能成立的那一層：“物理正確”的空間數據。

根據招股書，群核已經積累了5億個3D室內場景、4.8億個3D模型，這些數據并非“采集”，而是來自真實商業使用中被反復調用、修改、驗證的結果。

群核科技推出的InteriorNet數據集（包含約1億3千萬圖像數據）

基于這些數據構建的SpatialVerse，是一個“可計算的物理空間”：球被扔出去會下落，門被推開會有阻力，地板存在摩擦力。

物理正確性，意味著它不依賴任何具體模型架構的演進。無論未來是Transformer、世界模型，還是其他范式，機器人最終都必須在符合真實物理規律的環境中完成學習和決策。

這意味著，一旦底層數據的Scaling Law成立，群核的價值會被指數級放大。它不需要押注“哪一個模型會贏”，它押注的是所有模型，都必須進入“道場”。

如果說群核解決的是“數據從哪里來”，那么往上一層，便是百度在做的事情：回答“數據如何流動”。

百度具身智能數據超市，是一個中立的數據流通平臺。它不參與機器人本體，也不直接生產數據，而是試圖把分散在不同企業、不同場景中的數據“組織起來”。

根據官方披露，目前具身智能數據超市已經接入十余家具身智能企業的數據，總量超過1000萬條。同時推出了“繁星計劃”，計劃招募約100家場景方開放真實空間。

更值得一提的是它的“重服務模式”。“百度數據超市上的數據需專業處理，暫無免費上傳機制。我們有高T工程師團隊免費支持客戶，僅收取算力和存儲費用。”百度智能云泛科技創新行業銷售總監徐良在采訪中提到。

這意味著，它并非一個簡單的撮合平臺，而更像一個帶有強加工能力的“數據代工廠”：數據需要被清洗、標注、結構化，才能進入可用狀態。

與此同時，百度還在補另一塊更底層的基礎設施：數據可信流通。包括云網端安全體系，以及面向出海的合規能力。“目前百度聯合頭部客戶開發的云網端安全方案，已經被應用到出口歐洲的產品中。”徐良補充道。

如果用一個更直觀的類比，百度更像是具身智能時代的“Visa”：它不直接參與交易，但決定了數據這筆“交易”，能不能發生、如何發生。

再往上走，是京東。

其實京東的價值有被嚴重低估。上線具身智能數據交易平臺，發動60萬人采集1000萬小時人類真實場景視頻數據，在亦莊馬拉松機器人賽事中，京東又作為AI科技戰略合作伙伴，提供了運輸、救援、換電、維修等全周期保障。

賽事直接帶動了超過20個機器人品牌銷售額翻倍，相關搜索量激增300%。

表面看是一次品牌和供應鏈能力的展示，但它真正解決的問題，其實在數據層。具身智能里，有一類數據天然無法復用：運動控制數據。它高度綁定具體本體、具體結構，幾乎不具備跨平臺遷移能力，也就很難像互聯網數據一樣形成規模化流通。

這恰恰是Scaling Law最難成立的一層。京東做的事情，是繞過“數據本身的可復用性”，直接讓這類數據在真實世界中產生商業價值：通過賽事、銷售、服務，把機器人推入高頻使用場景，讓每一次真實運行，都變成一次有效的數據積累。

當數據本身無法流通時，就用“交易”去放大它的價值。價值驅動需求，需求再反過來推動數據回流，這是在Scaling Law不成立的頂層，少數可行的商業閉環。

群核在最底層，提供“可以無限擴展的道場”；百度在中間層，打通“數據如何被加工與流通的管道”；京東在最上層，搭建“讓數據產生價值的真實舞臺”。

三者分別押注數據供給金字塔的不同層級，彼此錯位，卻又環環相扣。

協議之爭與終局想象

PHYAgentOS論文中有一句話讓我印象很深：Docs as API，不是讓 Agent 和硬件系統通過大量隱式消息、臨時狀態和難以追蹤的接口直接耦合，而是通過結構化文檔進行交互，核心載體包括 Markdown 文件。

我覺得這指向了具身智能數據之戰的終局想象：標準化協議，即不同數據層，如何被同一個系統理解？

底層是空間與視覺，中層是任務與流程，頂層是具體本體的控制信號，它們的數據結構、表達方式、甚至時間尺度都完全不同。

如果沒有一套統一的“解釋機制”，這些數據就只能各自為政。

問題的核心從“數據供給”，轉向“協議連接”。不過現狀是，大家都在做自己的標準，構建自己的“局部最優”。

小鵬、阿里、騰訊接連發布了各自的世界模型，英偉達的Cosmos已經在工業仿真上建立了壁壘，李飛飛的Marble API已對外開放，楊立昆的JEPA雖然還在科研期，但代表了最遠期的顛覆可能。

各家有各自的數據格式、仿真環境與API體系，背后綁定的是不同的技術路線與產品假設。

短期看，這種分裂不可避免，因為沒人會在早期階段主動放棄對體系的控制權。同時也意味著，協議層的統一，會比想象中更難。

它不會是一蹴而就的標準落地，更可能是一個漫長的博弈，在效率、控制力與生態開放之間反復拉扯，直到某種“足夠好”的共識形成。

結尾

榮耀「閃電」用50分26秒證明了機器人的“物理極限”已經超越了人類。

當未來有一天，我們讓機器人去做一件沒在數據集里出現過的事，比如拿起一個從沒見過形狀的杯子，用從沒標注過的方式，把它放進從沒仿真過的架子里，它還能“像人一樣”完成，具身智能才算“走到了終點。”

我相信，那一天會比我們想象的更近。

本文來自微信公眾號“奇點研究社”，作者：奇點團隊，36氪經授權發布。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

奇點研究社

記錄AI時代變革，見證商業奇點時刻

20文章數 3關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

時尚

游戲

數碼

軍事航空

家居要聞

手機 / 數碼

房產 / 家居

具身智能數據戰：群核建道場，百度鋪管道，京東搭舞臺

漲價浪潮下，DeepSeek推動AI“價格戰”

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

森林狼3比1掘金：逆境中殺出了多孫穆？！

僅次《指環王》的美劇，有第二季

事關新就業群體，中辦、國辦發文

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

自然肌理 溫潤美學

比闊腿褲還時髦？今年夏天一定要有“這條褲子”，減齡又松弛

LOL最吸金戰隊誕生！T1主場坐滿15000人，LPL解說滿臉羨慕

三星Tab S12系列進入固件測試階段 或配10500mAh大電池

伊朗總統：不會在壓力、威脅下進行談判

預售19.38萬元起哈弗猛龍PLUS七座版亮相

自然肌理溫潤美學

三星Tab S12系列進入固件測試階段或配10500mAh大電池