網易首頁 > 網易號 > 正文申請入駐

把具身智能拉回真實世界：EAIDC與一場“真機評測”的開始｜甲子光年

2026-04-01 18:51:40　來源: 甲子光年

北京舉報

分享至

EAIDC助力具身智能從技術演示邁向工程落地。

作者｜拾月

編輯｜栗子

如果說具身智能的浪潮由AI帶動，那其發展脈絡，也在不可避免地沿著AI的既有范式展開。

尤其是在模型評測上，這種慣性已經十分明顯。過去一段時間，具身模型的能力驗證，很大程度上延續了大語言模型的路徑——在虛擬環境中進行評測，在標準化任務中進行橫向對比。

但問題也正在這里逐漸顯現。

仿真環境可以加速迭代，卻難以還原真實世界的復雜性。sim2real的GAP始終存在，使得模型在“仿真中成立”，并不等同于在現實中可用。正如業內多位從業者所指出的，具身智能不同于純數字智能，它的能力必須在物理世界中被反復驗證，而非通過大規模虛擬試錯完成收斂。

自變量聯合創始人兼CTO王昊也曾提到，長期依賴仿真評測，不可避免會掩蓋模型能力的真實邊界。放眼國內外，頭部模型廠商已經逐漸形成共識：評測，正在成為具身智能發展的關鍵瓶頸，而行業迫切需要一個“真機演武場”。

在剛剛落幕的EAIDC 2026上，這樣一個“演武場”，第一次被系統性地搭建出來。

1.一個“懂模型”的團隊，做了一場不一樣的比賽

如果僅從形式上看，EAIDC是一場開發者大賽。但從賽制設計來看，它更像是一場由“模型視角”反推出來的能力測試。

這種差異，體現在幾個關鍵層面。

首先，是對模型路徑的開放。比賽并沒有限定模型，參賽者可以自由選擇不同的開源具身模型，包括各類國內外VLA 。這一設定的背后，并不是“降低門檻”，而是盡可能提升開發者的創新性和分辨能力。

其次，是對數據范式的重新處理。比賽時自變量提供真機數據、無本體數據參與訓練，讓開發者基于自身思考和研究方向，選擇數據配比。此時，開發者不再是主觀判斷哪種數據更好，而是透過數據訓練后的模型能力得出結論。真正被檢驗的，不是數據路線對不對，而是數據是否能夠在真實環境中支撐模型閉環。

再往下，是對能力邊界的刻意放大。任務設計并非簡單拼接，而是圍繞抓取、語言理解、精細操作與長時序決策等核心能力展開，不同任務設置了不同權重，最終成績不僅看步驟得分，也綜合考量成功率和泛化表現，這種結構，使得比賽不只是考察“能不能做”，而是直接指向模型能力的上限“能不能落地”，如何跟產業應用結合。

相比于普通的“抓取拿放”，現在業內正缺乏這種復雜交互行為。據自變量機器人合伙人兼算法負責人甘如怡回憶稱：選手在比賽最初面對“將環套在柱子上”任務成功率只有20-30%，后逐漸提升至60-70%，“拼寫單詞”任務也從極低成功率提升至40-50%。正是在這種高難度任務的“折磨”中，模型能力邊界顯然已不斷外擴。

更關鍵的是泛化機制的引入。通過類似AB卷、隨機環境切換等設計，考驗泛化性。比賽的B卷在制度層面限制“刷題式優化”，迫使模型面對未知條件。這種機制，本質上是在把“泛化能力”從附加項，變成核心指標。如果說以往比賽更多是在驗證“已知能力”，那么EAIDC更接近在測試“未知邊界”。

值得一提的是，為了解決選手的后顧之憂，本次比賽使用的機械臂為自變量機器人自主研發的高性能六軸機械臂，此外自變量還提供算力支持。其中，機械臂專為AI而生，具備高精度、高響應的硬件性能，能更好復現模型能力。三天每天24小時的現場高強度運行。無論是大規模數據采集，還是模型推理部署，這套機械臂硬件系統都展現出穩定的承壓能力，為參賽團隊提供了可靠、一致的硬件保障，讓選手能夠專注于算法優化與任務實現。

這種設計和全套設施的提供并非偶然。只有真正理解模型在真實世界中的失效方式的具身智能企業，才會有這類具有導向性的賽制設計，才會刻意把這些不確定性寫進規則，并且懂得開發者在模型訓練中，哪些受制于硬件、數據的窘境。

2.當模型搭上“真機”，一切都會被放大

相比賽制上的巧思，這場比賽更本質的變化，其實只有一個：具身智能所有能力，必須在真機上成立。

這聽起來像是一個直觀的設定，但在具身智能領域，卻是一個遲遲未被大規模實現的前提。

在EAIDC現場，上百條機械臂同時運行，所有任務均在真實物理環境中完成。從數據采集、模型訓練到部署與評測，形成一個完整閉環，并在短時間內完成高頻迭代。

在這樣的環境下，一些長期被“仿真掩蓋”的問題被迅速放大。例如，在抓取任務中，細微的位置偏差與接觸不確定性，會直接影響成功率；在語言理解與操作結合的任務中，指令歧義與視覺誤差疊加，會迅速放大系統不穩定性；而在長時序任務中，誤差的累積效應，則往往成為決定成敗的關鍵。

當前國內外頂級模型廠商都認可模型評測正成為重要瓶頸。就如同Physical Intelligence創始人兼CEO Karol Hausman在最近的采訪中所強調的：“機器人的所有行為都需要在現實世界中完成，無法像大語言模型那樣，通過數百萬次的快速試錯完成模型更新。這一過程耗時過長。因此，我們必須攻克機器人的評估難題”。

而自變量聯合創始人兼CTO王昊觀點更直接，具身智能的核心是交互學習，只有通過持續測試、觀察與反饋，讓機器在真實物理世界中解決復雜性問題。

與其說是自變量和其他單位一起辦了場真機比賽，不如說具身智能苦仿真評測久矣。仿真評測雖便捷，卻難以捕捉真實世界的力學反饋、遮擋、材質差異等變量；而真機評測讓模型直接面對這些挑戰，推動從Demo級“炫酷”向生產力級可靠性的轉變。

從這個角度看，“真機評測”并不是比賽形式的升級，而是評價體系的轉向：從可控環境中的性能比較，轉向真實世界中的能力驗證。

這也是具身智能從“技術展示”走向“工程能力”的分水嶺。

3.兩場圓桌為行業畫像，

具身智能需要“賽產學研”協同

如果說比賽本身提供的是一個“觀察窗口”，那么兩場圓桌討論，則給出了更直接的行業切片。

在第一場圓桌中，嘉賓圍繞數據、模型與商業化路徑進行了討論，雖然并沒有形成統一答案，但一些共識正在逐漸浮現。

首先，是對最火熱的“數據”的再認識。與大模型不同，具身智能的數據獲取成本高、閉環難度大，這使得“數據規模”不再是唯一指標。多位嘉賓提到，未來的數據路徑將是分層的：低成本數據用于預訓練，高質量真機數據用于微調，而如何在效率與效果之間取得平衡，將成為核心競爭力。換句話說，當前數據使用上絕對不是“非此即彼”，而是強調一種“合理配比”。

自變量王昊在群訪中表示，“我們一直在堅持真實世界的數據采集，所有交互式學習和強化學習，最重要的數據來自于真機，我們會持續堅持。另外像穿戴式的、靈巧手的手套，我們很早就開始做，只是在整個規劃當中，這幾類數據要形成非常好的配比。2026年會有一個很大的變化，我們會越來越依賴于人的穿戴式或者Ego-Centric的方式采集數據，這是一個大趨勢。但是永遠要和真實機器人形成很好的配比，這個數據策略會決定以后模型的上限。”

其次，是對模型路徑的現實判斷。盡管VLA仍是主流，但其局限性也在逐漸顯現，包括算力消耗、物理建模不足等問題。行業開始探索多模態融合、世界模型等路徑，但整體來看，模型結構尚未收斂。

相比具體路線，自變量更強調一點：所有模型路徑，最終都需要通過真實評測來決定方向。這也是其推動真機比賽的重要原因——評測本身，正在成為模型演進的“指揮棒”。

如果說以上討論仍停留在“技術與產業”的層面，那么更深層的問題，其實出現在結構上——產學研的協同，正在成為具身智能的隱性瓶頸。

在第二場產學研圓桌中，一個關鍵詞被反復提及：“割裂”。

學術界擁有模型與算法創新能力，但缺乏真機系統與數據閉環；產業界掌握場景與工程能力，卻往往需要在效率壓力下快速推進，難以進行長期探索；而開發者與開源社區，則處在兩者之間，既缺少完整工具鏈，也難以復現真實系統。

這種錯位帶來的直接結果，是重復造輪子與創新效率的下降——學術成果難以落地，工程經驗難以沉淀為通用方法，開源也往往停留在“可見但不可用”的狀態。

可以說，具身智能已經從單點技術問題，演變為一個典型的系統工程問題，而系統工程，天然要求深度協同。

也正是在這一背景下，自變量的角色開始變得更加清晰。無論是通過比賽提供統一的真機環境與評測體系，還是開放數據、模型與工具鏈，本質上都在嘗試解決同一個問題：讓不同角色在同一個閉環中協作。

換句話說，這場比賽不僅是在評測模型，也是在測試一種新的協同方式。當學術、產業與開發者被放入同一個真實環境中，能力不再孤立存在，而開始相互放大。而這才是具身智能真正走向規模化之前，必須補上的那一塊拼圖。

也正是在這樣的邏輯下，EAIDC的意義變得更加清晰——“具身智能平權時刻”。正如自變量創始人兼CEO王潛所說，具身智能門檻極高，必須依賴大規模開發者共同參與，才能形成真正有效的生態。而比賽所提供的，正是一套讓開發者快速進入、在真實約束中驗證并持續迭代的基礎設施。

從這個意義上看，EAIDC不只是一次賽事，而是具身智能走向規模化之前，一個重要的起始點。

（封面圖來源：自變量）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.