從炫技到量產(chǎn)，具身智能要突破哪些瓶頸？

2026-01-28 17:02:39　來源: 腦極體

天津舉報

分享至

2025年年初，機器人在春晚舞臺顫顫巍巍，被網(wǎng)友調(diào)侃“像看到了我太奶”，等到年底，已能街舞唱跳、動作流暢。2025年具身智能的能力表現(xiàn)與大眾關(guān)注度，都經(jīng)歷了一場飛躍。

但真正身處具身智能一線的從業(yè)者，卻清晰地看到，熱鬧之下，無形的斬殺線或?qū)⑻蕴舸罅客婕摇?/p>

美國明星具身智能公司Physical Intelligence的研究者曾公開表示，“它們?nèi)越?jīng)常失敗，目前狀態(tài)更像是‘演示就緒’而非‘部署就緒’”，并總結(jié)了落地難的具體難關(guān)，包括復(fù)雜任務(wù)執(zhí)行能力、環(huán)境泛化能力與高可靠性性能。

在開發(fā)者社區(qū)，類似的困境比比皆是。經(jīng)常見到工程師發(fā)帖求助：“我們的具身智能機器人在真實環(huán)境中總是撞墻，仿真里明明表現(xiàn)完美！”

解決起來卻十分困難，因為提升可靠性，意味著指數(shù)級增長的訓(xùn)練輪次和算力投入。這就像一場障礙賽，每一關(guān)都可能擋住開發(fā)者的腳步。

開發(fā)者迫切需要一個更高的起跳點，一個能低成本啟動、快速迭代、真實可落地的基座。

值得關(guān)注的是，近期一項來自中國團隊的開源進展，正在為這一困局提供切實可行的出口。由靈波科技發(fā)布的具身智能基座模型 LingBot-VLA，已在星海圖、松靈等多家國產(chǎn)本體廠商的真實機器人上完成端到端驗證。在統(tǒng)一的真機評測基準下，其整體任務(wù)成功率與泛化表現(xiàn)已超越Physical Intelligence的 Pi0.5，后者長期被視為行業(yè)性能標桿。

而LingBot-VLA 的泛化能力，部分源于其對高質(zhì)量三維空間信息的深度融合，這是LingBot-Depth 模型所提供的核心能力，也在1月27日同步開源。

不難看到，開源，正在成為改變行業(yè)的一股關(guān)鍵力量，如何幫助開發(fā)者更輕松地通關(guān)？

2025年被業(yè)內(nèi)人士稱為人形機器人的量產(chǎn)元年，但智源研究院院長王仲遠卻指出，具身智能距離真正的“ChatGPT時刻”尚有距離。

真正的“ChatGPT時刻”，需要全球上億臺機器人每天在真實環(huán)境中產(chǎn)生動作、觸覺、決策等全模態(tài)數(shù)據(jù)。而當前具身智能每個任務(wù)都要單獨訓(xùn)練，每臺機器人都是孤島，每次部署都從零開始，陷入專用性強、泛化性弱、效率低的死循環(huán)。這種模式難以規(guī)模化。

具體來說，行業(yè)正被三條斬殺線所圍困：

一、數(shù)據(jù)荒。王仲遠院長曾提過，即使是幾十萬小時的數(shù)據(jù)，也稱不上海量，遠遠沒有達到引發(fā)智能涌現(xiàn)的量級。傳統(tǒng)仿真環(huán)境構(gòu)建成本高、效率低，而真實世界數(shù)據(jù)采集又極其困難。具身智能企業(yè)普遍將數(shù)據(jù)視為核心資產(chǎn)，私有數(shù)據(jù)集高度封閉，而開源社區(qū)的數(shù)據(jù)集多局限于簡單任務(wù)，復(fù)雜場景數(shù)據(jù)稀缺且缺乏統(tǒng)一質(zhì)量標準。缺乏高質(zhì)量真機數(shù)據(jù)，成為中小團隊的第一道斬殺線。

二、效果差。由于數(shù)據(jù)有限，大量開源模型只在仿真環(huán)境中跑分，但仿真數(shù)據(jù)無法完全替代真實數(shù)據(jù)。一旦部署到真機，性能斷崖式下跌。加上一些模型只開放權(quán)重，后訓(xùn)練代碼是閉源的，開發(fā)者拿得到也用不好。泛化性太差，導(dǎo)致機器人的性能表現(xiàn)和成功率不佳，產(chǎn)品競爭力低下，構(gòu)成第二道斬殺線。

三、高成本。讓機器人在物理世界中“高效犯錯”，需要海量試錯。但每一次試錯，都是真金白銀。某具身智能創(chuàng)業(yè)公司曾測算，“訓(xùn)練一個倒水動作，需要一臺超算運算千萬億次……光是模擬人晃動杯中的水這一個動作，所涉及的計算量可能就需要一臺超級計算機算十分鐘”。高昂的試錯成本與開發(fā)周期，會讓很多企業(yè)在成功之前就被斬殺。

不解決這些問題，機器人的規(guī)模量產(chǎn)與商業(yè)成功就十分遙遠。下面我們就來聊聊，星海圖、松靈等多家本體廠商的解法。

從公開Demo視頻來看，星海圖、松靈等廠商基于開源基座LingBot-VLA，實現(xiàn)了幾個飛躍：

從“一機一腦”到“通用智能大腦”，顯著降低了數(shù)據(jù)門檻。傳統(tǒng)模式下，不同構(gòu)型機器人需要大量采集數(shù)據(jù)訓(xùn)練模型。LingBot-VLA實現(xiàn)了跨本體復(fù)用，同一模型經(jīng)過少量數(shù)據(jù)微調(diào)可控制不同構(gòu)型機器人，執(zhí)行剝檸檬、疊毛巾等上百種任務(wù)，減輕中小團隊的開發(fā)難度。

從“演示就緒”到“部署就緒”。

正如Physical Intelligence的研究者所說，機器人目前狀態(tài)更像是“演示就緒”而非“部署就緒”。傳統(tǒng)模型只能執(zhí)行單一指令，真實部署時性能大跌。LingBot-VLA具備快速適應(yīng)不同任務(wù)的能力，無論是抓取、放置，還是疊衣服、擦拭桌面，同一個模型全部應(yīng)對，解決了專用性強、泛化性弱的問題。

LingBot-VLA在GM-100真機評測基準（覆蓋3類主流雙臂機器人、100項復(fù)雜任務(wù)、每任務(wù)130次真機試錯）上，平均成功率（SR）達17.30%，超越Pi0.5的13.02%。比指標更重要的，是多家本體廠商在真實硬件上完成了對LingBot-VLA的驗證，這意味著行業(yè)終于有一個不吹牛、能落地的模型了。

從燒錢試錯到低成本迭代。LingBot-VLA在8、16、32、128和256張GPU配置下，訓(xùn)練效率都超越了OpenPI和DexBotic。而且GPU數(shù)量越大，優(yōu)勢越突出。也就是說，基于LingBot-VLA可以大幅縮短訓(xùn)練周期，降低開發(fā)的綜合成本。省下的算力和時間都是錢，意味著企業(yè)和開發(fā)者可以反復(fù)迭代、快速試錯，在激烈的市場競爭中搶占先機。

這是業(yè)內(nèi)首次出現(xiàn)一個真正面向通用操作、跨本體部署的通用智能底座，也是具身智能迎來ChatGPT時刻的先決條件。

不少原本觀望的開發(fā)者，在看到星海圖、松靈等廠商的真機驗證之后，都紛紛表示要去GitHub/Hugging Face找代碼試試。

那么，LingBot-VLA到底是怎么做到的？

Physical Intelligence的Pi0.5一直是具身智能領(lǐng)域的性能標桿，LingBot-VLA在性能與效率上顯著超越Pi0.5，標志著開發(fā)者從此有了一個強大、高性能的開源武器。通過論文，我們來詳細拆解這把武器有哪些不同。

首先也最難的是跨本體，不同機器人在關(guān)節(jié)數(shù)量、自由度、末端執(zhí)行器、傳感器布局上天差地別，如何屏蔽多元且復(fù)雜的硬件差異？

LingBot-VLA 的解法是，接收到視覺圖像、自然語言指令、機器人當前狀態(tài)等信息之后，不直接預(yù)測關(guān)節(jié)指令，把這些信號都映射到統(tǒng)一的操作空間（Unified Action Space），生成統(tǒng)一的動作向量。

不同本體的關(guān)節(jié)指令，則由輕量級模塊或廠商驅(qū)動層完成，主干模型無需知道硬件細節(jié)。

這就像人體，由大腦來統(tǒng)一處理信息，并生成倒水、開門等操作意圖，由神經(jīng)系統(tǒng)轉(zhuǎn)化為具體的肢體動作，無論高矮胖瘦或人種差異，各種身體結(jié)構(gòu)都能執(zhí)行。LingBot-VLA就是這樣的通用大腦，只輸出通用操作指令，硬件差異由下游模塊處理。

LingBot-VLA這顆大腦的決策能力，建立在空間感知基礎(chǔ)之上。這就要提到最近開源的 LingBot-Depth模型。

不同于普通RGB輸入，LingBot-VLA在訓(xùn)練與推理中顯式融合了由LingBot-Depth生成的高質(zhì)量、度量準確的深度圖。該深度模型采用創(chuàng)新的“掩碼深度建模”（MDM）技術(shù)，能在透明、反光等挑戰(zhàn)性場景中補全缺失深度，并在NYUv2、ETH3D 等基準上達到SOTA。更重要的是，它輸出的深度具備真實物理尺度，使機器人能進行精確的距離判斷與操作規(guī)劃，讓LingBot-VLA更好地看清物理世界，并與之交互。

那跨任務(wù)的強大泛化能力，又是怎么實現(xiàn)的呢？

傳統(tǒng)VLA模型只能執(zhí)行訓(xùn)練時見過的指令組合，比如沒訓(xùn)練過擦桌子，即使包含抓抹布、移動手臂等子動作，模型也會失效。LingBot-VLA的突破在于，將語言指令動態(tài)解析為結(jié)構(gòu)化動作序列，并與視覺感知對齊。

這就像是人類的舉一反三。主干模型建立了“物體－指令－動作”的關(guān)聯(lián)，Action Expert負責(zé)預(yù)測動作序列。當接收到擦桌子的指令時，哪怕以前沒有訓(xùn)練過，也可以復(fù)用抓起毛巾、移動手臂等子技能，進行重組和適配，遷移到其他任務(wù)上，讓任務(wù)泛化不再是零樣本猜測。

在跨本體、跨任務(wù)的基礎(chǔ)上，LingBot-VLA 在訓(xùn)練層面做了系統(tǒng)性優(yōu)化，引入課程學(xué)習(xí)和稀疏獎勵蒸餾，數(shù)據(jù)效率大幅提高。研究者從大規(guī)模真實世界基準測試集GM-100中選擇了8個具有代表性的任務(wù)，在AgibotG1平臺上進行了實驗。

結(jié)果顯示，在有限預(yù)算下，LingBot-VLA的Progress Rate（進度率）和 Success Rate（成功率）都優(yōu)于Pi0.5。

正是上述工作與創(chuàng)新，使得LingBot-VLA能在更低數(shù)據(jù)、更少算力的條件下，達到比Pi0.5更強的真機泛化能力，成為一個為真實世界部署而生的通用智能基座。而這，正是本體廠商跨越斬殺線的關(guān)鍵。

在智能產(chǎn)業(yè)中，開源開放是公認的重要力量。

以AIGC為例，Stable Diffusion開源之前，高質(zhì)量圖像生成模型如DALL·E和Midjourney等閉源模型，使用受限，普通開發(fā)者無法本地部署或二次開發(fā)。SD開源后，催生了完整的生態(tài)體系，AIGC因此迎來爆發(fā)式增長。

再反觀閉源公司，OpenAI不開源的做法，被大量開發(fā)者嘲諷為“closeAI”，而曾以閉源軟件帝國著稱的微軟，如今不僅深度擁抱開源，更戰(zhàn)略性收購了開源社區(qū)GitHub。

為什么開源對AI乃至AGI如此重要，科技巨頭和開發(fā)者都十分重視？根本原因在于，AGI的復(fù)雜性遠超單一企業(yè)或?qū)嶒炇业哪芰Ψ秶枰蜷_發(fā)者、研究者和產(chǎn)業(yè)伙伴，在數(shù)據(jù)、算法、工具和場景上的持續(xù)協(xié)同與迭代。

具體到具身智能領(lǐng)域，此前，宇樹科技、優(yōu)必選等廠商各自開發(fā)了不兼容的操作系統(tǒng)，制約了產(chǎn)業(yè)生態(tài)的協(xié)同發(fā)展。這種背景下，行業(yè)迫切需要有能力的開源貢獻者，讓千千萬萬開發(fā)者不必重復(fù)造輪子，能站在巨人的肩膀上共同探索AGI的上限。

從能力層面看，LingBot-VLA作為螞蟻在AGI領(lǐng)域的又一成果，具備可復(fù)現(xiàn)、可落地、高性能等特點，且經(jīng)過真機檢驗，能夠支持普通開發(fā)者，快速構(gòu)建自己的具身智能體，降低創(chuàng)新門檻，釋放集體創(chuàng)造力，為行業(yè)共建提供了基礎(chǔ)。

從戰(zhàn)略意愿看，自從LLM爆發(fā)以來，螞蟻一直是全球領(lǐng)先的大模型開源貢獻者，以開源開放模式探索AGI，為此打造InclusionAI 開源社區(qū)，系統(tǒng)性地釋放了包括基礎(chǔ)大模型百靈、通用 AI 助手靈光、具身智能靈波在內(nèi)的核心技術(shù)。LingBot-VLA是螞蟻集團開源的第一款具身智能基座模型，也是這一戰(zhàn)略在具身智能領(lǐng)域的關(guān)鍵實踐。

從持續(xù)貢獻的角度看，LingBot-VLA不僅開源了模型，還涵蓋了后訓(xùn)練工具鏈，使得開發(fā)者可以更方便地進行微調(diào)和部署，可謂誠意滿滿。LingBot-Depth緊隨其后開源，進一步豐富了技術(shù)棧，這種連續(xù)性的開源動作，也讓開發(fā)者更有信心加入技術(shù)路線，繁榮生態(tài)。

所以，螞蟻所做的，是搭建起一座連接前沿研究與產(chǎn)業(yè)落地的開源橋梁，而這正是具身智能產(chǎn)業(yè)從炫技到量產(chǎn)，從“演示就緒”到“部署就緒”的關(guān)鍵基礎(chǔ)設(shè)施。

正如Stable Diffusion的開源徹底引爆了AIGC生態(tài)，LingBot-VLA正為具身智能帶來類似的轉(zhuǎn)折，觸發(fā)具身智能的“Stable Diffusion時刻”。

對開發(fā)者來說，當別人還在為數(shù)據(jù)匱乏、算力吃緊、泛化難而掙扎的時候，不妨以LingBot-VLA為起點，完成向真實世界的飛身一躍。

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.