四天開源四個模型,螞蟻靈波直接攤開了一張具身智能的完整底牌。
從【看清】玻璃,到【理解】任務,再到【模擬】世界,最后到【行動】落地 ——一套覆蓋感知、決策與仿真與執行的完整技術棧全集開源。
自1月27日起,螞蟻集團旗下靈波科技(RobbyAnt)發起「開源周」,打出了一套嚴密的組合拳:
起手即是破局,LingBot-Depth 率先亮相,解決了機器人視覺中“看不透”的頑疾;
緊隨其后,LingBot-VLA 接管大腦,讓機器人真正具備了理解抽象指令的通感;
第三天,LingBot-World 構建高保真環境,為機器人打造了一個極低成本的試錯空間;
而在今天,全球首個自回歸視頻-動作模型 LingBot-VA 壓軸登場,讓機器人真正學會“邊推演、邊行動”。
這套全家桶并非功能的簡單堆砌。這四個模型單拎出來,每一個的指標都足以在行業內炸場。
那么,它們究竟強在哪里?
眼睛:破解透明難題,讓機器人“看見不可見”
家居機器人撞上玻璃門,工業機械臂抓不到透明零件,這些行業經典痛點,源于傳統深度相機在透明與反光材質前的功能性失明。
首日開源的LingBot-Depth 選擇了一條巧妙路徑:不依賴昂貴硬件升級,而是通過掩碼深度建模(MDM)算法,讓現有傳感器獲得超越自身規格的感知能力。
研究團隊構建了包含200萬組真實場景數據和100萬組合成數據的訓練集,實現在稀疏深度補全任務中,誤差降低約 47%, 室內場景相對誤差降低超過 70%。
在真機驗證中,啟用LingBot-Depth后的機器人抓取完全透明的塑料杯,成功率從0躍升至50%。

項目鏈接: https://technology.robbyant.com/lingbot-depth
HuggingFace 鏈接:https://huggingface.co/robbyant/lingbot-depth
技術報告鏈接:https://github.com/Robbyant/lingbot-depth/blob/main/tech-report.pdf
▍大腦:20000小時真實數據,喂出最強開源VLA基座
有了好眼睛,更需要一個好腦子。但機器人的“腦子”一直有個頑疾:在A機器人上訓練的技能,換到B機器人上就宕機;在實驗室桌子能完成的任務,換張桌子就抓瞎。
LingBot-VLA的解決方案簡單粗暴,用海量、多樣化的真實數據,硬生生喂出常識和泛化能力:20000小時真實機器人操作數據,覆蓋9種不同構型的雙臂機器人。
這一數據量不僅創下開源領域新紀錄,更重要的是,研究團隊首次在真實機器人任務中系統驗證了VLA模型的Scaling Law:隨著預訓練數據從3000小時逐步擴展到20000小時,模型在下游任務的成功率持續提升,且尚未出現飽和跡象。
![]()
技術架構上,LingBot-VLA采用專家混合Transformer設計,并創新性地將LingBot-Depth提供的深度信息通過可學習查詢對齊機制注入模型,賦予機器人精確的空間感知能力。
在上海交通大學開源的GM-100真實機器人評測基準中,引入深度信息的LingBot-VLA平均成功率達 17.3%,超越此前公認最強的Pi0.5。
![]()
在仿真基準RoboTwin 2.0中,面對高度隨機化干擾,其成功率也比π0.5領先近10個百分點。
![]()
這驗證了一個關鍵假設:一個在海量、異構真實數據中訓練的大腦,能夠學會跨越硬件差異的本質操作邏輯,真正實現“一個大腦,適配多個身體”。
項目網站:https://technology.robbyant.com/lingbot-vla
模型:
https://huggingface.co/collections/robbyant/lingbot-vla
https://www.modelscope.cn/collections/Robbyant/LingBot-VLA
數據集:
https://huggingface.co/datasets/robbyant/lingbot-GM-100
GitHub:https://github.com/Robbyant/lingbot-vla
技術報告:https://arxiv.org/abs/2601.18692
▍模擬:高保可交互的“虛擬演練場”開源
在真實世界訓練機器人,成本高昂、效率低下、風險不小。于是,有一個能夠試錯、學習和推演的環境很重要。
LingBot-World 就是在構建一個與物理世界規律一致的 高保真、可交互仿真環境。不止是一個視頻生成模型,更是一個物理規律嚴謹的世界模擬器。
它的強大,讓人瞠目:
十分鐘超長生成:畫面穩定不崩壞,解決了長視頻生成的記憶難題。
實時交互:你可以用WASD鍵盤像玩游戲一樣實時探索這個世界,也可以用自然語言下令:“前面放個煙花”、“變成冰雪世界”,世界隨之改變。
嚴格物理規律:貓咪撞到沙發會停下,不會穿模;鏡頭移開再回來,物體仍在并符合邏輯。

高動態環境下,鏡頭長時間移開后返回,車輛形態外觀仍保持一致

鏡頭長時間移開后返回,房屋仍存在且結構一致
這意味著,機器人可以在這個虛擬世界里進行無數次零成本的人生模擬,學習技能、試錯規劃,再將經驗無損遷移到現實。
更讓社區沸騰的是,相比其他頂尖團隊的閉源策略,螞蟻靈波選擇了完全開源 。國內外網友一片驚呼:“對開源社區是巨大勝利!”“這是具身智能的重大進步!”
項目網站:https://technology.robbyant.com/lingbot-world
模型:
https://huggingface.co/collections/robbyant/lingbot-world
https://www.modelscope.cn/collections/Robbyant/LingBot-world
數據集:Code:https://github.com/Robbyant/lingbot-world
技術報告: https://github.com/robbyant/lingbotworld/blob/main/LingBot_World_paper.pdf
▍執行:從“看懂世界”到“改變世界”
接下來,還有一個關鍵問題懸而未決:如何將世界模型中推演的未來,高效、可靠地變為機器人在物理世界中 執行的當下?
今天開源的 LingBot-VA,正是打通了落地的答案,是全球首個自回歸視頻-動作一體化世界模型。
它的核心突破在于“邊推演,邊行動”。
傳統的流程是,先讓世界模型完整推演一遍任務視頻,再讓另一個控制模型去學習模仿。而LingBot-VA將二者融合:在每一步,模型根據當前觀測,同步生成下一幀的世界畫面和達成該畫面的機器人動作。
它擁有長期記憶:能記住完整的歷史交互,避免在相似狀態中陷入循環。例如,在“開右盒-關右盒-開左盒”的任務中,它能清晰區分關盒前后的相同狀態,不會卡殼。
它具備少樣本快速學習能力:僅需30-50條真實演示,就能快速適應新任務,極大降低了部署成本。
它構建了“預測-執行-感知-修正”的實時閉環:在生成每一步時,都會納入實時傳感器反饋進行修正,確保想象不偏離現實。
在真實機器人評測中,面對制作早餐、高精度插入、柔性衣物折疊等高難度任務,LingBot-VA平均成功率較頂級基線模型提升20%。
在仿真評測中,它更是將雙臂協同操作的成功率推至 90%以上,刷新行業紀錄。
至此,世界模型賦能具身操作的路徑終于形成:Depth提供精準的眼睛,VLA充當通用的“大腦,World構建可無限試錯的模擬環境,而VA則賦予實時將想象落地的“手腳”。
一個智能體從感知環境、理解任務、模擬推演到最終執行的完整能力鏈路,被完全打通。
項目網站:https://technology.robbyant.com/lingbot-va
模型:
https://huggingface.co/collections/robbyant/lingbot-va
https://www.modelscope.cn/collections/Robbyant/LingBot-va
數據集:https://github.com/Robbyant/lingbot-va
技術報告:https://github.com/Robbyant/lingbot-va/blob/master/LingBot_VA_paper.pdf
▍結語與未來
螞蟻靈波此次四天四模型的體系化開源,背后是清晰的產業判斷。
當前機器人行業面臨的核心痛點是場景碎片化與硬件非標化。傳統的為每款機器人、每個場景定制算法的模式,成本高、周期長、難以規模化。
LingBot系列提供的是一種 “基座+適配”新范式:通過開源經過海量真實數據預訓練的通用模型與工具鏈,企業可以用更少的數據、更低的算力,快速適配自己的特定場景和機器人本體。
通過這次體系化的開源,可以看到螞蟻靈波的戰略定位也愈發明晰:不下場制造機器人軀體,而是專注于打造可規模化復用的最強大腦與核心能力,為行業提供一套標準的智能基座。
另一種程度上,開源也意味著以開放協作定義的新周期剛剛開始。那個屬于通用具身智能的未來,正在以更清晰、更務實的路徑加速到來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.