網易首頁 > 網易號 > 正文申請入駐

機器人長出800個心眼？阿里達摩院開源具身新大腦，硅谷又坐不住了

2026-02-11 19:35:20　來源: 新智元

北京舉報

分享至

新智元報道

編輯：好困桃子

【新智元導讀】硅谷還在苦等真機數據，中國隊已先一步交卷。RynnBrain大腦橫空出世，通用具身智能時刻更近了。

2026年，具身智能的牌桌上早已是短兵相接。

幾乎每周，都有重磅炸彈被扔進場內：

波士頓動力全新Atlas令人驚艷的「360度轉頭殺」還在余音繞梁；
1X就祭出了1XWM「世界模型」，讓NEO在腦內學會模擬現實，把視頻生成內化為肌肉記憶；
而Figure更是通過下一代神經網絡Helix 02讓Figure 03實現了「全身協同運動」，行走、操作與平衡從此無縫融合。

在這一堆「秀肌肉」的神仙打架中，到底誰才配得上「最強大腦」？

現實中，干活干一半被打斷，再回頭很容易就會忘記「剛才干哪了」。

比如，這個機器人正忙著給桌上的食物分類，半路突然殺出一個「請幫我拿個面包」的指令。

只見它立刻「掛起」手頭動作，優先把面包遞給人類。

完事后，憑借「任務棧記憶」瞬間回神，無縫銜接，轉頭繼續處理剩下的水果。

更有意思的是，哪怕你當著它的面把盤子移走，它也能實時調整路徑，堅持「物歸原位」。

如果遇到更棘手的情況呢？

讓機器人在一堆「硬菜」面前，找出低卡的那一個。

這里，不僅考驗了對常識的理解，還需要用到「中文OCR」能力。

機器人一眼掃過配料表和文字標簽，大腦迅速計算，立馬就能精準找出最合適的那一個。

難度繼續升級。

下面是一個典型的「逼死強迫癥」題目：三個面包兩個盤，怎么分？

有趣的是，機器人憑借著「空間規劃」與「長程規劃」的能力，給出了一個絕妙的解法——「疊羅漢」。

最后，就連機器人版「三仙歸洞」也來了！

把一瓶喝過的礦泉水，在它的面前瘋狂調換位置。

即便在如此眼花繚亂的變換中，機器人也能死死鎖住目標。

這背后，離不開強大的「物體記憶」與「復雜視頻理解」能力。

具身智能之戰，直面物理世界

放眼硅谷，目前主流有三條技術路線在角力。

第一條，是VLA（視覺-語言-動作）端到端流派。

Figure、π、Covariant押注的這條路最為火熱，主張用一個模型從感知直通動作。

但這套邏輯有個硬傷：

它極其依賴昂貴的真機數據，一旦遇到沒見過的場景，泛化能力直接斷崖下跌。

第二條，是「世界模型」流派。

它主張從像素級模擬物理世界，讓機器人在虛擬環境中大量試錯。

在英偉達杰出科學家Jim Fan看來，2026年將是「大世界模型」（LWM）為機器人乃至多模態AI奠定基礎的真正元年。

而第三個流派，則選擇了另一種思路：

基于本身就具有泛化能力的VLM（視覺-語言模型），進一步造出通向物理世界的「具身大腦」。

它不強求一個模型解決所有問題，而是采用了仿生學的「大小腦」分層架構：

大腦：引入時空記憶和物理推理，負責「運籌帷幄」；
小腦：專注于具體的「沖鋒陷陣」。

這種架構巧妙利用了VLM海量數據的泛化優勢，同時通過「空間定位」讓思考過程落地，解決了以往模型只會在腦子里「空想」的幻覺問題。

開篇一些驚艷演示，正是來自這第三條路線的最新破局者——阿里達摩院剛剛亮出的RynnBrain。

它讓機器人首次擁有了時空記憶和物理空間推理能力。

實測數據顯示，得益于這種分層架構的優勢：

RynnBrain在16項具身評測基準中，全面超越了Gemini Robotics ER 1.5、Mimo-Embodied、Cosmos Reason 2等前沿模型，部分核心能力提升幅度超30%。

三條路線并非互斥，而是從不同維度逼近真相。

在這場通往通用機器人的馬拉松里，最優解雖未落定，但阿里達摩院已在無人區邁出了關鍵一步。

核心技術解密

答案沒有捷徑。

要造「大腦」，得先解決一個更基礎、卻也更棘手的問題：如何讓機器真正「看懂」物理世界？

前傳：為大腦裝上「火眼金睛」

現有的大模型雖然能用詩意的語言描述圖像，卻對物理世界中物體的材質（是軟是硬？）、功能（能坐還是能開？）、真實尺度（多高多寬？）完全「摸不透」。

為此，達摩院與浙大團隊打造了一雙極致的「眼睛」——RynnEC。

RynnEC在基礎VLM之上，創新性地引入了專門的區域編碼器（Region Encoder）和基于SAM2的掩碼解碼器（Mask Decoder）。

這種設計讓模型不再局限于籠統地「看圖說話」，而是具備了區域級別的視頻交互能力，能夠精準鎖定局部物體。

為了訓練這雙「眼睛」，團隊設計了一套如同人類認知課程般的四階段訓練范式，從最基礎的掩碼對齊開始，逐步注入顏色、材質等物體屬性知識，再進階到距離、方位等空間推理，最后通過指代分割防止遺忘。

經過這套嚴苛課程的「特訓」，RynnEC不僅能回答關于物體屬性的復雜問題，還能在視頻流中實時生成分割掩碼，真正理解了物理世界的幾何與語義。

RynnBrain正是繼承了RynnEC這雙「火眼金睛」的數據和能力，并在此基礎上長出了負責邏輯推理和時空規劃的「大腦」。

以小博大：高效的MoE架構

在擁有了極致的感知后，RynnBrain在模型架構上選擇了「效率至上」。

它基于Qwen3-VL底座，使用自研RynnScale架構，讓Dense模型和MOE模型訓練加速兩倍。

輸入端支持任意分辨率圖片、多視角圖像和視頻；
輸出端則統一了區域、軌跡、點集、夾爪位姿和文本等多種具身相關模態。

尤其是，MoE架構的RynnBrain，僅用3B推理激活參數，性能全面超越Pelican-VL（72B）巨型模型。

這種設計讓機器人既擁有大模型的智商，又具備端側部署所需的快速響應能力。

攻克頑疾：解決物理幻覺與健忘

針對傳統大模型在物理世界中「看不準」和「記不住」的痛點，RynnBrain引入了兩項關鍵技術：

? 全局時空回溯

具身智能領域中，很多機器人是「魚的記憶」，看一眼忘一眼。

舉個栗子，讓機器人去廚房拿可樂，結果剛轉個身，就忘了廚房門在哪，或者忘了剛才看見的可樂在桌子左邊還是右邊。

為此，RynnBrain引入了「全局時空記憶」。

這種能力讓機器人能夠在完整的歷史記憶中建立起涵蓋空間、位置、事件、軌跡等多維度的三維認知表征，而不僅僅是簡單地批處理歷史圖像。

通過這種深度的時空建模，模型能夠在當前視野受限的情況下，精準定位歷史畫面中出現過的物體或目標區域。

甚至在復雜的動態環境中，它還能基于歷史信息預測運動軌跡，賦予了機器人一種類似「心眼」的能力，即便轉過身去，依然能在腦海中清晰地構建出周圍環境的完整地圖，從而實現可靠的全局回溯。

? 文本與空間交錯推理

大模型最愛「一本正經地胡說八道」。在物理世界，這種幻覺是致命的。

RynnBrain拋棄了純文本推理范式，采用了一種「文本與空間定位交錯」的策略。

簡單說就是，「邊說邊指」。

模型在輸出推理文本的過程中，必須將提到的物體或區域與視頻流中的具體像素位置進行強制綁定（Grounding）。

如果模型無法在物理空間中指出它在談論什么，它就不會生成相應的文本。

這種「言必有據」的機制充當了一個嚴厲的考官，迫使推理過程緊密扎根于物理環境，從而極大地抑制了純文本模型中常見的物理幻覺問題，確保了每一個指令都是可執行、可驗證的。

訓練策略：全真數據的「暴力美學」

在訓練數據上，達摩院做了一個反直覺的決定：全部使用真實數據。

為此，RynnBrain構建了龐大的數據工程，在預訓練階段，采用了2000萬高質量數據對。

具體數據包括以下四大方面：

通用多模態數據：復用自研Video-Llama 3數據，并融合LLaVA-OV-SI、LLaVA-Video等多個開源視頻問答數據。

具身認知數據：復用自研RynnEC訓練數據，并引入Sensenova-SI、VSI-590k、Molmo2提高模型的空間理解和動態計數能力，以及自生成100萬自我為中心的OCR問答數據。

具身定位數據：五大定位任務分別標注大量視頻和圖像數據，分別為：物體定位、區域定位、操作點定位、軌跡定位和夾爪位姿定位。

規劃數據：導航和操作兩類數據，前者使用R2R和RxR數據和ScaleVLN的開源數據，后者數據來自OpenX-Embodiment和AGIBot。

視覺數據全是真實的，但標簽怎么辦？

在這里，達摩院采用了「AI生成+人工清洗」的策略——

利用Gemini 2.5 Pro生成初步推理鏈，GPT-4o-mini進行實體分類，最后由人工對關鍵物體和區域進行畫框精標。

值得注意的是，所有定位結果都會以結構化格式 : ...; (coordinates) 融入推理文本，從而實現語言與空間的對齊。

這種方法既保證了視覺的「全真」，又保證了文本邏輯的「高智商」。

后訓練：能力的「無限擴展」

作為基礎底座，在后訓練階段，RynnBrain展現了極強的泛化與下游任務適配能力。

在導航后訓練中，團隊基于導航SOTA模型StreamVLN的訓練數據，微調了RynnBrain模型。

在架構完全不變的情況下，RynnBrain-Nav導航成功率比原來SOTA提升了2%-3%。

相較于Qwen3-VL，在相同的數據下微調，RynnBrain作為基礎模型可以讓導航能力額外提升5%。

這組數據有力證明了，RynnBrain在具身相關任務中預訓練的作用巨大，拉高了后續微調模型的上限。

另外，在操作規劃任務中，僅用幾百條數據微調，RynnBrain-Plan-30B(A3B)便在域內和域外的任務上全面超越Gemini 3 Pro。

要知道，規劃任務通常要求模型，具備極強的預測能力和場景解析力。

這恰恰充分體現了，論文中「文本與定位交錯」規劃方式，更適用于復雜多變的物理世界。

達摩院的下一步：從大腦到OS

具身智能的賽道上，從不缺重量級玩家。但真正的變量，往往來自沉默的深耕者。

在外界看來，達摩院似乎是一位新晉選手。

但實際上，早在2023年，這支團隊便已在具身智能的深水區低調潛行，并構建起一套完整的技術版圖。

達摩院的野心，遠不止于模型。

去年8月，達摩院首度亮劍，開源了具身智能「三大件」：

自研VLA模型 RynnVLA-001-7B 、世界理解模型 RynnEC ，以及機器人上下文協議 RynnRCP 。

其中，RynnRCP協議的戰略意義尤為關鍵。

它之于具身智能，恰如MCP之于AI智能體——在異構的數據、模型與機器人本體之間，構筑了一座無縫連接的橋梁。

目前，RynnRCP已成功適配Pi0、GR00T N1.5等熱門模型及SO-100、SO-101等多款機械臂，生態朋友圈正在極速擴張。

從物理AI到機器人OS

放眼全球，從科技巨頭到獨角獸，都在涌入「物理AI」這一新戰場。

老黃更是斷言，AI與機器人的結合正在醞釀數萬億美金的機遇，是無可爭議的下一個前沿。

在這一共識下，達摩院的路徑異常清晰：先造大腦，再造OS。

一個能感知、推理、決策的具身大腦，是機器走向自主化的前提；而對硬件的精密控制、平臺級的架構支撐、上下游的生態整合，則是讓大腦落地的軀干。

但這只是鋪墊，達摩院更長遠的目標，是打造一個通用的「機器人OS」。

正如PC時代的Windows、移動時代的Android，具身智能亟需一個統一的底層系統，來承載算法與硬件的復雜交互。

從昔日的「火眼金睛」，到如今的「具身大腦」，再到未來的「機器人OS」。

屬于達摩院的征途，才剛剛拉開序幕。

One More Thing

這一次，達摩院繼續秉持極致開源的理念，帶來了重磅更新：

全系列模型開源

包含2B、8B、30B三種參數規模的RynnBrain基礎模型，以及針對特定場景的后訓練專有模型RynnBrain-Nav（導航）與RynnBrain-Plan-30B（規劃）等共計7個。

全新評測基準RynnBrain-Bench

針對具身智能領域在「時空細粒度」任務上的空白，RynnBrain-Bench基準涵蓋物體認知、空間認知、物體定位、具身點預測四大關鍵維度，重點考察模型對記憶視頻序列的細粒度理解及精準時空定位能力。

全棧代碼開源

完整的推理與訓練代碼，即刻可用。

GitHub:

https://github.com/alibaba-damo-academy/RynnBrain

Hugging Face:

https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain

項目主頁：

https://alibaba-damo-academy.github.io/RynnBrain.github.io/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

最大“騙局”是山姆超市，靠一張 260 元的會員卡一年狂攬 660 億

南權先生

2026-01-19 15:38:30

上海大叔55歲未婚，住垃圾堆卻要穿名牌，打開冰箱后才知啥叫生活

寒士之言本尊

2025-09-08 23:20:45

沙塵暴席卷華北多地北京、大同等機場多個航班延誤懸空寺景區有商戶商品被風吹跑

紅星新聞

2026-02-21 23:59:14

厲害！袁弘、張歆藝在武漢買房了！

東方不敗然多多

2026-02-21 14:49:46

買股票前為什么堅決要看OBV指標？遠比MACD實用，簡單卻很賺錢！

股經縱橫談

2026-02-21 19:16:01

續航 + 230km / 隔音大升級！Model Y 悄悄上新，專治家庭出行痛點

阿芒娛樂說

2026-02-20 02:28:46

演都不演了？李詠美國下葬8年后，哈文帶著女兒走上了姜昆的老路

姩姩有娛

2026-02-13 14:14:23

不用猜，女人真正的軟肋，就這7個地方

青蘋果sht

2026-02-19 07:48:00

研究顯示：“獵鷹9”火箭解體致高空大氣鋰原子濃度飆升10倍

界面新聞

2026-02-20 16:34:02

陽光城集團杭州項目破產清算

地產微資訊

2026-02-21 16:32:24

臟到包漿、不堪入目！又一網紅店跌落神壇，多位明星網紅曾打卡

品牌觀察官

2025-12-30 17:28:27

尾礦庫藏4萬億，股價僅2元！包鋼股份，市場在裝睡嗎？

慧眼看世界哈哈

2026-02-21 14:17:45

兩名女孩扶人被索賠22萬，媒體公眾皆反對，但老太太占盡法律優勢

讀鬼筆記

2026-02-21 09:37:52

中央定調，延遲退休后，62歲退休，比60歲退休的多領10%養老金？

另子維愛讀史

2026-02-17 19:02:27

你永遠想不到醫院的八卦能有多炸裂？一件提神醒腦，兩件直接撂倒

另子維愛讀史

2026-01-22 18:21:09

《鏢人》單日票房升至第2，觀眾催拍續集，吳京回應：爭取有第二部；《鏢人2》去年7月已備案公示，故事梗概公開

極目新聞

2026-02-20 21:58:32

這就是赤裸裸的現實！越來越多央國企員工已經成了周末夫妻？

娛樂圈見解說

2026-02-20 10:11:21

全新日產軒逸2月24日上市：最新設計語言，現款11.39萬元起

IT之家

2026-02-21 20:56:46

打臉所有質疑！小米YU7干翻特斯拉，雷軍當年吹的牛全成了

雷科技

2026-02-21 13:26:07

“抽象頂流”那藝娜的塌房之路：假扮“俄羅斯娜娜”出圈，請“嘎子”當嘉賓遭質疑

上游新聞

2026-02-21 13:43:15

新智元

AI產業主平臺領航智能+時代

14566文章數 66631關注度

往期回顧全部

科技要聞

智譜上市1月漲5倍，市值超越京東、快手

頭條要聞

貝加爾湖7名遇難者身份全部確認 1家4口僅1人生還

頭條要聞

貝加爾湖7名遇難者身份全部確認 1家4口僅1人生還

體育要聞

徐夢桃：這是我第一塊銅牌給我換個吉祥物

娛樂要聞

黃曉明澳門賭博輸十幾億本人親自回應

財經要聞

一覺醒來，世界大變，特朗普改新打法了

汽車要聞

比亞迪的“顏值擔當”來了方程豹首款轎車路跑信息曝光

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

家居

本地

旅游

健康

冬天穿衣盡量別露腿，這些基礎穿搭可嘗試，簡單大方又不挑人

家居要聞

手機 / 數碼

房產 / 家居

機器人長出800個心眼？阿里達摩院開源具身新大腦，硅谷又坐不住了

智譜上市1月漲5倍，市值超越京東、快手

貝加爾湖7名遇難者身份全部確認 1家4口僅1人生還

貝加爾湖7名遇難者身份全部確認 1家4口僅1人生還

徐夢桃：這是我第一塊銅牌 給我換個吉祥物

黃曉明澳門賭博輸十幾億 本人親自回應

一覺醒來，世界大變，特朗普改新打法了

態度原創

冬天穿衣盡量別露腿，這些基礎穿搭可嘗試，簡單大方又不挑人

本真棲居 愛暖伴流年

春花齊放2026：《駿馬奔騰迎新歲》

海南三亞返程機票過萬元，三亞飛上海要9000元：機票太貴回不去了

轉頭就暈的耳石癥，能開車上班嗎？

徐夢桃：這是我第一塊銅牌給我換個吉祥物

黃曉明澳門賭博輸十幾億本人親自回應

本真棲居愛暖伴流年