![]()
新智元報道
編輯:好困 桃子
【新智元導讀】硅谷還在苦等真機數據,中國隊已先一步交卷。RynnBrain大腦橫空出世,通用具身智能時刻更近了。
2026年,具身智能的牌桌上早已是短兵相接。
幾乎每周,都有重磅炸彈被扔進場內:
波士頓動力全新Atlas令人驚艷的「360度轉頭殺」還在余音繞梁;
1X就祭出了1XWM「世界模型」,讓NEO在腦內學會模擬現實,把視頻生成內化為肌肉記憶;
而Figure更是通過下一代神經網絡Helix 02讓Figure 03實現了「全身協同運動」,行走、操作與平衡從此無縫融合。



在這一堆「秀肌肉」的神仙打架中,到底誰才配得上「最強大腦」?
現實中,干活干一半被打斷,再回頭很容易就會忘記「剛才干哪了」。
比如,這個機器人正忙著給桌上的食物分類,半路突然殺出一個「請幫我拿個面包」的指令。

只見它立刻「掛起」手頭動作,優先把面包遞給人類。

完事后,憑借「任務棧記憶」瞬間回神,無縫銜接,轉頭繼續處理剩下的水果。

更有意思的是,哪怕你當著它的面把盤子移走,它也能實時調整路徑,堅持「物歸原位」。

如果遇到更棘手的情況呢?
讓機器人在一堆「硬菜」面前,找出低卡的那一個。
這里,不僅考驗了對常識的理解,還需要用到「中文OCR」能力。
機器人一眼掃過配料表和文字標簽,大腦迅速計算,立馬就能精準找出最合適的那一個。

難度繼續升級。
下面是一個典型的「逼死強迫癥」題目:三個面包兩個盤,怎么分?
有趣的是,機器人憑借著「空間規劃」與「長程規劃」的能力,給出了一個絕妙的解法——「疊羅漢」。

最后,就連機器人版「三仙歸洞」也來了!
把一瓶喝過的礦泉水,在它的面前瘋狂調換位置。
即便在如此眼花繚亂的變換中,機器人也能死死鎖住目標。
這背后,離不開強大的「物體記憶」與「復雜視頻理解」能力。

具身智能之戰,直面物理世界
放眼硅谷,目前主流有三條技術路線在角力。
第一條,是VLA(視覺-語言-動作)端到端流派。
Figure、π、Covariant押注的這條路最為火熱,主張用一個模型從感知直通動作。
但這套邏輯有個硬傷:
它極其依賴昂貴的真機數據,一旦遇到沒見過的場景,泛化能力直接斷崖下跌。
![]()
![]()
第二條,是「世界模型」流派。
它主張從像素級模擬物理世界,讓機器人在虛擬環境中大量試錯。
在英偉達杰出科學家Jim Fan看來,2026年將是「大世界模型」(LWM)為機器人乃至多模態AI奠定基礎的真正元年。
![]()
而第三個流派,則選擇了另一種思路:
基于本身就具有泛化能力的VLM(視覺-語言模型),進一步造出通向物理世界的「具身大腦」。
它不強求一個模型解決所有問題,而是采用了仿生學的「大小腦」分層架構:
大腦:引入時空記憶和物理推理,負責「運籌帷幄」;
小腦:專注于具體的「沖鋒陷陣」。
這種架構巧妙利用了VLM海量數據的泛化優勢,同時通過「空間定位」讓思考過程落地,解決了以往模型只會在腦子里「空想」的幻覺問題。
開篇一些驚艷演示,正是來自這第三條路線的最新破局者——阿里達摩院剛剛亮出的RynnBrain。
它讓機器人首次擁有了時空記憶和物理空間推理能力。
![]()
實測數據顯示,得益于這種分層架構的優勢:
RynnBrain在16項具身評測基準中,全面超越了Gemini Robotics ER 1.5、Mimo-Embodied、Cosmos Reason 2等前沿模型,部分核心能力提升幅度超30%。
![]()
三條路線并非互斥,而是從不同維度逼近真相。
在這場通往通用機器人的馬拉松里,最優解雖未落定,但阿里達摩院已在無人區邁出了關鍵一步。
核心技術解密
答案沒有捷徑。
要造「大腦」,得先解決一個更基礎、卻也更棘手的問題:如何讓機器真正「看懂」物理世界?
前傳:為大腦裝上「火眼金睛」
現有的大模型雖然能用詩意的語言描述圖像,卻對物理世界中物體的材質(是軟是硬?)、功能(能坐還是能開?)、真實尺度(多高多寬?)完全「摸不透」。
為此,達摩院與浙大團隊打造了一雙極致的「眼睛」——RynnEC。
RynnEC在基礎VLM之上,創新性地引入了專門的區域編碼器(Region Encoder)和基于SAM2的掩碼解碼器(Mask Decoder)。

這種設計讓模型不再局限于籠統地「看圖說話」,而是具備了區域級別的視頻交互能力,能夠精準鎖定局部物體。
為了訓練這雙「眼睛」,團隊設計了一套如同人類認知課程般的四階段訓練范式,從最基礎的掩碼對齊開始,逐步注入顏色、材質等物體屬性知識,再進階到距離、方位等空間推理,最后通過指代分割防止遺忘。
經過這套嚴苛課程的「特訓」,RynnEC不僅能回答關于物體屬性的復雜問題,還能在視頻流中實時生成分割掩碼,真正理解了物理世界的幾何與語義。
RynnBrain正是繼承了RynnEC這雙「火眼金睛」的數據和能力,并在此基礎上長出了負責邏輯推理和時空規劃的「大腦」。
以小博大:高效的MoE架構
在擁有了極致的感知后,RynnBrain在模型架構上選擇了「效率至上」。
它基于Qwen3-VL底座,使用自研RynnScale架構,讓Dense模型和MOE模型訓練加速兩倍。
輸入端支持任意分辨率圖片、多視角圖像和視頻;
輸出端則統一了區域、軌跡、點集、夾爪位姿和文本等多種具身相關模態。
尤其是,MoE架構的RynnBrain,僅用3B推理激活參數,性能全面超越Pelican-VL(72B)巨型模型。
![]()
這種設計讓機器人既擁有大模型的智商,又具備端側部署所需的快速響應能力。
攻克頑疾:解決物理幻覺與健忘
針對傳統大模型在物理世界中「看不準」和「記不住」的痛點,RynnBrain引入了兩項關鍵技術:
? 全局時空回溯
具身智能領域中,很多機器人是「魚的記憶」,看一眼忘一眼。
舉個栗子,讓機器人去廚房拿可樂,結果剛轉個身,就忘了廚房門在哪,或者忘了剛才看見的可樂在桌子左邊還是右邊。
為此,RynnBrain引入了「全局時空記憶」。
這種能力讓機器人能夠在完整的歷史記憶中建立起涵蓋空間、位置、事件、軌跡等多維度的三維認知表征,而不僅僅是簡單地批處理歷史圖像。
通過這種深度的時空建模,模型能夠在當前視野受限的情況下,精準定位歷史畫面中出現過的物體或目標區域。
甚至在復雜的動態環境中,它還能基于歷史信息預測運動軌跡,賦予了機器人一種類似「心眼」的能力,即便轉過身去,依然能在腦海中清晰地構建出周圍環境的完整地圖,從而實現可靠的全局回溯。
? 文本與空間交錯推理
大模型最愛「一本正經地胡說八道」。在物理世界,這種幻覺是致命的。
RynnBrain拋棄了純文本推理范式,采用了一種「文本與空間定位交錯」的策略。
簡單說就是,「邊說邊指」。
模型在輸出推理文本的過程中,必須將提到的物體或區域與視頻流中的具體像素位置進行強制綁定(Grounding)。
如果模型無法在物理空間中指出它在談論什么,它就不會生成相應的文本。
這種「言必有據」的機制充當了一個嚴厲的考官,迫使推理過程緊密扎根于物理環境,從而極大地抑制了純文本模型中常見的物理幻覺問題,確保了每一個指令都是可執行、可驗證的。
訓練策略:全真數據的「暴力美學」
在訓練數據上,達摩院做了一個反直覺的決定:全部使用真實數據。
為此,RynnBrain構建了龐大的數據工程,在預訓練階段,采用了2000萬高質量數據對。
具體數據包括以下四大方面:
通用多模態數據:復用自研Video-Llama 3數據,并融合LLaVA-OV-SI、LLaVA-Video等多個開源視頻問答數據。
具身認知數據:復用自研RynnEC訓練數據,并引入Sensenova-SI、VSI-590k、Molmo2提高模型的空間理解和動態計數能力,以及自生成100萬自我為中心的OCR問答數據。
具身定位數據:五大定位任務分別標注大量視頻和圖像數據,分別為:物體定位、區域定位、操作點定位、軌跡定位和夾爪位姿定位。
規劃數據:導航和操作兩類數據,前者使用R2R和RxR數據和ScaleVLN的開源數據,后者數據來自OpenX-Embodiment和AGIBot。
視覺數據全是真實的,但標簽怎么辦?
在這里,達摩院采用了「AI生成+人工清洗」的策略——
利用Gemini 2.5 Pro生成初步推理鏈,GPT-4o-mini進行實體分類,最后由人工對關鍵物體和區域進行畫框精標。
值得注意的是,所有定位結果都會以結構化格式 : ...; (coordinates) 融入推理文本,從而實現語言與空間的對齊。
這種方法既保證了視覺的「全真」,又保證了文本邏輯的「高智商」。
后訓練:能力的「無限擴展」
作為基礎底座,在后訓練階段,RynnBrain展現了極強的泛化與下游任務適配能力。
在導航后訓練中,團隊基于導航SOTA模型StreamVLN的訓練數據,微調了RynnBrain模型。
在架構完全不變的情況下,RynnBrain-Nav導航成功率比原來SOTA提升了2%-3%。
相較于Qwen3-VL,在相同的數據下微調,RynnBrain作為基礎模型可以讓導航能力額外提升5%。
這組數據有力證明了,RynnBrain在具身相關任務中預訓練的作用巨大,拉高了后續微調模型的上限。
![]()
另外,在操作規劃任務中,僅用幾百條數據微調,RynnBrain-Plan-30B(A3B)便在域內和域外的任務上全面超越Gemini 3 Pro。
要知道,規劃任務通常要求模型,具備極強的預測能力和場景解析力。
這恰恰充分體現了,論文中「文本與定位交錯」規劃方式,更適用于復雜多變的物理世界。
![]()
達摩院的下一步:從大腦到OS
具身智能的賽道上,從不缺重量級玩家。但真正的變量,往往來自沉默的深耕者。
在外界看來,達摩院似乎是一位新晉選手。
但實際上,早在2023年,這支團隊便已在具身智能的深水區低調潛行,并構建起一套完整的技術版圖。
達摩院的野心,遠不止于模型。
去年8月,達摩院首度亮劍,開源了具身智能「三大件」:
自研VLA模型 RynnVLA-001-7B 、世界理解模型 RynnEC ,以及機器人上下文協議 RynnRCP 。
![]()
其中,RynnRCP協議的戰略意義尤為關鍵。
它之于具身智能,恰如MCP之于AI智能體——在異構的數據、模型與機器人本體之間,構筑了一座無縫連接的橋梁。
目前,RynnRCP已成功適配Pi0、GR00T N1.5等熱門模型及SO-100、SO-101等多款機械臂,生態朋友圈正在極速擴張。
從物理AI到機器人OS
放眼全球,從科技巨頭到獨角獸,都在涌入「物理AI」這一新戰場。
老黃更是斷言,AI與機器人的結合正在醞釀數萬億美金的機遇,是無可爭議的下一個前沿。
![]()
在這一共識下,達摩院的路徑異常清晰:先造大腦,再造OS。
一個能感知、推理、決策的具身大腦,是機器走向自主化的前提;而對硬件的精密控制、平臺級的架構支撐、上下游的生態整合,則是讓大腦落地的軀干。
但這只是鋪墊,達摩院更長遠的目標,是打造一個通用的「機器人OS」。
正如PC時代的Windows、移動時代的Android,具身智能亟需一個統一的底層系統,來承載算法與硬件的復雜交互。
從昔日的「火眼金睛」,到如今的「具身大腦」,再到未來的「機器人OS」。
屬于達摩院的征途,才剛剛拉開序幕。
One More Thing
這一次,達摩院繼續秉持極致開源的理念,帶來了重磅更新:
全系列模型開源
包含2B、8B、30B三種參數規模的RynnBrain基礎模型,以及針對特定場景的后訓練專有模型RynnBrain-Nav(導航)與RynnBrain-Plan-30B(規劃)等共計7個。
全新評測基準RynnBrain-Bench
針對具身智能領域在「時空細粒度」任務上的空白,RynnBrain-Bench基準涵蓋物體認知、空間認知、物體定位、具身點預測四大關鍵維度,重點考察模型對記憶視頻序列的細粒度理解及精準時空定位能力。
![]()
全棧代碼開源
完整的推理與訓練代碼,即刻可用。
GitHub:
https://github.com/alibaba-damo-academy/RynnBrain
Hugging Face:
https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain
項目主頁:
https://alibaba-damo-academy.github.io/RynnBrain.github.io/
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.