網易首頁 > 網易號 > 正文申請入駐

密歇根、斯坦福、Figure AI 牽頭！機器人記憶基準 RoboMME 發布

2026-03-15 21:11:55　來源: 機器人大講堂

安徽舉報

分享至

讓機器人把指定顏色的立方體放進箱子并準確計數，在物體被遮擋后仍能追蹤其位置，重復之前演示過的動作軌跡，這些看似簡單的操作，背后都離不開"記憶"的支撐。長期以來，機器人在復雜場景下的歷史依賴型任務表現不佳，核心原因之一就是缺乏標準化的記憶能力評估體系。

密歇根大學、斯坦福大學、Figure AI等機構聯合推出的RoboMME benchmark，首次將機器人記憶劃分為 temporal（時間）、spatial（空間）、object（物體）、procedural（程序）四大維度，通過16個細分任務和770k高質量訓練時序，為記憶增強型機器人策略提供了統一的評估標準。這一突破不僅解決了此前評估碎片化的問題，更通過14種記憶增強型VLA模型的對比實驗，揭示了不同記憶表征的適用場景。

01.

為什么機器人"記性差"？傳統評估的三大痛點

在RoboMME出現之前，機器人記憶相關的評估一直存在明顯短板。現有基準要么只聚焦單一記憶類型，比如MemoryBench僅關注空間記憶，要么任務 horizon 過短，無法真正考驗長期記憶能力。更關鍵的是，大多數基準允許機器人僅通過即時感知就能完成任務，難以觸發真正的歷史依賴推理。

實際應用中，機器人需要處理的場景遠比想象中復雜。比如家庭服務機器人擦拭桌子時，需要記住已經清潔過的區域；工業機器人裝配零件時，要回憶上一步的操作位置；甚至簡單的"重復三次動作"指令，都需要時間記憶來計數。這些任務的共同特點是，相同的當前觀測可能對應不同的歷史背景，必須依賴記憶才能做出正確決策。

RoboMME的核心創新在于，所有任務都被設計為非馬爾可夫過程，強制機器人調用歷史信息。例如在StopCube任務中，機器人需要監測不斷擺動的立方體，在它第N次經過目標時精準按下停止按鈕，既需要記住次數（時間記憶），又要追蹤位置（空間記憶），任何單一感知都無法完成。

02.

四大記憶維度+16項任務，全面覆蓋機器人記憶場景

RoboMME的任務設計靈感源自人類記憶的認知理論，將機器人記憶需求拆解為四個核心維度，每個維度對應四個細分任務，形成完整的評估體系。

時間記憶（temporal memory）聚焦事件計數與序列排序，典型任務包括BinFill和StopCube。在BinFill中，機器人需要將指定數量的不同顏色立方體放入不透明箱子，由于無法直接觀察箱內情況，必須通過記憶追蹤已放置的數量；而StopCube則要求在立方體第2-5次經過目標時按下按鈕，考驗精準的時序計數能力。

空間記憶（spatial memory）側重遮擋與場景變化下的位置追蹤，VideoUnmaskSwap任務最具代表性。機器人先觀看容器遮擋立方體并交換位置的視頻，隨后需要準確找出隱藏目標立方體的容器，整個過程中無法依賴實時視覺反饋，完全依靠對視頻中空間關系的記憶。

物體記憶（object memory）關注跨時間的物體身份識別，PickHighlight任務中，機器人按下按鈕后會看到特定立方體被短暫高亮，之后需要在無高亮提示的情況下，準確拾取之前記住的目標物體。而VideoRepick任務則要求機器人從視頻中學習特定立方體的特征，即使該立方體被移動或與其他相似物體混合，仍能重復拾取動作。

程序記憶（procedural memory）負責存儲和復現動作模式，PatternLock任務中，機器人需要觀看演示視頻中末端執行器在網格上的移動軌跡，之后精準復現相同的路徑順序，誤差超過閾值即判定失敗。InsertPeg任務則要求記住拾取釘子的特定端部和插入方向，考驗精細動作的記憶能力。

這些任務的難度分為簡單、中等、困難三個等級，通過場景雜亂度、任務時長和環境動態性調節。數據集中包含1600個演示樣本，單個任務的執行步數從幾百到一千多不等，充分模擬真實場景中的長 horizon 需求。

03.

14種模型實測：沒有"萬能記憶"，只有"精準匹配"

基于RoboMME基準，研究團隊構建了14種記憶增強型VLA模型，均基于π?.?骨干網絡，分別采用symbolic（符號）、perceptual（感知）、recurrent（循環）三種記憶表征，搭配三種不同的整合機制，形成完整的對比體系。

符號記憶通過語言子目標總結歷史信息，比如將"已放置2個綠色立方體"編碼為文本指令，再與任務描述拼接輸入模型。實驗中，采用QwenVL生成的grounded subgoals（帶坐標標注的子目標）在BinFill等計數任務中表現突出，成功率達到72.08%，但在StopCube等時間敏感型任務中幾乎失效，成功率接近0。這是因為語言符號難以捕捉精細的時序動態信息。

感知記憶直接保留歷史視覺特征，通過幀采樣（FrameSamp）或令牌丟棄（TokenDrop）篩選關鍵視覺信息。其中FrameSamp+Modul組合表現最佳，整體成功率達到44.51%，在PatternLock等動作復現任務中優勢明顯，成功率高達53.56%。值得注意的是，TokenDrop由于過度裁剪空間上下文，在需要全局視野的任務中表現不如FrameSamp，印證了視覺完整性對空間記憶的重要性。

循環記憶通過TTT（測試時訓練）或RMT（循環記憶Transformer）壓縮歷史信息，但其表現出人意料地最差，整體成功率僅在18%-22%之間。研究人員分析，這可能是因為π?.?的淺層循環結構導致訓練不穩定，有效的循環記憶需要更深層次的架構整合。

三種整合機制中，memory-as-modulator（記憶作為調制器）表現最為均衡，通過自適應LayerNorm調節動作專家的中間激活，既保留了原始模型的預訓練特征，又能有效融入記憶信息。而memory-as-expert雖然增加了專門的記憶處理模塊，但由于參數規模擴大和訓練難度增加，并未帶來顯著性能提升。

04.

效率與性能的平衡：感知記憶成最優解

在機器人實際部署中，計算效率與性能同樣重要。RoboMME的實驗顯示，不同記憶表征的計算成本差異顯著：依賴外部VLM生成子目標的符號記憶模型，計算量是基礎π?.?的3倍；MemER模型由于結合了關鍵幀存儲和符號子目標，計算量更是達到5倍。

相比之下，感知記憶模型展現出更優的效率-性能平衡。FrameSamp+Modul在記憶預算從64增加到512 tokens的過程中，成功率穩步提升，而計算量僅適度增加。這是因為其計算主要集中在視覺令牌處理，記憶整合本身僅引入輕微開銷。研究人員發現，通過緩存重復的視覺令牌或減少VLM推理頻率，還能進一步降低計算成本。

更重要的是，這些趨勢在真實世界實驗中得到了驗證。在對應BinFill的PutFruits任務中，符號記憶模型成功率達到90%，擅長計數；而在模仿軌跡的DrawPattern任務中，感知記憶模型成功率80%，遠超前兩者。這表明RoboMME在仿真環境中得出的結論具有很強的遷移價值。

05.

人類vs機器：90.5% vs 44.51%，差距在哪里？

為了建立性能上限，研究團隊還進行了人類對比實驗。18名參與者通過VideoQA方式選擇高level動作，由oracle planner負責低level執行，最終達到90.5%的整體成功率。但人類并非完美，在長horizon的PatternLock任務和時間敏感的StopCube任務中，仍會出現忘記軌跡細節或計數錯誤的情況。

人類與最優模型（FrameSamp+Modul）的差距主要體現在三個方面：一是對模糊信息的處理能力，人類能快速識別關鍵歷史信息，而機器容易被冗余數據干擾；二是記憶的泛化性，人類能將一種場景的記憶經驗遷移到相似任務，機器則依賴大量標注數據；三是錯誤恢復能力，人類發現記憶偏差后能快速調整，機器往往會持續犯錯。

這些差距也指明了未來的研究方向。研究團隊表示，RoboMME目前聚焦桌面操作場景，未來將擴展到移動操作任務，并引入更多VLA骨干網絡。而結合符號記憶的高-level推理優勢和感知記憶的低-level精準性，可能是實現更強大記憶增強型機器人的關鍵路徑。

從技術落地來看，RoboMME的價值不僅在于評估，更在于為實際開發提供指導。比如工業機器人可優先采用感知記憶提升裝配精度，服務機器人可結合符號記憶優化任務規劃，這些基于實驗數據的選型建議，將加速記憶增強型機器人的產業化進程。隨著基準的完善和模型的迭代，未來機器人有望真正擺脫"健忘"的標簽，在復雜場景中展現出類人的記憶與推理能力。

論文地址：https://arxiv.org/abs/2603.04639

項目地址：https://robomme.github.io/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.