網易首頁 > 網易號 > 正文申請入駐

華為等團隊揭秘：機器人"預知未來"比"見多識廣"更可靠？

2026-04-14 21:10:02　來源: 至頂AI實驗室

北京舉報

分享至

這項由華為技術有限公司聯合多倫多大學共同完成的研究發表于2026年的arXiv預印本平臺，論文編號為arXiv:2603.22078v2。有興趣深入了解的讀者可以通過該編號查詢完整論文內容。

在機器人技術飛速發展的今天，如何讓機器人在復雜多變的真實環境中穩定工作，一直是科學家們面臨的重大挑戰。就像人類在陌生環境中需要依靠經驗和預判能力一樣，機器人也需要某種"智慧"來應對各種突發狀況。目前主流的機器人控制方案主要分為兩大流派：一種是讓機器人"博覽群書"，通過大量的視覺和語言數據訓練獲得廣泛知識；另一種則是讓機器人學會"預知未來"，通過觀看大量視頻來理解世界如何運轉變化。

華為技術團隊的這項研究就像是在兩種不同教育方式之間進行了一場全面對比。第一種方式可以比作讓學生通過閱讀百科全書來學習世界知識，這就是所謂的視覺-語言-行動模型（VLA）。第二種方式則像是讓學生通過觀看大量紀錄片來理解事物發展規律，這就是世界行動模型（WAM）。研究團隊想要回答一個關鍵問題：當機器人面對從未遇到過的環境變化時，哪種學習方式能讓它表現得更加穩定可靠？

一、兩種"教育方式"的根本差異

要理解這兩種方法的區別，可以用培養一個廚師的過程來類比。傳統的視覺-語言-行動模型就像是讓廚師通過閱讀大量菜譜和食材介紹來學習烹飪。這種方法讓機器人能夠理解"番茄是紅色的"、"刀具用來切割"這樣的靜態知識，并且能夠根據語言指令執行相應動作。就像一個讀過很多菜譜的廚師，能夠按照食譜一步步制作出美味佳肴。

而世界行動模型則采用了完全不同的學習策略，它更像是讓廚師通過觀看無數個烹飪視頻來學習。在這些視頻中，廚師能夠看到油溫如何影響食材變化、調料添加后食物顏色如何改變、火候控制如何影響最終口感等動態過程。這種學習方式讓機器人不僅知道"應該怎么做"，更重要的是理解"這樣做之后會發生什么"。

研究團隊發現，這種差異帶來了截然不同的學習需求。視覺-語言-行動模型需要在訓練過程中接觸大量多樣化的數據，包括不同的機器人操作視頻、各種環境下的任務演示，甚至還需要網絡上的圖片和文本數據來建立廣泛的世界知識。這就像培養一個全才廚師，需要讓他了解各國菜系、不同食材特性、營養搭配原理等方方面面的知識。

相比之下，世界行動模型的訓練過程要簡潔得多。由于這類模型的"大腦"已經通過觀看海量視頻學會了理解世界動態變化的規律，在針對具體機器人任務進行訓練時，只需要相對較少的演示數據就能快速掌握操作技能。這就像一個已經通過觀看大量烹飪節目掌握了食材變化規律的人，學習新菜譜時會比完全的新手快得多。

二、設計嚴苛測試檢驗真實能力

為了公平比較這兩種方法的優劣，研究團隊設計了一套極其嚴格的測試方案，就像是為機器人安排了一場"全方位壓力測試"。他們不僅使用了現有的LIBERO-Plus基準測試，還專門開發了一個全新的RoboTwin 2.0-Plus測試平臺。

這個測試平臺的設計理念很有意思，它模擬了機器人在真實世界中可能遇到的各種"意外情況"。研究團隊識別出了七個主要的干擾類型，每一種都代表著現實世界中常見的變化因素。

攝像頭視角的變化是最直觀的一種干擾。就像你平時在家里從某個角度看客廳，突然換到另一個位置，整個房間的布局看起來就完全不同了。機器人也面臨同樣的挑戰，當攝像頭位置、角度或距離發生變化時，原本熟悉的環境可能變得"面目全非"。

機器人自身狀態的變化則更加復雜。研究團隊會隨機調整機器人關節的初始位置，或者改變機械手的開合狀態。這就像是讓一個習慣了右手寫字的人突然改用左手，需要重新適應全新的操作感受。

語言指令的變化考驗的是機器人的理解能力。同樣是"按響鈴鐺"這個任務，測試中可能會改成"按下服務鈴"或者"讓鈴鐺發出聲音"。這種變化看似簡單，但對機器人的語言理解和任務泛化能力提出了很高要求。

光照條件的變化可能是最接近真實世界的挑戰。研究團隊會改變燈光的顏色、亮度、方向和陰影效果，模擬從清晨到深夜、從室內到室外的各種光照環境。就像人類在不同光照條件下識別物體的能力一樣，機器人也需要適應這些變化。

背景環境的改變則測試機器人的抗干擾能力。研究團隊會更換桌面材質、改變墻壁顏色，甚至添加各種紋理和圖案。這就像是讓機器人在完全陌生的房間里執行熟悉的任務，看它是否還能保持穩定的表現。

圖像噪聲的添加更是對機器人視覺系統的嚴峻考驗。研究團隊會在機器人的視覺輸入中添加運動模糊、高斯模糊、縮放模糊、霧化效果和玻璃模糊等五種不同類型的噪聲。這就像是讓機器人在霧天、雨天或者透過毛玻璃觀察世界一樣困難。

最后，物體布局的變化則考驗機器人在雜亂環境中的工作能力。研究團隊會在工作臺上隨機添加3到15個無關物體，并且輕微移動目標物體的位置和方向。這模擬了真實世界中環境總是不夠整潔、物品位置經常發生微調的情況。

三、令人意外的測試結果

當所有測試完成后，結果讓研究團隊感到既驚喜又深思。在RoboTwin 2.0-Plus這個專門針對雙臂協作機器人設計的測試平臺上，世界行動模型展現出了顯著的優勢。以LingBot-VA為代表的世界行動模型在原始任務中就達到了92.1%的成功率，而在面對各種干擾時，總體成功率仍然保持在74.2%的高水平。

相比之下，經過精心設計和大量數據訓練的π0.5模型雖然在某些單項測試中表現不俗，但總體穩定性明顯不如世界行動模型，綜合成功率為58.6%。更有趣的是，一些混合方法，比如MOTUS模型，它既使用了視頻生成技術，又保留了傳統的視覺-語言處理模塊，其表現恰好介于兩者之間，達到了71.5%的成功率。

在LIBERO-Plus這個針對單臂機器人的測試平臺上，結果同樣支持了研究團隊的發現。Cosmos-Policy這個世界行動模型在原始任務中達到了驚人的98.5%成功率，即使在各種干擾條件下，仍然保持了82.2%的優異表現。令人驚訝的是，傳統方法中表現最好的π0.5模型在這個平臺上反而取得了85.7%的最高綜合成績，甚至超過了一些世界行動模型。

這種看似矛盾的結果實際上揭示了一個重要現象：不同的機器人平臺和任務類型對這兩種方法的敏感度是不同的。雙臂協作任務由于其復雜性，更能體現出世界行動模型在理解動態交互方面的優勢。而單臂任務雖然相對簡單，但如果訓練數據足夠豐富多樣，傳統方法仍然能夠取得優異成績。

四、不同干擾類型下的表現差異

深入分析具體的測試結果，研究團隊發現了一個非常有趣的規律：世界行動模型在面對視覺類干擾時表現格外出色，而對幾何配置變化的適應能力相對較弱。

在光照變化測試中，LingBot-VA保持了89.0%的高成功率，而π0.5則下降到49.6%。這種差異的根源在于兩種模型的學習機制不同。世界行動模型通過觀看大量視頻，見識過各種光照條件下物體的變化過程，就像一個經驗豐富的攝影師，無論在什么光線下都能準確判斷物體的真實狀態。

在圖像噪聲干擾測試中，這種優勢更加明顯。當研究團隊在機器人的視覺輸入中添加各種模糊和噪聲效果時，LingBot-VA的成功率仍然保持在80.9%，而π0.5則大幅下降至64.9%。通過對Cosmos-Policy預測結果的可視化分析，研究團隊發現了一個令人驚嘆的現象：即使輸入圖像被噪聲嚴重干擾，這個模型預測的未來畫面仍然非常清晰準確，就像具備了某種"去噪"能力。

物體布局變化的測試同樣展現了世界行動模型的優勢。當工作臺上出現大量干擾物體時，LingBot-VA的成功率保持在87.9%，而π0.5則降至56.8%。這說明通過視頻學習獲得的空間理解能力幫助機器人更好地在雜亂環境中鎖定目標物體。

然而，當測試涉及攝像頭視角變化時，情況變得復雜起來。LingBot-VA的成功率降至28.9%，甚至低于π0.5的45.6%。這個結果提醒我們，雖然世界行動模型在理解動態變化方面有優勢，但對于幾何空間關系的泛化能力仍有提升空間。

機器人初始狀態變化的測試結果更加發人深省。LingBot-VA在這種干擾下的成功率降至36.2%，而π0.5為27.6%。這說明當機器人自身的物理配置發生變化時，兩種方法都面臨挑戰，但世界行動模型略勝一籌。

五、性能優勢背后的代價

雖然世界行動模型在穩定性測試中表現優異，但研究團隊也發現了一個不容忽視的問題：計算效率。這就像是擁有了一輛性能卓越的超級跑車，但油耗也相當驚人。

在推理速度測試中，最快的傳統模型π0.5每次決策只需要63毫秒，而最慢的世界行動模型LingBot-VA在某些配置下需要5.23秒，相差超過80倍。這種巨大的速度差異主要來源于視頻生成過程的復雜性。

世界行動模型需要先預測未來的視覺狀態，然后基于這個預測來生成動作指令。這個過程就像是讓機器人先在腦海中"演練"一遍動作，然后再執行，雖然能夠獲得更好的效果，但時間成本也大大增加。

具體來說，影響計算速度的關鍵因素是"去噪步數"。在視頻生成過程中，模型需要通過多次迭代逐步從噪聲中恢復出清晰的未來畫面，就像是用橡皮擦一點點擦除草稿中的錯誤線條。去噪步數越多，預測結果越準確，但所需時間也越長。

例如，GE-Act模型通過將視覺預測的去噪步數設置為1，將動作預測的去噪步數設置為10，實現了相對較快的推理速度（300毫秒），但仍然比π0.5慢近5倍。而LingBot-VA為了獲得最佳效果，在RoboTwin 2.0測試中使用了25步視覺去噪和50步動作去噪，導致了極慢的推理速度。

為了解決這個問題，一些研究團隊開始探索新的優化策略。Fast-WAM和GigaWorld-Policy等新方法嘗試在測試時跳過視頻生成過程，直接預測動作，將推理時間分別減少到190毫秒和360毫秒。雖然仍然比傳統方法慢，但已經有了顯著改善。

這種性能與速度之間的權衡反映了當前技術發展的現狀：我們可以選擇追求最高的任務成功率，但需要接受較長的響應時間；或者選擇更快的響應速度，但可能需要在某些復雜場景下妥協性能。

六、混合方法的啟示

在這次大規模對比研究中，最有啟發性的發現之一是混合方法的表現。這些方法就像是在兩種教育理念之間尋找平衡點，既不完全依賴"博覽群書"，也不純粹追求"預知未來"，而是將兩者的優勢巧妙結合。

MOTUS模型采用了一種特別有趣的設計思路。它使用預訓練的視頻生成模型來理解動態變化，同時保留獨立的視覺-語言模塊來處理動作生成。這種設計就像是讓一個廚師既通過觀看烹飪節目學習食材變化規律，又通過閱讀菜譜掌握具體的操作步驟。結果顯示，MOTUS在機器人初始狀態變化測試中表現最佳，成功率達到85.0%，甚至超過了純粹的世界行動模型。

VLA-JEPA則采用了另一種混合策略。它在傳統的視覺-語言模型基礎上，添加了通過人類視頻學習得到的未來狀態預測能力。這就像是給一個通過閱讀學習的學生補充了一些實際觀察經驗。雖然這種預測能力不如專門的視頻生成模型那么強大，但仍然為模型帶來了顯著的穩定性提升，在LIBERO-Plus測試中取得了77.9%的綜合成功率。

這些混合方法的成功表明，將動態理解能力引入機器人控制系統的方式是多樣的，不一定需要完全采用世界行動模型的架構。關鍵在于如何恰當地結合兩種學習機制的優勢，避免各自的劣勢。

更重要的是，混合方法的表現驗證了研究團隊的一個重要推測：讓機器人具備預測能力確實能夠提升其穩定性，但這種預測能力的獲得方式可以是靈活的?？梢酝ㄟ^專門的視頻生成模型來獲得，也可以通過在傳統方法中引入預測任務來實現。

七、對未來發展的思考

這項研究的意義遠遠超出了技術層面的比較，它為整個機器人領域的發展方向提供了重要啟示。就像GPS導航技術的出現改變了人們的出行方式一樣，世界行動模型可能代表著機器人智能發展的一個重要轉折點。

從數據需求的角度來看，世界行動模型展現出了一種更加高效的學習模式。傳統的視覺-語言-行動模型需要大量精心標注的機器人操作數據，而且這些數據通常需要涵蓋各種不同的環境和條件。這就像是培養一個全科醫生，需要讓他在各個科室都實習一遍。

相比之下，世界行動模型的"大腦"已經通過互聯網上的海量視頻掌握了基本的物理規律和動態變化模式，在轉向具體的機器人任務時，只需要相對較少的演示數據就能快速適應。這種學習模式更接近人類的學習方式：我們不需要親身體驗每一種可能的情況，而是通過觀察和理解一般規律來應對新的挑戰。

但是，研究也揭示了當前技術的局限性。計算效率問題仍然是制約世界行動模型實際應用的主要障礙。在需要快速響應的場景中，比如自動駕駛或者工業生產線，幾秒鐘的決策延遲可能是不可接受的。

更深層的問題在于，當前的世界行動模型對幾何空間關系的理解仍然不夠深入。當機器人需要從不同角度觀察同一個場景，或者適應不同的物理配置時，這些模型的表現還有很大提升空間。這提醒我們，真正的機器人智能不僅需要理解動態變化，還需要具備強大的空間推理能力。

從更宏觀的角度來看，這項研究預示著機器人技術正在向更加智能化的方向發展。未來的機器人可能不再是簡單的指令執行者，而是具備預測和規劃能力的智能體。它們能夠在執行任務之前就預見可能的結果，并據此調整自己的行為策略。

說到底，這項研究告訴我們一個重要道理：在人工智能的世界里，"預知未來"的能力可能比"博學多聞"更加重要。當機器人能夠理解行動的后果，預測環境的變化時，它們就能在復雜多變的真實世界中表現得更加穩定可靠。這不僅僅是技術上的進步，更可能是機器人從"工具"向"伙伴"轉變的關鍵一步。當然，這個轉變過程中還有很多技術挑戰需要解決，比如如何提高計算效率、如何增強空間理解能力等。但毫無疑問，這個方向代表著機器人技術發展的一個重要趨勢，值得我們持續關注和深入研究。

Q&A

Q1：什么是世界行動模型WAM？

A：世界行動模型是一種新的機器人控制方法，它通過觀看大量視頻來學習世界如何運轉變化，能夠預測自己的行動會帶來什么結果。就像讓機器人先在腦海中"預演"一遍動作，然后再實際執行，這樣能讓機器人在面對新環境時表現更穩定。

Q2：世界行動模型比傳統視覺語言行動模型VLA強在哪里？

A：世界行動模型在應對環境變化時更穩定可靠。當光照條件改變、出現圖像噪聲或環境變得雜亂時，世界行動模型的成功率能保持在80-90%，而傳統方法可能下降到50-60%。這是因為它通過視頻學習掌握了物體變化的規律，就像經驗豐富的師傅能在各種條件下都保持穩定發揮。

Q3：世界行動模型有什么缺點嗎？

A：最大的缺點是速度太慢。傳統方法做決策只需要63毫秒，而世界行動模型可能需要幾秒鐘，因為它需要先預測未來畫面再生成動作。另外，當攝像頭角度發生變化或機器人初始姿態改變時，世界行動模型的適應能力也不如預期，這說明它對空間幾何關系的理解還有待提升。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.