網易首頁 > 網易號 > 正文申請入駐

西湖大學王東林團隊論文：機器人需要“通古今，知未來”丨CVPR 2026

2026-03-23 09:06:43　來源: AI科技評論

廣東舉報

分享至

HiF-VLA：一種利用運動信息建模時間，讓機器人實現連續決策的視覺-語言-動作模型。

作者丨鄭佳美

編輯丨岑峰

試想一下，當機器人伸手去拿桌上的杯子，剛把杯子抬起來，又停住了，隨后把它放回原位，然后再次伸手去拿。同一個動作，它重復了一遍，像是忘記了自己剛剛已經做過什么。類似的情況在真實環境中并不少見：按鈕明明已經按下，卻還在反復按，明明抽屜已經關好，卻還在繼續推。

這些失敗并不是因為它“看不清”，而是因為它缺乏一套能夠模擬時空演化的 “ 世界模型 ” 。當前的視覺語言行動模型雖然能夠理解圖像與指令，但在連續任務中仍然只能依賴當前觀測做決策，一旦任務變成長步驟流程，例如拿起物體、移動、放置再到關閉裝置，就容易出現動作重復和決策中斷的問題，其根本原因在于缺乏對時間的理解能力。

這一問題正在成為具身智能發展的關鍵瓶頸。現有方法大多基于“看到什么就做什么”的即時反應機制，在短任務中表現良好，但在長序列任務中容易出現動作不連貫和決策漂移。如何讓模型不僅能感知當前狀態，還能記住過去并預判未來，成為新的核心挑戰。

在這樣的背景下，西湖大學王東林團隊提出了論文《HiF-VLA：Hindsight, Insight and Foresight for Vision-Language-Action Models》。研究中，HiF-VLA 不再簡單依賴歷史圖像或未來畫面預測，而是以“運動”作為時間信息的核心表達，使模型能夠同時建模過去的變化、當前狀態以及未來趨勢，從而實現更穩定的連續決策。

這項研究的意義，不僅在于性能上的提升，更在于提出了一種新的范式，即讓機器人從“被動反應”走向“邊思考邊行動”。在具身智能逐步走向真實世界的過程中，這種對時間的理解能力，正在成為決定系統是否真正可用的關鍵因素。

論文地址：https://arxiv.org/pdf/2512.09928

機器人不再「忘動作」

在長序列任務 LIBERO-Long 上，這項研究主要測試機器人是否能夠連續完成多個動作，例如拿取物體、放置以及關閉裝置等。研究結果表明，HiF-VLA 在單視角條件下的成功率達到 94.4%，在多視角條件下達到 96.4%。

作為對比，當前較強的方法 OpenVLA-OFT 在單視角下為 91.0%，多視角為 94.0%。由此可以看出，這個方法在單視角下提升了 3.4 個百分點，在多視角下提升了 2.4 個百分點。

進一步來看，在 10 個具體任務中，有多個任務的成功率達到 100%，而最低的任務也達到了 76%，說明整體性能穩定，并非依賴個別任務拉高平均水平。一個重要現象是，這個方法在單視角條件下的表現已經接近甚至達到其他方法在多視角條件下的水平，這意味著其性能提升主要來源于時間建模能力，而不是依賴更多視覺信息或攝像頭數量。

在 CALVIN 跨環境泛化任務中，研究在 A、B、C 三個環境中訓練模型，并在未見過的 D 環境中進行測試。評價指標是連續成功完成任務的數量，也就是在不中斷的情況下能夠連續完成多少個步驟。結果顯示，這個方法在單視角下達到 4.08，在多視角下達到 4.35，而 OpenVLA-OFT 約為 4.10，Seer 約為 4.28，RoboVLMs 約為 4.25。

可以看到，這個方法在多視角條件下取得了最高的 4.35，相比基線提升約 0.25 個任務。這個提升具有重要意義，因為這個指標一旦中間某一步失敗后續任務將不再計入，因此數值越高說明模型在長時間連續決策中的穩定性越強，也體現了更好的長期規劃能力。

在效率與計算成本方面，研究進一步分析了性能提升是否以計算開銷為代價。結果顯示，當引入基于圖像的未來子目標預測時，成功率為 91.8%，但延遲增加到 115.9 毫秒，比基線慢 1.59 倍。當采用歷史幀堆疊時，成功率反而下降到 90.4%，延遲上升到 229.5 毫秒，是基線的 3.15 倍，說明大量圖像信息不僅帶來高計算成本，還會干擾模型判斷。

相比之下，這個方法在只加入未來推理時，成功率為 92.2%，延遲為 82.7 毫秒，幾乎沒有額外開銷；只加入歷史信息時，成功率同樣為 92.2%，延遲為 117.7 毫秒；同時加入兩者后，成功率達到 93.2%，延遲為 121.6 毫秒。整體來看，這個方法在提升成功率的同時，計算成本遠低于堆疊歷史幀的方法，說明使用運動信息比直接使用圖像歷史更加高效。

在時序長度擴展能力方面，研究逐步增加歷史長度，從 4 到 8，再到 16 和 32。結果表明，當長度為 8 時性能最佳，單視角為 94.4%，多視角為 96.4%，繼續增加長度反而會導致性能下降，其原因在于信息過多帶來的冗余干擾。在延遲方面，傳統方法的計算成本會隨著歷史長度線性增長，當長度為 8 時延遲增加約 4.5 倍，而這個方法的延遲基本保持穩定，僅有輕微增長，說明其在時間維度上具有更好的擴展性。

在真實機器人實驗中，研究設置了多個長序列任務來驗證實際效果。在按順序按按鈕任務中，基線方法的成功率為 17.4%，而這個方法提升到 34.2%，接近翻倍。在覆蓋與堆疊任務中，基線為 33.3%，這個方法達到 57.9%，提升了 24.6 個百分點。

在放置任務中，基線約為 62.5%，這個方法約為 65%，提升較小但表現更加穩定。研究人員分析認為，基線方法難以判斷按鈕是否已經被按下，因為狀態變化較為細微，而這個方法能夠利用時間變化信息來識別狀態轉變，因此在復雜任務中表現更好。這進一步說明，引入時間信息能夠顯著提升機器人在長序列任務中的決策能力。

時間建模方法的系統性對比

在實驗過程中，研究首先在數據與任務設計上進行了系統安排。在模擬環境中，采用了 LIBERO 數據集中的 10 個長序列任務，以及 CALVIN 數據集中的跨環境泛化任務。在真實機器人實驗中，每個任務收集了 100 條示范數據，并在測試階段對每個任務執行 20 次，以評估模型的穩定性和泛化能力。

在輸入信息設計方面，模型同時接收三類信息，包括當前畫面作為對當前狀態的感知信息，歷史運動作為對過去動態變化的表達，以及語言指令用于提供任務目標，從而使模型能夠在時間維度和語義層面進行聯合決策。

在對比實驗設計中，研究團隊設置了多種不同方法進行系統比較。第一種方法僅使用當前觀測信息進行決策，不包含任何時間信息。第二種方法通過堆疊歷史圖像來引入時間信息，但這種方式存在信息冗余嚴重以及計算成本較高的問題。第三種方法通過預測未來圖像作為子目標來引導決策，但這種方式容易產生誤差，并且穩定性較差。相比之下，所提出的方法采用運動信息替代圖像來表示時間變化，從而減少冗余信息并提高建模效率。

在消融實驗中，研究進一步分析了不同設計選擇對性能的影響。首先在歷史長度方面進行實驗，結果表明最優長度為 8，當長度過短時無法提供足夠的信息，而長度過長則會引入冗余并影響模型判斷。

其次在歷史信息的使用方式上，研究比較了兩種策略，一種是將歷史信息直接輸入視覺語言模型，此時成功率為 92.8%，另一種是將歷史信息注入到決策模塊中，此時成功率提升到 94.4%。這一結果說明，將歷史信息直接加入視覺語言模型會影響其原有的視覺與語言理解過程，而在決策階段引入歷史信息能夠更有效地發揮其作用。

從「看到就做」到「邊想邊做」

這項研究首先解決了一個核心問題，即傳統模型在決策過程中往往只依賴當前觀測而忽略時間信息，從而導致動作不連貫以及在長序列任務中容易失敗。研究人員指出，問題的根本不在于視覺能力不足，而在于缺乏對時間的建模能力。

基于這一認識，研究提出了一個重要發現，即運動信息比圖像更適合用于表示時間變化，這是因為圖像中包含大量靜態信息，而運動信息只保留了真正發生變化的部分，因此更加高效且更具表達力。

這一發現對機器人研究帶來了直接影響，使原本從感知到動作的單向過程轉變為同時考慮過去、現在與未來的決策過程，即從簡單的感知到動作轉變為基于過去、當前狀態以及未來預測共同驅動的行動決策。

在工程價值方面，實驗結果表明這個方法不僅在性能上取得了顯著提升，例如成功率最高達到 96.4%，同時在計算效率上也具有優勢，避免了傳統方法中可能出現的三倍計算開銷問題。

此外，這個方法在不同環境下表現出更強的泛化能力，并且在真實機器人實驗中同樣有效，說明其具有較強的實際應用潛力。

進一步來看，這項研究還推動了一種新的智能范式，從“看到就做”的視覺語言行動模型到“邊想邊做”的世界行動模型， HiF-VLA 改變的不僅是模型的結構設計，更是在重新定義機器人應當具備的能力邊界。

過去的系統更像是被動反應的執行者，只對當前輸入做出即時回應；而在這種新的范式下，機器人開始具備連續決策的能力，能夠在行動中記住剛剛發生了什么，判斷當前處于什么階段，并預判接下來應該做什么。

這種變化的意義在于，機器人不再只是完成單步動作，而是能夠理解一整段過程，并在過程中不斷調整自己的行為。這也意味著，具身智能的發展正在從“感知驅動的反應系統”，走向“時間驅動的推理系統”。

當模型真正具備這種能力時，機器人才能在復雜、動態的真實環境中穩定工作，而不僅僅是在受控場景中完成預設任務。

HiF-VLA 背后的科研力量

論文的通訊作者王東林，現任西湖大學人工智能系副主任，是機器智能實驗室（MiLAB）的創始人和負責人，同時也是西湖機器人科技（杭州）有限公司的創始人。

他本科和碩士畢業于西安交通大學電子信息工程專業，隨后在加拿大卡爾加里大學獲得電子與計算機工程博士學位，并在加拿大從事博士后研究工作。

之后他在美國紐約理工學院任教并晉升為副教授，2017 年回國加入西湖大學，成為工學院首批全職教師之一，并創建了機器智能實驗室。同時，他還擔任國家科技創新 2030 重大項目首席科學家，并入選國家人社部高層次人才計劃，在國家級科研項目中承擔重要角色。

在研究方向上，他長期致力于機器人學習與智能決策領域，重點關注強化學習、元學習以及機器人行為智能，目標是讓機器人具備自主學習、快速適應新環境并完成復雜任務的能力。其研究不僅關注感知層面的理解，更強調從感知到決策再到行動的完整閉環，尤其是在長序列任務和真實環境中的穩定執行能力。

在學術成果方面，他已發表一百余篇論文，活躍于機器人學習和強化學習等前沿領域，并參與國際學術社區建設。他的團隊是國內最早專注于機器人學習的團隊之一，提出國際第一個四足機器人VLA大模型、人形機器人VLA大模型、獎勵無關人類反饋強化學習。他近期合作的AAAI 2026 論文斬獲最佳論文獎，同時帶領研發的通用行為專家大模型 GAE 也達到人形機器人運動的國際領先水準。

參考地址：https://milab.westlake.edu.cn/

另一位通訊作者黃思騰，現任阿里巴巴達摩院算法專家，博士畢業于浙江大學與西湖大學聯合培養項目，在機器智能實驗室完成博士研究，并由王東林教授指導。

在此之前，他于武漢大學計算機科學專業獲得本科學位。在博士期間，他還在阿里巴巴通義實驗室與達摩院進行長期研究實習，隨后進入達摩院從事算法研究工作，整體經歷貫穿學術研究與工業界實踐。

在研究方向上，他主要聚焦于具身智能、多模態大模型以及高效人工智能，核心關注如何讓模型同時理解圖像、視頻、語言以及物理世界中的動態信息，并在真實環境中進行感知、推理與生成。他的研究不僅涉及多模態理解與生成，還強調模型在數據、計算和存儲等方面的效率優化，致力于構建能夠在現實世界中高效運行的統一智能系統。

在學術成果方面，他已在相關領域發表三十余篇論文，涵蓋計算機視覺、多模態學習與機器人方向，并活躍于頂級國際會議和期刊。同時，他參與多個具身智能與多模態模型方向的研究工作，包括視覺語言行動模型及統一世界模型等，代表性工作涉及 HiF-VLA、RynnVLA 系列以及 WorldVLA 等框架，推動了機器人在長序列任務與真實環境中的能力提升。

參考地址：https://kyonhuang.top/

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.