澳洲國立大學與穆罕默德·本·扎耶德人工智能大學突破

2026-02-27 22:12:37　來源: 科技行者

北京舉報

分享至

這項由澳洲國立大學（ANU）和穆罕默德·本·扎耶德人工智能大學（MBZUAI）聯(lián)合開展的研究發(fā)表于2026年的計算機視覺頂級會議，研究編號為arXiv:2602.23058v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

想象一下，你正在指導一個機器人完成復雜的任務，比如更換手機的存儲芯片。這個任務需要按照特定的步驟：先取出外殼，然后移除舊的存儲芯片，安裝新的芯片，最后裝回外殼。對于人類來說，這種多步驟的規(guī)劃似乎很自然，但對AI系統(tǒng)來說卻是一個巨大的挑戰(zhàn)。

目前的AI系統(tǒng)在學習復雜任務時面臨著一個根本性問題：它們很難像人類一樣進行長期規(guī)劃。就像一個只能看到眼前一步路的近視眼旅行者，現(xiàn)有的AI系統(tǒng)往往只關注當下的動作，而無法制定涵蓋多個步驟的完整計劃。這種局限性嚴重影響了AI在實際應用中的表現(xiàn)，特別是在需要連續(xù)多步操作的復雜任務中。

研究團隊意識到，傳統(tǒng)的AI學習方法存在兩個致命缺陷。首先，這些系統(tǒng)在學習過程中忽略了不同狀態(tài)之間的幾何關系和層次結構。想象一下，如果你在學習圍棋時只記住每一步棋子的位置，而不理解整個棋局的戰(zhàn)略層次和各個區(qū)域之間的關系，你永遠無法成為高手。其次，當AI系統(tǒng)試圖進行多步規(guī)劃時，誤差會像滾雪球一樣累積，導致越往后的預測越不準確，最終整個計劃都會偏離正軌。

為了解決這些問題，研究團隊開發(fā)了一個名為GeoWorld的創(chuàng)新系統(tǒng)。這個系統(tǒng)的核心思想是讓AI學會在一個特殊的幾何空間中進行思考和規(guī)劃，這個空間被稱為雙曲空間。雙曲空間聽起來很抽象，但我們可以把它想象成一個特殊的地圖，在這張地圖上，不同的位置自然地形成了層次結構，就像一個倒置的碗，越往邊緣走，空間擴展得越快。

一、雙曲幾何：AI規(guī)劃的新天地

要理解GeoWorld的創(chuàng)新之處，我們首先需要了解什么是雙曲幾何。在我們熟悉的平面幾何中，兩條平行線永遠不會相交，三角形的內(nèi)角和總是180度。但在雙曲幾何中，這些規(guī)則都被打破了。想象一下一個馬鞍形的表面，在這個表面上，"直線"實際上是彎曲的，而且通過一個點可以畫出無數(shù)條與給定直線平行的線。

這種奇特的幾何特性為什么對AI規(guī)劃如此重要呢？關鍵在于雙曲空間天生具有層次結構的特點。就像一棵樹的分支結構一樣，從主干到分支再到枝葉，每一層都有明確的層級關系。當AI系統(tǒng)在雙曲空間中表示不同的狀態(tài)時，那些在任務執(zhí)行中處于更高層次的狀態(tài)會自動被置于空間的更中心位置，而具體的執(zhí)行步驟則分布在邊緣區(qū)域。

研究團隊發(fā)現(xiàn)，當AI系統(tǒng)在雙曲空間中進行規(guī)劃時，它能夠更好地理解任務的整體結構。回到更換存儲芯片的例子，在雙曲空間中，"完成整個更換任務"這個高層目標會位于中心位置，而"取出外殼"、"移除舊芯片"等具體步驟則圍繞在周圍，形成一個自然的層次結構。

為了實現(xiàn)這種雙曲幾何的應用，研究團隊開發(fā)了一種叫做雙曲JEPA（H-JEPA）的技術。JEPA本身是一種讓AI系統(tǒng)學習預測未來狀態(tài)的方法，而H-JEPA則將這種預測能力擴展到了雙曲空間中。就像給AI系統(tǒng)配備了一個特殊的"雙曲眼鏡"，讓它能夠在這個彎曲的空間中看清事物之間的真實關系。

在雙曲空間中，距離的計算方式也完全不同。兩個狀態(tài)之間的"距離"不再是簡單的直線距離，而是沿著雙曲表面的測地線距離。這種距離測量方式天然地反映了狀態(tài)之間的層次關系：層次相近的狀態(tài)距離較近，而跨越多個層次的狀態(tài)則距離較遠。

二、幾何強化學習：讓AI在彎曲空間中學會規(guī)劃

有了雙曲空間的表示還不夠，AI系統(tǒng)還需要學會在這個空間中進行有效的規(guī)劃。這就需要用到研究團隊開發(fā)的另一項技術：幾何強化學習（GRL）。

傳統(tǒng)的強化學習就像訓練一只小狗學會做動作，通過獎勵和懲罰來引導行為。但在復雜的多步規(guī)劃任務中，這種方法往往效果不佳，因為系統(tǒng)很難理解每個步驟對整體目標的貢獻。幾何強化學習則采用了一種完全不同的思路。

在GeoWorld系統(tǒng)中，AI的規(guī)劃過程被重新定義為在雙曲空間中尋找最短路徑的問題。就像在一個復雜的地形中尋找從起點到終點的最佳路線一樣，AI系統(tǒng)需要找到一條沿著雙曲表面的測地線，這條線代表了完成任務的最優(yōu)步驟序列。

這種方法的巧妙之處在于將規(guī)劃問題轉(zhuǎn)化為了幾何優(yōu)化問題。系統(tǒng)不再需要猜測每個動作的價值，而是通過最小化雙曲空間中的"能量"來找到最優(yōu)路徑。就像水總是沿著最省力的路徑流動一樣，AI系統(tǒng)會自動找到在雙曲空間中能量最低的路徑，這條路徑通常對應著最有效的任務執(zhí)行方案。

幾何強化學習還引入了一個重要的約束機制：三角不等式正則化。在雙曲幾何中，三角不等式告訴我們，通過中間點的路徑長度不能小于直接路徑的長度。這個約束確保了AI系統(tǒng)的規(guī)劃保持幾何一致性，避免了不合理的"捷徑"。

三、能量景觀：AI規(guī)劃的新視角

GeoWorld系統(tǒng)的另一個創(chuàng)新之處在于它對規(guī)劃問題的全新理解方式。傳統(tǒng)的AI系統(tǒng)通常逐步生成下一個動作，就像一個人走路時只看腳下的下一步。而GeoWorld則采用了一種被稱為"能量景觀"的方法來理解整個任務空間。

想象一個起伏的山地地形圖，山峰代表困難或不可行的狀態(tài)，而山谷則代表容易到達且有希望的狀態(tài)。在這個地形圖上，從當前位置到目標位置的最佳路徑就是沿著山谷前進的路徑。GeoWorld系統(tǒng)正是通過構建這樣一個能量景觀來進行規(guī)劃的。

在雙曲空間中，這個能量景觀具有特殊的結構。由于雙曲幾何的特性，整個景觀呈現(xiàn)出層次化的特征：高層的戰(zhàn)略決策對應著景觀的主要結構，而具體的執(zhí)行步驟則對應著局部的細節(jié)特征。這種結構使得AI系統(tǒng)能夠同時考慮宏觀策略和微觀執(zhí)行，實現(xiàn)真正的層次化規(guī)劃。

研究團隊通過大量的可視化實驗展示了雙曲空間中的能量景觀與傳統(tǒng)歐幾里德空間中的景觀有著顯著差異。在傳統(tǒng)的平面空間中，能量景觀通常呈現(xiàn)出平滑的拋物面形狀，缺乏明確的方向性指導。而在雙曲空間中，景觀呈現(xiàn)出更加尖銳和結構化的形狀，具有明顯的方向性特征，能夠為AI系統(tǒng)提供更清晰的規(guī)劃指導。

四、交叉熵方法：在彎曲空間中尋找最優(yōu)路徑

有了雙曲空間的表示和能量景觀的概念，AI系統(tǒng)還需要一種有效的搜索方法來找到最優(yōu)的規(guī)劃方案。研究團隊采用了一種叫做交叉熵方法（CEM）的優(yōu)化技術。

交叉熵方法的工作原理就像一個不斷學習的探險家。開始時，探險家對地形一無所知，只能隨機嘗試各種路徑。但隨著探索的深入，探險家逐漸學會識別哪些路徑更有希望，并將更多的努力集中在這些有前途的方向上。

在GeoWorld系統(tǒng)中，交叉熵方法被用來在雙曲空間的能量景觀中搜索最優(yōu)路徑。系統(tǒng)首先生成大量的候選動作序列，然后評估每個序列在雙曲空間中對應的能量成本。那些能量成本較低的序列被認為是更好的候選方案，系統(tǒng)會據(jù)此調(diào)整搜索策略，在下一輪搜索中生成更多類似的優(yōu)質(zhì)序列。

這個過程會反復迭代多次，每次迭代都會使搜索范圍向著最優(yōu)解的方向收縮。就像一個漏斗一樣，搜索范圍越來越小，但質(zhì)量越來越高，最終找到在雙曲空間中能量最低的路徑。

交叉熵方法在雙曲空間中的應用特別有效，因為雙曲幾何的層次結構特性使得優(yōu)質(zhì)解往往聚集在特定的區(qū)域內(nèi)。這種聚集效應大大提高了搜索效率，使得系統(tǒng)能夠快速找到高質(zhì)量的規(guī)劃方案。

五、實驗驗證：從理論到實踐的成功跨越

為了驗證GeoWorld系統(tǒng)的有效性，研究團隊在兩個大型數(shù)據(jù)集上進行了廣泛的實驗：CrossTask和COIN。這兩個數(shù)據(jù)集包含了數(shù)千個真實世界的指導性視頻，涵蓋了從烹飪、手工制作到設備維修等各種復雜的多步驟任務。

CrossTask數(shù)據(jù)集包含4700個視頻，涵蓋83種不同類型的任務和105種不同的動作，總時長達375小時。COIN數(shù)據(jù)集則更加龐大，包含11287個視頻，涵蓋180種任務和778種動作，總時長476小時。這些數(shù)據(jù)集為AI系統(tǒng)提供了豐富的學習材料，讓它們能夠?qū)W習人類如何執(zhí)行各種復雜任務。

實驗結果令人振奮。在3步規(guī)劃任務中，GeoWorld系統(tǒng)的成功率比之前最先進的V-JEPA 2系統(tǒng)提高了約3%。在更具挑戰(zhàn)性的4步規(guī)劃任務中，成功率提升了約2%。雖然這些數(shù)字看起來不大，但在AI領域，這樣的提升是非常顯著的，往往代表著技術的重大突破。

更重要的是，隨著規(guī)劃步數(shù)的增加，GeoWorld系統(tǒng)的優(yōu)勢變得更加明顯。在6步規(guī)劃任務中，傳統(tǒng)系統(tǒng)的表現(xiàn)急劇下降，而GeoWorld系統(tǒng)仍能保持相對穩(wěn)定的性能。這說明雙曲幾何和幾何強化學習確實能夠有效緩解長期規(guī)劃中的誤差累積問題。

研究團隊還進行了深入的分析實驗，探究了系統(tǒng)的各個組成部分對整體性能的貢獻。他們發(fā)現(xiàn)，雙曲幾何表示和幾何強化學習是互補的：雙曲幾何提供了更好的任務結構表示，而幾何強化學習則優(yōu)化了在這種結構中的規(guī)劃策略。兩者結合使用時，效果最為顯著。

六、技術細節(jié)：深入理解GeoWorld的工作機制

GeoWorld系統(tǒng)的技術實現(xiàn)涉及多個精心設計的組件，每個組件都為整體性能做出了獨特貢獻。

首先是編碼器的設計。系統(tǒng)使用預訓練的視覺編碼器將視頻幀轉(zhuǎn)換為高維特征向量。這些特征向量隨后通過一個特殊的指數(shù)映射函數(shù)被投影到雙曲空間中。這個投影過程就像給每個狀態(tài)分配一個在雙曲地圖上的位置，位置的選擇反映了狀態(tài)在任務層次中的重要性。

預測器網(wǎng)絡是系統(tǒng)的核心組件，它是一個包含約3億參數(shù)的大型Transformer網(wǎng)絡。這個網(wǎng)絡的任務是在雙曲空間中預測未來狀態(tài)的演變。與傳統(tǒng)的預測器不同，GeoWorld的預測器必須遵循雙曲幾何的規(guī)則，確保預測結果在幾何上是一致的。

訓練過程采用了兩階段策略。第一階段是監(jiān)督學習，系統(tǒng)通過觀察大量的示例視頻學習基本的狀態(tài)轉(zhuǎn)換規(guī)律。這個階段的目標是讓系統(tǒng)掌握在雙曲空間中進行準確預測的能力。第二階段是幾何強化學習，系統(tǒng)通過優(yōu)化能量函數(shù)來改進其規(guī)劃能力。

幾何強化學習階段特別值得關注。系統(tǒng)不是簡單地最大化獎勵，而是最小化雙曲空間中的測地距離。這種方法將規(guī)劃問題轉(zhuǎn)化為幾何優(yōu)化問題，使得系統(tǒng)能夠找到真正意義上的最優(yōu)路徑。

研究團隊還引入了一個重要的正則化機制：三角不等式約束。這個約束確保系統(tǒng)的預測遵循雙曲幾何的基本規(guī)律，防止出現(xiàn)幾何上不合理的預測結果。實驗表明，這個約束對于維持長期規(guī)劃的穩(wěn)定性至關重要。

七、對比分析：GeoWorld與現(xiàn)有方法的差異

為了突出GeoWorld的創(chuàng)新性，研究團隊將其與多種現(xiàn)有的AI規(guī)劃方法進行了詳細對比。

傳統(tǒng)的生成式方法通過逐幀生成未來視頻來進行規(guī)劃。這些方法的問題在于必須處理大量的像素級細節(jié)，不僅計算成本高昂，而且容易被無關的視覺噪聲干擾。就像試圖通過繪制詳細地圖來規(guī)劃旅行路線一樣，這種方法往往過于關注無關緊要的細節(jié)，而忽略了整體的戰(zhàn)略考慮。

預測式方法雖然避免了像素級生成的問題，但通常在歐幾里德空間中進行，無法充分利用任務的層次結構。這就像在平面地圖上規(guī)劃山地旅行，無法準確反映地形的起伏變化和真實的路徑難度。

基于大語言模型的方法雖然在某些任務上表現(xiàn)不錯，但它們主要依賴文本信息，難以充分利用視覺信息中蘊含的豐富細節(jié)。這些方法就像僅憑路標指示進行導航，而無法看到實際的道路狀況。

相比之下，GeoWorld結合了多種方法的優(yōu)點：它像預測式方法一樣避免了像素級生成的復雜性，又像生成式方法一樣能夠進行多步規(guī)劃，同時還通過雙曲幾何捕捉了任務的層次結構信息。

八、應用前景：從實驗室到現(xiàn)實世界

GeoWorld技術的潛在應用范圍極其廣泛，幾乎涵蓋了所有需要復雜規(guī)劃的領域。

在機器人技術方面，GeoWorld可以幫助機器人更好地理解和執(zhí)行復雜的操作任務。無論是家用服務機器人還是工業(yè)制造機器人，都需要能夠進行多步驟的規(guī)劃和執(zhí)行。GeoWorld的層次化規(guī)劃能力使得機器人能夠更智能地分解復雜任務，提高執(zhí)行效率和成功率。

在自動駕駛領域，車輛需要在復雜的交通環(huán)境中進行實時規(guī)劃。GeoWorld的幾何規(guī)劃方法可以幫助自動駕駛系統(tǒng)更好地理解交通場景的層次結構，從戰(zhàn)略層面的路徑規(guī)劃到戰(zhàn)術層面的避障操作，實現(xiàn)更安全、更智能的駕駛行為。

在智能助手和虛擬代理方面，GeoWorld可以使這些系統(tǒng)能夠更好地理解和執(zhí)行用戶的復雜指令。比如"幫我準備一個生日聚會"這樣的高層指令需要分解為購買材料、準備食物、布置場地等多個子任務，GeoWorld的層次化規(guī)劃能力正好適用于這類場景。

在教育領域，GeoWorld技術可以用于開發(fā)智能化的學習系統(tǒng)，幫助學生掌握復雜的多步驟技能。系統(tǒng)可以根據(jù)學生的學習進度和能力水平，動態(tài)調(diào)整教學策略和練習難度。

九、技術挑戰(zhàn)與未來發(fā)展

盡管GeoWorld展示了巨大的潛力，但研究團隊也坦誠地指出了當前技術面臨的挑戰(zhàn)和局限性。

首先是計算復雜性問題。雙曲幾何的計算比傳統(tǒng)的歐幾里德幾何更加復雜，特別是在大規(guī)模應用中，這可能成為性能瓶頸。研究團隊正在探索更高效的數(shù)值計算方法和硬件加速技術來解決這個問題。

其次是數(shù)據(jù)需求問題。雖然GeoWorld在現(xiàn)有數(shù)據(jù)集上表現(xiàn)優(yōu)異，但這些數(shù)據(jù)集主要包含相對簡單的日常任務。對于更復雜的專業(yè)任務，可能需要更多的訓練數(shù)據(jù)和更精細的標注。

可解釋性也是一個重要挑戰(zhàn)。雖然雙曲空間的層次結構在理論上很直觀，但在實際應用中，系統(tǒng)的決策過程對用戶來說仍然是黑盒的。如何讓用戶理解和信任AI系統(tǒng)的規(guī)劃決策是一個需要進一步研究的問題。

研究團隊對未來的發(fā)展方向也有明確的規(guī)劃。他們希望將GeoWorld擴展到更復雜的任務場景，包括需要多個代理協(xié)作的任務和動態(tài)變化的環(huán)境。同時，他們也在探索如何將GeoWorld與其他AI技術結合，比如大語言模型和強化學習，創(chuàng)造出更強大的智能規(guī)劃系統(tǒng)。

另一個重要的發(fā)展方向是將技術應用到具體的機器人系統(tǒng)中。目前的實驗主要在視頻數(shù)據(jù)上進行，真實的機器人應用還需要考慮傳感器噪聲、執(zhí)行誤差、環(huán)境變化等實際因素。

十、理論意義與科學價值

GeoWorld的貢獻不僅在于技術上的突破，更在于為AI規(guī)劃研究提供了全新的理論視角。

傳統(tǒng)的AI規(guī)劃研究主要關注算法的效率和準確性，而GeoWorld首次將幾何學的深刻洞察引入了AI規(guī)劃領域。這種跨學科的融合為解決長期困擾AI社區(qū)的規(guī)劃問題提供了新的思路。

雙曲幾何在AI中的應用也為其他相關研究領域提供了啟發(fā)。比如在知識圖譜嵌入、層次化表示學習、多尺度特征學習等領域，雙曲幾何都顯示出了獨特的優(yōu)勢。GeoWorld的成功可能會推動這些領域的進一步發(fā)展。

從認知科學的角度來看，GeoWorld的層次化規(guī)劃方法與人類的認知過程有很多相似之處。人類在進行復雜規(guī)劃時，通常會采用分層的策略：先制定大致的計劃框架，再逐步細化具體的執(zhí)行步驟。GeoWorld的幾何方法為理解和模擬這種認知過程提供了新的工具。

說到底，GeoWorld代表了AI規(guī)劃研究的一個重要里程碑。它不僅解決了現(xiàn)有技術的實際問題，更為整個領域的發(fā)展指明了新的方向。隨著技術的不斷完善和應用場景的擴展，我們有理由相信，基于幾何學的AI規(guī)劃方法將會在未來的智能系統(tǒng)中發(fā)揮越來越重要的作用。

這項研究讓我們看到了AI技術發(fā)展的另一種可能性：不是簡單地增加模型的規(guī)模和數(shù)據(jù)的數(shù)量，而是通過深入理解問題的本質(zhì)結構，借鑒數(shù)學和物理學的深刻洞察，創(chuàng)造出真正智能的解決方案。對于關心AI技術發(fā)展的普通讀者來說，GeoWorld告訴我們，AI的未來不僅在于更強大的計算能力，更在于更深刻的理論洞察和更巧妙的數(shù)學工具。有興趣深入了解這項研究的讀者可以通過論文編號arXiv:2602.23058v1查詢完整論文，探索這個令人著迷的幾何AI世界。

Q&A

Q1：GeoWorld與傳統(tǒng)AI規(guī)劃方法有什么本質(zhì)區(qū)別？

A：GeoWorld的核心創(chuàng)新是使用雙曲幾何而非傳統(tǒng)的歐幾里德空間進行規(guī)劃。傳統(tǒng)方法像在平面地圖上規(guī)劃路線，而GeoWorld像在有層次結構的立體地形圖上規(guī)劃，能夠自然地捕捉任務的層次關系，使AI系統(tǒng)能夠同時考慮宏觀策略和具體執(zhí)行步驟。

Q2：雙曲幾何為什么適合AI規(guī)劃任務？

A：雙曲幾何天生具有層次結構特性，就像樹的分支結構。在雙曲空間中，高層目標自然位于中心位置，具體執(zhí)行步驟分布在邊緣，形成清晰的層次關系。這種結構完美匹配了復雜規(guī)劃任務的本質(zhì)特征，使AI能夠更好地理解任務的整體結構。

Q3：GeoWorld技術能應用到哪些實際場景中？

A：GeoWorld技術應用前景廣泛，包括機器人操作、自動駕駛、智能助手等領域。任何需要多步驟規(guī)劃的場景都能受益，比如家用機器人執(zhí)行復雜家務、自動駕駛車輛進行路徑規(guī)劃、智能助手幫助用戶分解復雜任務等。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.