網易首頁 > 網易號 > 正文申請入駐

微軟研究院突破：AI智能體實現偵探式探索與經驗內化

2026-02-27 22:18:10　來源: 科技行者

北京舉報

分享至

這項由微軟研究院聯合韓國科學技術院共同完成的開創性研究，于2026年發表在國際學習表征會議（ICLR 2026）上。對于那些想要深入了解這項研究的讀者，可以通過論文編號arXiv:2602.23008v1查詢完整的技術細節。

一、從困在迷宮里的AI說起

當我們讓人工智能去完成一些需要多步驟思考的復雜任務時，經常會遇到一個令人沮喪的現象：這些AI智能體就像一個總是在同一個地方打轉的人，明明應該去探索新的路徑，卻總是重復著同樣的錯誤。

這種現象在AI領域被稱為"探索不足"問題。就好比你要求一個人在一個陌生的城市里找到最好的餐廳，但這個人卻始終只在熟悉的幾條街道上轉悠，從來不敢嘗試走進那些看起來陌生但可能藏著驚喜的小巷。大型語言模型雖然擁有豐富的預訓練知識，但在面對需要主動探索的環境時，往往傾向于依賴已有的知識模式，而不愿意冒險嘗試可能失敗但能帶來新發現的行動。

更具體地說，當前的AI智能體在執行科學實驗或網購這樣的多步驟任務時，經常會卡在某個環節上。比如在虛擬科學實驗中，AI被要求"打開紅色燈泡"，它可能會一直嘗試在當前房間里尋找紅色燈泡，即使這個房間里根本沒有。正確的做法應該是先探索其他房間，找到燈泡的位置，然后再想辦法點亮它。但現有的AI系統往往缺乏這種系統性探索的能力。

二、記憶與學習的巧妙結合

面對這個挑戰，微軟研究院的科學家們提出了一個極其巧妙的解決方案，他們稱之為"探索性記憶增強在線和離線策略優化"（EMPO?）。這個名字雖然聽起來復雜，但其核心思想卻可以用一個簡單的比喻來理解。

設想一位經驗豐富的偵探在調查一系列相關案件。這位偵探不僅會在每次調查中嘗試新的線索追蹤方法，還會仔細記錄每次調查的心得體會。更重要的是，他會將這些經驗內化為自己的直覺和判斷能力，這樣即使在沒有案件記錄的情況下，他也能憑借積累的經驗做出正確的判斷。

EMPO?框架正是模擬了這樣的學習過程。它讓AI智能體具備了三種不同的"調查模式"：有時候它會像新手偵探一樣純粹依靠直覺行動，有時候它會查閱以往的案件記錄來指導當前的行動，而在學習階段，它還會將從記錄中學到的經驗轉化為自己內在的能力。

這種設計的精妙之處在于，它不僅讓AI能夠利用外部記憶來改善探索效果，更重要的是，它能夠將這些外部指導逐漸內化到AI的參數中，使AI即使在沒有外部記憶輔助的情況下也能表現出色。這就像一個學生通過查閱筆記來學習，但最終目標是不看筆記也能答對考試題目。

三、三種模式的協調配合

EMPO?框架的核心在于它設計了一套精巧的多模式系統，就像一個訓練有素的調查團隊，根據不同情況采用不同的工作方式。

在執行任務的階段，AI智能體會在兩種模式之間隨機切換。第一種是"裸奔模式"，智能體完全依靠自己當前的判斷能力來行動，就像一個經驗豐富的偵探憑直覺辦案。第二種是"記憶輔助模式"，智能體會先查詢自己的記憶庫，尋找與當前情況相似的歷史經驗，然后基于這些"案例檔案"來制定行動策略。

每當一次任務結束后，無論成功還是失敗，AI都會像一個善于反思的偵探一樣，總結這次經歷的關鍵要點。這些總結不是簡單的成功或失敗記錄，而是更深層的洞察。比如，"在尋找紅色燈泡的任務中，直接在走廊里尋找是無效的，應該先探索相鄰的房間"，或者"要創造綠色顏料，需要先在藝術工作室找到藍色和黃色顏料，然后進行混合"。

在學習階段，EMPO?展現出了它最獨特的創新之處。對于那些在記憶輔助下完成的任務，系統會采用兩種不同的學習策略。第一種是"在線學習"，就像學生按照參考答案來復習，系統會強化那些在記憶指導下取得好結果的行動模式。第二種是"離線學習"，這是更加巧妙的設計：系統會問自己"如果我當時沒有記憶提示，我是否還能做出同樣好的決策？"然后針對性地訓練這種不依賴外部提示的能力。

這種離線學習可以理解為一種"知識蒸餾"過程。就像一個學生通過反復練習，最終能夠不看筆記就掌握知識要點一樣，AI通過這種方式將外部記憶中的智慧逐漸轉化為內在的能力。

四、防止學習過程中的"翻車"

在實際的技術實現中，研究團隊發現了一個有趣的現象：當AI嘗試從記憶指導的經驗中學習時，有時候會出現訓練不穩定的問題，就像一個學生在從參考答案學習時，有時候會因為過度依賴答案而忘記了思考的基本邏輯。

為了解決這個問題，研究人員引入了一個巧妙的"安全閥"機制。當系統檢測到某些決策的置信度過低時（具體來說，是當模型對某個行動的預測概率低于設定閾值時），它會暫時忽略這些不確定的決策，專注于那些更有把握的學習機會。這就像一個謹慎的學生，在不確定答案的時候會暫時跳過，先鞏固那些已經理解的知識點。

另外，為了確保AI始終保持探索新領域的動力，研究團隊還設計了一個"好奇心機制"。這個機制會給AI遇到新情況時提供額外的獎勵，鼓勵它去探索那些從未見過的場景。具體來說，當AI遇到與歷史經驗差異較大的新情況時，系統會自動給予額外的獎勵分數，這樣AI就不會因為害怕失敗而總是選擇安全的老路。

五、在虛擬世界中的精彩表現

為了驗證這個框架的有效性，研究團隊選擇了兩個極具挑戰性的虛擬環境來進行測試。這兩個環境分別是ScienceWorld（科學世界）和WebShop（網絡購物），它們都需要AI進行復雜的多步驟推理和探索。

在ScienceWorld環境中，AI需要完成各種科學實驗任務，比如組裝電路來點亮特定顏色的燈泡，或者混合化學物質來創造特定顏色的顏料。這些任務的復雜性在于，AI不僅需要理解任務目標，還需要在虛擬環境中主動探索，找到必需的工具和材料，然后按照正確的步驟完成實驗。

以"點亮紅色燈泡"這個任務為例，傳統的AI智能體往往會在初始房間里反復嘗試尋找紅色燈泡，即使這個房間里并沒有。當嘗試失敗后，它們通常不知道應該去探索其他區域。而使用EMPO?框架的AI在幾次嘗試后，就能夠從記憶中學到"當前位置沒有目標物品時，應該系統性地探索其他房間"這樣的策略。更重要的是，經過多次訓練后，即使不依賴記憶提示，AI也能自主地采用這種探索策略。

在WebShop環境中，AI需要根據用戶的購物需求，在復雜的電商網站上搜索、篩選和購買商品。這個過程涉及理解用戶需求、導航網站界面、比較不同商品的屬性和價格等多個步驟。傳統的AI往往會在某個步驟上卡住，比如不知道如何有效地使用搜索功能，或者在面對多個相似商品時不知道如何做出最優選擇。

實驗結果顯示，EMPO?框架在這兩個環境中都取得了顯著的性能提升。在ScienceWorld中，相比于當前最先進的在線強化學習方法GRPO，EMPO?的表現提升了128.6%。在WebShop環境中，提升幅度也達到了11.3%。這些數字背后的意義在于，AI不再是在同一個地方打轉，而是真正學會了系統性的探索和問題解決。

六、從依賴記憶到獨立思考的轉變

EMPO?框架最令人印象深刻的特性之一，是它展現出的從"依賴外部提示"到"獨立自主判斷"的學習曲線。這個過程就像一個學生從需要查閱筆記到能夠獨立解題的成長過程。

在訓練的早期階段，AI嚴重依賴記憶中的經驗提示來做出決策。就像一個新手廚師需要不斷查看菜譜才能做出一道菜一樣，AI此時還無法獨立處理復雜的任務。但是隨著訓練的進行，一個有趣的現象出現了：即使在完全沒有記憶提示的情況下，AI的表現也在穩步提升。

更加令人驚喜的是，當研究團隊測試這個經過訓練的AI在全新的、從未見過的任務上的表現時，他們發現AI表現出了出色的適應能力。即使面對完全陌生的任務，AI只需要很少的幾次嘗試就能夠利用記憶機制快速學會新的策略。這就像一個經驗豐富的問題解決者，雖然面對的是新問題，但能夠quickly地找到解決思路。

舉個具體的例子，當研究團隊讓一個在生物學任務上訓練的AI去解決電學實驗問題時，AI在沒有任何參數更新的情況下，僅僅通過幾次試驗和記憶積累，就能在新任務上取得良好的表現。這種跨領域的適應能力表明，EMPO?不僅僅是在訓練特定的任務技能，更是在培養AI的通用問題解決能力。

七、與其他方法的比較優勢

為了充分評估EMPO?的效果，研究團隊將其與多種現有方法進行了全面比較。這些對比方法代表了當前AI領域的不同技術路徑，每一種都有其獨特的特點和適用場景。

首先是Reflexion方法，這種方法純粹依賴外部記憶，就像一個總是需要查閱筆記本的學生。雖然它能夠利用歷史經驗來改善決策，但由于沒有參數更新機制，它的學習能力相對有限，往往在復雜任務上很快就遇到性能瓶頸。

其次是Retrospex這樣的離線強化學習方法，它們類似于通過大量歷史案例進行學習的專家系統。這些方法的優勢在于能夠從大量數據中提取有價值的模式，但缺點是在面對與訓練數據差異較大的新情況時，往往表現不佳。

還有GRPO這樣的在線強化學習方法，它們能夠在與環境的實時互動中不斷學習和改進。然而，由于缺乏有效的探索機制，這些方法經常會陷入局部最優解，就像一個人總是走同樣的路線而不知道還有更好的選擇。

相比之下，EMPO?的優勢在于它巧妙地結合了記憶輔助的探索能力和參數更新的學習能力。這就像培養了一個既能查閱資料又能獨立思考的全能型問題解決者。實驗結果顯示，在幾乎所有的任務類型中，EMPO?都顯著優于這些單一策略的方法。

特別值得注意的是，在一些任務中，純粹的參數學習方法甚至表現得比簡單的記憶方法還要差。這種現象說明，缺乏有效探索機制的學習可能會讓AI陷入錯誤的行為模式，而難以自我糾正。EMPO?通過其混合策略成功地避免了這個陷阱。

八、技術實現的精巧之處

在技術實現層面，EMPO?展現出了多個精巧的設計細節，這些細節雖然看似微小，卻對整體性能產生了重要影響。

記憶檢索機制采用了基于語義相似度的智能匹配算法。當AI面對當前情況時，它不是簡單地查找完全相同的歷史經驗，而是尋找那些在本質上相似的情況。這就像一個有經驗的醫生，雖然每個病人的癥狀可能略有不同，但能夠識別出相似的疾病模式。這種語義匹配確保了AI能夠從相關的歷史經驗中獲得有價值的指導，而不是被表面的差異所迷惑。

在記憶生成方面，系統不是簡單地記錄成功或失敗的結果，而是讓AI自己總結每次經歷的深層洞察。這些總結通常是簡潔但富有洞察力的句子，比如"電路連接需要確保正極和負極的正確匹配"或"混合顏料時需要在專門的工作區域進行操作"。這種自我反思的機制確保了記憶內容的質量和實用性。

為了防止記憶系統變得過于龐大和混亂，研究團隊還設計了一個智能的記憶管理機制。系統會自動識別和刪除重復或過時的記憶條目，保持記憶庫的精簡和高效。同時，它會根據記憶條目的使用頻率和效果來調整它們的優先級，確保最有價值的經驗總是能夠被優先檢索到。

九、計算效率的平衡藝術

雖然EMPO?帶來了顯著的性能提升，但研究團隊也坦誠地分析了這種方法在計算效率方面的代價。相比傳統的強化學習方法，EMPO?需要額外的計算資源來處理記憶檢索、生成和管理。

具體來說，記憶相關的操作大約增加了19%的訓練時間。這部分額外時間主要用于在每次任務結束后生成經驗總結，以及在需要記憶輔助時進行相似度檢索。雖然這確實增加了計算成本，但研究團隊通過時間-性能曲線分析發現，即使考慮到這些額外的計算時間，EMPO?仍然比傳統方法更加高效，因為它能夠更快地達到更好的性能水平。

研究團隊還指出，隨著AI能力的提升，這種對外部記憶的依賴會逐漸減少。換句話說，雖然訓練階段需要額外的計算資源，但訓練完成后的AI在實際應用中并不需要這些記憶支持，因為它已經將關鍵的經驗內化為自身的能力。這就像投資教育的道理：雖然學習階段需要投入更多資源，但最終培養出的能力會帶來長期的回報。

十、未來發展的無限可能

EMPO?框架的成功不僅解決了當前AI智能體探索能力不足的問題，更重要的是它為未來的AI發展開辟了新的可能性。這個框架的核心思想可以擴展到更多領域和更復雜的任務中。

在數學推理領域，AI可以通過類似的機制來積累解題經驗，逐漸從需要查閱公式和定理到能夠獨立推導復雜的數學證明。在代碼編程方面，AI可以從簡單的代碼片段學習開始，逐漸掌握復雜的軟件架構設計能力。在多模態任務中，AI可以學會協調處理文本、圖像、聲音等不同類型的信息，就像一個全能的創作者。

研究團隊特別強調了這種方法在安全關鍵應用中的潛在價值。由于EMPO?培養的是AI的內在能力而不僅僅是對外部提示的依賴，它在那些無法容忍錯誤的應用場景中可能更加可靠。比如在醫療診斷或自動駕駛等領域，AI需要在沒有外部輔助的情況下做出正確判斷。

當然，研究團隊也認識到當前方法的一些局限性。現在的記憶檢索機制相對簡單，主要基于語義相似度匹配。未來可能需要開發更加智能的記憶組織和檢索方法，比如基于因果關系或抽象概念的匹配。另外，目前的研究主要集中在特定類型的任務上，擴展到更廣泛的應用領域還需要進一步的探索。

說到底，EMPO?代表了AI發展的一個重要方向：不是簡單地讓機器變得更快或更強，而是讓它們學會真正的智能行為——探索、學習、適應和成長。就像人類從嬰兒成長為能夠獨立思考的成年人一樣，AI也需要經歷從依賴外部指導到形成內在智慧的過程。EMPO?為這種成長提供了一個可行的路徑，它不僅讓我們看到了更智能的AI的可能性，也為實現這種可能性提供了具體的技術方案。

這項研究最深遠的意義在于，它展示了如何讓AI真正學會學習。在未來，我們或許會看到能夠自主探索新知識、適應新環境、解決新問題的AI系統，它們不再需要人類為每一個可能的情況預先編程，而是能夠像人類一樣通過經驗積累來不斷成長和進化。這樣的AI將不僅僅是工具，更可能成為真正的智能合作伙伴，與人類一起探索這個充滿未知的世界。

Q&A

Q1：EMPO?框架是如何讓AI學會探索的？

A：EMPO?就像訓練一個偵探一樣，讓AI在三種模式下工作：有時純粹憑直覺行動，有時查閱以往案例記錄來指導行動，然后通過特殊的學習機制將外部記憶中的智慧逐漸轉化為內在能力。這樣AI不僅能利用記憶改善探索效果，更能將這些經驗內化，即使沒有外部提示也能做出正確判斷。

Q2：這個方法比其他AI訓練方法好在哪里？

A：傳統方法要么只依賴記憶但不會真正學習，要么只會參數學習但探索能力差。EMPO?巧妙結合了兩者優勢，在ScienceWorld環境中比最先進的GRPO方法提升了128.6%，在WebShop中提升了11.3%。更重要的是，它培養的是AI的內在能力，訓練完成后即使不依賴外部記憶也能表現出色。

Q3：EMPO?訓練出來的AI能處理全新的任務嗎？

A：能夠很好地適應。研究顯示，即使面對完全陌生的任務，經過EMPO?訓練的AI只需要很少幾次嘗試就能利用記憶機制快速學會新策略，而且不需要更新任何參數。這就像培養了一個經驗豐富的問題解決者，雖然面對新問題，但能夠快速找到解決思路。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.