網易首頁 > 網易號 > 正文申請入駐

谷歌AI團隊首次實現大模型內部控制：讓機器像人一樣進行分層思考

2025-12-29 22:40:05　來源: 至頂AI實驗室

北京舉報

分享至

這項由谷歌智能范式團隊的小林世人、雅尼克·施林夫、馬克西米利安·施萊格爾等多名研究者共同完成的突破性研究，發表于2024年12月的arXiv論文庫（編號：2512.20605v2）。有興趣深入了解的讀者可以通過論文編號查詢完整研究內容。

想象你正在學習一門復雜的技能，比如駕駛汽車。作為新手，你需要分別思考每一個動作：踩離合器、掛擋、松離合器、踩油門。但隨著技能的熟練，你開始將這些單獨的動作組合成更高層次的"起步"這一整體操作。這種從細節操作到抽象概念的轉變，正是人類智能的核心特征之一。

現在，谷歌的研究團隊在人工智能領域實現了類似的突破。他們發現了如何讓大型語言模型在內部進行這種分層思考，不再局限于逐個字符的簡單預測，而是能夠形成更高層次的抽象行動策略。

當前的AI系統面臨著一個根本性的限制。它們像一個只會按食譜逐字逐句照做的新手廚師，必須嚴格按照每一個具體步驟執行，無法跳躍到"準備醬料"或"處理主菜"這樣的抽象層面。這種局限性在需要長期規劃的復雜任務中表現得尤為明顯。比如，當AI需要完成一個包含多個子目標的復雜任務時，它往往會在細節中迷失，無法把握整體的策略方向。

研究團隊的核心洞察是，這些大型語言模型在訓練過程中實際上已經學會了某種形式的抽象思維，只是這種能力被埋藏在模型的內部表示中，沒有被充分利用。就像一位天賦異稟的學生，雖然具備了理解復雜概念的潛力，但缺乏有效的方法來組織和運用這些能力。

一、發現模型內部的"思維層次"

研究團隊首先進行了一項重要的探索實驗。他們訓練了自回歸模型來預測專家代理的行為序列，然后仔細分析模型內部的激活模式。這個過程就像解剖一個熟練工匠的大腦，試圖理解他們如何將復雜的技能分解為不同層次的思維過程。

通過線性探測技術，研究者發現了一個令人興奮的現象。模型的內部表示中確實包含了關于抽象目標的信息。具體來說，在模型的中間層，激活模式能夠準確反映出當前正在執行的高層次目標。這就像發現了大腦中負責規劃的區域，即使表面上看起來只是在執行具體動作，但內部實際上在進行更高層次的思考。

更令人驚喜的是，這些抽象表示不僅存在，還具有可控性。研究團隊發現，通過在模型的特定層插入線性控制器，可以直接操控這些內部表示，從而引導模型執行特定的抽象行動。這個發現的意義重大，因為它表明模型內部存在著一個可以被直接訪問和操作的"意圖空間"。

二、構建無監督的元控制器

基于這個發現，研究團隊開發了一個創新的元控制器架構。這個元控制器的工作原理就像一個經驗豐富的項目經理，能夠將復雜的項目分解為幾個關鍵的執行階段，并在適當的時機切換到下一個階段。

元控制器的核心組件包括三個部分。首先是控制器編碼器，它負責從完整的行為序列中推斷出潛在的抽象行動。這個過程類似于觀察一位大廚的完整烹飪過程，然后總結出"準備食材"、"調制醬料"、"炒制主菜"等關鍵步驟。

第二個關鍵組件是時間切換單元。這個單元能夠學習何時從一個抽象行動切換到另一個。它不是簡單地按照固定的時間間隔切換，而是根據當前任務的進展情況智能地決定切換時機。這種動態切換能力使得模型能夠處理不同長度和復雜度的任務階段。

第三個組件是控制器解碼器，它將抽象的行動代碼轉換為具體的內部控制信號。這個過程就像將"準備晚餐"這個高層次指令轉換為一系列具體的烹飪操作。

元控制器的訓練過程采用了變分推理的方法。與傳統的監督學習不同，這種方法不需要人工標注的抽象行動標簽。相反，它通過最大化數據的似然性，同時對潛在變量施加適當的正則化約束，自動發現數據中隱藏的抽象結構。

三、內部強化學習的創新范式

研究的最大突破在于提出了"內部強化學習"這一全新概念。傳統的強化學習在原始動作空間中進行探索和學習，這就像讓一個人通過嘗試每一個可能的肌肉收縮組合來學習投籃。而內部強化學習則直接在發現的抽象動作空間中進行學習，這相當于讓學習者直接練習"瞄準"、"發力"、"跟進"這些高層次的技能組件。

內部強化學習的工作流程是這樣的：首先，將預訓練的自回歸模型和部分元控制器組件視為環境的一部分。然后，在由元控制器發現的抽象動作空間中訓練一個新的策略網絡。這個策略網絡不再需要處理底層的動作細節，而是專注于選擇合適的抽象行動序列。

這種方法帶來了顯著的優勢。由于動作空間的維度大大降低，學習過程變得更加高效。同時，由于每個抽象動作對應于一段時間內的連貫行為，信用分配問題也得到了很好的解決。這就像從學習控制每個琴鍵的按壓力度，轉變為學習演奏音符和樂句，學習的效率自然大大提高。

四、在層次化任務中的卓越表現

研究團隊在兩類環境中測試了他們的方法。第一類是離散的網格世界環境，智能體需要按特定順序訪問不同顏色的位置。第二類是連續控制環境，基于MuJoCo物理模擬器，四足機器人需要在復雜的環境中導航到指定位置。

在網格世界環境中，智能體面臨的挑戰是需要組合基本的導航技能來完成復雜的任務序列。比如，一個任務可能要求智能體依次訪問紅色、綠色、藍色、黃色的位置，每個基本的"前往某顏色"技能需要被組合成更長的任務鏈。

在連續控制環境中，四足機器人不僅需要掌握基本的運動控制，還需要進行高層次的路徑規劃。這種環境更加接近真實世界的復雜性，因為它同時涉及低層次的運動控制和高層次的任務規劃。

實驗結果顯示，內部強化學習方法的表現遠超傳統方法。在稀疏獎勵任務中，傳統的強化學習方法幾乎完全失敗，成功率接近于零。相比之下，內部強化學習方法能夠達到很高的成功率，并且學習速度快了幾個數量級。

這種巨大的性能差異源于兩個關鍵因素。首先，抽象動作空間的探索效率遠高于原始動作空間。當智能體在抽象層面進行探索時，每次嘗試都對應于一個有意義的行為片段，而不是隨機的動作組合。其次，時間抽象大大縮短了有效的決策時間跨度，使得智能體能夠更快地將獎勵信號與導致該獎勵的決策聯系起來。

五、深入機制分析與理論驗證

為了驗證他們發現的機制，研究團隊進行了一系列深入的分析實驗。他們首先通過速率失真分析驗證了預訓練模型凍結的重要性。結果表明，只有當基礎自回歸模型保持凍結狀態時，元控制器才能學到與真實子目標切換時間一致的抽象行動表示。如果同時訓練基礎模型和元控制器，系統往往會退化為無意義的切換模式。

這個發現揭示了一個重要的原理：預訓練過程為模型建立了與任務相關的內部表示結構，這種結構為后續的抽象行動發現提供了必要的基礎。這就像一棟建筑的地基，只有地基穩固，才能在上面建造更復雜的結構。

研究團隊還分析了元控制器學習到的切換模式。他們發現，切換單元確實學會了在任務的自然邊界處進行切換，即使沒有明確的監督信號。這種行為的出現是變分目標和適當正則化共同作用的結果。

通過對學習到的抽象動作的詳細分析，研究者發現這些抽象動作具有良好的泛化性。即使在新的環境配置中，學習到的抽象動作仍然能夠有效地指導智能體的行為。這表明元控制器確實捕獲了任務的本質結構，而不是簡單地記憶訓練數據中的特定模式。

六、方法局限與未來展望

盡管取得了重要突破，研究團隊也誠實地承認了當前方法的局限性。首先，實驗環境相對簡單，主要集中在導航類任務上。在更復雜的現實世界任務中，比如涉及物體操作或復雜推理的任務，這種方法是否仍然有效還需要進一步驗證。

其次，抽象動作的發現過程依賴于任務具有明顯的層次化結構。對于那些本身不具備清晰層次結構的任務，比如某些創造性的任務或開放式的探索任務，當前方法可能效果有限。

此外，元控制器的訓練過程仍然需要高質量的專家演示數據。雖然不需要明確的抽象動作標簽，但仍然需要足夠好的行為序列來學習有意義的抽象表示。在專家數據稀缺的領域，這可能成為一個制約因素。

展望未來，這項研究為多個方向開辟了可能性。首先，將這種方法擴展到更大規模的語言模型和更復雜的任務中是一個自然的發展方向。特別是在需要長期推理的任務中，比如數學問題求解或科學發現，內部強化學習可能會展現出更大的優勢。

另一個有前景的方向是將這種方法與現有的模型解釋性技術結合。通過分析學習到的抽象動作，我們可能能夠更好地理解大型語言模型的內部工作機制，這對于提高AI系統的可解釋性和可控性具有重要意義。

研究團隊還提到了這種方法在模型引導和控制方面的潛在應用。與現有的稀疏自編碼器等技術類似，元控制器可以作為一種新的模型解釋和控制工具，為人們提供更精細的方式來引導AI系統的行為。

七、對AI發展的深遠影響

這項研究的意義遠超出了技術層面的創新。它為我們理解智能本身提供了新的視角。長期以來，人工智能研究主要專注于在特定任務上的性能優化，而對智能系統如何形成和運用抽象概念的理解相對有限。這項研究表明，即使是通過簡單的下一個詞預測訓練的模型，也能夠自發地形成復雜的層次化表示結構。

從更廣的角度來看，這項研究為實現更通用的人工智能指出了一個可能的方向。通過在不同的抽象層次上進行學習和推理，AI系統可能能夠更好地處理復雜的現實世界任務。這種能力對于構建真正智能的AI助手至關重要，因為現實世界的任務往往需要在多個時間尺度和抽象層次上進行協調。

這項研究也為AI安全研究提供了新的思路。通過直接操作模型的內部抽象表示，我們可能能夠更精確地控制AI系統的行為，減少意外或有害行為的出現。這種內部控制能力比傳統的輸出層面的監督更加深入和可靠。

對于AI行業的發展，這項研究預示著一個重要的趨勢轉變。未來的AI系統可能不再是簡單的輸入輸出映射器，而是具備復雜內部結構和多層次推理能力的智能體。這種轉變可能會催生新的AI應用范式，特別是在需要長期規劃和復雜決策的領域。

說到底，這項來自谷歌智能范式團隊的研究為我們展示了一個激動人心的可能性：AI系統不僅能夠模仿人類的表面行為，還能夠學會類似人類的思維方式。通過發現和利用模型內部的抽象表示，我們正在向構建真正智能的AI系統邁出重要的一步。雖然距離實現通用人工智能還有很長的路要走，但這種內部強化學習的方法為我們指明了一個充滿希望的方向。

當然，像所有突破性的科學發現一樣，這項研究也帶來了新的問題和挑戰。如何確保這些內部抽象表示與人類的價值觀保持一致？如何在更復雜的環境中擴展這種方法？如何處理可能出現的內部表示偏差或錯誤？這些都是未來研究需要解決的重要問題。

但無論如何，這項研究已經為AI的發展開辟了一個全新的領域。它不僅在技術上取得了重要突破，更在概念上改變了我們對機器學習和人工智能的理解。隨著更多研究者加入到這個領域，我們有理由期待更多激動人心的發現和應用。

Q&A

Q1：什么是內部強化學習？

A：內部強化學習是谷歌研究團隊提出的全新AI訓練方法，它不在原始動作空間進行學習，而是直接在AI模型內部發現的抽象動作空間中訓練。就像從學習控制每個手指的細微動作轉向學習"寫字"、"畫畫"這樣的高級技能，大大提高了學習效率和任務完成能力。

Q2：為什么傳統強化學習在復雜任務中效果不好？

A：傳統強化學習就像讓人通過嘗試每一個可能的肌肉收縮來學習打籃球，效率極低。它必須逐步探索每個細微動作，在稀疏獎勵的復雜任務中往往需要數百萬次嘗試才可能碰到正確的動作組合，而內部強化學習直接在"投籃"、"傳球"等抽象層面學習，效率提高數千倍。

Q3：這項技術什么時候能應用到日常AI產品中？

A：目前這還是基礎研究階段，主要在導航類簡單任務中驗證了效果。要應用到復雜的現實場景還需要解決很多技術挑戰，比如如何在更復雜的任務中發現有效的抽象動作，如何確保系統的穩定性和可控性等。預計需要幾年時間才能在實際AI產品中看到這種技術的應用。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.