網易首頁 > 網易號 > 正文申請入駐

算力救不了AI智商？谷歌新大招終結「隨機鸚鵡」爭論！

2026-02-27 05:58:29　來源: 新智元

北京舉報

分享至

新智元報道

編輯：peter東

【新智元導讀】傳統AI模型在稀疏獎勵環境中，往往會找不到激勵難以學會層次化思考。如今，谷歌團隊通過引入元控制器操控模型內部殘差流，讓智能體學會了「跳躍式思考」。該研究揭示了大模型內部可自發形成了類似人腦的層次化決策機制，為AI在需要多步的復雜任務提供了全新的訓練范式。

AI智能體最大的「硬傷」，是算力不夠？

并不是，獎勵太少、路太長才是。

在稀疏獎勵的長序列任務里，傳統token-by-token探索像蒙眼走迷宮：沒有路標、沒有提示，只有走到終點才知道對不對。

結果就是一個尷尬現實：想讓智能體做點復雜事，往往必須外掛規劃器「扶著走」。

而谷歌這項研究直接換打法：在迷宮里要求智能體按順序踏過一串彩色子目標，且只有全程無誤才給獎勵——用最殘酷的稀疏獎勵，逼出真正的層次化決策能力。

真正的突破在于：他們不再只優化輸出，而是開始操控模型內部的「認知過程」。

在稀疏獎勵下，

智能體如何高效探索

傳統的大模型，依賴逐詞生成（token-by-token）的探索方式，而這對于需要多個正確步驟才能獲得獎勵的復雜任務，由于獎勵稀疏，導致智能體難以完成需要層次化決策的長序列任務。

這好比讓一個人蒙著眼睛走迷宮，只有到達終點才能獲得反饋，期間沒有任何指引，不論這個人嘗試多少次也找不到出口。

這導致當下的大模型智能體需要外帶一個規劃器，才能完成復雜的，需要多步才能完成的任務。而谷歌這項研究做的，就是讓智能體在迷宮中，按特定順序訪問一系列彩色位置（子目標），且只有在完全正確的序列完成后才能獲得獎勵。

圖1：智能體需要在迷宮中按順序走過不同顏色的方塊

這種「組合式任務」要求智能體必須掌握層次化解決問題的能力，不止需要低級的運動控制技能，又需要高級的時序規劃能力。

這就如同人類搬運水杯的任務，相當于執行「拿起水杯→走到桌前→放下水杯」這樣的連貫動作。

「大腦中的大腦」

AI自我發現抽象動作

那谷歌團隊是如何解決稀疏獎勵帶來的問題的？

答案是元控制器（Metacontroller）。

元控制器通過接收基模型的殘差流，能夠生成一系列簡單的內部控制器。

每個控制器對應一個時序抽象動作，每個時序抽象動作對應一個時間軸，并附帶終止條件。通過按時間組合多個控制器，智能體能夠在新任務上實現高效探索。

圖2：元控制器引導預訓練自回歸模型的殘差流激活。

通過自監督的下一步動作預測，元控制器發現如何生成時間上稀疏變化的簡單內部控制器序列。

在分層結構任務中，每個內部控制器對應一個時序抽象動作，引導基礎自回歸模型實現一個有意義的初級目標。

圖3：元控制器的架構

經由強化學習，研究者發現元控制器能夠通過變分推理自動識別有意義的行為模塊，這相當于無監督發現抽象動作該怎么完成。

用上元控制器，訓練機器人給人泡茶，就不必由手工編碼將任務拆解成多步了。

此外，元控制器還能動態時間整合，它能通過開關單元控制抽象每一步動作的持續時間。并且能組合泛化，將學到的抽象動作重新組合解決新任務。

圖4：自監督元控制器在預訓練的自回歸模型中發現時序抽象動作。

元控制器學習到的開關模式還能與真實子目標切換完美對齊，盡管模型從未接收過子目標標簽。這種根據環境，切換使用那個子目標的方式是涌現產生的，表明模型內部形成了類似「選項」的分層結構。

內部強化學習

提效數個量級的新訓練范式

該研究最令人驚訝的，是使用元控制器后的內部強化學習，與傳統強化學習在原始動作空間進行微調不同，內部強化學習在發現的抽象動作空間中進行學習，搜索空間大幅減小。在需要組合泛化的任務中，內部強化學習的成功率顯著高于所有基線方法，包括先前最先進的分層強化學習方法CompILE。

圖5：不同強化學習方式的成功率

之所以智能體能夠以更大的可能性，學會某一個需要多步驟才能完成的任務，是因為有了元控制器，模型隱含地學會了將長序列任務分解為可重用的子程序（如「移動到某色塊」），這就讓搜索空間變小，獎勵也不再稀疏。

相當于通過對動作空間降維，將高維殘差流空間壓縮到低維抽象空間。再加上在抽象時間尺度上操作，縮短有效時間跨度。使得在抽象層面進行獎勵分配更加高效。

「覺醒-睡眠」訓練循環的具體實現

在2015年的論文[2]中，Jürgen Schmidhuber提出了「覺醒-睡眠」訓練循環的理論框架。

其核心思想是構建一個迭代的、自我改進的循環，兩個階段交替執行，旨在構建能夠形成并利用時間抽象和計劃能力的自主智能系統。

睡眠階段智能體回顧其過往的經歷（觀察和行動序列），通過自監督學習訓練一個內部世界模型。

「覺醒」階段智能體利用在「睡眠」階段學到的世界模型內部表征，進行強化學習和規劃，以發現新的、有價值的行為。在「覺醒」階段獲得的新經驗數據，又會被加入到經驗庫中，用于下一輪的「睡眠」階段，以改進世界模型。

而谷歌的這項研究，可看成是「覺醒-睡眠」訓練循環的具體實現，自回歸基礎模型預訓練對應睡眠階段。模型通過下一個token（此處是下一動作或觀察）預測的目標，在大量未標注的行為數據上進行訓練。

這個過程正是自監督學習，模型學會了推斷智能體的潛在目標（如子目標），并在其殘差流激活中形成了時間抽象的表征。

覺醒階段則是元控制器及其驅動的內部強化學習。它學習如何操控基礎模型（世界模型）的內部殘差流激活，從而生成有意義的、持續多個時間步的抽象動作（如「前往藍色位置」）。

這相當于在世界模型的內部狀態空間中進行規劃和控制。

圖6：在發現時序抽象動作時，預訓練的自回歸模型被凍結的重要性。

而只有如圖6所示，當基礎自回歸模型在元控制器訓練期間被凍結時，才會涌現出與子目標對齊的正確切換表征。

這一發現強烈支持了「覺醒-睡眠」循環的分階段迭代思想：首先通過預訓練建立一個高質量、穩定的世界模型（基礎模型）。

然后，在此基礎上，再通過元控制器學習驅動內部強化學習，從而學到控制策略。

如果兩者同時訓練（共訓練），模型會收斂到一個退化的解決方案，無法發現有意義的時間抽象。

這印證了分階段、迭代式訓練的理論優越性。而這符合Jürgen Schmidhuber提出的「先睡眠（構建模型）、后覺醒（學習控制）」的循環訓練方案。

終結隨機鸚鵡爭論

在大模型研究中，一直有批評人士認為自回歸模型無論參數量多大，都不過是「隨機鸚鵡」，難以形成一致的時間抽象和規劃。

而該研究表明，預測下一個詞的訓練方式，只要結合元控制器，就能夠誘導出層次化的時間抽象，這與人類的問題解決方式高度相似。

在不依賴手動獎勵塑形的情況下解決需要多步才能完成的任務，是邁向能夠導航復雜、開放式搜索空間的自主智能體的關鍵一步，在這些空間中，中間進度的定義往往未知。

谷歌團隊的這項研究標志著AI研究從單純優化模型輸出，轉向理解和操控模型內部認知過程，為開發具有真正層次化推理能力的通用AI系統提供了堅實的實踐基礎，說明了模仿人類睡眠，才能夠實現復雜時間序列任務的高效學習。

與稀疏自編碼器（SAEs）等解釋性方法相比，元控制器具有顯著優勢。它直接通過殘差流干預降低預測誤差，具有內部記憶，支持長時間跨度的干預，且能夠發現可解釋的、長時間持續的干預策略。

這項技術的潛在應用極其廣泛。

在機器人控制中，可讓機器人執行需要多步協調的復雜任務；對于數學推理，能自主將復雜問題分解為可管理的推理步驟；對于科學發現，也可讓智能體在稀疏獎勵環境中進行高效探索和假設檢驗。

谷歌提出的內部強化學習范式，尤其適合需要長期規劃和組合推理的場景，為實現真正通用的智能系統提供了新路徑。

參考資料：

https://arxiv.org/abs/2512.20605

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

宇樹科技王興興：給機器人行業多一點耐心

財聯社 2026-02-18 18:01:39
4 跟貼 4
機器人打包運輸的正確方式

裝甲鏟史官 2026-02-22 10:41:15
21 跟貼 21

超越IMO金牌？谷歌創超難FirstProof數學挑戰新紀錄

機器之心Pro 2026-02-26 15:04:12
0 跟貼 0

華為重磅發布！代碼“神器”來了！

每日經濟新聞 2026-02-26 20:25:06
4 跟貼 4
美國開發六足機器人，跑起來堪比飛人博爾特

裝甲鏟史官 2026-01-03 11:19:04
809 跟貼 809

馬斯克：3年內機器人超越頂尖醫生

財聯社 2026-01-09 15:31:35
1 跟貼 1

華為祭出AI編程利器，集成智譜、DeepSeek，同任務Tokens暴降30%

智東西 2026-02-26 17:53:23
77 跟貼 77
模型自己找視覺線索，小紅書Video-Thinker破解視頻推理困局

機器之心Pro 2026-01-04 14:13:49
0 跟貼 0

波士頓機器狗練成“輕功”！連續七個后空翻

量子位 2025-09-07 01:03:18
0 跟貼 0
Anthropic收購Vercept 補齊智能體視覺短板為Claude裝上“眼睛”

財聯社 2026-02-26 16:42:24
0 跟貼 0
中國AI調用量超美國 4款大模型霸榜前5

每日經濟新聞 2026-02-26 19:33:22
129 跟貼 129
馬年開工首日上新！宇樹科技發布新款四足機器人Unitree As2

每日經濟新聞 2026-02-25 09:36:20
0 跟貼 0
人形機器人產業突破關鍵在于“大腦”核心技術

每日經濟新聞 2025-09-16 20:30:32
1 跟貼 1
讓擴散模型「可解釋」不再降質，開啟圖片編輯新思路

機器之心Pro 2025-12-16 14:37:44
0 跟貼 0
五八智能四足機器人平臺Q20A，適用于千行百業

量子位 2025-09-30 15:35:41
0 跟貼 0
靈巧手作為獨立執行平臺，實現工業與家庭場景應用

量子位 2025-12-11 03:38:13
0 跟貼 0
讓機器人看視頻學操作技能

機器之心Pro 2026-01-19 13:12:57
0 跟貼 0
破解機器人「慢半拍」難題1

機器之心Pro 2026-02-10 14:06:54
0 跟貼 0
行業最大規模具身數據集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
新穎鰭足機器人，水陸兩棲行動自如，適應各種地形

裝甲鏟史官 2025-12-25 10:58:04
0 跟貼 0
機器人管家Figure 03來了，承包一切家務！

量子位 2025-10-11 10:13:00
0 跟貼 0
行業最大規模具身數據集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
字節Seed團隊發布循環語言模型Ouro，在預訓練階段直接「思考」

機器之心Pro 2025-11-04 11:58:36
0 跟貼 0
MiniMax來承包你的桌面了-4

機器之心Pro 2026-01-20 20:19:42
0 跟貼 0
大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
清華聯手千問重塑歸一化范式，讓 Transformer 回歸「深度」學習

機器之心Pro 2026-02-10 18:50:12
0 跟貼 0
人活著的唯一理由是善良

葉檀財經 2026-02-01 17:07:04
18 跟貼 18
小心！你的AI正在一本正經地忽悠你

財聯社 2026-02-05 16:35:01
0 跟貼 0
垂直Agent之間，在意圖層如何競爭?

虎嗅APP 2026-02-27 06:05:15
0 跟貼 0
NeurIPS 2025 | DePass：通過單次前向傳播分解實現統一特征歸因

機器之心Pro 2025-12-01 14:17:39
0 跟貼 0
荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
陶哲軒：AI看似在推理，其實是在背答案

量子位 2026-01-05 09:20:21
0 跟貼 0
Anthropic妥協了

虎嗅APP 2026-02-27 06:00:07
0 跟貼 0
機器人進汽車廠，給波士頓動力，裝上谷歌最強大腦

機器之心Pro 2026-01-06 19:02:05
3 跟貼 3
谷歌Nano Banana 2亮相：專業能力全面下放成本腰斬一半

財聯社 2026-02-27 01:57:16
0 跟貼 0
「早報」一夜蒸發超萬億元，英偉達創10個月最大單日跌幅；華為發布代碼“神器”

財聯社 2026-02-27 07:20:04
0 跟貼 0
DeepMind負責人：2036 AI意識覺醒？LeCun怒懟：LLM路線全錯！

新智元 2025-12-16 16:55:25
0 跟貼 0
DeepSeek推理分裂出多重人格，越社交越聰明

量子位 2026-02-04 03:32:03
0 跟貼 0
在用ai看病的姐妹，切勿盲目相信ai

婦產科牛醫生 2026-02-25 18:33:04
29 跟貼 29
下一代谷歌頭顯，XREAL x Google 定義混合現實頭顯

愛范兒 2025-12-10 05:12:08
0 跟貼 0

新智元

AI產業主平臺領航智能+時代

14598文章數 66644關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

房產

游戲

健康

手機

家居要聞

手機 / 數碼

房產 / 家居

算力救不了AI智商？谷歌新大招終結「隨機鸚鵡」爭論！

英偉達業績亮眼仍跌5% 兩大因素成核心隱憂

高市早苗有麻煩了 日本政界人士：令人難以抑制憤怒

高市早苗有麻煩了 日本政界人士：令人難以抑制憤怒

從排球少女到冰壺女神，她在米蘭冬奧練出6塊腹肌

向華強公開表態 財產留給兒媳婦郭碧婷

中國AI調用量超美國 4款大模型霸榜前5

40歲的吉利，不惑于內外

態度原創

歸隱于都市 慢享自由

2.2萬/m2起！三亞主城性價比標桿 海墾·桃花源實景現房春節被瘋搶

Steam Deck滿四歲！繼任機型依然杳無音信

轉頭就暈的耳石癥，能開車上班嗎？

高市早苗有麻煩了日本政界人士：令人難以抑制憤怒

高市早苗有麻煩了日本政界人士：令人難以抑制憤怒

向華強公開表態財產留給兒媳婦郭碧婷

歸隱于都市慢享自由

2.2萬/m2起！三亞主城性價比標桿海墾·桃花源實景現房春節被瘋搶