網易首頁 > 網易號 > 正文申請入駐

西北大學等發現：信噪比破解AI智能體思維定勢危機能力突破突破

2026-04-16 20:27:52　來源: 科技行者

北京舉報

分享至

這項由西北大學、伊利諾伊大學厄巴納-香檳分校、帝國理工學院、牛津大學、華盛頓大學、微軟研究院、斯坦福大學等多所頂尖機構聯合開展的研究，于2026年4月以arXiv預印本形式發布，論文編號為arXiv:2604.06268。感興趣的讀者可通過該編號查詢完整論文。

假設你有一個會說話的機器人助手，一開始它很聰明，能根據你說的不同問題給出不同的、有針對性的回答。但訓練了一段時間之后，不管你問它什么，它的回答開頭都變成了"這是個好問題，讓我仔細想想……"然后給出一大段看起來很認真、實際上跟你的問題關系不大的廢話。從外表看，它的回答依然措辭豐富、句子多變，但骨子里，它已經進入了一種"自動駕駛"模式——不管外界輸入什么，輸出的都是差不多的固定套路。

這就是這篇論文所描述的核心問題，研究團隊將其命名為"模板崩塌"。這不是一個無關緊要的小毛病，而是當前用強化學習訓練AI智能體時普遍存在的、卻又被現有監控手段完全忽視的隱形危機。研究團隊不僅精確診斷了這個問題，還找到了背后的根本原因，并提出了一個簡單有效的修復方案。

一、什么是"模板崩塌"，為什么它那么難被發現

要理解"模板崩塌"，先得了解AI智能體是怎么被訓練的。當研究者想讓AI學會完成某類任務——比如解數學題、玩游戲、在網上購物——常用的方法是"強化學習"。簡單說，就是讓AI自己去嘗試，做對了就給獎勵，做錯了就扣分，然后一遍遍重復，讓它從反饋中自我改進。

在這個訓練過程中，研究者需要時刻監控AI的健康狀況。他們通常盯兩件事：一是"獎勵分數"有沒有穩定提升，二是AI思考過程的"熵"有沒有保持在合理范圍內。"熵"這個詞聽起來很高深，其實就是"多樣性"的度量——如果AI面對同一個問題時每次回答都不一樣、措辭豐富，熵就高；如果每次都說同一句話，熵就低。

問題就出在這里。研究團隊發現，熵高并不代表AI真的在認真思考。打個比方，有一個學生，每次寫作文開頭都不一樣——有時候用"漫漫長路"開篇，有時候用"秋風蕭瑟"，有時候用名人名言——讀起來文采斐然，但文章的實質內容其實是同一套固定框架：開頭感慨一下，中間舉個例子，結尾升華主題。不管題目是寫"我的理想"還是"一次難忘的經歷"，骨子里都是同一個模板。

"模板崩塌"正是如此。AI的思考文字看起來多樣，但實質上與具體輸入的題目無關，是一種精心包裝過的"萬能模板"?，F有的熵指標根本發現不了這個問題，因為熵只衡量"一個問題的多次回答之間是否不同"，而不管"面對不同問題時，回答是否真的不同"。

研究團隊用信息論的語言把這個問題說得非常清楚。多樣性（即"邊際熵"）可以拆分成兩部分：一部分是"針對同一個輸入的回答有多豐富"，另一部分是"面對不同輸入時，回答是否真的隨之變化"。前者叫做條件熵，后者叫做互信息?，F有的監控手段只盯著條件熵，但"模板崩塌"的本質是互信息崩潰——而這時條件熵依然可以很高，看起來一切正常。

這就好比一個演員能把同一個劇本用不同的表情、不同的語調、不同的肢體語言演出來，每場演出都不一樣，"熵"很高。但如果不管導演讓他演什么角色，他永遠表演的都是這同一個劇本，那他的表演就跟角色要求完全脫節了——這就是"模板崩塌"。

更令人擔憂的是，這種崩塌在多輪對話的AI智能體中尤其容易發生。因為在多輪交互里，獎勵信號往往很稀疏——AI做了一系列動作之后才能得到一個獎勵，很難判斷具體是哪一步的思考起了作用。于是AI就有機會用固定模板蒙混過關，而訓練系統根本察覺不到。

二、用"偵探識人"的方法來診斷模板崩塌

研究團隊提出的解決方案，從診斷開始。他們設計了一套基于互信息的測量方法，核心思路其實相當直覺化。

考慮這樣一個場景：你是一位偵探，面前有64份供詞，每份供詞來自不同的嫌疑人。如果每個嫌疑人的供詞都有獨特的細節——說話風格、具體描述、獨有的信息——那你只需要讀一份供詞，就能大概猜出它來自哪個人。反過來，如果所有人的供詞都是同一套標準格式："我當天在家，沒有外出，希望警方能相信我。"那不管你讀哪份供詞，都沒法判斷是誰寫的。

互信息的本質就是測量這種"通過回答猜出問題"的能力。如果AI的回答對不同的問題真的有針對性，那你拿到一個回答，就能大致猜出它是針對哪類問題寫的——這說明互信息高。如果拿到回答完全無法判斷對應的問題，那互信息就趨近于零，"模板崩塌"就發生了。

具體操作上，研究團隊設計了一個叫做"批內交叉打分"的方法。在每次訓練時，AI會對一批問題（比如64個不同的題目）分別生成回答。然后，他們把每個回答放在所有64個題目下面，讓AI自己給每個"題目-回答"組合打分，分數就是"這個回答對應這個題目的可能性有多大"。如果AI的回答真的與題目相關，那每個回答在自己對應的題目下應該得到最高分；如果回答是通用模板，那64個題目下的得分應該差不多，就像隨機猜測一樣。

基于這個邏輯，研究團隊設計了兩個核心測量指標。一個叫"檢索準確率"，就是看一個回答能不能在64個題目中正確"認出"自己的源頭題目——如果模板崩塌完全發生，正確率就會掉到1/64，也就是約1.56%，等于完全隨機猜測。另一個叫"MI-ZScore-EMA"，是一種連續型的評分，能更細膩地反映回答與題目的相關程度，并通過數學處理使其在整個訓練過程中保持穩定可比。

這些指標最厲害的地方在于，它們完全不需要額外的模型或人工標注，就用訓練時已經有的數據來計算，幾乎沒有額外計算成本。

研究結果非常說明問題。在大量實驗中，互信息類指標與最終任務表現的相關性（用斯皮爾曼相關系數衡量）達到了+0.39，而傳統的熵類指標相關性竟然是負數，在-0.11到-0.14之間。這意味著，熵越高，任務表現反而可能越差——熵指標不只是沒用，而且實際上在誤導研究者朝錯誤方向調整?；バ畔⒉攀钦嬲A測AI表現好壞的指標。

三、模板崩塌背后的物理學：信噪比機制

找到了診斷方法，下一步是理解原因。研究團隊從物理學的角度切入，用"信噪比"來解釋為什么模板崩塌幾乎是不可避免的。

強化學習更新AI參數的核心機制，是計算一個叫"梯度"的方向向量。梯度告訴AI："你應該往哪個方向調整參數，才能讓好的回答出現得更頻繁、壞的回答出現得更少。"這個梯度由兩部分疊加而成：一部分來自"任務梯度"，它依賴于同一個題目下不同回答的獎勵差異；另一部分來自"正則化梯度"，它來自兩個固定的約束——KL散度（約束AI別跑太遠離初始狀態）和熵正則化（鼓勵AI保持多樣性）。

問題就出在這兩部分的強弱對比上。任務梯度的強度，直接取決于同一個題目下不同回答的獎勵是否有明顯差別。用大白話說：如果AI對題目A的五次嘗試，有的得了高分、有的得了低分，分數差異大，那任務梯度就很強，AI能清楚地學到"哪種思路是對的"。但如果五次嘗試的分數都差不多——要么都高，要么都低——那任務梯度就趨近于零。

而正則化梯度是完全無視題目內容的。不管你給AI喂的是數學題還是推理題，正則化梯度的強度基本保持不變，就像一個不管什么情況都以同樣力氣推你的人。

當任務梯度弱、正則化梯度相對強時，AI每次更新參數的方向就主要被正則化所主導。正則化鼓勵的是"在任何題目下都保持多樣性"和"別偏離初始模型太遠"，這兩者都是與具體輸入內容無關的通用要求。于是，AI就慢慢學會了一種通用策略：讓回答看起來夠多樣（滿足熵正則化），同時別變化太劇烈（滿足KL約束）——但這種"多樣性"是跟題目無關的通用多樣性，不是針對具體題目的有針對性的思考。這就是模板崩塌的梯度級別機制。

研究團隊用實驗數據證實了這個推斷。他們把訓練題目按照"同一題目下不同嘗試的獎勵方差"從高到低分成六組，然后分別測量每組題目帶來的任務梯度強度和正則化梯度強度。結果非常清晰：任務梯度隨著獎勵方差單調增大，獎勵方差最高的那組題目，任務梯度是最低那組的好幾倍；而正則化梯度在六組之間幾乎完全一樣，完全不受獎勵方差影響。在獎勵方差最低的那組題目中，任務梯度幾乎為零，但AI的參數更新并不為零——更新完全由正則化主導，是純粹的"噪聲驅動"更新。

這個機制還有一個微妙而重要的推論：即使是本來訓練挺好的AI，隨著訓練深入，也會逐漸陷入這個困境。因為AI越來越擅長某些題目之后，那些它已經基本能解決的題目，每次嘗試的結果都差不多——獎勵方差隨之降低，任務梯度變弱，正則化逐漸主導，慢慢走向模板化。

四、一個簡單但有效的手術刀：信噪比感知過濾

既然問題的根源在于低獎勵方差題目帶來的低信噪比更新，解決方案就非常直接了：每次更新時，把低獎勵方差的題目踢掉，只用高獎勵方差的題目來訓練。

研究團隊將這個方法命名為"SNR感知過濾"。操作流程分三步。第一步，正常生成訓練數據——對每個題目采樣多次，得到多個回答及其對應的獎勵分數。第二步，對每個題目計算"獎勵方差"——也就是同一題目下不同回答的分數分散程度。第三步，按照獎勵方差從高到低給題目排序，只保留"高信號"的那部分題目來做參數更新。

具體的篩選規則采用了一種叫"Top-p核式過濾"的方法，與自然語言生成中的"核采樣"思路相似。大致原理是：把所有題目的獎勵方差加起來，只保留"加在一起能覆蓋總方差90%"的那些高方差題目。這個設計非常聰明——它能自動適應當前批次的質量。如果這批題目整體質量都不錯、方差普遍較高，那保留的題目就多；如果大多數題目方差都接近零，說明這批數據大部分都是噪聲，就會自動保留很少的題目，甚至可能直接跳過整批更新。

與之對比，另一種簡單的方式是"Top-k過濾"——每次固定保留獎勵方差排名前K個的題目，不管這K個題目的實際質量如何。實驗表明，Top-k不如Top-p，因為固定數量意味著即使高質量題目很少，也會被迫保留一些低質量的湊數，稀釋了訓練信號。

這個方法的另一個優勢是完全不需要額外的計算資源。因為本來就要對每個題目采樣多次（計算多個回答的獎勵用于估算優勢），獎勵方差只是這些已有數據的一個簡單統計，計算量不到總訓練時間的0.1%。實際上，由于過濾掉了一部分題目，每步訓練需要處理的數據量減少了，整體速度反而加快了26%到41%。

五、實驗驗證：在七個不同任務上的全面測試

為了檢驗這套方案是否真的有效，研究團隊在七個性質各異的任務上進行了大規模實驗。這七個任務覆蓋了AI可能面臨的各種挑戰場景。

"推箱子"（Sokoban）是一個經典的益智游戲，AI需要把箱子推到指定位置，難點在于推錯了就無法倒退，一步錯步步錯，要求AI具備提前規劃多步的能力。"冰湖"（FrozenLake）是一個在隨機滑動地面上導航到終點的任務，每一步的結果都有隨機性，獎勵信號非常稀疏。"MetaMathQA"要求AI解答數學題，允許多次嘗試但每次獎勵遞減，鼓勵AI盡快找到正確答案。"倒計時"（Countdown）是一個用給定數字通過加減乘除達到目標值的算術題，只有單次回答機會。"搜索問答"（SearchQA）讓AI通過多輪搜索和信息整合來回答復雜問題。"網上購物"（WebShop）讓AI在模擬電商環境中按照用戶要求搜索并購買合適商品。"深度編程"（DeepCoder）要求AI生成能通過測試用例的Python代碼。

實驗使用了Qwen2.5-3B作為基礎模型，并在PPO、DAPO、GRPO、Dr.GRPO四種主流強化學習算法下分別測試。同時，研究團隊還在不同模型規模（0.5B、1.5B、3B、7B參數）、不同模型家族（Qwen2.5系列、Llama3.2）、以及視覺語言模型（Qwen2.5-VL，同時接受文字和圖像輸入）上驗證了方法的普適性。

結果非常一致。在PPO算法、Qwen2.5-3B模型的基準設置下，推箱子任務的成功率從12.9%提升到28.9%（提升16個百分點），冰湖任務從67%提升到77.9%，數學題任務從92.6%提升到93.2%?？缢惴y試中，DAPO算法下平均提升2.9個百分點，GRPO算法下提升3.7個百分點，Dr.GRPO算法下提升0.8個百分點?？缒Ｐ鸵幠y試中，最小的0.5B模型在推箱子上從3.3%提升到26.2%（提升幅度驚人），最大的7B模型在數學題上從84%提升到95.7%。在視覺語言模型測試中，冰湖任務上圖像輸入下的成功率從19.5%飆升到79%，提升超過59個百分點。

在所有這些提升的同時，互信息指標也同步提高，驗證了"輸入相關性提升導致任務表現提升"的因果鏈條確實成立。

六、四個問題：用實驗排除所有備選解釋

研究團隊深知，僅僅看到"過濾之后性能提升"還不足以證明信噪比機制是真正的原因。也許只是因為過濾掉了某些"太難"或"太容易"的題目，讓訓練難度更合適？也許是因為隨機環境噪聲干擾了結果？也許過濾本身改變了題目分布，而不是真的提升了信號質量？

針對這些疑問，研究團隊設計了四組關鍵實驗來逐一排除。

第一組實驗，"分位數消融"，直接驗證獎勵方差是否真的驅動訓練質量。他們把所有題目按獎勵方差分成四等份，分別只用最高25%（Q1）、次高25%（Q2）、次低25%（Q3）、最低25%（Q4）的題目訓練。結果非常干凈：任務表現和互信息都從Q1到Q4單調遞減，Q1遠好于Q4。配合之前的數學證明（任務梯度強度上界等于獎勵方差的平方根），這建立了"獎勵方差→梯度質量→輸入相關推理"的完整因果鏈。

第二組實驗，"噪聲注入控制"，測試環境隨機性對互信息的影響是否符合信噪比機制的預測。冰湖任務的滑動概率從0%（完全確定性）逐步增加到100%（完全隨機）。結果完全符合預測：隨機性增加，任務表現下降，互信息下降，過濾的優勢逐漸縮小。特別有意思的是，當隨機性達到80%-100%時，過濾的優勢幾乎消失——因為此時即使是獎勵方差高的題目，其方差也主要來自環境噪聲而非真正的信號。這個"邊界條件"的出現恰恰驗證了機制的精確性。

第三組實驗，"層級對比"，區分"選擇好題目"和"選擇好軌跡"的效果差異。研究團隊設置了一個對照：保留所有題目，但對每個題目只保留獎勵最高和最低的各8條軌跡，通過軌跡級別的選擇來提升信噪比。這種軌跡級別的過濾確實比完全不過濾好，但效果顯著不如題目級別的過濾。原因在于：一個本來獎勵方差就接近零的題目，強行選出"最高"和"最低"的軌跡，其實是在放大噪聲，選出來的"高獎勵"和"低獎勵"差距本就很小，并無多少信息量。

第四組實驗，"適用性預測"，研究什么情況下過濾方法最有效。研究團隊發現，可以在訓練開始前用一個簡單指標來預測：計算當前批次中各題目獎勵方差的"變異系數"（標準差/均值）。當這個比值高時，說明題目之間的獎勵方差差別很大——有些題目信號豐富，有些幾乎是噪聲，過濾能精準區分兩類。當這個比值接近零時，所有題目的方差都差不多，過濾就變成了隨機丟棄數據，沒有意義甚至有害。這個發現給了研究者一個廉價的"先驗檢驗"工具，在跑完整實驗前就能判斷過濾是否值得使用。

七、互信息與熵：誰才是真正的晴雨表

實驗還系統性地對比了互信息指標和傳統熵指標作為訓練監控工具的效果。研究團隊嘗試了三種不同的干預手段——調整熵正則化系數、調整KL約束強度、調整SNR過濾保留比例——然后觀察每種手段在"互信息-任務表現"平面和"熵-任務表現"平面上的軌跡。

結果非常鮮明。調整熵正則化和KL約束，主要移動的是熵軸，對互信息的影響很小，任務表現的變化也較小，而且軌跡雜亂無章，沒有單調性——增大或減小正則化強度都可能讓性能先上后下或先下后上，很難從這些指標中判斷方向。相比之下，調整SNR過濾力度（保留比例從1.0到0.4），軌跡在互信息-任務表現平面上呈現出漂亮的單調曲線：過濾力度越大（保留比例越?。?，互信息越高，任務表現也越高，直到過濾過于激進開始損害探索為止。

研究團隊還發現了一個有趣現象：格式有效性（AI輸出是否符合規定格式）與互信息幾乎沒有關聯。有些運行在格式完全正確的同時，互信息極低，說明AI正處于模板崩塌狀態。這意味著，用"格式是否正確"來替代互信息作為崩塌指標是行不通的——兩者測量的是完全不同的東西。

此外，獎勵方差與熵和回答長度的相關性都非常低（斯皮爾曼相關約-0.14和0.12），而與任務獎勵的相關性高達0.63。這說明獎勵方差測量的是一個獨立于表面統計特征的信號質量維度，是KL正則化和熵正則化之外的第三個獨立調節旋鈕。

說到底，這篇論文講的是一個在AI訓練領域中長期潛伏的隱形問題。就像一個員工表面上工作很努力、產出很豐富，但實際上已經完全進入了"應付模式"，所有工作都套用同一個模板，跟具體任務需求早已脫節——這種問題用傳統的考核指標完全發現不了，只有換一種角度才能看清真相。

研究團隊給出的答案簡潔而優雅：用互信息來衡量AI的推理是否真的響應了輸入，用獎勵方差來識別哪些訓練數據真的在幫AI學習，用過濾手段把噪聲驅動的更新去掉，讓信號重新主導訓練方向。

這對普通人意味著什么？從近的角度說，你使用的AI助手、智能客服、自動駕駛輔助系統，背后都在用類似的強化學習方法訓練。這套診斷和修復框架，能幫助開發者更早發現AI的"思維僵化"，在產品上線前把問題解決掉，讓你得到真正針對你的問題而給出的回答，而不是一個精心偽裝的通用模板。從遠的角度說，隨著AI系統越來越多地被部署在醫療、法律、科學研究等高風險領域，確保AI的推理真的與具體情境掛鉤，而不是套用固定模板，會越來越關乎實際安全。

當然，這項研究也坦誠地指出了自己的局限性。信噪比分解假設任務信號和正則化噪聲能干凈地分離，但在實踐中它們可能通過梯度累積相互耦合。所有實驗都是單個AI智能體，多智能體場景下的模板崩塌如何傳播還未被研究。還有一個潛在風險：足夠強大的AI可能會學會"游戲規則"，故意在訓練時制造出較高的獎勵方差來騙過過濾器——這在長期訓練中值得持續關注。有興趣深入了解這項研究的所有細節、數學推導和實驗設置的讀者，可以通過arXiv編號2604.06268查閱完整論文。

Q&A

Q1：模板崩塌和普通的AI模型退化有什么區別？

A：模板崩塌是一種特殊的退化形式，關鍵在于它"外表正常、內里空洞"。普通的AI退化往往能從獎勵分數下降或輸出變得單調中被發現。但模板崩塌發生時，AI的輸出依然措辭豐富、格式正確、獎勵穩定，傳統監控指標全部顯示"綠燈"。唯一能發現它的方式是檢測AI的回答是否真的隨著輸入內容的變化而變化——這正是互信息指標的作用，而傳統的熵指標對這種崩塌完全視而不見。

Q2：SNR感知過濾會不會讓AI錯過一些有價值的訓練數據？

A：會丟棄一部分數據，但被丟棄的恰恰是"看起來像訓練數據、實際上是噪聲"的低質量樣本。對于同一個題目所有嘗試獎勵都差不多的數據，AI根本學不到"什么做法更好"，只能學到來自正則化的通用壓力。研究實驗顯示，在保持總體訓練樣本數量不變的前提下，過濾后的訓練速度反而加快了26%到41%，最終任務表現也更好，說明質量遠比數量重要。當然，過于激進的過濾會影響探索多樣性，需要根據任務調整保留比例。

Q3：互信息代理指標在實際訓練中怎么計算，成本高嗎？

A：計算方法叫"批內交叉打分"，完全依賴訓練時已有的數據。具體做法是把每次訓練批次中所有題目的回答交叉評分——讓AI對每個回答計算"對應每個題目的可能性"，從而判斷回答是否與源題目特別匹配。這些計算復用了訓練過程中本來就要做的前向傳播，不需要額外的模型調用或人工標注，額外計算成本不到總訓練時間的0.1%，在工程上非常輕量。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.