![]()
說起人工智能,我們通常把它當作一個整體來看待——輸入問題,輸出答案,就像一個黑盒子一樣神秘。但中科院自動化研究所的研究團隊卻有了一個顛覆性的發現:原來AI大模型內部其實暗藏著許多"小助手",每一層神經網絡都在悄悄地做著自己的決策。這項由譚雨橋、王旻政、何世柱等研究者完成的工作發表于2024年12月,論文編號為arXiv:2512.19673v1,為我們揭開了大模型內部推理機制的神秘面紗。
這個發現就像是發現了一個公司里每個部門其實都有自己的小決策權,而不是所有決定都必須等到最高層才能拍板。研究團隊通過深入分析發現,大模型內部的每一層網絡都能形成自己的"內部策略",就像一個多層管理結構,每層都在為最終的決策貢獻自己的智慧。更令人驚訝的是,不同的模型家族在內部推理模式上竟然存在顯著差異,這就像不同公司有著截然不同的管理風格一樣。
基于這些發現,研究團隊提出了一種全新的訓練方法——"自底向上策略優化"(BuPO)。這種方法不再像傳統方式那樣把模型當作一個整體來訓練,而是先從底層開始逐步優化,讓每一層都學會更好的推理能力。就像培養一個團隊,不是只培訓老板,而是讓每個員工都變得更專業,最終整個團隊的表現自然會提升。
一、揭秘大模型內部的"多重人格"
傳統的訓練方法把大模型看作一個統一的整體,就像把一個復雜的交響樂團當作一個單獨的樂手來指揮。但研究團隊發現,這樣做其實忽略了模型內部豐富的層次結構。每個Transformer層都像樂團中的不同聲部,雖然最終要合奏出美妙的樂章,但每個聲部都有自己獨特的作用和表現方式。
研究團隊巧妙地利用了Transformer架構中的殘差連接特性,就像剝洋蔥一樣,把每一層的貢獻都分離出來。他們發現,通過將每一層的隱藏狀態與最終的輸出矩陣結合,可以構造出所謂的"內部層策略"和"內部模塊策略"。這就像是給交響樂團的每個聲部都配上了麥克風,讓我們能夠聽清楚每個部分在演奏什么。
更有趣的是,研究團隊還定義了兩種不同粒度的內部策略。內部層策略關注的是每一層的整體貢獻,就像評估一個部門的總體表現。而內部模塊策略則更加細致,分別關注自注意力機制和前饋網絡這兩個核心組件的作用,就像分別評估部門里銷售團隊和技術團隊的表現。
通過這種分解方式,研究團隊能夠清晰地看到信息是如何在模型內部層層傳遞的。他們發現,早期的層主要負責"探索",保持高度的不確定性來廣泛搜索可能的答案方向。而后期的層則專注于"收斂",逐步縮小搜索范圍,最終鎖定最佳答案。這個過程就像偵探破案,先廣撒網收集線索,然后逐步縮小嫌疑范圍,最終鎖定真兇。
二、不同模型的"思維風格"大不相同
研究團隊對比了目前最流行的幾個大模型家族,包括Qwen系列和Llama系列,結果發現了令人驚訝的差異。這些差異就像不同文化背景的人有著截然不同的思維方式一樣明顯。
Qwen系列模型,特別是最新的Qwen3,展現出了一種漸進式的推理模式,研究者稱之為"探索-整合-收斂"(EIC)模式。這種模式非常像人類的思考過程:剛開始時大腦會發散性地思考各種可能性(探索階段),然后整理和組織這些想法(整合階段),最后聚焦到最佳答案(收斂階段)。具體來說,Qwen3的前饋網絡在前幾層會增加不確定性來擴大搜索空間,中間層保持相對穩定來整合信息,最后幾層則迅速收斂到最終答案。
相比之下,Llama系列模型的行為模式就像一個"急性子"。它們在大部分層中都保持相對較高的探索性,只在最后幾層突然"剎車"收斂到答案。這種模式雖然也能得到正確答案,但缺乏中間的整合階段,就像一個人思考問題時缺少深度加工的過程。
研究團隊還分析了不同模塊的具體行為。自注意力機制在不同模型中的表現也各有特色。Qwen3的自注意力模塊始終保持正向的熵變,說明它在持續擴大信息整合的范圍。而Llama模型的自注意力則表現得更加保守,變化幅度較小。
這些發現不僅有助于理解不同模型的內在機制,也解釋了為什么某些模型在后續訓練中表現更好。擁有漸進式推理模式的模型似乎更容易吸收新知識,就像一個有條理的學習者比混亂的學習者更容易掌握新技能。
三、從底層開始的全新訓練思路
基于對內部推理機制的深入理解,研究團隊提出了一個革命性的訓練方法——自底向上策略優化(BuPO)。這種方法顛覆了傳統的"一刀切"訓練方式,轉而采用分層優化的策略。
傳統的訓練方法就像教一個合唱團唱歌時,只給整個團隊一個總體評價。而BuPO方法則像是先訓練各個聲部,讓每個聲部都掌握好自己的部分,然后再協調整體效果。具體來說,BuPO會先選擇某個關鍵的內部層進行針對性訓練,讓這一層學會更好的推理能力,然后再訓練整個模型。
研究團隊發現,這種方法的關鍵在于選擇合適的"起點層"。通過分析不同層的熵變化模式,他們確定了最適合作為起點的層。對于Qwen系列模型,最佳起點通常是那些展現正向熵變化的層,也就是仍在進行探索性思考的層。對于Llama系列,則選擇那些開始顯示收斂跡象但仍保持一定探索性的層。
更有趣的是,研究團隊發現了內部策略優化的一個重要現象:當對某個內部層進行優化時,該層會被迫提前捕獲高層次的推理信息。這就像讓公司的中層管理者提前具備了高層戰略思維能力,從而為后續的整體優化奠定了更好的基礎。
但這種方法也有其微妙之處。研究團隊發現,過度的內部層優化會導致模型性能崩潰,就像過度訓練會讓運動員受傷一樣。因此,他們確定了最佳的訓練步數,通常在20-30步之間,既能獲得底層優化的好處,又避免了過度擬合的風險。
四、實驗證明新方法確實更有效
為了驗證這種新方法的效果,研究團隊在多個復雜的數學推理任務上進行了全面測試。這些測試就像是給不同訓練方法培養出來的學生安排同樣的考試,看誰的成績更好。
實驗涵蓋了四個主要的數學推理基準:MATH、AMC23、AIME24和AIME25。這些測試從不同角度考察模型的推理能力,就像綜合性考試既有選擇題又有解答題一樣全面。研究團隊比較了BuPO方法與傳統的PPO、GRPO、Reinforce++和RLOO等方法的表現。
結果令人印象深刻。在Qwen3-4B模型上,BuPO方法在AIME24測試中獲得了4.69分的提升,在AIME25中獲得了2.30分的提升。這種提升幅度在AI訓練領域已經算是相當顯著的改進了。更重要的是,這種提升在不同規模的模型上都能穩定復現,從4B參數的小模型到8B參數的大模型都展現出了一致的改進。
Llama系列模型的結果同樣令人鼓舞。在經過中期訓練優化的Llama-OctoThinker模型上,BuPO方法平均獲得了1.01到3.68分的提升。這證明了新方法的通用性,不僅適用于特定的模型架構,而是一個更普遍適用的訓練策略。
研究團隊還進行了更深入的分析來理解這些改進的來源。他們發現,BuPO訓練后的模型在推理過程中表現出更穩定的熵動態變化,這意味著模型的"思考"過程變得更加有條理和高效。同時,底層的特征表示也變得更加豐富,為后續層的處理提供了更好的基礎。
五、方法背后的深層機理
研究團隊不滿足于僅僅證明新方法有效,他們還深入探索了這種改進背后的具體機理。通過詳細的分析,他們發現了幾個關鍵的現象。
首先,當對某個內部層進行優化時,該層的隱藏狀態與最終層表示的相似度會顯著增加。這就像是讓中層管理者的思維水平接近高層領導,使得信息傳遞變得更加順暢。這種現象表明,底層優化確實能夠提升整個網絡的表示質量。
其次,研究團隊觀察到了一個有趣的訓練動態。在BuPO訓練的早期階段,模型的熵會先增加后減少,形成一個"先發散再收斂"的模式。這種模式類似于人類學習新技能時的過程:剛開始時會嘗試各種方法(發散),然后逐漸找到最有效的方式(收斂)。
研究團隊還發現,不同訓練階段的作用機制也不相同。在內部層優化階段,主要是提升了模型的"基礎推理能力",就像給學生打好了數學基礎。而在后續的整體優化階段,則是在這個更好的基礎上進一步提升整體表現,就像在扎實的基礎上學習更高級的解題技巧。
值得注意的是,這種改進并不是簡單的參數調整,而是涉及到了模型內部信息流的根本性改變。通過分析殘差連接的貢獻模式,研究團隊發現BuPO訓練后的模型在信息整合方面變得更加高效,各層之間的協作也更加緊密。
更令人驚喜的是,這種方法的改進效果在更多樣本的情況下會進一步放大。當研究團隊測試Pass@K指標(即生成K個答案中至少有一個正確的概率)時,發現BuPO方法在K值較大時優勢更加明顯。這說明新方法不僅提高了單次推理的準確性,還提升了模型探索多種解決方案的能力。
說到底,這項研究最重要的貢獻在于改變了我們訓練AI模型的思維方式。以前我們把模型看作一個黑盒子,現在我們知道了這個盒子里有著復雜而有序的內部結構。通過理解和利用這些內部結構,我們能夠設計出更有效的訓練策略,讓AI變得更聰明、更可靠。
這種"分層思考"的訓練理念可能會推廣到更多的AI應用領域。無論是自然語言處理、圖像識別還是其他復雜任務,理解和優化模型的內部推理過程都可能帶來顯著的性能提升。對于普通用戶來說,這意味著未來的AI助手會變得更加智能和可信,能夠提供更準確的答案和更合理的解釋。
當然,這項研究也提出了新的問題和挑戰。如何自動選擇最佳的內部優化策略,如何在不同類型的任務中應用這些發現,以及如何將這些技術擴展到更大規模的模型,都是值得進一步探索的方向。不過可以肯定的是,這種"自底向上"的優化思路為AI技術的發展開辟了一條新的道路,有興趣深入了解技術細節的讀者可以通過論文編號arXiv:2512.19673v1查詢完整的研究報告。
Q&A
Q1:什么是大模型的內部策略?
A:內部策略是指大模型每一層神經網絡都能形成自己的決策能力,就像公司里每個部門都有自己的小決策權。研究團隊發現通過分析每層的輸出,可以看到模型內部的"多重人格",每層都在為最終答案貢獻自己的智慧。
Q2:自底向上策略優化方法與傳統訓練有什么區別?
A:傳統方法把整個模型當作一個整體來訓練,而BuPO方法先從底層開始逐步優化每一層的推理能力,然后再訓練整個模型。這就像培養團隊時不只培訓老板,而是讓每個員工都變得更專業,最終整體表現自然提升。
Q3:為什么Qwen和Llama模型的推理模式不同?
A:Qwen系列特別是Qwen3展現出漸進式的"探索-整合-收斂"模式,很像人類思考過程。而Llama系列更像"急性子",大部分時候保持探索性,只在最后突然收斂。這些差異影響了它們在后續訓練中的表現,擁有漸進式推理的模型更容易吸收新知識。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.