<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      中科院讓AI大模型學會"分層思考",底層神經元也能獨當一面了

      0
      分享至


      說起人工智能,我們通常把它當作一個整體來看待——輸入問題,輸出答案,就像一個黑盒子一樣神秘。但中科院自動化研究所的研究團隊卻有了一個顛覆性的發現:原來AI大模型內部其實暗藏著許多"小助手",每一層神經網絡都在悄悄地做著自己的決策。這項由譚雨橋、王旻政、何世柱等研究者完成的工作發表于2024年12月,論文編號為arXiv:2512.19673v1,為我們揭開了大模型內部推理機制的神秘面紗。

      這個發現就像是發現了一個公司里每個部門其實都有自己的小決策權,而不是所有決定都必須等到最高層才能拍板。研究團隊通過深入分析發現,大模型內部的每一層網絡都能形成自己的"內部策略",就像一個多層管理結構,每層都在為最終的決策貢獻自己的智慧。更令人驚訝的是,不同的模型家族在內部推理模式上竟然存在顯著差異,這就像不同公司有著截然不同的管理風格一樣。

      基于這些發現,研究團隊提出了一種全新的訓練方法——"自底向上策略優化"(BuPO)。這種方法不再像傳統方式那樣把模型當作一個整體來訓練,而是先從底層開始逐步優化,讓每一層都學會更好的推理能力。就像培養一個團隊,不是只培訓老板,而是讓每個員工都變得更專業,最終整個團隊的表現自然會提升。

      一、揭秘大模型內部的"多重人格"

      傳統的訓練方法把大模型看作一個統一的整體,就像把一個復雜的交響樂團當作一個單獨的樂手來指揮。但研究團隊發現,這樣做其實忽略了模型內部豐富的層次結構。每個Transformer層都像樂團中的不同聲部,雖然最終要合奏出美妙的樂章,但每個聲部都有自己獨特的作用和表現方式。

      研究團隊巧妙地利用了Transformer架構中的殘差連接特性,就像剝洋蔥一樣,把每一層的貢獻都分離出來。他們發現,通過將每一層的隱藏狀態與最終的輸出矩陣結合,可以構造出所謂的"內部層策略"和"內部模塊策略"。這就像是給交響樂團的每個聲部都配上了麥克風,讓我們能夠聽清楚每個部分在演奏什么。

      更有趣的是,研究團隊還定義了兩種不同粒度的內部策略。內部層策略關注的是每一層的整體貢獻,就像評估一個部門的總體表現。而內部模塊策略則更加細致,分別關注自注意力機制和前饋網絡這兩個核心組件的作用,就像分別評估部門里銷售團隊和技術團隊的表現。

      通過這種分解方式,研究團隊能夠清晰地看到信息是如何在模型內部層層傳遞的。他們發現,早期的層主要負責"探索",保持高度的不確定性來廣泛搜索可能的答案方向。而后期的層則專注于"收斂",逐步縮小搜索范圍,最終鎖定最佳答案。這個過程就像偵探破案,先廣撒網收集線索,然后逐步縮小嫌疑范圍,最終鎖定真兇。

      二、不同模型的"思維風格"大不相同

      研究團隊對比了目前最流行的幾個大模型家族,包括Qwen系列和Llama系列,結果發現了令人驚訝的差異。這些差異就像不同文化背景的人有著截然不同的思維方式一樣明顯。

      Qwen系列模型,特別是最新的Qwen3,展現出了一種漸進式的推理模式,研究者稱之為"探索-整合-收斂"(EIC)模式。這種模式非常像人類的思考過程:剛開始時大腦會發散性地思考各種可能性(探索階段),然后整理和組織這些想法(整合階段),最后聚焦到最佳答案(收斂階段)。具體來說,Qwen3的前饋網絡在前幾層會增加不確定性來擴大搜索空間,中間層保持相對穩定來整合信息,最后幾層則迅速收斂到最終答案。

      相比之下,Llama系列模型的行為模式就像一個"急性子"。它們在大部分層中都保持相對較高的探索性,只在最后幾層突然"剎車"收斂到答案。這種模式雖然也能得到正確答案,但缺乏中間的整合階段,就像一個人思考問題時缺少深度加工的過程。

      研究團隊還分析了不同模塊的具體行為。自注意力機制在不同模型中的表現也各有特色。Qwen3的自注意力模塊始終保持正向的熵變,說明它在持續擴大信息整合的范圍。而Llama模型的自注意力則表現得更加保守,變化幅度較小。

      這些發現不僅有助于理解不同模型的內在機制,也解釋了為什么某些模型在后續訓練中表現更好。擁有漸進式推理模式的模型似乎更容易吸收新知識,就像一個有條理的學習者比混亂的學習者更容易掌握新技能。

      三、從底層開始的全新訓練思路

      基于對內部推理機制的深入理解,研究團隊提出了一個革命性的訓練方法——自底向上策略優化(BuPO)。這種方法顛覆了傳統的"一刀切"訓練方式,轉而采用分層優化的策略。

      傳統的訓練方法就像教一個合唱團唱歌時,只給整個團隊一個總體評價。而BuPO方法則像是先訓練各個聲部,讓每個聲部都掌握好自己的部分,然后再協調整體效果。具體來說,BuPO會先選擇某個關鍵的內部層進行針對性訓練,讓這一層學會更好的推理能力,然后再訓練整個模型。

      研究團隊發現,這種方法的關鍵在于選擇合適的"起點層"。通過分析不同層的熵變化模式,他們確定了最適合作為起點的層。對于Qwen系列模型,最佳起點通常是那些展現正向熵變化的層,也就是仍在進行探索性思考的層。對于Llama系列,則選擇那些開始顯示收斂跡象但仍保持一定探索性的層。

      更有趣的是,研究團隊發現了內部策略優化的一個重要現象:當對某個內部層進行優化時,該層會被迫提前捕獲高層次的推理信息。這就像讓公司的中層管理者提前具備了高層戰略思維能力,從而為后續的整體優化奠定了更好的基礎。

      但這種方法也有其微妙之處。研究團隊發現,過度的內部層優化會導致模型性能崩潰,就像過度訓練會讓運動員受傷一樣。因此,他們確定了最佳的訓練步數,通常在20-30步之間,既能獲得底層優化的好處,又避免了過度擬合的風險。

      四、實驗證明新方法確實更有效

      為了驗證這種新方法的效果,研究團隊在多個復雜的數學推理任務上進行了全面測試。這些測試就像是給不同訓練方法培養出來的學生安排同樣的考試,看誰的成績更好。

      實驗涵蓋了四個主要的數學推理基準:MATH、AMC23、AIME24和AIME25。這些測試從不同角度考察模型的推理能力,就像綜合性考試既有選擇題又有解答題一樣全面。研究團隊比較了BuPO方法與傳統的PPO、GRPO、Reinforce++和RLOO等方法的表現。

      結果令人印象深刻。在Qwen3-4B模型上,BuPO方法在AIME24測試中獲得了4.69分的提升,在AIME25中獲得了2.30分的提升。這種提升幅度在AI訓練領域已經算是相當顯著的改進了。更重要的是,這種提升在不同規模的模型上都能穩定復現,從4B參數的小模型到8B參數的大模型都展現出了一致的改進。

      Llama系列模型的結果同樣令人鼓舞。在經過中期訓練優化的Llama-OctoThinker模型上,BuPO方法平均獲得了1.01到3.68分的提升。這證明了新方法的通用性,不僅適用于特定的模型架構,而是一個更普遍適用的訓練策略。

      研究團隊還進行了更深入的分析來理解這些改進的來源。他們發現,BuPO訓練后的模型在推理過程中表現出更穩定的熵動態變化,這意味著模型的"思考"過程變得更加有條理和高效。同時,底層的特征表示也變得更加豐富,為后續層的處理提供了更好的基礎。

      五、方法背后的深層機理

      研究團隊不滿足于僅僅證明新方法有效,他們還深入探索了這種改進背后的具體機理。通過詳細的分析,他們發現了幾個關鍵的現象。

      首先,當對某個內部層進行優化時,該層的隱藏狀態與最終層表示的相似度會顯著增加。這就像是讓中層管理者的思維水平接近高層領導,使得信息傳遞變得更加順暢。這種現象表明,底層優化確實能夠提升整個網絡的表示質量。

      其次,研究團隊觀察到了一個有趣的訓練動態。在BuPO訓練的早期階段,模型的熵會先增加后減少,形成一個"先發散再收斂"的模式。這種模式類似于人類學習新技能時的過程:剛開始時會嘗試各種方法(發散),然后逐漸找到最有效的方式(收斂)。

      研究團隊還發現,不同訓練階段的作用機制也不相同。在內部層優化階段,主要是提升了模型的"基礎推理能力",就像給學生打好了數學基礎。而在后續的整體優化階段,則是在這個更好的基礎上進一步提升整體表現,就像在扎實的基礎上學習更高級的解題技巧。

      值得注意的是,這種改進并不是簡單的參數調整,而是涉及到了模型內部信息流的根本性改變。通過分析殘差連接的貢獻模式,研究團隊發現BuPO訓練后的模型在信息整合方面變得更加高效,各層之間的協作也更加緊密。

      更令人驚喜的是,這種方法的改進效果在更多樣本的情況下會進一步放大。當研究團隊測試Pass@K指標(即生成K個答案中至少有一個正確的概率)時,發現BuPO方法在K值較大時優勢更加明顯。這說明新方法不僅提高了單次推理的準確性,還提升了模型探索多種解決方案的能力。

      說到底,這項研究最重要的貢獻在于改變了我們訓練AI模型的思維方式。以前我們把模型看作一個黑盒子,現在我們知道了這個盒子里有著復雜而有序的內部結構。通過理解和利用這些內部結構,我們能夠設計出更有效的訓練策略,讓AI變得更聰明、更可靠。

      這種"分層思考"的訓練理念可能會推廣到更多的AI應用領域。無論是自然語言處理、圖像識別還是其他復雜任務,理解和優化模型的內部推理過程都可能帶來顯著的性能提升。對于普通用戶來說,這意味著未來的AI助手會變得更加智能和可信,能夠提供更準確的答案和更合理的解釋。

      當然,這項研究也提出了新的問題和挑戰。如何自動選擇最佳的內部優化策略,如何在不同類型的任務中應用這些發現,以及如何將這些技術擴展到更大規模的模型,都是值得進一步探索的方向。不過可以肯定的是,這種"自底向上"的優化思路為AI技術的發展開辟了一條新的道路,有興趣深入了解技術細節的讀者可以通過論文編號arXiv:2512.19673v1查詢完整的研究報告。

      Q&A

      Q1:什么是大模型的內部策略?

      A:內部策略是指大模型每一層神經網絡都能形成自己的決策能力,就像公司里每個部門都有自己的小決策權。研究團隊發現通過分析每層的輸出,可以看到模型內部的"多重人格",每層都在為最終答案貢獻自己的智慧。

      Q2:自底向上策略優化方法與傳統訓練有什么區別?

      A:傳統方法把整個模型當作一個整體來訓練,而BuPO方法先從底層開始逐步優化每一層的推理能力,然后再訓練整個模型。這就像培養團隊時不只培訓老板,而是讓每個員工都變得更專業,最終整體表現自然提升。

      Q3:為什么Qwen和Llama模型的推理模式不同?

      A:Qwen系列特別是Qwen3展現出漸進式的"探索-整合-收斂"模式,很像人類思考過程。而Llama系列更像"急性子",大部分時候保持探索性,只在最后突然收斂。這些差異影響了它們在后續訓練中的表現,擁有漸進式推理的模型更容易吸收新知識。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      主動投案!廣東新粵物流實業有限公司一經理接受調查

      主動投案!廣東新粵物流實業有限公司一經理接受調查

      南方都市報
      2025-12-31 14:25:11
      1949年主席當選中央人民政府主席時未獲全票,面對周恩來的請示,他回應:代表有不選的權利

      1949年主席當選中央人民政府主席時未獲全票,面對周恩來的請示,他回應:代表有不選的權利

      寄史言志
      2025-12-30 15:57:14
      一古戈爾年后的宇宙:所有黑洞全部蒸發,只剩下永恒的黑暗

      一古戈爾年后的宇宙:所有黑洞全部蒸發,只剩下永恒的黑暗

      觀察宇宙
      2025-12-31 21:46:58
      不到10分鐘基本恢復干凈!解放碑跨年夜,環衛工人守護城市美麗

      不到10分鐘基本恢復干凈!解放碑跨年夜,環衛工人守護城市美麗

      上游新聞
      2026-01-01 01:58:46
      李昀銳為奶茶做宣傳,生圖下臉長嘴歪滿臉褶子,身形瘦弱像紙片人

      李昀銳為奶茶做宣傳,生圖下臉長嘴歪滿臉褶子,身形瘦弱像紙片人

      一娛三分地
      2025-12-30 19:14:14
      國米資方2026年愿景:球隊從7億歐增值至10億 達到拜仁熱刺水平

      國米資方2026年愿景:球隊從7億歐增值至10億 達到拜仁熱刺水平

      國際足球冷雪
      2026-01-01 07:11:14
      2025年末國家一級演員閆學晶給內娛明星敲響警鐘

      2025年末國家一級演員閆學晶給內娛明星敲響警鐘

      楓塵余往逝
      2025-12-30 22:19:13
      龐家后人硬剛新華社!七條質疑炸鍋,香港媒體敢報的真相太炸裂

      龐家后人硬剛新華社!七條質疑炸鍋,香港媒體敢報的真相太炸裂

      滄海一書客
      2025-12-25 19:27:44
      苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

      苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

      科普100克克
      2025-12-07 18:20:34
      NBA常規賽:楊瀚森大顯身手,開拓者苦戰雷霆

      NBA常規賽:楊瀚森大顯身手,開拓者苦戰雷霆

      林子說事
      2026-01-01 07:24:06
      官方通報:王某某被部隊除名

      官方通報:王某某被部隊除名

      揚子晚報
      2025-12-31 10:46:39
      家長我勸你別太離譜!笑死了,盤點學生家長群的那些搞笑事

      家長我勸你別太離譜!笑死了,盤點學生家長群的那些搞笑事

      另子維愛讀史
      2025-12-29 18:11:27
      王陽:盡管我和蔣欣有過戀情,但余生絕不會辜負苦等我6年的高斯

      王陽:盡管我和蔣欣有過戀情,但余生絕不會辜負苦等我6年的高斯

      小熊侃史
      2025-12-20 10:55:51
      志愿軍副軍長江擁輝曾提及,土耳其兵不僅頑強不怕死,背后還總是掛著好幾個銅碗

      志愿軍副軍長江擁輝曾提及,土耳其兵不僅頑強不怕死,背后還總是掛著好幾個銅碗

      史海殘云
      2025-12-31 18:49:12
      今冬最冷時間表出爐了,啥時候最冷?2026年春節冷不冷?早了解

      今冬最冷時間表出爐了,啥時候最冷?2026年春節冷不冷?早了解

      阿龍美食記
      2025-12-27 18:45:06
      下月起,看病開藥新規!6類藥超7天全自費,慢病一次開3個月

      下月起,看病開藥新規!6類藥超7天全自費,慢病一次開3個月

      蜉蝣說
      2025-12-30 11:59:54
      喜訊!朱辰杰大婚之日為何會宴請上港門神顏駿凌參加,原因找到了

      喜訊!朱辰杰大婚之日為何會宴請上港門神顏駿凌參加,原因找到了

      七七自駕游
      2025-12-31 12:54:45
      趕緊寫新年獻詞吧,村頭廁所可沒紙了

      趕緊寫新年獻詞吧,村頭廁所可沒紙了

      文立于塵
      2025-12-31 20:16:34
      芬蘭緊急登船扣押俄貨船,5條海底通信電纜被毀

      芬蘭緊急登船扣押俄貨船,5條海底通信電纜被毀

      桂系007
      2026-01-01 04:57:29
      2026年上半年,命運翻頁,開始真正順起來的三個星座

      2026年上半年,命運翻頁,開始真正順起來的三個星座

      小晴星座說
      2025-12-30 17:29:32
      2026-01-01 09:04:49
      至頂AI實驗室 incentive-icons
      至頂AI實驗室
      一個專注于探索生成式AI前沿技術及其應用的實驗室。
      895文章數 151關注度
      往期回顧 全部

      科技要聞

      老羅,演砸了,也封神了?

      頭條要聞

      牛彈琴:2026第一天 世界最關注三件事

      頭條要聞

      牛彈琴:2026第一天 世界最關注三件事

      體育要聞

      楊瀚森為球迷送上新年祝福:深知自身差距 亦在全力追趕

      娛樂要聞

      官宣才兩天就翻車?七七被連環爆料

      財經要聞

      高培勇:分配制度改革是提振消費的抓手

      汽車要聞

      凱迪拉克純電中型SUV 售價不足24萬/33寸曲面屏

      態度原創

      游戲
      時尚
      家居
      本地
      房產

      宮崎英高:FromSoftware并沒有發明魂系游戲

      小黑靴不流行了?今年冬天最火的靴子竟然是它

      家居要聞

      無形有行 自然與靈感詩意

      本地新聞

      即將過去的2025年,對重慶的影響竟然如此深遠

      房產要聞

      終于等來了!2026年首個買房大利好

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产欧美一区二区精品性色超碰| 人妻偷人精品| av色综合久久天堂av色综合在| 国产爆乳无码av在线播放| 男人吃奶摸下挵进去好爽| 亚洲性爱网站| 亚洲性受| 国产黄色在线| 日日插中文字幕| 久久久久久久久久久免费精品| 欧美精品在线观看视频| 成人AV毛片| 韶关市| 婷婷开心深爱五月天播播| 性做久久久久久| 男人的天堂av一二三区| 一区二区三区久久| 亚洲伊人天天色| 最近最新中文字幕高清免费| 亚洲AV日韩AV综合在线观看| 高清无码久久久久| www.99r| 日本最大色倩网站www| 玩弄放荡人妻少妇系列| 亚洲老熟女@TubeumTv| 精品少妇爆乳无码av无码专区| 国产av一区二区三区天堂综合网| 精品黄色av一区二区三区| 欧美精品99久久久| 亚洲最大国产成人综合网站| 国内精品久久久久久无码不卡| 永久免费无码av在线网站| 五月婷婷开心| 亚洲成a人片在线观看无码| 自拍偷自拍亚洲精品播放| 一本久久a久久精品综合| 一区二区三区视频| 男女裸交免费无遮挡全过程| 久久精品www人人爽人人| 洋洋AV| 无码中文幕熟AⅤ一区二区|