我們正生活在一個由黑匣子統治的時代。這些黑匣子被我們稱為AI。
幾十年來,我們與這些機器的契約很簡單:我們給它們海量的數據,它們還給我們一個魔法:準確推薦下一首歌、能以99%的準確率識別貓、或寫出莎士比亞十四行詩。
我們不在乎怎么做到的,我們只要它能做到。
但現在,當這個黑匣子不再是用來識別貓,而是用來診斷癌癥、批準貸款或(老天保佑)控制核武器時,“怎么做到的”成了不能規避問題。
于是,一個被稱為機制可解釋性的AI研究領域誕生了,他們的工作就是試圖搞清楚模型到底在想什么。
在這個領域中,Anthropic貢獻了很多技術,比如探針,試圖通過觀察注意力的變化,去逆向猜測大腦的運轉。但這些猜測都是模糊且多解的,因為他們不得不面對神經網絡的一個本質特性,那就是疊加。
直到這個月,OpenAI出手,用一篇名為《權重稀疏的Transformer具有可解釋的電路》的論文給出了拆掉這座高墻的榔頭,打算從根本上解決不可解釋性的問題。
![]()
論文鏈接:https://arxiv.org/abs/2511.13653
1
疊加態的詛咒
疊加之所以令人頭疼,是因為它讓神經網絡變得像一個過度擁擠的單身公寓。
在一個普通的密集神經網絡里,為了節省成本(參數量),模型會讓一個神經元同時打幾份工。
這就像一個只有十個柜子的房間,卻要塞進一千件不同的東西。當你拉開一個柜子(神經元),你會發現里面壓扁了的冬衣、貓糧和一團電線塞在一起。
對于同一個神經元,當你問它“這是什么?”時,它會告訴你:如果看到“貓”,我激活 0.8;如果看到“狗”,我激活 -0.5;如果看到“引號”,我又激活 0.3。
這種一詞多義的現象就是疊加。
讓情況更糟糕的是,這些信息還會以復雜的方式分散在多個神經元之間。一個簡單的任務(比如識別代碼里的引號),其邏輯可能被撕碎,分散在幾十個這種亂七八糟的神經元里,要靠著其他神經元同步激活,才能顯現出來。
這也是目前的 AI 這么強的原因。它極致地壓縮了信息,高效利用了每一個參數。
但也正因如此,想要看懂它的工作流,就跟拆開一團復雜的線團一樣困難。
1
極簡主義的經濟制裁
OpenAI 的思路很直接。既然疊加是因為模型為了省錢(節省參數)而把概念混在一起,那干脆就改變經濟規則,讓它不去疊加了。
于是,他們設計了一個模型簡化計劃。從頭開始訓練一種權重稀疏(Weight-Sparse)的模型。在每個訓練步驟后,OpenAI會直接把每個權重矩陣里除了最大的那些值之外的所有參數都清零。
這樣,最極端的情況下,他們的模型只有千分之一的參數是非零的。此時,一個原本可以有一百萬個連接的神經元,現在只被允許保留一千個。
這不是在限制模型能學多少知識,而是在限制它能動用多少關系。
![]()
在這種嚴苛的預算下,模型為了完成任務,必須精打細算。它發現,把毫不相關的概念(比如貓和引號)塞進同一個神經元變得不再劃算,因為解開它們需要額外的連接,而連接極其珍貴。
于是,在這套極簡主義的經濟下,模型被迫學會了斷舍離。訓練出來的模型中,一個神經元只負責一個概念,這種解耦策略反而成了最經濟的生存之道。
然而,訓練出一個整潔的模型只是第一步。整個模型依然是一個有著龐大參數的迷宮。想要在迷宮里找到處理特定任務的那條紅線,他們需要第二個工具,即自動剪枝(Automated Pruning)。
如果說稀疏訓練是把雜亂的房間整理得井井有條,那么剪枝就是關掉燈,只讓那些正在工作的電線發光。
這不是靠人工去猜,而是一個自動化過程。研究人員會為選定一個具體任務(比如數括號),然后給模型里每一個神經元都裝上一個可調節的調光器(Mask)。
通過優化算法,系統會不斷嘗試關掉參數的燈光(均一化響應)。只要關掉這個神經元不影響任務結果,就立刻把它徹底關死 。
當數百萬個調光器被關閉后,黑暗中只剩下那幾十個還亮著的節點。這些幸存下來的節點連接在一起,就構成了能夠解釋具體任務的電路(Circuit)。
所謂電路,本質上就是從那個龐大而復雜的神經網絡中提取出來的、專門負責某項具體任務的最小核心子圖 。是模型在處理問題時,用到的所有邏輯判斷的精簡思維導圖。
在這個稀疏中,AI 的思考路徑變得驚人地干凈。
當研究人員對比同樣表現的稀疏模型和密集模型時,發現稀疏模型處理特定任務的電路體積,平均小了16倍。
![]()
1
讀懂AI的心
有了清晰的電路,研究人員終于可以讀懂 AI 的思想了。
在論文中,研究人員向我們展示了模型是如何把一個簡單的認知任務(看到引號 -> 記住引號 -> 閉合引號),拆解成了一套嚴密的寫入-檢索邏輯。
![]()
這個任務,大概是模型讀到了一個開頭的雙引號 (",中間經過了一串字符,現在它走到了句子的盡頭,需要預測下一個字符是 ") 還是 ') 。
它做的第一步是標記。當模型讀到開頭的 (" 時,電路中的一個組件被激活。它向信息流中寫入了兩條信息,先用引號檢測器標明這里有個引號(位置標記),再用一個類型分類器判別了一下標記的類型,確認這是個雙引號(類型標記)。
第二步則是回溯。 當模型處理到句子的最后一個字,準備預測結尾時,第 10 層的一個注意力頭啟動了。它利用了注意力機制經典的 Q-K-V(查詢-鍵-值) 結構來完成一次精準的數據庫檢索。回過頭去尋找那個位置標記,也搜索到了前面的類型標記(雙引號)。
模型拿著這個信息,立刻排除了單引號的選項,自信地輸出了 ")。
模型整個行為的過程,非常符合人類的邏輯架構,用內容分離去判別,再用檢索去確認。
在這些電路里,我們可以看到是清晰、可調試的代碼邏輯。
研究人員甚至發現了更復雜的變量追蹤電路,模型通過兩層注意力機制,像接力跑一樣,先把變量名存入內存,再在需要時通過變量名檢索出它的類型。
![]()
1
有效性的證明
為了驗證這些線路圖不僅僅是好看,而是真的在工作,研究團隊還做了一系列實驗驗證其充分性和必要性。
針對充分性,當他們把電路以外的所有神經元全部切斷(設為平均值),發現模型依然能完美完成任務。
而當他們僅僅切斷電路以內的那幾個關鍵節點,模型的能力瞬間崩潰。這就說明它確實是必要的。
由此,研究者可以自信的說,他們提取出來的不僅僅是統計上的相關性,而是模型真正的思維流程。
但即使模型是真的用這個電路思考的,研究人員怎么證明他們的理解沒有問題呢?
證明也很簡單如果他們真的懂這個電路,他們就應該能“黑”了它。
在研究一個“計算括號嵌套深度”的電路時,他們發現模型為了省事,用了一種“取平均值”的快捷算法來估算深度。研究人員立刻意識到:既然是取平均值,那如果我把上下文拉得特別長,這個數值不就被稀釋了嗎?
于是,他們故意構造了一個超長的列表作為輸入。結果不出所料,模型正如預測那樣,在嵌套深度判斷上徹底失效了。
這簡直是可解釋性領域的登月時刻。這就像神經科學家聲稱破解了視覺皮層,然后通過畫一張特定的圖畫,精準地讓你的眼睛產生了預期的幻覺。
通過精準預測模型的失敗,他們反向證明了對模型原理的掌控。
現在,OpenAI的研究人員可以完全自信的說,他們已經理解了模型是怎么處理括號問題的了。
1
找到了圣杯,但還是遇到了硬件的墻
故事到這里,似乎我們已經找到了圣杯。只要把所有模型都做成稀疏的,可解釋性的問題不就解決了嗎?
聽著挺好,結果論文在角落里藏著一個巨大的但是,就是效率。
這些權重稀疏模型,在現有的計算機上運行,效率低得令人發指。訓練它們可能需要比普通模型多消耗100到1000倍的算力。
過去三十年的芯片工業,都是為了密集計算而生的。GPU之所以快,是因為并行能力強,能一次性做很多運算。
但在稀疏模型里,任何時候,只有零星幾個神經元在做著計算。
當你把稀疏模型放到 GPU 上時,它那龐大的并行能力就完全失效了,只能一次算一點點。
我們為了讓人類理解而設計的模型結構,恰好被我們需要它運行的硬件物理結構所排斥。
更糟糕的是,除了跑得慢,它還胖得驚人。
這樣一個稀疏模型,因為其中神經元的利用很低效,因此想要達到和密集模型同樣的聰明程度,你往往需要極大地增加它的總參數量。由此產生的模型體積也會大到讓硬件裝下很吃力。
這意味著,用這種方法訓練一個稀疏版的 GPT-5根本不現實。
1
B 計劃:橋接
那這一切努力都白費了嗎?
OpenAI 提出了一個B計劃,雖然無法用可解釋性稀疏模型去取代那些高效但不可解釋的密集模型,但我們可以用橋接的方式造一個區域翻譯器,只翻譯其中一小部分。
![]()
這一橋接的方法,就是凍結那個強大的密集模型,然后在它旁邊訓練一個小的稀疏模型。同時,訓練一組翻譯層,讓它們時刻保持同步。
這樣,當稀疏模型里的引號分類器亮起時,我們就能知道原來密集模型里對應的,是哪一套復雜的神經元組合了。
這個稀疏模型的橋接,就像一臺連接到密集模型上的 X 光機。
![]()
雖然因為規模和效率問題,我們沒法通過它翻譯密集模型的全部思想。但針對我們關心的那些安全任務(比如欺騙、誘導、制造生化武器),針對性的翻譯還是完全做得到的。
比如研究人員可以手動搜集一個模型進行欺騙行為的數據集。然后我們在這個數據集上訓練橋接模型,強迫它去翻譯GPT-5在進行欺騙時的內部計算。由此也許就能搞清楚其中到底是出了什么問題,模型為什么要撒謊。
1
不完美,但意義同樣重大
雖然這篇論文沒有給我們一個完全安全、可解釋、超智能的AI。
但它給了我們一套工具,和一線希望。
它證明了,AI的黑匣子并非 堅不可摧。只要我們施加正確的壓力(稀疏性),并使用正確的手術刀(修剪算法),我們就可以強迫這個黑匣子開口,把它最深的秘密暴露在人類的理解之下。
這也許是我們在超級智能降臨的前夜,唯一能為它套上的思想韁繩。它讓我們不再是被動地等待黑盒里的審判,而是第一次擁有了主動。
在AI學會欺騙之前看穿謊言,在它孕育出惡意之前,將其扼殺于神經元的閃爍之中。
這可能是在這場游戲中,我們唯一能贏的方式。
文章轉載于騰訊科技,作者:博陽
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.