網易首頁 > 網易號 > 正文申請入駐

OpenAI開源“稀疏電路”，我們能看懂AI在想什么了

2025-12-30 22:33:03　來源: 至頂AI實驗室

北京舉報

分享至

我們創造出了能寫詩、能編程、能回答各種問題的AI，卻對它內部的運作方式幾乎一無所知。比如咖啡機，每次按下按鈕都能得到完美的拿鐵，但你完全不知道機器里面發生了什么，豆子是怎么被研磨的？牛奶是怎么被打出泡沫的？這種"只知其然，不知其所以然"的狀態，在AI領域被稱為"黑箱問題"。

有時候我們向AI提問，它會顯示“思考中”，甚至還能看見思考內容，這是它最真實的思考嗎？未必，有人發現AI后續的回答和先前的思考并不一致。那么對于AI真實思考的研究，只能到此為止了嗎？

2025年11月，OpenAI提出了一種讓AI變得可理解的新方法，核心思路非常簡單，讓AI的大腦變得更稀疏。

假如某人的大腦有1000億個神經元，每個神經元都和其他所有神經元相連，那要理解他的任何一個想法，就需要追蹤天文數字級別的連接。但如果每個神經元只和少數幾個其他神經元相連呢？這時候，追蹤一個想法的路徑就變得容易多了。OpenAI的研究者們正是利用這個原理，訓練出了一種特殊的AI，它的"神經連接"被刻意壓縮到只剩下正常AI的千分之一左右。結果令人驚喜：這種稀疏的AI不僅能正常工作，而且它的"思維過程"終于變得可以被人類理解了。

為什么AI的大腦像一團亂麻

現代AI，尤其是像ChatGPT這樣的大型語言模型，本質上是一個巨大的神經網絡。你可以把它想象成一個由無數開關組成的超級復雜的電路板。當你向AI提問時，信息會從輸入端流入，經過層層處理，最后從輸出端給出答案。問題在于，這個"電路板"上的每一個開關都和其他很多開關相連，而且這些連接的強度（我們稱之為"權重"）是在訓練過程中自動學會的。

研究者們發現了一個有趣的現象，他們稱之為"疊加"。這就好比你的大腦用同一組神經元來同時存儲"貓"、"狗"和"兔子"三個概念，而不是為每個概念分配專門的神經元。雖然這種方式非常節省空間，但也讓追蹤單個概念變得極其困難，當你看到某個神經元激活時，你不知道它代表的是貓、狗還是兔子，也可能三者都有一點。

這種"概念疊加"的現象導致了一個嚴重的問題：即使研究者們想要理解AI是如何完成某個特定任務的，他們也很難把相關的"電路"從整個網絡中分離出來。這就像試圖在一碗意大利面里找出某一根面條的完整路徑，當所有面條都糾纏在一起時，這幾乎是不可能的任務。

減法帶來的驚喜：讓AI變稀疏

OpenAI研究團隊的解決方案可以用四個字概括：做減法。

他們的核心想法是這樣的：既然密集連接的網絡難以理解，那就訓練一個連接稀疏的網絡。具體來說，他們強制讓神經網絡中的絕大多數"權重"（也就是神經元之間連接的強度）保持為零。在他們最稀疏的模型中，只有大約千分之一的連接是有效的。

這個方法聽起來簡單，實施起來卻需要很多技巧。研究者們采用了一種叫做"Top-K"的策略，在每一步訓練中，只保留每個權重矩陣中絕對值最大的那些權重，其余全部清零。他們還使用了一種漸進式的"退火"過程：訓練開始時網絡是密集的，然后逐漸變得稀疏，這樣可以讓網絡有機會找到最重要的連接。

為了讓這個比喻更具體一些，想象你正在裝修一個新家。一開始，你在每面墻上都裝了各種插座、開關和線路，因為你還不確定哪些是必需的。但隨著你慢慢熟悉生活需求，你發現其實只需要在特定位置保留幾個關鍵的開關就夠了，客廳的主燈開關、臥室床頭的閱讀燈開關、廚房的排氣扇開關。那些不常用的線路被一一拆除，最后剩下的都是真正必要的連接。稀疏訓練就是這樣一個"精簡電路"的過程。

研究團隊還發現，單純讓權重稀疏還不夠，他們還需要讓"激活"也變得稀疏。激活是什么意思呢？可以把它理解為神經元在處理特定輸入時的"活躍程度"。在正常的AI中，面對任何輸入，大量神經元都會同時活躍起來。但在研究者們設計的稀疏模型中，他們使用了一種叫做"AbsTopK"的激活函數，每次只允許大約四分之一的神經元活躍。

權重稀疏和激活稀疏這兩種稀疏性的結合，產生了神奇的效果。每個神經元現在只能從少數幾個其他神經元那里獲取信息，也只能向少數幾個其他神經元發送信息。這就大大限制了"概念疊加"的可能性，因為要把多個概念塞進同一個神經元變得更加困難了。

像考古學家一樣挖掘AI的思維電路

訓練出稀疏模型只是第一步。接下來，研究者們需要一種方法來提取出AI用于完成特定任務的電路。

他們設計了一套精巧的任務來測試AI的能力。這些任務都是簡單但需要特定技能的Python編程預測問題。比如，有一個任務是預測字符串應該用單引號還是雙引號來結束，如果字符串是用雙引號開始的，AI就需要預測雙引號作為結束符。另一個任務是追蹤變量的類型，如果一個變量被初始化為集合（set），AI需要記住這一點，并在后面正確預測使用".add"方法而不是"+="操作符。

有了這些任務，研究者們就可以使用一種叫做剪枝的技術來找出相關的電路。剪枝的過程很像雕塑：你從一塊完整的石頭開始，然后一點點敲掉不需要的部分，直到露出里面的形狀。在這里，研究者們從完整的稀疏模型開始，然后逐步"刪除"那些對完成特定任務不重要的神經元。被刪除的神經元會被設置為它們在整個訓練數據上的平均值，這樣就相當于把它們"靜音"了。

這個剪枝過程使用了一種學習算法：研究者們為每個神經元分配一個"掩碼參數"，這個參數決定了神經元是保留還是刪除。通過優化這些掩碼參數，他們可以找到最小的神經元集合，使得這個集合仍然能夠很好地完成任務。最終剩下的神經元及其之間的連接，就構成了完成該任務的電路。

研究結果令人印象深刻。在相同的任務損失水平下，稀疏模型的電路大小只有密集模型的大約十六分之一。這意味著理解稀疏模型如何完成任務變得容易多了，你只需要分析十幾個神經元和幾十個連接，而不是成百上千個。

解剖AI的思維：三個迷人的電路故事

最精彩的部分來了。研究者們花費了大量時間來人工分析這些提取出來的電路，試圖理解AI到底是如何思考的。他們選擇了三個任務進行深入研究，每個任務大約花費了一個研究員一天的時間。讓我們逐一來看這些發現。

第一個故事關于字符串引號匹配。當AI需要預測用單引號還是雙引號來結束一個字符串時，它使用了一個非常簡潔的兩步策略。在第一步，模型最早的一個MLP層會處理輸入的引號標記。它把雙引號和單引號的信息轉換成兩個特殊的"信號"：一個是"引號檢測器"，無論是單引號還是雙引號都會激活它；另一個是"引號類型分類器"，雙引號時是正值，單引號時是負值。在第二步，一個注意力頭會使用"引號檢測器"來決定關注哪個位置（也就是開頭的引號），然后把"引號類型分類器"的值復制到當前位置，從而預測正確的結束引號。整個電路只用了12個節點和9條連接！

第二個故事更加復雜，涉及計算括號嵌套深度。當AI需要判斷是輸出"]"還是"]]"來正確關閉列表時，它展現了一種巧妙的計數機制。首先，每個"["符號在進入模型時，它的嵌入向量會寫入幾個特定的殘差通道，形成"開括號檢測器"。然后，一個注意力頭會把整個上下文中所有開括號檢測器的值求平均。這個平均值被寫入一個新的殘差通道，代表"嵌套深度"，嵌套越深，這個值就越大。最后，另一個注意力頭會對這個深度值進行"閾值判斷"：如果深度超過某個閾值，就輸出雙括號；否則輸出單括號。

這個發現引出了一個有趣的預測：既然模型是通過求平均來計算深度的，那么如果上下文中有很多無關的標記，平均值就會被"稀釋"，導致模型出錯。研究者們驗證了這個預測，當他們故意在代碼注釋中加入額外的未匹配開括號時，模型果然被騙了！更有趣的是，這種"上下文稀釋攻擊"甚至對相同能力級別的密集模型也有效，說明這可能是一種普遍的算法模式。

第三個故事展示了AI如何追蹤變量類型。當模型需要記住一個變量是集合還是字符串，并在后面做出正確預測時，它使用了一個兩跳的注意力機制。首先，一個注意力頭會把變量名復制到初始化位置（比如"set()"或空字符串）。然后，當模型需要預測這個變量的方法時，另一個注意力頭會用變量名作為"查詢"，找到之前存儲的初始化信息，并把它復制到當前位置用于預測。

這三個電路故事有一個共同點：它們都可以被理解為人類可以手動驗證的簡單算法。這是一個巨大的突破，以前，我們只知道AI給出了正確答案，但不知道它是怎么得到答案的；現在，我們可以看到它的"解題步驟"了。

能力與可解釋性的權衡：天下沒有免費的午餐

當然，讓AI變得可理解是有代價的。研究者們發現，稀疏性和能力之間存在一個清晰的權衡關系。

具體來說，如果你把模型訓練得更稀疏（也就是保留更少的連接），模型在預訓練任務上的表現就會變差，但電路會變得更小、更容易理解。這就像一個光譜：一端是完全密集的模型，能力很強但像一團亂麻；另一端是極度稀疏的模型，容易理解但能力有限。

不過，研究者們也發現了一個令人鼓舞的結果：增加模型的總參數量可以改善這個權衡。也就是說，如果你把模型做得更大，你可以在保持相同稀疏度的情況下獲得更好的能力，或者在保持相同能力的情況下獲得更稀疏（更容易理解）的電路。這就像是用更大的畫布來畫同樣的內容，你有更多的空間來分離不同的元素，讓畫面變得更清晰。

研究者們測試了從大約100萬到1500萬非零參數的模型規模。結果顯示，在這個范圍內，更大的模型確實能夠獲得更好的"能力-可解釋性"前沿。然而，他們也承認，如何在保持可解釋性的同時將模型擴展到數千萬非零參數以上，仍然是一個挑戰。

架起橋梁：讓稀疏模型理解密集模型

到目前為止，所有結果都來自于從零開始訓練的稀疏模型。但這引出了一個自然的問題：我們能不能用這種方法來理解已經存在的密集模型呢？畢竟，比如GPT-4等這些強大的AI，基本都是密集模型，我們不可能重新訓練它們。

研究者們探索了一種叫做"橋接"的技術來解決這個問題。核心思想是這樣的：同時訓練一個稀疏模型和一系列"翻譯器"（橋），這些翻譯器可以把密集模型的內部表示轉換成稀疏模型的表示，反之亦然。如果訓練成功，稀疏模型就可以作為密集模型的一個"可解釋版本"，你可以在稀疏模型中找到某個概念的表示，然后通過橋把這個表示映射回密集模型，從而理解密集模型是如何表示這個概念的。

研究者們進行了初步實驗來驗證這個想法。他們訓練了一個4層的密集模型和一個對應的橋接稀疏模型，然后嘗試在稀疏模型中找到代表"引號類型"的神經元。找到這個神經元后，他們修改它的值來模擬"單引號"的情況，然后通過橋把這個修改映射到密集模型。結果很鼓舞人心：密集模型的行為確實發生了預期的變化，輸出單引號的概率大幅增加。

這個結果雖然是初步的，但它暗示了一條令人興奮的道路：也許我們可以通過訓練"可解釋的影子模型"來理解那些無法直接解釋的大型AI。

至頂AI實驗室洞見

說到底，這項研究的核心價值在于它向我們展示了一種可能性：AI不必是不可理解的黑箱。

當前，我們對AI的信任在很大程度上是"盲目"的，我們看到它給出正確的答案，就假設它是以正確的方式得到這些答案的。但我們并不真正知道AI內部在做什么，它可能是通過我們完全意想不到的"捷徑"來解決問題的。這種不確定性是AI安全的一個重大隱患。

OpenAI的這項研究提供了一條通往"可理解AI"的道路。雖然目前這種方法只能應用于相對較小的模型和簡單的任務，但它證明了原則上是可行的。未來，隨著方法的改進和計算效率的提升，也許我們能夠理解更大、更強的AI是如何工作的。

研究者們特別提到了幾個令人期待的方向。一是創建一系列"可解釋的模型生物"，一組不同規模的稀疏模型，可以用來研究AI的普遍計算模式。如果稀疏模型和密集模型使用類似的"電路模式"來解決問題，那么理解稀疏模型就能幫助我們理解密集模型。二是將橋接技術應用于特定的安全相關任務，比如理解AI是如何決定是否拒絕某個請求的。即使我們不能完全理解一個AI，理解它在安全關鍵場景下的行為也是有價值的。

這項工作也為自動化解釋AI提供了新的基礎。稀疏電路可以被視為一種新的"語言"來描述AI的計算，在這種語言中，復雜的行為可以被分解為簡單的、可追蹤的步驟。研究者們猜測，目前自動解釋AI的方法可能受限于缺乏這樣的基礎表示方式，而稀疏電路可能是突破這個瓶頸的關鍵。

本文來自至頂AI實驗室，一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破，挖掘其潛在的應用場景，為企業和個人提供切實可行的解決方案。

Q&A

Q1：稀疏模型是什么意思？

A：稀疏模型是指神經網絡中大部分連接權重被設為零的模型。在這項研究中，最稀疏的模型只有約千分之一的連接是有效的，這樣做的目的是讓AI的計算過程更容易被人類理解和分析。

Q2：這種方法能用來理解ChatGPT嗎？

A：目前還不能直接理解像ChatGPT這樣的大型密集模型。這項研究主要針對從零訓練的小規模稀疏模型，不過研究者們探索了"橋接"技術，未來可能幫助我們間接理解密集模型的部分行為，但距離完全解釋ChatGPT還有很長的路要走。

Q3：讓AI變得可理解有什么實際用處？

A：最重要的用處是提升AI安全性。如果我們能理解AI是如何做決策的，就能發現它可能存在的隱藏偏見或錯誤推理，也能更好地預測它在新情況下的行為，這對于在醫療、法律等關鍵領域部署AI尤為重要。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.