我們創造出了能寫詩、能編程、能回答各種問題的AI,卻對它內部的運作方式幾乎一無所知。比如咖啡機,每次按下按鈕都能得到完美的拿鐵,但你完全不知道機器里面發生了什么,豆子是怎么被研磨的?牛奶是怎么被打出泡沫的?這種"只知其然,不知其所以然"的狀態,在AI領域被稱為"黑箱問題"。
有時候我們向AI提問,它會顯示“思考中”,甚至還能看見思考內容,這是它最真實的思考嗎?未必,有人發現AI后續的回答和先前的思考并不一致。那么對于AI真實思考的研究,只能到此為止了嗎?
2025年11月,OpenAI提出了一種讓AI變得可理解的新方法,核心思路非常簡單,讓AI的大腦變得更稀疏。
![]()
假如某人的大腦有1000億個神經元,每個神經元都和其他所有神經元相連,那要理解他的任何一個想法,就需要追蹤天文數字級別的連接。但如果每個神經元只和少數幾個其他神經元相連呢?這時候,追蹤一個想法的路徑就變得容易多了。OpenAI的研究者們正是利用這個原理,訓練出了一種特殊的AI,它的"神經連接"被刻意壓縮到只剩下正常AI的千分之一左右。結果令人驚喜:這種稀疏的AI不僅能正常工作,而且它的"思維過程"終于變得可以被人類理解了。
為什么AI的大腦像一團亂麻
現代AI,尤其是像ChatGPT這樣的大型語言模型,本質上是一個巨大的神經網絡。你可以把它想象成一個由無數開關組成的超級復雜的電路板。當你向AI提問時,信息會從輸入端流入,經過層層處理,最后從輸出端給出答案。問題在于,這個"電路板"上的每一個開關都和其他很多開關相連,而且這些連接的強度(我們稱之為"權重")是在訓練過程中自動學會的。
研究者們發現了一個有趣的現象,他們稱之為"疊加"。這就好比你的大腦用同一組神經元來同時存儲"貓"、"狗"和"兔子"三個概念,而不是為每個概念分配專門的神經元。雖然這種方式非常節省空間,但也讓追蹤單個概念變得極其困難,當你看到某個神經元激活時,你不知道它代表的是貓、狗還是兔子,也可能三者都有一點。
這種"概念疊加"的現象導致了一個嚴重的問題:即使研究者們想要理解AI是如何完成某個特定任務的,他們也很難把相關的"電路"從整個網絡中分離出來。這就像試圖在一碗意大利面里找出某一根面條的完整路徑,當所有面條都糾纏在一起時,這幾乎是不可能的任務。
減法帶來的驚喜:讓AI變稀疏
OpenAI研究團隊的解決方案可以用四個字概括:做減法。
他們的核心想法是這樣的:既然密集連接的網絡難以理解,那就訓練一個連接稀疏的網絡。具體來說,他們強制讓神經網絡中的絕大多數"權重"(也就是神經元之間連接的強度)保持為零。在他們最稀疏的模型中,只有大約千分之一的連接是有效的。
![]()
這個方法聽起來簡單,實施起來卻需要很多技巧。研究者們采用了一種叫做"Top-K"的策略,在每一步訓練中,只保留每個權重矩陣中絕對值最大的那些權重,其余全部清零。他們還使用了一種漸進式的"退火"過程:訓練開始時網絡是密集的,然后逐漸變得稀疏,這樣可以讓網絡有機會找到最重要的連接。
為了讓這個比喻更具體一些,想象你正在裝修一個新家。一開始,你在每面墻上都裝了各種插座、開關和線路,因為你還不確定哪些是必需的。但隨著你慢慢熟悉生活需求,你發現其實只需要在特定位置保留幾個關鍵的開關就夠了,客廳的主燈開關、臥室床頭的閱讀燈開關、廚房的排氣扇開關。那些不常用的線路被一一拆除,最后剩下的都是真正必要的連接。稀疏訓練就是這樣一個"精簡電路"的過程。
研究團隊還發現,單純讓權重稀疏還不夠,他們還需要讓"激活"也變得稀疏。激活是什么意思呢?可以把它理解為神經元在處理特定輸入時的"活躍程度"。在正常的AI中,面對任何輸入,大量神經元都會同時活躍起來。但在研究者們設計的稀疏模型中,他們使用了一種叫做"AbsTopK"的激活函數,每次只允許大約四分之一的神經元活躍。
權重稀疏和激活稀疏這兩種稀疏性的結合,產生了神奇的效果。每個神經元現在只能從少數幾個其他神經元那里獲取信息,也只能向少數幾個其他神經元發送信息。這就大大限制了"概念疊加"的可能性,因為要把多個概念塞進同一個神經元變得更加困難了。
像考古學家一樣挖掘AI的思維電路
訓練出稀疏模型只是第一步。接下來,研究者們需要一種方法來提取出AI用于完成特定任務的電路。
他們設計了一套精巧的任務來測試AI的能力。這些任務都是簡單但需要特定技能的Python編程預測問題。比如,有一個任務是預測字符串應該用單引號還是雙引號來結束,如果字符串是用雙引號開始的,AI就需要預測雙引號作為結束符。另一個任務是追蹤變量的類型,如果一個變量被初始化為集合(set),AI需要記住這一點,并在后面正確預測使用".add"方法而不是"+="操作符。
![]()
![]()
有了這些任務,研究者們就可以使用一種叫做剪枝的技術來找出相關的電路。剪枝的過程很像雕塑:你從一塊完整的石頭開始,然后一點點敲掉不需要的部分,直到露出里面的形狀。在這里,研究者們從完整的稀疏模型開始,然后逐步"刪除"那些對完成特定任務不重要的神經元。被刪除的神經元會被設置為它們在整個訓練數據上的平均值,這樣就相當于把它們"靜音"了。
這個剪枝過程使用了一種學習算法:研究者們為每個神經元分配一個"掩碼參數",這個參數決定了神經元是保留還是刪除。通過優化這些掩碼參數,他們可以找到最小的神經元集合,使得這個集合仍然能夠很好地完成任務。最終剩下的神經元及其之間的連接,就構成了完成該任務的電路。
研究結果令人印象深刻。在相同的任務損失水平下,稀疏模型的電路大小只有密集模型的大約十六分之一。這意味著理解稀疏模型如何完成任務變得容易多了,你只需要分析十幾個神經元和幾十個連接,而不是成百上千個。
解剖AI的思維:三個迷人的電路故事
最精彩的部分來了。研究者們花費了大量時間來人工分析這些提取出來的電路,試圖理解AI到底是如何思考的。他們選擇了三個任務進行深入研究,每個任務大約花費了一個研究員一天的時間。讓我們逐一來看這些發現。
第一個故事關于字符串引號匹配。當AI需要預測用單引號還是雙引號來結束一個字符串時,它使用了一個非常簡潔的兩步策略。在第一步,模型最早的一個MLP層會處理輸入的引號標記。它把雙引號和單引號的信息轉換成兩個特殊的"信號":一個是"引號檢測器",無論是單引號還是雙引號都會激活它;另一個是"引號類型分類器",雙引號時是正值,單引號時是負值。在第二步,一個注意力頭會使用"引號檢測器"來決定關注哪個位置(也就是開頭的引號),然后把"引號類型分類器"的值復制到當前位置,從而預測正確的結束引號。整個電路只用了12個節點和9條連接!
第二個故事更加復雜,涉及計算括號嵌套深度。當AI需要判斷是輸出"]"還是"]]"來正確關閉列表時,它展現了一種巧妙的計數機制。首先,每個"["符號在進入模型時,它的嵌入向量會寫入幾個特定的殘差通道,形成"開括號檢測器"。然后,一個注意力頭會把整個上下文中所有開括號檢測器的值求平均。這個平均值被寫入一個新的殘差通道,代表"嵌套深度",嵌套越深,這個值就越大。最后,另一個注意力頭會對這個深度值進行"閾值判斷":如果深度超過某個閾值,就輸出雙括號;否則輸出單括號。
這個發現引出了一個有趣的預測:既然模型是通過求平均來計算深度的,那么如果上下文中有很多無關的標記,平均值就會被"稀釋",導致模型出錯。研究者們驗證了這個預測,當他們故意在代碼注釋中加入額外的未匹配開括號時,模型果然被騙了!更有趣的是,這種"上下文稀釋攻擊"甚至對相同能力級別的密集模型也有效,說明這可能是一種普遍的算法模式。
第三個故事展示了AI如何追蹤變量類型。當模型需要記住一個變量是集合還是字符串,并在后面做出正確預測時,它使用了一個兩跳的注意力機制。首先,一個注意力頭會把變量名復制到初始化位置(比如"set()"或空字符串)。然后,當模型需要預測這個變量的方法時,另一個注意力頭會用變量名作為"查詢",找到之前存儲的初始化信息,并把它復制到當前位置用于預測。
這三個電路故事有一個共同點:它們都可以被理解為人類可以手動驗證的簡單算法。這是一個巨大的突破,以前,我們只知道AI給出了正確答案,但不知道它是怎么得到答案的;現在,我們可以看到它的"解題步驟"了。
能力與可解釋性的權衡:天下沒有免費的午餐
當然,讓AI變得可理解是有代價的。研究者們發現,稀疏性和能力之間存在一個清晰的權衡關系。
具體來說,如果你把模型訓練得更稀疏(也就是保留更少的連接),模型在預訓練任務上的表現就會變差,但電路會變得更小、更容易理解。這就像一個光譜:一端是完全密集的模型,能力很強但像一團亂麻;另一端是極度稀疏的模型,容易理解但能力有限。
不過,研究者們也發現了一個令人鼓舞的結果:增加模型的總參數量可以改善這個權衡。也就是說,如果你把模型做得更大,你可以在保持相同稀疏度的情況下獲得更好的能力,或者在保持相同能力的情況下獲得更稀疏(更容易理解)的電路。這就像是用更大的畫布來畫同樣的內容,你有更多的空間來分離不同的元素,讓畫面變得更清晰。
研究者們測試了從大約100萬到1500萬非零參數的模型規模。結果顯示,在這個范圍內,更大的模型確實能夠獲得更好的"能力-可解釋性"前沿。然而,他們也承認,如何在保持可解釋性的同時將模型擴展到數千萬非零參數以上,仍然是一個挑戰。
架起橋梁:讓稀疏模型理解密集模型
到目前為止,所有結果都來自于從零開始訓練的稀疏模型。但這引出了一個自然的問題:我們能不能用這種方法來理解已經存在的密集模型呢?畢竟,比如GPT-4等這些強大的AI,基本都是密集模型,我們不可能重新訓練它們。
研究者們探索了一種叫做"橋接"的技術來解決這個問題。核心思想是這樣的:同時訓練一個稀疏模型和一系列"翻譯器"(橋),這些翻譯器可以把密集模型的內部表示轉換成稀疏模型的表示,反之亦然。如果訓練成功,稀疏模型就可以作為密集模型的一個"可解釋版本",你可以在稀疏模型中找到某個概念的表示,然后通過橋把這個表示映射回密集模型,從而理解密集模型是如何表示這個概念的。
研究者們進行了初步實驗來驗證這個想法。他們訓練了一個4層的密集模型和一個對應的橋接稀疏模型,然后嘗試在稀疏模型中找到代表"引號類型"的神經元。找到這個神經元后,他們修改它的值來模擬"單引號"的情況,然后通過橋把這個修改映射到密集模型。結果很鼓舞人心:密集模型的行為確實發生了預期的變化,輸出單引號的概率大幅增加。
這個結果雖然是初步的,但它暗示了一條令人興奮的道路:也許我們可以通過訓練"可解釋的影子模型"來理解那些無法直接解釋的大型AI。
至頂AI實驗室洞見
說到底,這項研究的核心價值在于它向我們展示了一種可能性:AI不必是不可理解的黑箱。
當前,我們對AI的信任在很大程度上是"盲目"的,我們看到它給出正確的答案,就假設它是以正確的方式得到這些答案的。但我們并不真正知道AI內部在做什么,它可能是通過我們完全意想不到的"捷徑"來解決問題的。這種不確定性是AI安全的一個重大隱患。
OpenAI的這項研究提供了一條通往"可理解AI"的道路。雖然目前這種方法只能應用于相對較小的模型和簡單的任務,但它證明了原則上是可行的。未來,隨著方法的改進和計算效率的提升,也許我們能夠理解更大、更強的AI是如何工作的。
研究者們特別提到了幾個令人期待的方向。一是創建一系列"可解釋的模型生物",一組不同規模的稀疏模型,可以用來研究AI的普遍計算模式。如果稀疏模型和密集模型使用類似的"電路模式"來解決問題,那么理解稀疏模型就能幫助我們理解密集模型。二是將橋接技術應用于特定的安全相關任務,比如理解AI是如何決定是否拒絕某個請求的。即使我們不能完全理解一個AI,理解它在安全關鍵場景下的行為也是有價值的。
這項工作也為自動化解釋AI提供了新的基礎。稀疏電路可以被視為一種新的"語言"來描述AI的計算,在這種語言中,復雜的行為可以被分解為簡單的、可追蹤的步驟。研究者們猜測,目前自動解釋AI的方法可能受限于缺乏這樣的基礎表示方式,而稀疏電路可能是突破這個瓶頸的關鍵。
本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。
Q&A
Q1:稀疏模型是什么意思?
A:稀疏模型是指神經網絡中大部分連接權重被設為零的模型。在這項研究中,最稀疏的模型只有約千分之一的連接是有效的,這樣做的目的是讓AI的計算過程更容易被人類理解和分析。
Q2:這種方法能用來理解ChatGPT嗎?
A:目前還不能直接理解像ChatGPT這樣的大型密集模型。這項研究主要針對從零訓練的小規模稀疏模型,不過研究者們探索了"橋接"技術,未來可能幫助我們間接理解密集模型的部分行為,但距離完全解釋ChatGPT還有很長的路要走。
Q3:讓AI變得可理解有什么實際用處?
A:最重要的用處是提升AI安全性。如果我們能理解AI是如何做決策的,就能發現它可能存在的隱藏偏見或錯誤推理,也能更好地預測它在新情況下的行為,這對于在醫療、法律等關鍵領域部署AI尤為重要。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.