![]()
這是《麻省理工科技評論》2026 年“十大突破性技術”深度解讀系列的第一篇內容,關注 DeepTech,關注新興科技趨勢。
現在,我們越來越多地將大語言模型應用于搜索、編程、內容生成和決策輔助等現實場景中。盡管每天有數百萬人使用大模型,但它的問題也隨之而來,例如有時會產生幻覺,甚至在特定情境下表現出誤導或欺騙用戶的傾向。
在訓練過程中,這些模型會逐漸形成一套自身的解決問題策略,并編碼進模型計算中。實際上,我們并沒有從本質上理解 AI 模型的“大腦”內部究竟發生了什么變化。它們的運作機制是什么,又應該如何設定可靠的安全邊界?
在很長一段時間里,人們只能將 AI 看成“黑箱”:輸入數據,得到結果,但無法解釋中間經歷了怎樣的計算過程。隨著模型規模和能力的不斷提升,這種內部過程不可見的狀態,逐漸從工程難題轉變為安全與可信性方面的潛在風險,成為一個隨時可能被觸發的“定時炸彈”。
為拆解 AI 的“黑箱”,包括 Anthropic、OpenAI 和 Google DeepMind 在內的多家 AI 公司,開始嘗試通過重建模型的“腦內地圖”,系統性地揭示 AI 的內部運作方式。基于此,機制可解釋性(MI,Mechanistic Interpretability)逐漸發展為一條新興研究路線,它的核心目標是從模型內部的計算結構出發,識別關鍵特征單元,并刻畫這些單元之間的信息傳遞路徑,從而理解模型整體行為的形成機制。
機制可解釋性對算法對齊具有關鍵作用。研究者可基于此從模型內部計算機制層面進行判斷:模型表現出色,是源于與人類目標一致的內部策略,還是依賴于某種表面成功但潛在誤導的欺騙性捷徑?
可以看到的是,機制可解釋在服務于性能理解之外,也為區分看似對齊和真實對齊提供了一種基礎工具。更廣泛地來看,機制可解釋性有望發展為提升 AI 系統安全性與透明度的獨特技術路徑。
Anthropic 提出了一種具有代表性的思路,即直接解釋模型內部機制。該公司用電路追蹤(Circuit Tracing)的方法,并以識別與特定行為或能力最直接相關的關鍵信號通路為核心目標。
2024 年,Anthropic 公布了一套可類比于“顯微鏡”的分析方法,來對其 Claude 模型的內部結構進行深入探索。研究人員發現,實際上大模型內部并不是像人們想象的那樣完全無序的狀態,而是表現出結構化表征:部分神經元或神經元組合可穩定與特定概念相對應。例如,以邁克爾·喬丹為代表的人物概念、以金門大橋為代表的地點概念,更進一步地,還可能涵蓋更抽象的語義與功能模式。
在此基礎上,研究人員進一步將模型內部的計算過程映射成可解釋的歸因圖譜(Attribution Graphs),不僅能夠在模型中精確定位這些特征,還分析它們在不同任務中如何被激活、如何相互作用和組合。業界普遍認為,這是迄今為止對生產級大語言模型內部機制最深入的系統性探索研究之一。
與此同時,Anthropic 還將電路追蹤的相關工具開源,并在 Neuronpedia 平臺上提供交互式圖譜分析界面,讓更多的研究者與開發者共同觀察、驗證,并討論模型內部機制的形成和演化。
2025 年,Anthropic 將這一研究路線進一步推向了新高度。不局限于對單一概念特征的分析,該公司利用這套“顯微鏡”工具,解析出模型內部相對連貫的特征序列,并追蹤模型從輸入提示(prompt)到最終生成回答之間的大致計算路徑。這意味著在有限范圍內,模型的思考過程開始具備一定程度的可追溯性。
當然,這并非某個機構的孤立探索,OpenAI 與 Google DeepMind 等團隊,也在使用相近的機制解釋技術,分析與溯源模型中出現的異常行為或潛在危險行為。
OpenAI 還探索了另一條技術路徑,核心思路是用一個模型來解釋另一個模型的神經元功能。具體而言,研究人員首先使用較小的語言模型 GPT-2 在大規模文本上運行,篩選出能夠高頻激活特定神經元的輸入片段;隨后,將這些片段交由更強的模型 GPT-4,由其以自然語言形式描述該神經元可能承擔的功能,并通過多輪對比與驗證,形成對神經元作用的初步解釋。研究結果表明,一部分神經元呈現出高度可解釋、功能集中的行為模式,而另一些神經元的激活分布則更分散,研究人員至今仍難以清晰刻畫它的相關功能。
不久前,OpenAI 發布了一類規模較小且高度稀疏的模型,用于探索機制可解釋性的可行路徑。它的核心思路是通過結構化約束,使模型中絕大多數權重趨近于零,從而構建一個顯式稀疏的神經網絡,并直接分析該網絡中的計算電路進行分析。研究結果顯示,即便在大幅度提升稀疏性的條件下,模型性能的下降幅度仍然有限。此外,稀疏結構顯著降低了電路分析的復雜度,研究人員可基于此更直接地理解神經網絡中的具體計算過程。
但從整體來看,機制可解釋性仍然面臨一系列挑戰。其中,最關鍵的問題之一是規模和復雜度的指數級增長:目前主流模型往往包含數十億甚至更多參數,其內部潛在的計算電路數量有可能在億級水平。而對單個電路的機制級分析通常不能完全自動化,而是逐一檢驗和驗證。正因為這樣,機制可解釋性在大規模模型上的系統性應用,面臨高昂的時間和計算成本的雙重挑戰。
在領域內積極探索機制可解釋性的同時,也有研究人員提出另一條重要的研究路徑:思維鏈監控(Chain-of-Thought Monitoring)。思維鏈監控與僅在最終答案基礎上進行評估的傳統方法不同,它核心是關注模型在執行任務過程中生成的中間推理過程,并試圖在推理階段對模型的行為進行觀察和分析。
舉例來說,OpenAI 的研究發現,在不進行任何額外或針對性訓練的前提下,模型在很多任務中生成的思維鏈通常可較真實地反映,它在作出預測時依賴的內部推理過程。有趣的是,這一研究路徑關注的是模型如何進行推理,而不是嘗試事后解釋識別或分類等高度抽象的能力標簽。
從更宏觀的角度來看,學界與產業界對于這類可解釋性技術最終能走多遠,目前尚未形成統一的共識:
一種觀點認為,正如細胞是生命的基本構成單元,神經元及其組合所形成的電路是理解神經網絡行為的關鍵切入點,通過梳理這些基礎結構,有助于還原模型內部機制的脈絡。
另一種觀點認為,大模型的能力并不能簡單還原為基本單元的疊加,模型整體層面已形成了具有獨立意義的激活模式和表征結構。因此,應該與底層單元的分析相互補充,而非相互取代。
雖然當下領域仍存在分歧與局限,但可以看到的是,隨著這些新工具的出現,研究人員和模型二者之間的關系正在悄然發生改變。與此同時,研究范式也正在從對“黑箱”系統的被動測試,逐步向對模型內部結構和機制的主動探索轉變:研究人員不再只是關注模型給出了什么答案,而是開始追問它為什么會這樣作答。
機制可解釋性入選了 《麻省理工科技評論》2026 年度“十大突破性技術”,我們邀請三位來自產業與科研一線的代表,圍繞其關鍵技術路徑與產業影響進行了點評。
以下評論內容均為個人見解,不代表《麻省理工科技評論》觀點
![]()
機制可解釋性像一場圣杯遠征,但終點始終若隱若現
從整體研究脈絡來看,機制可解釋性并非一條憑空出現的新路線。無論是早期圖像領域中對卷積神經網絡邊緣、紋理特征的可視化,還是后來圍繞神經元、通道與表示空間的分析,研究者始終在嘗試回答同一個核心問題:模型為什么會表現出某種行為。
從這一意義上來看,今天圍繞電路、特征和計算路徑展開的機制可解釋性,與傳統神經網絡可解釋性在理念上是一脈相承的。真正的變化在于模型本身,Transformer 架構引入了高度并行、跨層的信息流動機制,研究者不再將模型行為歸因到單一神經元或局部結構上。注意力機制、殘差連接和深層堆疊共同作用,讓模型內部計算表現出更強的分布性和耦合性,這種復雜性也讓解釋本身變得更具挑戰。與此同時,也推動著機制可解釋性向更底層和更結構化的方向發展。
然而,當這種分析真正走向實踐時,它的局限也隨之顯現。潛在計算電路的數量可能達到億級,即便只分析其中極小一部分,也可能是巨大的工作量。但在實際研究中,一個繞不開的話題是:現有機制可解釋性的分析往往特定于模型。每一次模型更新,幾乎都意味著要重新來一遍解釋工作,成本很難攤薄。
還有一個常被低估的問題:電路的功能本身并不是一直保持清晰和唯一的。理想情形下,一條電路只對應一種穩定的功能,這種情況下的解釋具有較高的確定性;但在真實的大模型里,情況往往要混亂得多。結果就是,這類解釋在不少場景下并不可靠。
在模型安全上,這些方法確實很有價值,但邊界也非常明確。以思維鏈監控為例,觀察模型中間推理過程能夠發現僅憑看答案而難以發現的風險。代價在于,這同樣是一把雙刃劍。如果把思維鏈監控直接作為訓練或微調的獎勵信號,模型可能開始表現出欺騙性行為(AI Deception),即刻意規避監控機制,而非實現真實且穩健的安全改進。
即便如此,這個方向仍然在迅速推進。從本質問題來看,我認為完美可解釋性仍是深度學習領域未被解決的終極圣杯。我并不認為僅通過分析復雜系統的局部結構,就可以完全理解它的整體機制。從這個角度看,機制可解釋性帶有某種“盲人摸象”的局限。
盡管如此,我認為它依然是一條值得持續探索的路徑。尤其在模型評估和安全審計層面,這些方法提供了一種此前幾乎不存在的觀察窗口。它也許無法直接讓模型變得真正安全,但至少能幫助我們更清楚地看到模型正在做什么,以及它可能在刻意回避什么。對復雜的 AI 系統而言,這樣的能力本身已經具有重要價值。
![]()
從思維鏈監控到可識別性危機,機制可解釋性正在走向第一性原理
現在,機制可解釋性(MI,Mechanistic Interpretability)正從通過人力來分析個例手工拆解,逐漸轉移到用 AI 來進行大規模自動化拆解大模型及其推理模型上,不只滿足于發現特征、講清回路,而是開始用它們去監測推理過程、做因果驗證、干預行為和服務安全,落地的跡象開始明顯。
推理模型與思維鏈(CoT)的可監測性。隨著 o1/o3、DeepSeek-R1 這類推理模型逐漸成為主角,研究者越來越關心的不是模型最后吐出什么答案,而是它中間到底怎么想。2025 年一個很重要的趨勢是把思維鏈當成通向模型思考過程的鑰匙。例如,OpenAI 的“Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation”,通過監測思維鏈來判斷是否有獎勵短路(reward hacking)。之后的“rubrics-based rewards”也是通過監測思維鏈來更好地進行強化學習,杜絕瞎猜答案等事件的發生 [1]。
AI 工具的使用。用人力來發現特征和回路費時費力,近年來可解釋性方向開始使用模型來解釋模型。稀疏自編碼器(SAE)訓練一個專用模型來解釋大模型的行為,如 Anthropic 的一系列博客及 OpenAI 的“Scaling and Evaluating Sparse Autoencoders”,使用 TopK 而非 L1 正則項來訓練 SAE。2025 年開始,SAE 被成功遷移到生物/蛋白質模型等領域,能在不同模態里反復看到“結構檢測器”一類的可解釋特征 [2]。2025 年出現了直接用大模型來解釋大模型內部的激活結構,比如 Anthropic 最近的 Activation Oracles[3] 和 Sign of introspection [4] 讓模型來解釋自己。
機械可解釋性的本質局限。另一方面,機械可解釋性的本質局限性也正在被挖掘出來。ICLR 25 有一篇文章“Everything, Everywhere, All at Once: Is Mechanistic Interpretability Identifiable”揭示了可識別性危機:為一個簡單任務(XOR)訓練的模型,內部就存在大量不同的解釋,每一個都合理,那究竟哪個是對的?這意味著可解釋性研究方向本身需要重新思考和定位。
目前的 ML 仍然是純實驗科學:我們有了像 SAE 那樣更強大的現象觀測工具,獲得了更多的數據點,但這并不自動給出萬有引力定律。對比四百年前的物理學,我們現在有很多 AI 版的第谷(收集數據),一些 AI 版的開普勒(提出假說),但還沒有 AI 版的牛頓(發現原理)。
可解釋性真正的難點在于從第一性原理,即從模型架構、梯度下降及數據本身的結構出發,解釋為什么模型會收斂出這些解耦、稀疏、模塊化、可組合的特征與回路,為什么會有大量不同的解釋,這些涌現出來的結構和模型訓練的哪些超參數相關,如何相關等等。
等到我們能從梯度下降的方程里,直接推導出大模型特征涌現的必然性,可解釋性才算真正從生物式的證據收集走向物理式的推導,最終反過來指導實踐,為下一代人工智能的模型設計開辟道路。
2025 年,我們對連續隱空間推理的兩篇分析文章(Reasoning by Superposition, Emergence of Superposition),及對 Grokking 的分析文章(
Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking)就是在這個方向上的嘗試。在更深入地理解模型工作原理之后,無論將來用什么樣的表征——離散或是連續——來表示模型的內部知識結構,不可解釋的烏云也會散去不少。
![]()
當 CoT 不再可信,AI 安全必須“看進大腦”
當前機制可解釋性已經走出理論假設階段,進入到實際驗證階段,它的核心是稀疏自編碼器(SAE)對線性表示假設的實證。現階段這項技術已能將神經網絡中同時代表多個不同含義的神經元(多義性神經元)分解成為多個獨立特征,每個特征只代表一個明確含義(單義特征),以此構建出模型內部的概念圖譜。
然而,該領域仍然面臨兩大瓶頸:
一方面,是計算與本體論困境。為了全面監控模型內部所有特征的激活情況,需要消耗比模型正常推理多數倍的計算資源。同時,隨著 SAE 規模擴大,寬泛概念(如科學)會被分解成更細粒度的子概念(如化學、物理等),這會導致難以確定哪些是構成模型認知的“基本原子”,更難以標準化和監管模型內部理解。
另一方面,是特征空間中的語義糾纏。不同特征的含義相互關聯和重疊,并不是完全獨立,現有的特征擦除技術在試圖移除有害知識時,可能會意外地損害模型的通用推理能力,導致整體性能下降。
傳統訓練和評估 AI 安全的方法,主要通過 AI 的外部行為表現進行判斷。例如,通過人類反饋強化學習(RLHF)讓模型輸出符合人類價值觀的回答,或者通過“紅隊測試”故意提問來測探模型是否有害。但是,隨著模型涌現出情境感知和規范博弈的能力,傳統方法正面臨系統性失效風險,這就需要引入機制可解釋性工具。
在“欺騙性對齊”語境下,模型可能具備識別訓練與部署環境差異的能力,從而隱藏非對齊目標。思維鏈(CoT)的不忠實性和事后合理化特征愈發明顯,如果只是分析模型輸出的文本,已無法有效監控它的真實意圖。
正如北京大學和智源研究院等團隊在一項研究中提出的“智能對齊莫比烏斯鎖定”,模型的高級推理能力與策略性欺騙潛能已經深度糾纏,難以分割。當在生化、科研等高敏感、高風險領域部署模型,這種由隱蔽欺騙引發的前沿安全風險將顯著上升且難以控制。因此,構建內生安全和外生安全的協同防御機制十分重要:通過建立 CoT Monitor 顯性推理和隱性計算路徑的實時對比校驗,來識別隱藏在合規輸出之下,為其特殊目的服務的動機性推理和潛在危險意圖。
面向未來,機制可解釋性將演進為 AI 治理的核心基礎設施。前沿模型的內部結構復雜,并具有海量參數和特征,但運行時只激活了其中的一小部分。這種復雜性和規模讓人工審計成為一種難以完成的任務,可預見的是,基于 AI 的自動化對齊研究有可能成為未來的主要發展方向。
從審計機制與合規層面來看,未來監管重點將從對輸出結果的統計評估,進一步深化到對模型內部工作機制的審查。對于與高風險模型的發布,需要附帶詳盡的內部結構圖與內部審計日志,來證明相關決策邏輯的透明無害性,最終在此基礎上構建基于內部機制可見性的 AI 安全治理新秩序。
![]()
參考資料:
1.https://arxiv.org/pdf/2507.17746
2.https://news.mit.edu/2025/researchers-glimpse-inner-workings-protein-language-models-0818
3.https://alignment.anthropic.com/2025/activation-oracles/
4.https://www.anthropic.com/research/introspection
5.https://www.anthropic.com/research/mapping-mind-language-model
6.https://www.anthropic.com/research/tracing-thoughts-language-model
7.https://transformer-circuits.pub/2025/attribution-graphs/methods.html
8.https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html
9.https://www.anthropic.com/research/open-source-circuit-tracing
運營/排版:何晨龍
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.