網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI又Open了一下：發(fā)布可解釋性新研究，作者來(lái)自Ilya超級(jí)對(duì)齊團(tuán)隊(duì)

2025-11-15 15:49:15　來(lái)源: 人工智能學(xué)家

北京舉報(bào)

分享至

來(lái)源：量子位 | 公眾號(hào) QbitAI

魚(yú)羊發(fā)自凹非寺

剛小步快跑了一波GPT 5.1，主打讓大模型說(shuō)人話，OpenAI又在可解釋性上做文章了。

真的是paper的那種。

論文公開(kāi)了OpenAI內(nèi)部一種訓(xùn)練小模型的新方法，能讓模型的內(nèi)部機(jī)制更容易被人類理解，即更具可解釋性。

OpenAI自己是這樣介紹的：

ChatGPT背后的語(yǔ)言模型具有復(fù)雜且時(shí)長(zhǎng)令人驚訝的結(jié)構(gòu)，我們尚未完全了解它們是如何工作的。這種方法有助于我們縮小其中的差距。

簡(jiǎn)單來(lái)說(shuō)，在這項(xiàng)研究中，OpenAI研究員們的核心思路是：訓(xùn)練神經(jīng)元連接少、但神經(jīng)元數(shù)量多的稀疏模型，讓神經(jīng)網(wǎng)絡(luò)變得簡(jiǎn)單，也更容易理解。

如果你對(duì)模型可解釋性感興趣，這篇論文值得一讀。

而對(duì)于OpenAI的難得open，還有不少網(wǎng)友關(guān)心：那么新的小模型系列要來(lái)了嗎？

通過(guò)稀疏模型理解神經(jīng)網(wǎng)絡(luò)

來(lái)看具體研究?jī)?nèi)容。

OpenAI研究員們認(rèn)為，推理模型通過(guò)思維鏈展現(xiàn)出的可解釋性在短期內(nèi)非常有價(jià)值，能讓我們捕捉到模型的“欺騙”等行為。但完全依賴這一特性顯然不太可靠，隨著時(shí)間的推移，這種策略也可能會(huì)失效。

想要更本質(zhì)地理解模型機(jī)制，還是需要對(duì)模型的計(jì)算過(guò)程進(jìn)行完全逆向工程。

問(wèn)題在于，從復(fù)雜密集網(wǎng)絡(luò)入手，難度非常大：每個(gè)神經(jīng)元都與其他數(shù)千個(gè)神經(jīng)元相連，不同的神經(jīng)元又執(zhí)行著許多不同的功能，這讓理解它們看上去幾乎不可能。

那么，能否訓(xùn)練一個(gè)擁有很多神經(jīng)元，但每個(gè)神經(jīng)元只有幾十個(gè)連接的模型，來(lái)幫助人們理解模型機(jī)制呢？

基于這一核心思路，OpenAI的研究人員訓(xùn)練了一個(gè)小模型：采用的還是現(xiàn)代語(yǔ)言模型的基礎(chǔ)架構(gòu)（類似GPT-2），只做了一個(gè)小小的改動(dòng)——

強(qiáng)制將模型的大部分權(quán)重設(shè)為0。

評(píng)估可解釋性

有了這個(gè)稀疏模型，下一步，研究人員的目標(biāo)是，找出模型在每一項(xiàng)任務(wù)中的“回路（circuit）”。

所謂“回路”，是指模型能精準(zhǔn)完成特定任務(wù)的最小計(jì)算單元。

論文將其定義為一個(gè)由節(jié)點(diǎn)（nodes）和邊（edges）組成的圖。

回路的規(guī)模可以通過(guò)節(jié)點(diǎn)和邊的數(shù)量來(lái)衡量，論文將回路的邊數(shù)幾何平均值作為解釋性的量化指標(biāo)。

為了評(píng)估模型的可解釋性，研究人員設(shè)計(jì)了一系列簡(jiǎn)單的算法任務(wù)，對(duì)于每個(gè)任務(wù)，都將模型精簡(jiǎn)到能夠完成任務(wù)的“最小回路”。

舉個(gè)例子：

任務(wù)：在Python中，’hello’必須以單引號(hào)結(jié)尾，”hello”必須以雙引號(hào)結(jié)尾。模型可以通過(guò)記住字符串開(kāi)頭使用的引號(hào)類型，預(yù)測(cè)字符串結(jié)尾應(yīng)使用單引號(hào)還是雙引號(hào)，在結(jié)尾處自動(dòng)補(bǔ)全字符串。

得到的回路長(zhǎng)這樣：

可以看到，該回路僅使用5個(gè)殘差通道、第0層的兩個(gè)MLP神經(jīng)元，以及第10層的一個(gè)注意力查詢鍵通道和一個(gè)值通道。

流程是：（1）將單引號(hào)編碼到一個(gè)殘差通道中，將雙引號(hào)編碼到另一個(gè)殘差通道中；（2）使用MLP層將編碼結(jié)果轉(zhuǎn)換為兩個(gè)通道：一個(gè)用于檢測(cè)任意引號(hào)，另一個(gè)用于區(qū)分單引號(hào)和雙引號(hào)；（3）使用注意力機(jī)制忽略中間的token，找到前一個(gè)引號(hào)，并將其類型復(fù)制到最后一個(gè)token；（4）預(yù)測(cè)匹配的結(jié)尾引號(hào)。

論文還研究了一些更復(fù)雜的行為，比如變量綁定等。這些行為的回路更難完全解釋，但仍可以得出相對(duì)簡(jiǎn)單的部分解釋，以預(yù)測(cè)模型的行為。

他們還發(fā)現(xiàn)：通過(guò)訓(xùn)練更大、更稀疏的模型，可以生成功能越來(lái)越強(qiáng)大、回路卻越來(lái)越簡(jiǎn)單的模型。

這表明，這一方法有可能擴(kuò)展到理解更復(fù)雜的行為。

不過(guò)，研究人員也強(qiáng)調(diào)，這項(xiàng)工作仍處于早期：稀疏模型比前沿模型小得多，并且即使是稀疏模型，計(jì)算過(guò)程也仍有很多“黑盒”的部分。

另外，目前稀疏模型的訓(xùn)練效率比較低。他們認(rèn)為有兩種途徑來(lái)解決：

一是從現(xiàn)有的密集模型中提取稀疏回路，而不是從頭開(kāi)始訓(xùn)練稀疏模型。

二是開(kāi)發(fā)更高效的模型訓(xùn)練技術(shù)，以提高模型的可解釋性。

“跨界”研究團(tuán)隊(duì)

作者一共有6位。

通訊作者為L(zhǎng)eo Gao，研究方向是AGI對(duì)齊，曾參與過(guò)GPT-Neo、GPT-4的研究。論文被引數(shù)3.5w+，h-index為19。

他曾是Ilya超級(jí)對(duì)齊團(tuán)隊(duì)成員。在Ilya領(lǐng)導(dǎo)OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)期間，兩人合作發(fā)表了一系列論文和技術(shù)博客。

Achyuta Rajaram，還在MIT學(xué)物理，是OpenAI實(shí)習(xí)生。可解釋性研究之外，興趣是解謎游戲、下棋和擼貓。

Jacob Coxon，畢業(yè)于劍橋大學(xué)三一學(xué)院，2023年加入OpenAI。在2016年和2017年，他分別獲得了兩屆IMO的銀牌和銅牌。

Soham V. Govande，來(lái)自斯坦福，正在攻讀計(jì)算機(jī)科學(xué)AI方向?qū)W士學(xué)位和系統(tǒng)方向碩士學(xué)位。加入OpenAI之前，還曾在英偉達(dá)實(shí)習(xí)。

Bowen Baker，OpenAI多智能體團(tuán)隊(duì)研究科學(xué)家，2017年就加入了OpenAI，曾參與OpenAI o1的研發(fā)。

Dan Mossing，本科畢業(yè)于普林斯頓大學(xué)物理專業(yè)，后于加州大學(xué)伯克利分校取得生物物理學(xué)博士學(xué)位。

閱讀最新前沿科技趨勢(shì)報(bào)告，請(qǐng)?jiān)L問(wèn)歐米伽研究所的“未來(lái)知識(shí)庫(kù)”

https://wx.zsxq.com/group/454854145828

未來(lái)知識(shí)庫(kù)是“ 歐米伽未來(lái)研究所”建立的在線知識(shí)庫(kù)平臺(tái)，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.