![]()
來(lái)源:量子位 | 公眾號(hào) QbitAI
魚(yú)羊 發(fā)自 凹非寺
剛小步快跑了一波GPT 5.1,主打讓大模型說(shuō)人話,OpenAI又在可解釋性上做文章了。
真的是paper的那種。
![]()
論文公開(kāi)了OpenAI內(nèi)部一種訓(xùn)練小模型的新方法,能讓模型的內(nèi)部機(jī)制更容易被人類理解,即更具可解釋性。
OpenAI自己是這樣介紹的:
ChatGPT背后的語(yǔ)言模型具有復(fù)雜且時(shí)長(zhǎng)令人驚訝的結(jié)構(gòu),我們尚未完全了解它們是如何工作的。 這種方法有助于我們縮小其中的差距。
![]()
簡(jiǎn)單來(lái)說(shuō),在這項(xiàng)研究中,OpenAI研究員們的核心思路是:訓(xùn)練神經(jīng)元連接少、但神經(jīng)元數(shù)量多的稀疏模型,讓神經(jīng)網(wǎng)絡(luò)變得簡(jiǎn)單,也更容易理解。
如果你對(duì)模型可解釋性感興趣,這篇論文值得一讀。
而對(duì)于OpenAI的難得open,還有不少網(wǎng)友關(guān)心:那么新的小模型系列要來(lái)了嗎?
![]()
通過(guò)稀疏模型理解神經(jīng)網(wǎng)絡(luò)
來(lái)看具體研究?jī)?nèi)容。
OpenAI研究員們認(rèn)為,推理模型通過(guò)思維鏈展現(xiàn)出的可解釋性在短期內(nèi)非常有價(jià)值,能讓我們捕捉到模型的“欺騙”等行為。但完全依賴這一特性顯然不太可靠,隨著時(shí)間的推移,這種策略也可能會(huì)失效。
想要更本質(zhì)地理解模型機(jī)制,還是需要對(duì)模型的計(jì)算過(guò)程進(jìn)行完全逆向工程。
問(wèn)題在于,從復(fù)雜密集網(wǎng)絡(luò)入手,難度非常大:每個(gè)神經(jīng)元都與其他數(shù)千個(gè)神經(jīng)元相連,不同的神經(jīng)元又執(zhí)行著許多不同的功能,這讓理解它們看上去幾乎不可能。
那么,能否訓(xùn)練一個(gè)擁有很多神經(jīng)元,但每個(gè)神經(jīng)元只有幾十個(gè)連接的模型,來(lái)幫助人們理解模型機(jī)制呢?
基于這一核心思路,OpenAI的研究人員訓(xùn)練了一個(gè)小模型:采用的還是現(xiàn)代語(yǔ)言模型的基礎(chǔ)架構(gòu)(類似GPT-2),只做了一個(gè)小小的改動(dòng)——
強(qiáng)制將模型的大部分權(quán)重設(shè)為0。
![]()
評(píng)估可解釋性
有了這個(gè)稀疏模型,下一步,研究人員的目標(biāo)是,找出模型在每一項(xiàng)任務(wù)中的“回路(circuit)”。
![]()
所謂“回路”,是指模型能精準(zhǔn)完成特定任務(wù)的最小計(jì)算單元。
論文將其定義為一個(gè)由節(jié)點(diǎn)(nodes)和邊(edges)組成的圖。
回路的規(guī)模可以通過(guò)節(jié)點(diǎn)和邊的數(shù)量來(lái)衡量,論文將回路的邊數(shù)幾何平均值作為解釋性的量化指標(biāo)。
為了評(píng)估模型的可解釋性,研究人員設(shè)計(jì)了一系列簡(jiǎn)單的算法任務(wù),對(duì)于每個(gè)任務(wù),都將模型精簡(jiǎn)到能夠完成任務(wù)的“最小回路”。
舉個(gè)例子:
任務(wù):在Python中,’hello’必須以單引號(hào)結(jié)尾,”hello”必須以雙引號(hào)結(jié)尾。模型可以通過(guò)記住字符串開(kāi)頭使用的引號(hào)類型,預(yù)測(cè)字符串結(jié)尾應(yīng)使用單引號(hào)還是雙引號(hào),在結(jié)尾處自動(dòng)補(bǔ)全字符串。
得到的回路長(zhǎng)這樣:
![]()
可以看到,該回路僅使用5個(gè)殘差通道、第0層的兩個(gè)MLP神經(jīng)元,以及第10層的一個(gè)注意力查詢鍵通道和一個(gè)值通道。
流程是:(1)將單引號(hào)編碼到一個(gè)殘差通道中,將雙引號(hào)編碼到另一個(gè)殘差通道中;(2)使用MLP層將編碼結(jié)果轉(zhuǎn)換為兩個(gè)通道:一個(gè)用于檢測(cè)任意引號(hào),另一個(gè)用于區(qū)分單引號(hào)和雙引號(hào);(3)使用注意力機(jī)制忽略中間的token,找到前一個(gè)引號(hào),并將其類型復(fù)制到最后一個(gè)token;(4)預(yù)測(cè)匹配的結(jié)尾引號(hào)。
論文還研究了一些更復(fù)雜的行為,比如變量綁定等。這些行為的回路更難完全解釋,但仍可以得出相對(duì)簡(jiǎn)單的部分解釋,以預(yù)測(cè)模型的行為。
![]()
他們還發(fā)現(xiàn):通過(guò)訓(xùn)練更大、更稀疏的模型,可以生成功能越來(lái)越強(qiáng)大、回路卻越來(lái)越簡(jiǎn)單的模型。
這表明,這一方法有可能擴(kuò)展到理解更復(fù)雜的行為。
![]()
不過(guò),研究人員也強(qiáng)調(diào),這項(xiàng)工作仍處于早期:稀疏模型比前沿模型小得多,并且即使是稀疏模型,計(jì)算過(guò)程也仍有很多“黑盒”的部分。
另外,目前稀疏模型的訓(xùn)練效率比較低。他們認(rèn)為有兩種途徑來(lái)解決:
一是從現(xiàn)有的密集模型中提取稀疏回路,而不是從頭開(kāi)始訓(xùn)練稀疏模型。
二是開(kāi)發(fā)更高效的模型訓(xùn)練技術(shù),以提高模型的可解釋性。
“跨界”研究團(tuán)隊(duì)
作者一共有6位。
通訊作者為L(zhǎng)eo Gao,研究方向是AGI對(duì)齊,曾參與過(guò)GPT-Neo、GPT-4的研究。論文被引數(shù)3.5w+,h-index為19。
他曾是Ilya超級(jí)對(duì)齊團(tuán)隊(duì)成員。在Ilya領(lǐng)導(dǎo)OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)期間,兩人合作發(fā)表了一系列論文和技術(shù)博客。
![]()
Achyuta Rajaram,還在MIT學(xué)物理,是OpenAI實(shí)習(xí)生。可解釋性研究之外,興趣是解謎游戲、下棋和擼貓。
Jacob Coxon,畢業(yè)于劍橋大學(xué)三一學(xué)院,2023年加入OpenAI。在2016年和2017年,他分別獲得了兩屆IMO的銀牌和銅牌。
Soham V. Govande,來(lái)自斯坦福,正在攻讀計(jì)算機(jī)科學(xué)AI方向?qū)W士學(xué)位和系統(tǒng)方向碩士學(xué)位。加入OpenAI之前,還曾在英偉達(dá)實(shí)習(xí)。
Bowen Baker,OpenAI多智能體團(tuán)隊(duì)研究科學(xué)家,2017年就加入了OpenAI,曾參與OpenAI o1的研發(fā)。
Dan Mossing,本科畢業(yè)于普林斯頓大學(xué)物理專業(yè),后于加州大學(xué)伯克利分校取得生物物理學(xué)博士學(xué)位。
![]()
閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問(wèn)歐米伽研究所的“未來(lái)知識(shí)庫(kù)”
https://wx.zsxq.com/group/454854145828
![]()
未來(lái)知識(shí)庫(kù)是“ 歐米伽 未來(lái)研究所”建立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.