<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI黑箱,這次能打開(kāi)嗎?OpenAI新方法:訓(xùn)練稀疏神經(jīng)網(wǎng)絡(luò),讓模型思維過(guò)程可追溯

      0
      分享至


      神經(jīng)網(wǎng)絡(luò)是當(dāng)今最強(qiáng)大AI系統(tǒng)的動(dòng)力核心,但其內(nèi)部工作原理依然難以捉摸。我們并非為這些模型編寫(xiě)一步一指令的明確代碼,相反,它們通過(guò)調(diào)整數(shù)十億個(gè)內(nèi)部連接(即“權(quán)重”)來(lái)自我學(xué)習(xí),直至掌握任務(wù)。我們?cè)O(shè)計(jì)了訓(xùn)練規(guī)則,卻無(wú)法預(yù)知最終涌現(xiàn)出的具體行為,其結(jié)果是一個(gè)任何人都難以輕易解讀的、稠密的連接網(wǎng)絡(luò)。

      現(xiàn)在,OpenAI提出了一種新方法,旨在通過(guò)訓(xùn)練模型以更簡(jiǎn)單、更可追溯的方式“思考”,從而更好地理解它們的工作原理

      如何看待可解釋性

      隨著AI系統(tǒng)能力日益增強(qiáng),并在科學(xué)、教育和醫(yī)療等領(lǐng)域產(chǎn)生真實(shí)世界的影響,理解其工作方式變得至關(guān)重要。可解釋性,指的是幫助我們理解模型為何產(chǎn)生特定輸出的方法。

      實(shí)現(xiàn)這一目標(biāo)有多種途徑。例如,推理模型被激勵(lì)在通往最終答案的過(guò)程中解釋其工作步驟,這種“思維鏈可解釋性”利用這些解釋來(lái)監(jiān)控模型行為。這種方法已展現(xiàn)出直接的實(shí)用價(jià)值,例如當(dāng)前模型的思維鏈似乎能有效揭示欺騙等令人擔(dān)憂的行為。然而,完全依賴此特性是一種脆弱的策略,未來(lái)可能會(huì)失效。

      另一方面,機(jī)制可解釋性(mechanistic interpretability)——也正是OpenAI本次研究的焦點(diǎn)——旨在徹底逆向工程一個(gè)模型的計(jì)算過(guò)程。盡管它迄今為止的直接應(yīng)用較少,但原則上,它可以為模型行為提供更完整的解釋。通過(guò)在最細(xì)粒度的層面上解釋模型行為,機(jī)制可解釋性可以減少假設(shè),給予我們更強(qiáng)的信心。但從底層細(xì)節(jié)到復(fù)雜行為解釋的路徑也因此更長(zhǎng)、更艱難。

      可解釋性支持著幾個(gè)關(guān)鍵目標(biāo),例如實(shí)現(xiàn)更好的監(jiān)督,并為不安全或策略性失調(diào)行為提供早期預(yù)警。它也補(bǔ)充了OpenAI在其他安全方面的工作,如可擴(kuò)展監(jiān)督、對(duì)抗性訓(xùn)練和紅隊(duì)測(cè)試。

      在這項(xiàng)工作中,OpenAI展示了我們通常可以采用某種訓(xùn)練方式,讓模型變得更容易解釋。他們將這項(xiàng)工作視為對(duì)稠密網(wǎng)絡(luò)進(jìn)行事后分析的一種有希望的補(bǔ)充。

      這是一個(gè)比較大的賭注,從當(dāng)前的工作到完全理解最強(qiáng)大模型的復(fù)雜行為,還有很長(zhǎng)的路要走。盡管如此,研究發(fā)現(xiàn),對(duì)于簡(jiǎn)單的行為,用這種新方法訓(xùn)練的稀疏模型包含了小型的、解耦的“電路”,這些電路既可被理解,也足以執(zhí)行該行為。這表明,可能存在一條可行的路徑,用以訓(xùn)練出我們能夠理解其機(jī)制的大型系統(tǒng)。

      一種新思路:學(xué)習(xí)稀疏模型

      以往的機(jī)制可解釋性工作,通常從一個(gè)已經(jīng)訓(xùn)練好的、稠密且糾纏的網(wǎng)絡(luò)入手,試圖去解開(kāi)它。在這些網(wǎng)絡(luò)中,每個(gè)神經(jīng)元都與成千上萬(wàn)個(gè)其他神經(jīng)元相連,并且大多數(shù)神經(jīng)元似乎執(zhí)行著多種不同功能,這使得理解它們變得幾乎不可能。

      但如果我們換一種思路呢?如果我們訓(xùn)練一個(gè)“不糾纏”的神經(jīng)網(wǎng)絡(luò)——它擁有更多的神經(jīng)元,但每個(gè)神經(jīng)元只有幾十個(gè)連接。那么,最終得到的網(wǎng)絡(luò)或許會(huì)更簡(jiǎn)單、更容易理解。這就是OpenAI這項(xiàng)工作的核心研究思路

      基于這一原則,OpenAI訓(xùn)練了一些語(yǔ)言模型,其架構(gòu)與GPT-2等現(xiàn)有模型非常相似,但有一個(gè)微小改動(dòng):強(qiáng)制模型絕大多數(shù)權(quán)重為零。這限制了模型只能使用其神經(jīng)元之間極少數(shù)的可能連接。研究人員認(rèn)為,這個(gè)簡(jiǎn)單的改變能極大地解耦模型的內(nèi)部計(jì)算

      在傳統(tǒng)的的稠密神經(jīng)網(wǎng)絡(luò)中,每一層的每個(gè)神經(jīng)元都與下一層的所有神經(jīng)元相連。而在稀疏模型中,每個(gè)神經(jīng)元只與下一層的少數(shù)幾個(gè)神經(jīng)元連接。研究人員希望這能讓神經(jīng)元乃至整個(gè)網(wǎng)絡(luò)變得更容易被理解


      如何評(píng)估可解釋性

      為了衡量稀疏模型的計(jì)算在多大程度上是解耦的,研究人員考察了各種簡(jiǎn)單的模型行為,并檢查是否能分離出負(fù)責(zé)每種行為的模型部分——他們稱(chēng)之為電路(circuits)

      他們手工策劃了一系列簡(jiǎn)單的算法任務(wù)。對(duì)于每項(xiàng)任務(wù),他們將模型剪枝,找到能執(zhí)行該任務(wù)的最小電路,并檢查該電路的簡(jiǎn)潔程度。研究發(fā)現(xiàn),通過(guò)訓(xùn)練更大、更稀疏的模型,可以得到能力越來(lái)越強(qiáng)、同時(shí)電路也越來(lái)越簡(jiǎn)單的模型。

      下圖是一張可解釋性與模型能力的對(duì)比圖中(左下角為更優(yōu)),對(duì)于一個(gè)固定大小的稀疏模型,增加稀疏度(即設(shè)置更多權(quán)重為零)會(huì)降低模型能力,但提高可解釋性。而擴(kuò)大模型尺寸則會(huì)將這條能力-可解釋性的邊界向外推移。這表明,我們或許可以構(gòu)建出既強(qiáng)大又可解釋的大型模型


      深入電路:一個(gè)具體案例

      為了更具體地說(shuō)明,可以看一個(gè)任務(wù):一個(gè)在Python代碼上訓(xùn)練的模型,需要用正確的引號(hào)來(lái)補(bǔ)全一個(gè)字符串。在Python中,'hello'必須以單引號(hào)結(jié)尾,而"hello"必須以雙引號(hào)結(jié)尾。模型可以通過(guò)記住字符串開(kāi)頭的引號(hào)類(lèi)型,并在末尾復(fù)現(xiàn)它來(lái)解決這個(gè)問(wèn)題


      研究發(fā)現(xiàn),最易于解釋的模型似乎包含了實(shí)現(xiàn)了這一確切算法的解耦電路。

      這個(gè)預(yù)測(cè)字符串應(yīng)以單引號(hào)還是雙引號(hào)結(jié)尾的電路,僅使用了5個(gè)殘差通道、第0層的2個(gè)MLP神經(jīng)元、以及第10層的1個(gè)注意力查詢-鍵通道和1個(gè)值通道。其工作流程如下:

      1.模型在一個(gè)殘差通道中編碼單引號(hào),在另一個(gè)通道中編碼雙引號(hào)

      2.一個(gè)MLP層將此信息轉(zhuǎn)換為一個(gè)檢測(cè)任意引號(hào)的通道和另一個(gè)區(qū)分單雙引號(hào)的通道

      3.一個(gè)注意力操作會(huì)忽略中間的詞元,找到之前的開(kāi)引號(hào),并將其類(lèi)型復(fù)制到最終詞元

      4.模型預(yù)測(cè)出匹配的閉合引號(hào)

      根據(jù)定義,上圖所示的連接對(duì)于執(zhí)行該任務(wù)是充分的——如果我們移除模型的其余部分,這個(gè)小電路仍然能工作。同時(shí)它們也是必要的——?jiǎng)h除這幾個(gè)連接會(huì)導(dǎo)致模型失敗。

      研究人員還研究了一些更復(fù)雜的行為,例如變量綁定。這些行為的電路更難被完全解釋。即便如此,仍然可以獲得相對(duì)簡(jiǎn)單的部分解釋?zhuān)@些解釋對(duì)模型行為具有預(yù)測(cè)性。例如,在一個(gè)電路中,一個(gè)注意力操作在變量current被定義時(shí),將變量名復(fù)制到set()詞元中;后續(xù)另一個(gè)操作則將類(lèi)型從set()詞元復(fù)制到該變量的后續(xù)使用中,從而讓模型推斷出正確的下一個(gè)詞元


      這些稀疏模型比前沿模型小得多,其計(jì)算的很大一部分仍未被解釋。

      接下來(lái),研究團(tuán)隊(duì)希望將這些技術(shù)擴(kuò)展到更大的模型,并解釋模型更多的行為。通過(guò)在有能力的稀疏模型中枚舉出更復(fù)雜推理背后的電路基元,或許能發(fā)展出一種有助于更有針對(duì)性地研究前沿模型的理解

      為了克服訓(xùn)練稀疏模型的低效問(wèn)題,研究人員看到了兩條前進(jìn)的道路:

      1.從現(xiàn)有的稠密模型中提取稀疏電路,而不是從頭開(kāi)始訓(xùn)練稀疏模型。因?yàn)槌砻苣P驮诓渴鹕媳举|(zhì)比稀疏模型更高效

      2.開(kāi)發(fā)更高效的可解釋性訓(xùn)練技術(shù),這可能更容易投入生產(chǎn)。

      需要注意的是,目前的發(fā)現(xiàn)并不能保證這種方法會(huì)延伸到能力更強(qiáng)的系統(tǒng)上,但這些早期結(jié)果充滿希望。最終目標(biāo)是逐步擴(kuò)大我們能夠可靠解釋的模型范圍,并構(gòu)建工具,使未來(lái)的系統(tǒng)更容易分析、調(diào)試和評(píng)估

      參考:

      https://openai.com/index/understanding-neural-networks-through-sparse-circuits/

      paper:

      https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      豪門(mén)悲喜夜:曼聯(lián)2-1逆轉(zhuǎn)進(jìn)前3 阿森納2-1切爾西 熱刺1-2十輪不勝

      豪門(mén)悲喜夜:曼聯(lián)2-1逆轉(zhuǎn)進(jìn)前3 阿森納2-1切爾西 熱刺1-2十輪不勝

      狍子歪解體壇
      2026-03-02 02:39:57
      哈梅內(nèi)伊,突然“回歸天國(guó)”

      哈梅內(nèi)伊,突然“回歸天國(guó)”

      中國(guó)新聞周刊
      2026-03-01 12:28:08
      A股:大家坐穩(wěn)扶好了,美以伊大沖突,牛市或?qū)⒃俅沃匮輾v史了!

      A股:大家坐穩(wěn)扶好了,美以伊大沖突,牛市或?qū)⒃俅沃匮輾v史了!

      夜深?lèi)?ài)雜談
      2026-03-01 19:34:36
      “獅子的咆哮”之下,伊朗進(jìn)入后哈梅內(nèi)伊?xí)r代

      “獅子的咆哮”之下,伊朗進(jìn)入后哈梅內(nèi)伊?xí)r代

      秋月獨(dú)朗
      2026-03-01 15:32:10
      復(fù)旦神級(jí)教授“預(yù)言”:美國(guó)不敢打伊朗,國(guó)力嚴(yán)重下降難支撐全球霸權(quán)

      復(fù)旦神級(jí)教授“預(yù)言”:美國(guó)不敢打伊朗,國(guó)力嚴(yán)重下降難支撐全球霸權(quán)

      回旋鏢
      2026-03-01 21:20:11
      阿聯(lián)酋應(yīng)對(duì)137枚導(dǎo)彈209架無(wú)人機(jī)襲擊

      阿聯(lián)酋應(yīng)對(duì)137枚導(dǎo)彈209架無(wú)人機(jī)襲擊

      每日經(jīng)濟(jì)新聞
      2026-03-01 12:19:49
      上海浦東機(jī)場(chǎng)多架航班返航!中國(guó)旅客:我已經(jīng)哭過(guò)了,感到后怕;中東機(jī)場(chǎng)改簽排隊(duì)數(shù)百米,國(guó)內(nèi)三大航可免費(fèi)退改簽

      上海浦東機(jī)場(chǎng)多架航班返航!中國(guó)旅客:我已經(jīng)哭過(guò)了,感到后怕;中東機(jī)場(chǎng)改簽排隊(duì)數(shù)百米,國(guó)內(nèi)三大航可免費(fèi)退改簽

      大象新聞
      2026-03-01 14:45:10
      不到24小時(shí),美以對(duì)伊完成二次打擊,俄媒警告:川普在逼中國(guó)下場(chǎng)

      不到24小時(shí),美以對(duì)伊完成二次打擊,俄媒警告:川普在逼中國(guó)下場(chǎng)

      東極妙嚴(yán)
      2026-02-28 17:56:12
      哈梅內(nèi)伊之死和伊朗性史

      哈梅內(nèi)伊之死和伊朗性史

      哲空空
      2026-03-01 11:14:17
      中國(guó)軍號(hào):對(duì)于那一天我們不期待,但絕不懼怕!

      中國(guó)軍號(hào):對(duì)于那一天我們不期待,但絕不懼怕!

      瀟湘晨報(bào)
      2026-03-01 15:18:15
      哈梅內(nèi)伊被精準(zhǔn)斬首,為何伊朗人民載歌載舞?

      哈梅內(nèi)伊被精準(zhǔn)斬首,為何伊朗人民載歌載舞?

      歷史總在押韻
      2026-03-01 11:59:19
      深度 | 最高領(lǐng)袖身亡,美以叫囂繼續(xù)打,伊朗能否挺過(guò)47年來(lái)最致命危機(jī)?

      深度 | 最高領(lǐng)袖身亡,美以叫囂繼續(xù)打,伊朗能否挺過(guò)47年來(lái)最致命危機(jī)?

      上觀新聞
      2026-03-01 16:17:08
      伊朗建議民眾離開(kāi)德黑蘭

      伊朗建議民眾離開(kāi)德黑蘭

      財(cái)聯(lián)社
      2026-02-28 21:58:42
      哈梅內(nèi)伊不幸遇難!

      哈梅內(nèi)伊不幸遇難!

      難得君
      2026-03-01 13:19:33
      特朗普沒(méi)想到:哈梅內(nèi)伊雖然死了,但臨終前的一項(xiàng)安排會(huì)這么厲害

      特朗普沒(méi)想到:哈梅內(nèi)伊雖然死了,但臨終前的一項(xiàng)安排會(huì)這么厲害

      健身狂人
      2026-03-01 13:53:47
      隊(duì)長(zhǎng)傳射!7.2億豪門(mén)2-1逆轉(zhuǎn) 7輪6勝+11輪不敗 賽季首次躋身前三

      隊(duì)長(zhǎng)傳射!7.2億豪門(mén)2-1逆轉(zhuǎn) 7輪6勝+11輪不敗 賽季首次躋身前三

      狍子歪解體壇
      2026-03-01 23:58:16
      怎么也想不通,她長(zhǎng)這么漂亮,演技那么好,為啥一直火不起來(lái)呢

      怎么也想不通,她長(zhǎng)這么漂亮,演技那么好,為啥一直火不起來(lái)呢

      草莓解說(shuō)體育
      2026-03-01 00:47:24
      哈梅內(nèi)伊和親屬開(kāi)會(huì)時(shí)遇襲身亡!伊朗內(nèi)鬼和現(xiàn)場(chǎng)照片曝光

      哈梅內(nèi)伊和親屬開(kāi)會(huì)時(shí)遇襲身亡!伊朗內(nèi)鬼和現(xiàn)場(chǎng)照片曝光

      項(xiàng)鵬飛
      2026-03-01 20:35:46
      以軍稱(chēng)絕不允許伊朗恢復(fù)軍事能力

      以軍稱(chēng)絕不允許伊朗恢復(fù)軍事能力

      界面新聞
      2026-03-01 22:26:53
      演都不演了!剛復(fù)出就開(kāi)演唱會(huì),票價(jià)賣(mài)到1280,到底誰(shuí)給的自信

      演都不演了!剛復(fù)出就開(kāi)演唱會(huì),票價(jià)賣(mài)到1280,到底誰(shuí)給的自信

      樂(lè)悠悠娛樂(lè)
      2026-03-01 10:27:25
      2026-03-02 02:55:00
      AI寒武紀(jì) incentive-icons
      AI寒武紀(jì)
      專(zhuān)注于人工智能,科技領(lǐng)域
      1034文章數(shù) 396關(guān)注度
      往期回顧 全部

      科技要聞

      榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

      頭條要聞

      特朗普警告伊朗“不要報(bào)復(fù)” 伊朗外長(zhǎng)回應(yīng)

      頭條要聞

      特朗普警告伊朗“不要報(bào)復(fù)” 伊朗外長(zhǎng)回應(yīng)

      體育要聞

      火箭輸給熱火:烏度卡又輸斯波教練

      娛樂(lè)要聞

      黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來(lái)襲

      財(cái)經(jīng)要聞

      中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

      汽車(chē)要聞

      理想汽車(chē)2月交付26421輛 歷史累計(jì)交付超159萬(wàn)輛

      態(tài)度原創(chuàng)

      家居
      親子
      數(shù)碼
      公開(kāi)課
      軍事航空

      家居要聞

      素色肌理 品意式格調(diào)

      親子要聞

      帶娃看醫(yī)生,聽(tīng)懂這幾句話少走90%彎路!

      數(shù)碼要聞

      榮耀Magic V6海外發(fā)布:厚度僅8.75mm三年內(nèi)第四次打破紀(jì)錄

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗前總統(tǒng)內(nèi)賈德遇襲身亡

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版