<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI黑箱,這次能打開嗎?OpenAI新方法:訓練稀疏神經網絡,讓模型思維過程可追溯

      0
      分享至


      神經網絡是當今最強大AI系統的動力核心,但其內部工作原理依然難以捉摸。我們并非為這些模型編寫一步一指令的明確代碼,相反,它們通過調整數十億個內部連接(即“權重”)來自我學習,直至掌握任務。我們設計了訓練規則,卻無法預知最終涌現出的具體行為,其結果是一個任何人都難以輕易解讀的、稠密的連接網絡。

      現在,OpenAI提出了一種新方法,旨在通過訓練模型以更簡單、更可追溯的方式“思考”,從而更好地理解它們的工作原理

      如何看待可解釋性

      隨著AI系統能力日益增強,并在科學、教育和醫療等領域產生真實世界的影響,理解其工作方式變得至關重要。可解釋性,指的是幫助我們理解模型為何產生特定輸出的方法。

      實現這一目標有多種途徑。例如,推理模型被激勵在通往最終答案的過程中解釋其工作步驟,這種“思維鏈可解釋性”利用這些解釋來監控模型行為。這種方法已展現出直接的實用價值,例如當前模型的思維鏈似乎能有效揭示欺騙等令人擔憂的行為。然而,完全依賴此特性是一種脆弱的策略,未來可能會失效。

      另一方面,機制可解釋性(mechanistic interpretability)——也正是OpenAI本次研究的焦點——旨在徹底逆向工程一個模型的計算過程。盡管它迄今為止的直接應用較少,但原則上,它可以為模型行為提供更完整的解釋。通過在最細粒度的層面上解釋模型行為,機制可解釋性可以減少假設,給予我們更強的信心。但從底層細節到復雜行為解釋的路徑也因此更長、更艱難。

      可解釋性支持著幾個關鍵目標,例如實現更好的監督,并為不安全或策略性失調行為提供早期預警。它也補充了OpenAI在其他安全方面的工作,如可擴展監督、對抗性訓練和紅隊測試。

      在這項工作中,OpenAI展示了我們通常可以采用某種訓練方式,讓模型變得更容易解釋。他們將這項工作視為對稠密網絡進行事后分析的一種有希望的補充。

      這是一個比較大的賭注,從當前的工作到完全理解最強大模型的復雜行為,還有很長的路要走。盡管如此,研究發現,對于簡單的行為,用這種新方法訓練的稀疏模型包含了小型的、解耦的“電路”,這些電路既可被理解,也足以執行該行為。這表明,可能存在一條可行的路徑,用以訓練出我們能夠理解其機制的大型系統。

      一種新思路:學習稀疏模型

      以往的機制可解釋性工作,通常從一個已經訓練好的、稠密且糾纏的網絡入手,試圖去解開它。在這些網絡中,每個神經元都與成千上萬個其他神經元相連,并且大多數神經元似乎執行著多種不同功能,這使得理解它們變得幾乎不可能。

      但如果我們換一種思路呢?如果我們訓練一個“不糾纏”的神經網絡——它擁有更多的神經元,但每個神經元只有幾十個連接。那么,最終得到的網絡或許會更簡單、更容易理解。這就是OpenAI這項工作的核心研究思路

      基于這一原則,OpenAI訓練了一些語言模型,其架構與GPT-2等現有模型非常相似,但有一個微小改動:強制模型絕大多數權重為零。這限制了模型只能使用其神經元之間極少數的可能連接。研究人員認為,這個簡單的改變能極大地解耦模型的內部計算

      在傳統的的稠密神經網絡中,每一層的每個神經元都與下一層的所有神經元相連。而在稀疏模型中,每個神經元只與下一層的少數幾個神經元連接。研究人員希望這能讓神經元乃至整個網絡變得更容易被理解


      如何評估可解釋性

      為了衡量稀疏模型的計算在多大程度上是解耦的,研究人員考察了各種簡單的模型行為,并檢查是否能分離出負責每種行為的模型部分——他們稱之為電路(circuits)。

      他們手工策劃了一系列簡單的算法任務。對于每項任務,他們將模型剪枝,找到能執行該任務的最小電路,并檢查該電路的簡潔程度。研究發現,通過訓練更大、更稀疏的模型,可以得到能力越來越強、同時電路也越來越簡單的模型。

      下圖是一張可解釋性與模型能力的對比圖中(左下角為更優),對于一個固定大小的稀疏模型,增加稀疏度(即設置更多權重為零)會降低模型能力,但提高可解釋性。而擴大模型尺寸則會將這條能力-可解釋性的邊界向外推移。這表明,我們或許可以構建出既強大又可解釋的大型模型


      深入電路:一個具體案例

      為了更具體地說明,可以看一個任務:一個在Python代碼上訓練的模型,需要用正確的引號來補全一個字符串。在Python中,'hello'必須以單引號結尾,而"hello"必須以雙引號結尾。模型可以通過記住字符串開頭的引號類型,并在末尾復現它來解決這個問題


      研究發現,最易于解釋的模型似乎包含了實現了這一確切算法的解耦電路。

      這個預測字符串應以單引號還是雙引號結尾的電路,僅使用了5個殘差通道、第0層的2個MLP神經元、以及第10層的1個注意力查詢-鍵通道和1個值通道。其工作流程如下:

      1.模型在一個殘差通道中編碼單引號,在另一個通道中編碼雙引號

      2.一個MLP層將此信息轉換為一個檢測任意引號的通道和另一個區分單雙引號的通道

      3.一個注意力操作會忽略中間的詞元,找到之前的開引號,并將其類型復制到最終詞元

      4.模型預測出匹配的閉合引號

      根據定義,上圖所示的連接對于執行該任務是充分的——如果我們移除模型的其余部分,這個小電路仍然能工作。同時它們也是必要的——刪除這幾個連接會導致模型失敗。

      研究人員還研究了一些更復雜的行為,例如變量綁定。這些行為的電路更難被完全解釋。即便如此,仍然可以獲得相對簡單的部分解釋,這些解釋對模型行為具有預測性。例如,在一個電路中,一個注意力操作在變量current被定義時,將變量名復制到set()詞元中;后續另一個操作則將類型從set()詞元復制到該變量的后續使用中,從而讓模型推斷出正確的下一個詞元


      這些稀疏模型比前沿模型小得多,其計算的很大一部分仍未被解釋。

      接下來,研究團隊希望將這些技術擴展到更大的模型,并解釋模型更多的行為。通過在有能力的稀疏模型中枚舉出更復雜推理背后的電路基元,或許能發展出一種有助于更有針對性地研究前沿模型的理解

      為了克服訓練稀疏模型的低效問題,研究人員看到了兩條前進的道路:

      1.從現有的稠密模型中提取稀疏電路,而不是從頭開始訓練稀疏模型。因為稠密模型在部署上本質比稀疏模型更高效

      2.開發更高效的可解釋性訓練技術,這可能更容易投入生產。

      需要注意的是,目前的發現并不能保證這種方法會延伸到能力更強的系統上,但這些早期結果充滿希望。最終目標是逐步擴大我們能夠可靠解釋的模型范圍,并構建工具,使未來的系統更容易分析、調試和評估

      參考:

      https://openai.com/index/understanding-neural-networks-through-sparse-circuits/

      paper:

      https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      26歲漂亮女孩驅車慘死河中,凌晨還在夜場上班!更多細節流出…

      26歲漂亮女孩驅車慘死河中,凌晨還在夜場上班!更多細節流出…

      火山詩話
      2025-12-30 06:34:39
      暴跌99%虧損80億!中國市場200家全部關停,又一豪車巨頭扛不住了

      暴跌99%虧損80億!中國市場200家全部關停,又一豪車巨頭扛不住了

      財經八卦
      2025-12-28 20:53:31
      全球首家市值突破 5萬億美元上市公司誕生

      全球首家市值突破 5萬億美元上市公司誕生

      證券時報
      2025-12-30 06:31:05
      全明星首輪投票結果出爐:東契奇暫列票王 詹杜排名下降庫里上升

      全明星首輪投票結果出爐:東契奇暫列票王 詹杜排名下降庫里上升

      羅說NBA
      2025-12-30 06:12:59
      央視畫面直達臺島,萬軍之中取海馬斯首級,我軍370遠火說到做到

      央視畫面直達臺島,萬軍之中取海馬斯首級,我軍370遠火說到做到

      頭條爆料007
      2025-12-29 22:19:12
      家長參與護學崗時突然倒地,送醫急救;張家界永定區教育局:正牽頭處置,會發通報

      家長參與護學崗時突然倒地,送醫急救;張家界永定區教育局:正牽頭處置,會發通報

      大風新聞
      2025-12-30 10:22:02
      演員閆學晶“哭窮”引爭議!稱兒子年入不到40萬,卻需負擔家庭年開支80-100萬元,否則家庭無法運轉

      演員閆學晶“哭窮”引爭議!稱兒子年入不到40萬,卻需負擔家庭年開支80-100萬元,否則家庭無法運轉

      大象新聞
      2025-12-29 16:45:02
      成都男子炸4S店最新!1死4傷現場慘烈,知情人曝猛料,都是被逼的

      成都男子炸4S店最新!1死4傷現場慘烈,知情人曝猛料,都是被逼的

      云景侃記
      2025-12-29 14:19:49
      鄭麗文怒批賴清德:臺灣有民進黨倒了八輩子霉!

      鄭麗文怒批賴清德:臺灣有民進黨倒了八輩子霉!

      看看新聞Knews
      2025-12-29 18:21:04
      故宮原副院長被抄家,狗窩都用和田玉

      故宮原副院長被抄家,狗窩都用和田玉

      法經網
      2025-12-29 21:01:33
      飯后吃藥,等于白吃?醫生多次提醒:一天中這些時間吃藥才最好

      飯后吃藥,等于白吃?醫生多次提醒:一天中這些時間吃藥才最好

      路醫生健康科普
      2025-12-16 12:45:03
      突發!3方交易方案出爐,小波特加盟活塞,場均22+3悍將馳援庫里

      突發!3方交易方案出爐,小波特加盟活塞,場均22+3悍將馳援庫里

      林子說事
      2025-12-30 09:17:08
      登上訪華專機前,美宣布18個月后對華加稅,不許中方做一件事

      登上訪華專機前,美宣布18個月后對華加稅,不許中方做一件事

      非凡觀點
      2025-12-29 09:47:30
      “他說這800萬是我們的后半生……”杭州55歲大姐遇“真愛”

      “他說這800萬是我們的后半生……”杭州55歲大姐遇“真愛”

      都市快報橙柿互動
      2025-12-30 08:21:38
      110萬俄軍消失!俄烏誰在說謊?

      110萬俄軍消失!俄烏誰在說謊?

      高博新視野
      2025-12-27 18:16:14
      臺學者提醒賴清德小心導彈飛越臺島上空!臺軍“集體逃亡”畫面曝光

      臺學者提醒賴清德小心導彈飛越臺島上空!臺軍“集體逃亡”畫面曝光

      海峽導報社
      2025-12-29 22:56:03
      不請人也不外包,搞營銷視頻,一句話就「開拍」

      不請人也不外包,搞營銷視頻,一句話就「開拍」

      愛范兒
      2025-12-29 17:35:28
      廣東河源一村為取溫泉水設大量管線?網友:蜘蛛也得迷路,當地:正在建蓄水池解決

      廣東河源一村為取溫泉水設大量管線?網友:蜘蛛也得迷路,當地:正在建蓄水池解決

      瀟湘晨報
      2025-12-29 16:52:30
      談判進入“最后階段”,棘手問題尚未解決,美烏總統談了3小時仍無突破

      談判進入“最后階段”,棘手問題尚未解決,美烏總統談了3小時仍無突破

      環球網資訊
      2025-12-30 07:02:23
      飛行員舉報“情人詐騙700多萬”:從萬米高空的情書,到以“一般朋友”報案

      飛行員舉報“情人詐騙700多萬”:從萬米高空的情書,到以“一般朋友”報案

      紅星新聞
      2025-12-29 23:53:56
      2025-12-30 11:12:49
      AI寒武紀 incentive-icons
      AI寒武紀
      專注于人工智能,科技領域
      1024文章數 393關注度
      往期回顧 全部

      科技要聞

      Manus官宣加入Meta,收購金額達數十億美金

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

      體育要聞

      這個59歲的胖子,還在表演“蝎子擺尾”

      娛樂要聞

      44歲林俊杰官宣戀情 帶23歲女友見家長

      財經要聞

      翁杰明:宏觀數據與居民微觀感受存在差距

      汽車要聞

      標配華為乾崑ADS 4 Pro 華境S明年上半年上市

      態度原創

      旅游
      教育
      房產
      本地
      公開課

      旅游要聞

      中國游客不重要?日本京都酒店價格已跳水

      教育要聞

      湖南中醫大學湖北分數線揭秘!別慌!

      房產要聞

      中旅?三亞藍灣展示中心璀璨綻放,共鑒灣心孤品傳奇

      本地新聞

      即將過去的2025年,對重慶的影響竟然如此深遠

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 无码中文人妻| 精品人妻一区二区三区四区视频不卡| 亚洲AV无码一区东京热久久| 97se亚洲国产综合自在线观看| 色狠狠久久av五月综合| 亚洲中文字幕无码专区| 久久精品夜色噜噜亚洲A∨| 兴仁县| 国产午夜福利短视频| 全部孕妇毛片| 欧美性猛交xxxx乱大交极品| 久久久无码专区| 亚洲做第3页| 欧美日韩中文国产一区发布 | 国产999精品成人网站| 色欧美片视频在线观看| 麻豆A∨在线| 99蜜桃在线观看免费视频网站| 麻豆一区二区三区蜜桃免费| 欧美裸体xxxx极品| 成人午夜无码福利视频| jizz国产| 99精品无码一区二区| 看亚洲黄色不在线网占| 国产一区二区三区无码| 日韩在线不卡免费视频一区| 久久久噜噜噜久久中文字幕色伊伊| 手机无码人妻一区二区三区免费| 超碰97人人天天蜜芽| 日产久久久久| 久久精品国产2020| 亚洲2区3区4区产品乱码2021| 亚洲va国产va天堂va久久| 中文字幕熟妇无码专区| 日韩激情无码免费毛片| 国语精品一区二区三区| 女同性αV亚洲女同志| AV色色色| www国产亚洲精品久久麻豆| 99亚洲精品| 北票市|