<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      NeurIPS 2025 | DePass:通過單次前向傳播分解實(shí)現(xiàn)統(tǒng)一特征歸因

      0
      分享至



      共同一作:洪翔宇,清華大學(xué)電子系大四本科生,曾獲清華大學(xué)蔣南翔獎學(xué)金等,曾在NeurIPS,EMNLP,NAACL等頂級會議上發(fā)表論文。姜澈,清華大學(xué)電子系博士三年級在讀,主要研究方向?yàn)長LM Interpretebility,LLM Agent,曾在NeurIPS,ICML,EMNLP,NAACL等頂級會議上發(fā)表論文。

      隨著大型語言模型在各類任務(wù)中展現(xiàn)出卓越的生成與推理能力,如何將模型輸出精確地追溯到其內(nèi)部計算過程,已成為 AI 可解釋性研究的重要方向。然而,現(xiàn)有方法往往計算代價高昂、難以揭示中間層的信息流動;同時,不同層面的歸因(如 token、模型組件或表示子空間)通常依賴各自獨(dú)立的特定方法,缺乏統(tǒng)一且高效的分析框架。

      針對這一問題,來自清華、上海 AI Lab 的研究團(tuán)隊(duì)提出了全新的統(tǒng)一特征歸因框架——DePass(Decomposed Forward Pass)。

      該方法通過將前向傳播中的每個隱藏狀態(tài)分解為多個可加子狀態(tài),并在固定注意力權(quán)重與 MLP 激活的情況下對其逐層傳播,實(shí)現(xiàn)了對 Transformer 內(nèi)部信息流的無損分解與精確歸因。借助 DePass,研究者能夠在輸入 token、注意力頭、神經(jīng)元乃至殘差流子空間等多個層面上進(jìn)行歸因分析,為機(jī)制可解釋性研究提供了統(tǒng)一而細(xì)粒度的新視角。



      • 論文標(biāo)題:DePass: Unified Feature Attributing by Simple Decomposed Forward Pass
      • 論文鏈接: https://arxiv.org/pdf/2510.18462
      • 代碼鏈接: https://github.com/TsinghuaC3I/Decomposed-Forward-Pass

      問題分析:

      現(xiàn)有歸因方法的局限性

      現(xiàn)有的歸因方法大致可以分為以下幾類:

      • 基于噪聲消融和激活修補(bǔ)的方法:這些方法通過直接對模型的所有模塊施加噪聲或修補(bǔ)激活值來分析模型行為,但計算成本高昂,且難以洞察中間信息流。
      • 基于梯度的歸因方法:這類方法在理論上面臨挑戰(zhàn),難以提供細(xì)粒度的解釋。
      • 基于模型近似或抽象的方法:雖然部分方法能夠與人類認(rèn)知對齊,但通常無法達(dá)到細(xì)粒度的組件級別(如神經(jīng)元或注意力頭),且非保守的近似可能會損害歸因的可信度。

      DePass:

      一種全新的歸因框架



      實(shí)驗(yàn)驗(yàn)證:

      DePass 的有效性

      DePass 提供了一個統(tǒng)一的歸因框架,支持在輸入 token、注意力頭、神經(jīng)元以及殘差流子空間等多個層面進(jìn)行一致歸因,無需修改模型結(jié)構(gòu)或依賴任務(wù)特定近似,并可自然銜接人類推理及稀疏字典學(xué)習(xí)(如 SAE)等方法。研究團(tuán)隊(duì)在 token 級、模型組件級和子空間級歸因任務(wù)上驗(yàn)證了 DePass 的有效性:

      Token-Level DePass——輸出歸因到輸入:精準(zhǔn)識別驅(qū)動預(yù)測的核心證據(jù)

      我們首先在輸出到輸入 token 的歸因任務(wù)上驗(yàn)證了 DePass 的表現(xiàn),目標(biāo)是評估每個輸入 token 對模型最終輸出的實(shí)際貢獻(xiàn)。

      在「Disrupt-top」實(shí)驗(yàn)中,移除 DePass 判定最關(guān)鍵的 tokens 會導(dǎo)致模型輸出概率急劇下降,表明其捕捉到了真正驅(qū)動預(yù)測的核心證據(jù);而在「Recover-top」實(shí)驗(yàn)中,DePass 保留的極少量 tokens 依然能高度恢復(fù)模型判斷。這表明 DePass 能夠更忠實(shí)地刻畫模型內(nèi)部的信息流動與輸入貢獻(xiàn)關(guān)系,實(shí)現(xiàn)高可信度的 token 級歸因分析。



      Token-Level DePass——子空間歸因到輸入:追蹤子空間信號的 token 來源

      DePass 不僅能在 token 層面追蹤預(yù)測依據(jù),還能精準(zhǔn)定位哪些輸入 token 激活了模型中「特定方向/特定語義子空間」的信號(例如「truthfulness」方向),從而識別出影響模型判斷的關(guān)鍵來源(如誤導(dǎo)性信息),并顯著提升模型的可控性與可解釋性。

      在事實(shí)性任務(wù)中,團(tuán)隊(duì)利用 DePass 將「虛假信息子空間」拆解后,進(jìn)一步將其激活分配到每個輸入 token。歸因結(jié)果清晰揭示了哪些詞觸發(fā)了模型的錯誤方向。基于這些 token 進(jìn)行定向遮罩后,模型在 CounterFact 上的事實(shí)性準(zhǔn)確率從約10% → 40%+大幅提升,顯著優(yōu)于現(xiàn)有 probe-based masking 方法。



      Model-Component-Level DePass——模型組件級歸因:觀察注意力頭與 MLP 神經(jīng)元的實(shí)際功能

      DePass 能直接量化每個注意力頭與 MLP 神經(jīng)元對預(yù)測的真實(shí)貢獻(xiàn),在遮罩實(shí)驗(yàn)中顯著優(yōu)于梯度、激活等傳統(tǒng)重要性指標(biāo)。

      當(dāng)遮罩 DePass 判定的「重要組件」(Top-k Masking)時,模型準(zhǔn)確率下降更快;當(dāng)僅保留「最不重要組件」(Bottom-k Masking)時,模型性能保持得更好。這說明 DePass 識別的組件重要性具備更高的敏感性、完備性、因果性,在 IOI 與 CounterFact 等任務(wù)上均顯著超越 AtP、Norm 等主流歸因指標(biāo)。



      Subspace-Level DePass——子空間級歸因

      DePass 還可以用于研究隱狀態(tài)中不同子空間之間的相互作用,以及這些子空間對最終輸出的影響。我們以語言子空間(language subspace)為例進(jìn)行分析。

      我們訓(xùn)練了一個語言分類器,并將其權(quán)重方向作為語言子空間的基向量。隨后,將中間層的隱狀態(tài)分別投影到語言子空間與其正交語義子空間中;兩部分隱狀態(tài)在網(wǎng)絡(luò)中分別獨(dú)立傳播至最終層,并通過 LM Head 解碼,以觀察其對應(yīng)輸出。

      • 語言子空間:經(jīng) t-SNE 顯示形成清晰的語言聚類(如英文/法文/德文),體現(xiàn)語言特征集中分布。
      • 語義子空間:獨(dú)立解碼結(jié)果跨語言一致,例如無論輸入語言為何,都會生成相同的事實(shí)答案(如「Dutch」)。

      這一結(jié)果說明 DePass 能忠實(shí)保留并傳播子空間的功能屬性,為跨語言解釋和語義分解提供了全新視角。



      (左)對 token 在語言子空間上的投影進(jìn)行 t-SNE 可視化。(右)針對不同多語言提示語,從語言子空間與語義子空間中解碼得到的前五個 token

      總結(jié)

      DePass 作為一種基于分解前向傳播的 Transformer 解釋框架,兼具簡潔性與高效性。通過凍結(jié)并分配注意力得分和 MLP 激活,DePass 實(shí)現(xiàn)了無損的加性分解,可無縫適配各種 Transformer 架構(gòu)。

      實(shí)驗(yàn)結(jié)果表明,DePass 在多層次粒度的歸因分析中具有更高的忠實(shí)性。我們期望 DePass 能成為機(jī)制可解釋性研究中的通用工具,推動社區(qū)在更廣泛的任務(wù)與模型上探索其潛力與應(yīng)用。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      勇士隊(duì)老板迅速回應(yīng)球迷憤怒的郵件,暗示庫明加與勇士之間存矛盾

      勇士隊(duì)老板迅速回應(yīng)球迷憤怒的郵件,暗示庫明加與勇士之間存矛盾

      好火子
      2025-12-17 07:13:56
      撒貝寧夫妻開300萬大G接娃!加拿大岳父罕見露面,一家三代超溫馨

      撒貝寧夫妻開300萬大G接娃!加拿大岳父罕見露面,一家三代超溫馨

      愛下廚的阿釃
      2025-12-17 06:42:05
      郭碧婷一家4口團(tuán)聚,向佐陪岳父遛彎盡孝心,3歲兒子騎爸爸脖子上

      郭碧婷一家4口團(tuán)聚,向佐陪岳父遛彎盡孝心,3歲兒子騎爸爸脖子上

      心靜物娛
      2025-12-17 09:51:52
      北約給中國戰(zhàn)機(jī)取代號:殲20代號“Fagin”,音譯過來很惡毒

      北約給中國戰(zhàn)機(jī)取代號:殲20代號“Fagin”,音譯過來很惡毒

      云上烏托邦
      2025-12-16 13:18:23
      物業(yè)不催費(fèi)了?不是良心發(fā)現(xiàn),而是新規(guī)這3條紅線,讓物業(yè)不敢動

      物業(yè)不催費(fèi)了?不是良心發(fā)現(xiàn),而是新規(guī)這3條紅線,讓物業(yè)不敢動

      我心縱橫天地間
      2025-11-29 22:15:54
      “4斤黃金鳳冠被毀”大反轉(zhuǎn),千萬級網(wǎng)紅天塌了!

      “4斤黃金鳳冠被毀”大反轉(zhuǎn),千萬級網(wǎng)紅天塌了!

      廣告案例精選
      2025-12-16 11:07:45
      淚崩!蔡康永談大S:我以為大S會活得比我們久,結(jié)果她提前下車了

      淚崩!蔡康永談大S:我以為大S會活得比我們久,結(jié)果她提前下車了

      未小沫
      2025-12-16 23:20:42
      醫(yī)生研究:能抗擊慢性炎癥的事情,不是運(yùn)動!而是3個生活習(xí)慣

      醫(yī)生研究:能抗擊慢性炎癥的事情,不是運(yùn)動!而是3個生活習(xí)慣

      小胡軍事愛好
      2025-12-16 22:05:58
      太猖狂了!張本接受采訪,竟然引用高市早苗話,網(wǎng)友:找死的節(jié)奏

      太猖狂了!張本接受采訪,竟然引用高市早苗話,網(wǎng)友:找死的節(jié)奏

      金山話體育
      2025-12-16 16:04:32
      43歲rain現(xiàn)身沙田馬場,西裝難掩肌肉線條,零距離懟臉歲月無痕

      43歲rain現(xiàn)身沙田馬場,西裝難掩肌肉線條,零距離懟臉歲月無痕

      動物奇奇怪怪
      2025-12-17 01:24:41
      昆明一公園內(nèi)明永歷帝雕塑趴泥中引爭議!有游客稱感到不適要求改變,公園回應(yīng):已在著手處理

      昆明一公園內(nèi)明永歷帝雕塑趴泥中引爭議!有游客稱感到不適要求改變,公園回應(yīng):已在著手處理

      臺州交通廣播
      2025-12-16 22:38:07
      一醫(yī)生實(shí)名舉報醫(yī)院全員吃回扣!舉報信“貼滿”醫(yī)院......

      一醫(yī)生實(shí)名舉報醫(yī)院全員吃回扣!舉報信“貼滿”醫(yī)院......

      醫(yī)脈圈
      2025-12-16 20:42:16
      一部電影八個演員title,內(nèi)娛的番位造詞還能更離譜嗎?

      一部電影八個演員title,內(nèi)娛的番位造詞還能更離譜嗎?

      鈦媒體APP
      2025-12-15 18:57:25
      中央定調(diào),2026年養(yǎng)老金調(diào)整有望?工齡對漲幅影響越來越小?

      中央定調(diào),2026年養(yǎng)老金調(diào)整有望?工齡對漲幅影響越來越小?

      王五說說看
      2025-12-17 09:53:40
      朝鮮據(jù)稱拒絕俄羅斯再向俄烏戰(zhàn)場派遣士兵的請求,只因錢沒到位?

      朝鮮據(jù)稱拒絕俄羅斯再向俄烏戰(zhàn)場派遣士兵的請求,只因錢沒到位?

      之乎者也小魚兒
      2025-12-15 15:18:45
      《阿凡達(dá)3》避坑指南,頂配版本兩個選擇,IMAX絕非最佳

      《阿凡達(dá)3》避坑指南,頂配版本兩個選擇,IMAX絕非最佳

      光影新天地
      2025-12-16 16:35:20
      趙雅芝為了賺錢真是“不要命了”,72歲竟然穿20厘米的高跟鞋!

      趙雅芝為了賺錢真是“不要命了”,72歲竟然穿20厘米的高跟鞋!

      小娛樂悠悠
      2025-12-17 09:27:59
      荷蘭公開宣布制裁中國,各個公司芯片受損,中國反應(yīng)令人意想不到

      荷蘭公開宣布制裁中國,各個公司芯片受損,中國反應(yīng)令人意想不到

      歷史求知所
      2025-12-16 09:15:06
      明年1月1日起:每畝補(bǔ)貼3000元?一戶一田定了!土地歸并最新消息? 土地承包整省試點(diǎn)來了!你...

      明年1月1日起:每畝補(bǔ)貼3000元?一戶一田定了!土地歸并最新消息? 土地承包整省試點(diǎn)來了!你...

      新浪財經(jīng)
      2025-12-17 04:48:41
      一球迷向勇士老板發(fā)郵件要求引進(jìn)第二得分點(diǎn),后者共情回復(fù)并安撫

      一球迷向勇士老板發(fā)郵件要求引進(jìn)第二得分點(diǎn),后者共情回復(fù)并安撫

      懂球帝
      2025-12-17 08:25:12
      2025-12-17 10:40:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11935文章數(shù) 142511關(guān)注度
      往期回顧 全部

      科技要聞

      無人駕駛邁關(guān)鍵一步 特斯拉股價觸歷史新高

      頭條要聞

      牛彈琴:特朗普下狠手BBC面臨生死存亡 英國人急壞了

      頭條要聞

      牛彈琴:特朗普下狠手BBC面臨生死存亡 英國人急壞了

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      鞠婧祎收入曝光,絲芭稱已支付1.3億

      財經(jīng)要聞

      "祥源系"爆雷 有投資者數(shù)百萬元無法提現(xiàn)

      汽車要聞

      一車多動力+雙姿態(tài) 長城歐拉5上市 限時9.18萬元起

      態(tài)度原創(chuàng)

      藝術(shù)
      健康
      數(shù)碼
      公開課
      軍事航空

      藝術(shù)要聞

      雷軍前腳剛曬完“低速防碰撞”功能,后腳就撞上銷售!網(wǎng)友:“法務(wù)說沒寫進(jìn)合同不算”含金量還在上升

      這些新療法,讓化療不再那么痛苦

      數(shù)碼要聞

      LG MicroRGB Evo電視將于CES 2026首發(fā) 正面迎戰(zhàn)三星

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普稱認(rèn)定委內(nèi)瑞拉現(xiàn)政府是“外國恐怖組織”

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产人久久人人人人爽| 人妻无码一卡| 亚洲va中文在线播放免费| 亚洲最大成人网站| 人妻少妇精品中文字幕av| 夜夜撸影院| 少妇人妻无码专区视频| 寿阳县| 中日韩三级片| 2022亚洲男人天堂| 亚洲日韩av在线观看| 国产成人精品18| 自拍性旺盛老熟女| 色一情一乱一伦一区二区三欧美| 亚洲国产日韩在线视频 | 3P视频网站视频网站视频网站在线播放| 午夜欧美日韩在线视频播放| 国产精品爽黄69天堂a| 国产丝袜打飞机免费在线| 九九九国产| 亚州脚交| 日本免费一区二区三区四区五区| 乱码精品一区二区三区| 97av在线| 日韩天码| 中文日韩在线一区二区| 日本最新免费二区三区| 欧美大bbbb流白水| 国产97人人超碰CAO蜜芽PROM| 一本本月无码-| 男女羞羞| 国产熟妇与子伦hd| 中文无码人妻有码人妻中文字幕 | 亚洲精品专区| 吉林省| www.人与兽| 国产一区二区三区18| 人人做人人澡人人人爽| 秘?亚洲国产精品成人网站| 精品一精品国产一级毛片| 开心五月婷婷综合网站|