<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      通過(guò)注意力熵最小化實(shí)現(xiàn)測(cè)試時(shí)自適應(yīng)

      0
      分享至

      LookSharp:通過(guò)注意力熵最小化實(shí)現(xiàn)測(cè)試時(shí)自適應(yīng)

      LOOKSHARP: ATTENTION ENTROPYMINIMIZATION FOR TEST-TIME ADAPTATION

      https://www.arxiv.org/pdf/2511.18925


      摘要

      測(cè)試時(shí)自適應(yīng)(TTA)旨在推理過(guò)程中更新模型,以減少因數(shù)據(jù)分布偏移而產(chǎn)生的誤差。雖然對(duì)輸出分布進(jìn)行熵最小化已被證明是一種有效的TTA損失函數(shù),但我們轉(zhuǎn)而研究利用Transformer在注意力機(jī)制中計(jì)算的中間分布。我們提出了LookSharp方法,該方法將最后一層中CLS令牌對(duì)圖像塊的注意力熵最小化作為新的TTA目標(biāo),促使模型在遇到偏移數(shù)據(jù)時(shí)仍能保持聚焦的注意力。我們證明,注意力熵最小化能夠提高模型在ImageNet-C數(shù)據(jù)集上的魯棒性。同時(shí),我們還展示了該方法與輸出熵最小化互為補(bǔ)充,并能保持模型在干凈數(shù)據(jù)上的性能。

      1 引言與相關(guān)工作

      深度網(wǎng)絡(luò)在符合訓(xùn)練分布的數(shù)據(jù)上表現(xiàn)優(yōu)異,但在部署于存在分布偏移的數(shù)據(jù)時(shí),往往會(huì)遭遇災(zāi)難性的性能下降。最近的測(cè)試時(shí)自適應(yīng)方法探索了對(duì)輸出分布進(jìn)行熵最小化,這有助于促使模型在測(cè)試時(shí)做出更自信的預(yù)測(cè)。盡管這種方法有效,但它將特征提取器視為一個(gè)黑盒,忽略了那些本可指導(dǎo)自適應(yīng)的內(nèi)部表征。視覺(jué)Transformer因其可擴(kuò)展性,已成為視覺(jué)識(shí)別領(lǐng)域的主流架構(gòu),它提供了圖像塊上的注意力分布,能夠明確捕捉空間關(guān)系和特征重要性。

      我們利用這些注意力分布進(jìn)行測(cè)試時(shí)自適應(yīng),將視覺(jué)Transformer中注意力分布的熵最小化作為一種無(wú)監(jiān)督損失來(lái)更新模型參數(shù)。由于這種方法能使注意力分布變得“銳利”,更集中于更少的令牌上,我們將其命名為L(zhǎng)ookSharp。具體來(lái)說(shuō),我們最小化由最后一層注意力頭中CLS令牌對(duì)圖像塊令牌的注意力分?jǐn)?shù)所定義的分布的熵。我們的方法主要基于兩個(gè)關(guān)鍵觀察。首先,如圖1(b)所示,如果注意力熵過(guò)于分散,模型的準(zhǔn)確率會(huì)急劇下降。其次,像DINOv3這樣的現(xiàn)代視覺(jué)Transformer,通過(guò)互聯(lián)網(wǎng)規(guī)模的自監(jiān)督訓(xùn)練,已經(jīng)學(xué)會(huì)了可解釋且以目標(biāo)為中心的注意力圖。


      我們?cè)贗mageNet-C數(shù)據(jù)集上,采用批量情節(jié)性設(shè)置來(lái)演示我們的自適應(yīng)方法應(yīng)對(duì)圖像損壞的效果。即,模型在每個(gè)批次上更新,然后重置。我們還展示了結(jié)合注意力熵和輸出熵可以帶來(lái)進(jìn)一步的性能提升。

      自適應(yīng)中的熵最小化。測(cè)試時(shí)自適應(yīng)常常依賴于熵最小化。Tent方法更新歸一化層的統(tǒng)計(jì)量和參數(shù)以最小化輸出熵。MEMO通過(guò)使用測(cè)試時(shí)增強(qiáng)從單個(gè)樣本創(chuàng)建批次,并采用與Tent相同的損失情節(jié)性地更新所有參數(shù),從而擴(kuò)展了該方法。其他工作如SAR和EATA則將輸出熵與銳度感知最小化、數(shù)據(jù)篩選以及通過(guò)參數(shù)正則化錨定源模型相結(jié)合。

      自適應(yīng)中的注意力機(jī)制。利用注意力機(jī)制進(jìn)行更新的研究相對(duì)較少。Attent方法將測(cè)試時(shí)的注意力統(tǒng)計(jì)量與存儲(chǔ)的源域統(tǒng)計(jì)量進(jìn)行對(duì)齊。與Attent不同,我們的方法是純粹的測(cè)試時(shí)自適應(yīng),不需要存儲(chǔ)源域統(tǒng)計(jì)量。相反,它僅依賴于推理過(guò)程中注意力的置信度。因此,我們只與其他完全在測(cè)試時(shí)進(jìn)行更新的方法進(jìn)行比較。

      2 方法:注意力熵最小化



      我們排除了CLS令牌對(duì)自身以及對(duì)寄存器令牌的注意力分?jǐn)?shù),因?yàn)槲覀兿MP(guān)注的是圖像的空間塊,而非全局信息。最小化此損失函數(shù)可以鼓勵(lì)每個(gè)注意力頭將其注意力集中(低熵地)放在一個(gè)較小的圖像塊令牌子集上,而不是分散地關(guān)注更多令牌。我們也嘗試了先對(duì)分布進(jìn)行平均再計(jì)算其熵的方法,但效果較差。這結(jié)果是合理的,因?yàn)楦鱾€(gè)注意力頭往往會(huì)趨向于特化。我們利用最后一層的注意力分?jǐn)?shù),因?yàn)樗鼈兪亲畛墒斓摹?/p>

      我們發(fā)現(xiàn),將(Wang等人,2021)中使用的標(biāo)準(zhǔn)輸出熵最小化與注意力熵最小化相結(jié)合,可以進(jìn)一步提升性能。我們使用的標(biāo)準(zhǔn)輸出熵最小化損失函數(shù)如下:



      3 實(shí)驗(yàn)與結(jié)果

      我們使用一種通用架構(gòu)和最新的自監(jiān)督骨干網(wǎng)絡(luò),在圖像分類任務(wù)上采用標(biāo)準(zhǔn)的測(cè)試時(shí)自適應(yīng)基準(zhǔn)進(jìn)行實(shí)驗(yàn)。我們考慮的是按批次進(jìn)行情節(jié)性測(cè)試時(shí)自適應(yīng)的設(shè)置,即每個(gè)批次處理后參數(shù)會(huì)被重置(Zhang 等人,2022),同時(shí)我們也與在線(無(wú)重置)方法(Wang 等人,2021)進(jìn)行了比較。

      數(shù)據(jù)集:我們使用 ImageNet-C(Hendrycks & Dietterich,2019)進(jìn)行評(píng)估,該數(shù)據(jù)集在標(biāo)準(zhǔn)的 ImageNet 驗(yàn)證集基礎(chǔ)上,增加了 15 種不同類型的 corruption,每種有 5 個(gè)嚴(yán)重級(jí)別。我們僅在最嚴(yán)重的第 5 級(jí)上進(jìn)行評(píng)估。同時(shí),我們也在干凈數(shù)據(jù)上進(jìn)行 TTA,以確保我們的方法在沒(méi)有分布偏移的情況下仍能保持性能。

      模型:我們使用 DINOv3-Base(Siméon 等人,2025),該模型在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。我們?cè)谠磾?shù)據(jù)(ImageNet 訓(xùn)練集)上,使用標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù)(即線性探測(cè))訓(xùn)練了一個(gè)線性分類頭。這在驗(yàn)證集上達(dá)到了 83.57% 的 top-1 準(zhǔn)確率。圖像按照 Krizhevsky 等人(2012)的方法,被預(yù)處理為標(biāo)準(zhǔn)的 ImageNet 尺寸(224×224)。


      基線方法:我們?cè)u(píng)估了不進(jìn)行任何測(cè)試時(shí)更新的情況,以衡量源模型的魯棒性。我們還將所提方法與 Tent(Wang 等人,2021)進(jìn)行了比較,Tent 方法僅更新歸一化層的參數(shù),分別在情節(jié)性和在線兩種情況下進(jìn)行。

      結(jié)果。表1顯示,與未經(jīng)過(guò)自適應(yīng)的源模型相比,我們的方法在ImageNet-C上提高了平均準(zhǔn)確率。單獨(dú)使用輸出頭熵?fù)p失的效果優(yōu)于單獨(dú)使用注意力熵?fù)p失,但將兩者結(jié)合使用能取得更佳的結(jié)果。在干凈數(shù)據(jù)上,僅使用注意力損失會(huì)輕微損害性能(83.57% → 82.95%),而使用組合損失則能略微提升準(zhǔn)確率(83.57% → 83.80%)。

      總體而言,我們的組合目標(biāo)函數(shù)實(shí)現(xiàn)了最佳的平均corruption準(zhǔn)確率,將平均準(zhǔn)確率從47.54%(源模型)提升到了54.02%(提升了6.48個(gè)百分點(diǎn))。基于注意力的熵最小化方法在處理模糊類及類似模糊的corruption(如彈性變換)時(shí)效果最好。從圖2可以看出,這是因?yàn)槟:龍D像會(huì)使注意力圖變得更加分散,而這正是注意力熵?fù)p失()直接解決的問(wèn)題。注意力損失的可視化效果見(jiàn)附錄A。


      在我們的實(shí)驗(yàn)中,我們發(fā)現(xiàn)Tent(在線)方法對(duì)學(xué)習(xí)率高度敏感,這與Zhao等人(2023)的觀察一致。較大的學(xué)習(xí)率能提升在某些corruption上的性能,但會(huì)導(dǎo)致模型在其他corruption上崩潰,使得平均準(zhǔn)確率低于源模型。我們選擇的學(xué)習(xí)率是在第5級(jí)測(cè)試集上能達(dá)到最大平均準(zhǔn)確率的值。

      4 結(jié)論與未來(lái)工作

      我們提出了LookSharp,一種簡(jiǎn)單的測(cè)試時(shí)自適應(yīng)方法,該方法通過(guò)最小化CLS令牌到圖像塊令牌的注意力熵來(lái)實(shí)現(xiàn),并在ImageNet-C上展示了一致的性能提升,尤其是在處理模糊類corruption時(shí)。將注意力熵與輸出熵相結(jié)合能獲得最佳的整體準(zhǔn)確率,這表明這兩種信號(hào)是互補(bǔ)的。

      局限性。本方法由于需要進(jìn)行前向-反向-前向傳播,會(huì)帶來(lái)額外的計(jì)算開(kāi)銷,并且要求模型架構(gòu)中包含自注意力機(jī)制。基于注意力的自適應(yīng)很可能也依賴于學(xué)習(xí)到的注意力圖的質(zhì)量,而注意力圖的質(zhì)量會(huì)因不同的架構(gòu)和預(yù)訓(xùn)練方式而異。

      盡管本工作側(cè)重于通過(guò)簡(jiǎn)潔的實(shí)驗(yàn)來(lái)展示注意力熵作為一種無(wú)監(jiān)督TTA損失函數(shù)的有效性,但未來(lái)的工作可以探索根據(jù)輸入特征對(duì)注意力熵和輸出熵進(jìn)行動(dòng)態(tài)加權(quán),或者利用從淺層到深層的多層注意力損失,以期進(jìn)一步提升性能。

      原文鏈接:https://www.arxiv.org/pdf/2511.18925

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      大戰(zhàn)可能馬上開(kāi)始了

      大戰(zhàn)可能馬上開(kāi)始了

      安安說(shuō)
      2026-02-25 10:11:39
      全球首款:三星Galaxy S26 Ultra手機(jī)支持APV編解碼器

      全球首款:三星Galaxy S26 Ultra手機(jī)支持APV編解碼器

      IT之家
      2026-02-26 07:34:32
      400億!沈騰徹底飛馳了

      400億!沈騰徹底飛馳了

      華商韜略
      2026-02-25 10:34:36
      升級(jí)版的仙人跳,比戴綠帽子還憋屈

      升級(jí)版的仙人跳,比戴綠帽子還憋屈

      霹靂炮
      2026-02-24 22:53:34
      克格勃的悲哀:偷到的西方技術(shù),卻是壓垮蘇聯(lián)的最后一根稻草

      克格勃的悲哀:偷到的西方技術(shù),卻是壓垮蘇聯(lián)的最后一根稻草

      呂醿極限手工
      2026-02-21 07:47:57
      “初十3不動(dòng),動(dòng)了一年窮”,明日正月初十“地生日”,傳統(tǒng)要懂

      “初十3不動(dòng),動(dòng)了一年窮”,明日正月初十“地生日”,傳統(tǒng)要懂

      小茉莉美食記
      2026-02-25 09:43:12
      煮湯圓,有人用開(kāi)水,用冷水!廚師長(zhǎng):都不對(duì),教您做法,不粘鍋

      煮湯圓,有人用開(kāi)水,用冷水!廚師長(zhǎng):都不對(duì),教您做法,不粘鍋

      阿龍美食記
      2026-02-23 17:09:09
      北京93歲老人終身未娶、無(wú)兒無(wú)女,去世前將千萬(wàn)財(cái)產(chǎn)贈(zèng)與照顧其12年的鄰居,法院判了

      北京93歲老人終身未娶、無(wú)兒無(wú)女,去世前將千萬(wàn)財(cái)產(chǎn)贈(zèng)與照顧其12年的鄰居,法院判了

      大風(fēng)新聞
      2026-02-24 23:13:12
      陳嵐任四川省委宣傳部副部長(zhǎng)、省委網(wǎng)信辦主任

      陳嵐任四川省委宣傳部副部長(zhǎng)、省委網(wǎng)信辦主任

      汲古知新
      2026-02-24 23:25:54
      1比3爆冷出局!21歲日本女單主力遭淘汰,孫穎莎沖冠之路有大勁敵

      1比3爆冷出局!21歲日本女單主力遭淘汰,孫穎莎沖冠之路有大勁敵

      卿子書(shū)
      2026-02-25 08:58:03
      別再存定期了!央行釋放重要信號(hào):普通人的財(cái)富保衛(wèi),主戰(zhàn)場(chǎng)已變

      別再存定期了!央行釋放重要信號(hào):普通人的財(cái)富保衛(wèi),主戰(zhàn)場(chǎng)已變

      復(fù)轉(zhuǎn)小能手
      2026-02-24 17:31:33
      太慘了!冬奧保安被凍死在崗,波蘭選手冰刀直插眼球…

      太慘了!冬奧保安被凍死在崗,波蘭選手冰刀直插眼球…

      新歐洲
      2026-02-25 19:35:40
      WTT新加坡大滿貫八強(qiáng)對(duì)陣:孫穎莎內(nèi)戰(zhàn),王曼昱對(duì)韓朱雨玲

      WTT新加坡大滿貫八強(qiáng)對(duì)陣:孫穎莎內(nèi)戰(zhàn),王曼昱對(duì)韓朱雨玲

      五姑娘臺(tái)球
      2026-02-25 21:38:38
      浴缸陪睡只是冰山一角,多位助理服務(wù)明星方式曝光,一個(gè)個(gè)太離譜

      浴缸陪睡只是冰山一角,多位助理服務(wù)明星方式曝光,一個(gè)個(gè)太離譜

      完善法
      2026-02-26 01:16:24
      母親是短跑強(qiáng)國(guó)的黑人,父親是中國(guó)人,混血球員朱正現(xiàn)狀如何?

      母親是短跑強(qiáng)國(guó)的黑人,父親是中國(guó)人,混血球員朱正現(xiàn)狀如何?

      窺史
      2026-02-25 15:49:11
      都說(shuō)不去日本,春節(jié)赴日的卻是這群人!日媒暗訪揭示內(nèi)幕

      都說(shuō)不去日本,春節(jié)赴日的卻是這群人!日媒暗訪揭示內(nèi)幕

      一盅情懷
      2026-02-25 18:35:34
      最讓大齡剩女崩潰的是什么?網(wǎng)友:為啥我一個(gè)單身狗看的津津有味

      最讓大齡剩女崩潰的是什么?網(wǎng)友:為啥我一個(gè)單身狗看的津津有味

      帶你感受人間冷暖
      2026-02-22 16:13:39
      悲劇!20歲球員生日夜毆打母親 決絕跳海赴死:第1次失敗后重跳

      悲劇!20歲球員生日夜毆打母親 決絕跳海赴死:第1次失敗后重跳

      風(fēng)過(guò)鄉(xiāng)
      2026-02-25 10:32:10
      從王濛蒙冤到米蘭冬奧慘敗:網(wǎng)友為何死咬王春露不放?這才是真相

      從王濛蒙冤到米蘭冬奧慘敗:網(wǎng)友為何死咬王春露不放?這才是真相

      老馬拉車莫少裝
      2026-02-22 12:19:12
      3-2!附加賽4大豪門(mén)出局:尤文無(wú)緣逆轉(zhuǎn)+意甲1隊(duì)晉級(jí),2黑馬攪局

      3-2!附加賽4大豪門(mén)出局:尤文無(wú)緣逆轉(zhuǎn)+意甲1隊(duì)晉級(jí),2黑馬攪局

      體育知多少
      2026-02-26 07:34:49
      2026-02-26 08:19:00
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1240文章數(shù) 18關(guān)注度
      往期回顧 全部

      科技要聞

      “機(jī)器人只跳舞,沒(méi)什么用”

      頭條要聞

      日本計(jì)劃部署導(dǎo)彈部隊(duì)距臺(tái)灣僅110公里 中方強(qiáng)硬表態(tài)

      頭條要聞

      日本計(jì)劃部署導(dǎo)彈部隊(duì)距臺(tái)灣僅110公里 中方強(qiáng)硬表態(tài)

      體育要聞

      勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

      娛樂(lè)要聞

      黃曉明新戀情!與小22歲美女同游新加坡

      財(cái)經(jīng)要聞

      上海樓市放大招,地產(chǎn)預(yù)期別太大

      汽車要聞

      750km超長(zhǎng)續(xù)航 2026款小鵬X9純電版將于3月2日上市

      態(tài)度原創(chuàng)

      親子
      教育
      本地
      手機(jī)
      公開(kāi)課

      親子要聞

      產(chǎn)后性生活冷淡?找回“高潮”,是修復(fù)夫妻關(guān)系的第一步

      教育要聞

      圓內(nèi)接四邊形第1講,非常重要!

      本地新聞

      津南好·四時(shí)總相宜

      手機(jī)要聞

      小米還是第一,vivo已不是第二,OPPO、榮耀順延

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版