LookSharp:通過(guò)注意力熵最小化實(shí)現(xiàn)測(cè)試時(shí)自適應(yīng)
LOOKSHARP: ATTENTION ENTROPYMINIMIZATION FOR TEST-TIME ADAPTATION
https://www.arxiv.org/pdf/2511.18925
![]()
摘要
測(cè)試時(shí)自適應(yīng)(TTA)旨在推理過(guò)程中更新模型,以減少因數(shù)據(jù)分布偏移而產(chǎn)生的誤差。雖然對(duì)輸出分布進(jìn)行熵最小化已被證明是一種有效的TTA損失函數(shù),但我們轉(zhuǎn)而研究利用Transformer在注意力機(jī)制中計(jì)算的中間分布。我們提出了LookSharp方法,該方法將最后一層中CLS令牌對(duì)圖像塊的注意力熵最小化作為新的TTA目標(biāo),促使模型在遇到偏移數(shù)據(jù)時(shí)仍能保持聚焦的注意力。我們證明,注意力熵最小化能夠提高模型在ImageNet-C數(shù)據(jù)集上的魯棒性。同時(shí),我們還展示了該方法與輸出熵最小化互為補(bǔ)充,并能保持模型在干凈數(shù)據(jù)上的性能。
1 引言與相關(guān)工作
深度網(wǎng)絡(luò)在符合訓(xùn)練分布的數(shù)據(jù)上表現(xiàn)優(yōu)異,但在部署于存在分布偏移的數(shù)據(jù)時(shí),往往會(huì)遭遇災(zāi)難性的性能下降。最近的測(cè)試時(shí)自適應(yīng)方法探索了對(duì)輸出分布進(jìn)行熵最小化,這有助于促使模型在測(cè)試時(shí)做出更自信的預(yù)測(cè)。盡管這種方法有效,但它將特征提取器視為一個(gè)黑盒,忽略了那些本可指導(dǎo)自適應(yīng)的內(nèi)部表征。視覺(jué)Transformer因其可擴(kuò)展性,已成為視覺(jué)識(shí)別領(lǐng)域的主流架構(gòu),它提供了圖像塊上的注意力分布,能夠明確捕捉空間關(guān)系和特征重要性。
我們利用這些注意力分布進(jìn)行測(cè)試時(shí)自適應(yīng),將視覺(jué)Transformer中注意力分布的熵最小化作為一種無(wú)監(jiān)督損失來(lái)更新模型參數(shù)。由于這種方法能使注意力分布變得“銳利”,更集中于更少的令牌上,我們將其命名為L(zhǎng)ookSharp。具體來(lái)說(shuō),我們最小化由最后一層注意力頭中CLS令牌對(duì)圖像塊令牌的注意力分?jǐn)?shù)所定義的分布的熵。我們的方法主要基于兩個(gè)關(guān)鍵觀察。首先,如圖1(b)所示,如果注意力熵過(guò)于分散,模型的準(zhǔn)確率會(huì)急劇下降。其次,像DINOv3這樣的現(xiàn)代視覺(jué)Transformer,通過(guò)互聯(lián)網(wǎng)規(guī)模的自監(jiān)督訓(xùn)練,已經(jīng)學(xué)會(huì)了可解釋且以目標(biāo)為中心的注意力圖。
![]()
我們?cè)贗mageNet-C數(shù)據(jù)集上,采用批量情節(jié)性設(shè)置來(lái)演示我們的自適應(yīng)方法應(yīng)對(duì)圖像損壞的效果。即,模型在每個(gè)批次上更新,然后重置。我們還展示了結(jié)合注意力熵和輸出熵可以帶來(lái)進(jìn)一步的性能提升。
自適應(yīng)中的熵最小化。測(cè)試時(shí)自適應(yīng)常常依賴于熵最小化。Tent方法更新歸一化層的統(tǒng)計(jì)量和參數(shù)以最小化輸出熵。MEMO通過(guò)使用測(cè)試時(shí)增強(qiáng)從單個(gè)樣本創(chuàng)建批次,并采用與Tent相同的損失情節(jié)性地更新所有參數(shù),從而擴(kuò)展了該方法。其他工作如SAR和EATA則將輸出熵與銳度感知最小化、數(shù)據(jù)篩選以及通過(guò)參數(shù)正則化錨定源模型相結(jié)合。
自適應(yīng)中的注意力機(jī)制。利用注意力機(jī)制進(jìn)行更新的研究相對(duì)較少。Attent方法將測(cè)試時(shí)的注意力統(tǒng)計(jì)量與存儲(chǔ)的源域統(tǒng)計(jì)量進(jìn)行對(duì)齊。與Attent不同,我們的方法是純粹的測(cè)試時(shí)自適應(yīng),不需要存儲(chǔ)源域統(tǒng)計(jì)量。相反,它僅依賴于推理過(guò)程中注意力的置信度。因此,我們只與其他完全在測(cè)試時(shí)進(jìn)行更新的方法進(jìn)行比較。
2 方法:注意力熵最小化
![]()
![]()
我們排除了CLS令牌對(duì)自身以及對(duì)寄存器令牌的注意力分?jǐn)?shù),因?yàn)槲覀兿MP(guān)注的是圖像的空間塊,而非全局信息。最小化此損失函數(shù)可以鼓勵(lì)每個(gè)注意力頭將其注意力集中(低熵地)放在一個(gè)較小的圖像塊令牌子集上,而不是分散地關(guān)注更多令牌。我們也嘗試了先對(duì)分布進(jìn)行平均再計(jì)算其熵的方法,但效果較差。這結(jié)果是合理的,因?yàn)楦鱾€(gè)注意力頭往往會(huì)趨向于特化。我們利用最后一層的注意力分?jǐn)?shù),因?yàn)樗鼈兪亲畛墒斓摹?/p>
我們發(fā)現(xiàn),將(Wang等人,2021)中使用的標(biāo)準(zhǔn)輸出熵最小化與注意力熵最小化相結(jié)合,可以進(jìn)一步提升性能。我們使用的標(biāo)準(zhǔn)輸出熵最小化損失函數(shù)如下:
![]()
![]()
3 實(shí)驗(yàn)與結(jié)果
我們使用一種通用架構(gòu)和最新的自監(jiān)督骨干網(wǎng)絡(luò),在圖像分類任務(wù)上采用標(biāo)準(zhǔn)的測(cè)試時(shí)自適應(yīng)基準(zhǔn)進(jìn)行實(shí)驗(yàn)。我們考慮的是按批次進(jìn)行情節(jié)性測(cè)試時(shí)自適應(yīng)的設(shè)置,即每個(gè)批次處理后參數(shù)會(huì)被重置(Zhang 等人,2022),同時(shí)我們也與在線(無(wú)重置)方法(Wang 等人,2021)進(jìn)行了比較。
數(shù)據(jù)集:我們使用 ImageNet-C(Hendrycks & Dietterich,2019)進(jìn)行評(píng)估,該數(shù)據(jù)集在標(biāo)準(zhǔn)的 ImageNet 驗(yàn)證集基礎(chǔ)上,增加了 15 種不同類型的 corruption,每種有 5 個(gè)嚴(yán)重級(jí)別。我們僅在最嚴(yán)重的第 5 級(jí)上進(jìn)行評(píng)估。同時(shí),我們也在干凈數(shù)據(jù)上進(jìn)行 TTA,以確保我們的方法在沒(méi)有分布偏移的情況下仍能保持性能。
模型:我們使用 DINOv3-Base(Siméon 等人,2025),該模型在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。我們?cè)谠磾?shù)據(jù)(ImageNet 訓(xùn)練集)上,使用標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù)(即線性探測(cè))訓(xùn)練了一個(gè)線性分類頭。這在驗(yàn)證集上達(dá)到了 83.57% 的 top-1 準(zhǔn)確率。圖像按照 Krizhevsky 等人(2012)的方法,被預(yù)處理為標(biāo)準(zhǔn)的 ImageNet 尺寸(224×224)。
![]()
基線方法:我們?cè)u(píng)估了不進(jìn)行任何測(cè)試時(shí)更新的情況,以衡量源模型的魯棒性。我們還將所提方法與 Tent(Wang 等人,2021)進(jìn)行了比較,Tent 方法僅更新歸一化層的參數(shù),分別在情節(jié)性和在線兩種情況下進(jìn)行。
結(jié)果。表1顯示,與未經(jīng)過(guò)自適應(yīng)的源模型相比,我們的方法在ImageNet-C上提高了平均準(zhǔn)確率。單獨(dú)使用輸出頭熵?fù)p失的效果優(yōu)于單獨(dú)使用注意力熵?fù)p失,但將兩者結(jié)合使用能取得更佳的結(jié)果。在干凈數(shù)據(jù)上,僅使用注意力損失會(huì)輕微損害性能(83.57% → 82.95%),而使用組合損失則能略微提升準(zhǔn)確率(83.57% → 83.80%)。
總體而言,我們的組合目標(biāo)函數(shù)實(shí)現(xiàn)了最佳的平均corruption準(zhǔn)確率,將平均準(zhǔn)確率從47.54%(源模型)提升到了54.02%(提升了6.48個(gè)百分點(diǎn))。基于注意力的熵最小化方法在處理模糊類及類似模糊的corruption(如彈性變換)時(shí)效果最好。從圖2可以看出,這是因?yàn)槟:龍D像會(huì)使注意力圖變得更加分散,而這正是注意力熵?fù)p失()直接解決的問(wèn)題。注意力損失的可視化效果見(jiàn)附錄A。
![]()
在我們的實(shí)驗(yàn)中,我們發(fā)現(xiàn)Tent(在線)方法對(duì)學(xué)習(xí)率高度敏感,這與Zhao等人(2023)的觀察一致。較大的學(xué)習(xí)率能提升在某些corruption上的性能,但會(huì)導(dǎo)致模型在其他corruption上崩潰,使得平均準(zhǔn)確率低于源模型。我們選擇的學(xué)習(xí)率是在第5級(jí)測(cè)試集上能達(dá)到最大平均準(zhǔn)確率的值。
4 結(jié)論與未來(lái)工作
我們提出了LookSharp,一種簡(jiǎn)單的測(cè)試時(shí)自適應(yīng)方法,該方法通過(guò)最小化CLS令牌到圖像塊令牌的注意力熵來(lái)實(shí)現(xiàn),并在ImageNet-C上展示了一致的性能提升,尤其是在處理模糊類corruption時(shí)。將注意力熵與輸出熵相結(jié)合能獲得最佳的整體準(zhǔn)確率,這表明這兩種信號(hào)是互補(bǔ)的。
局限性。本方法由于需要進(jìn)行前向-反向-前向傳播,會(huì)帶來(lái)額外的計(jì)算開(kāi)銷,并且要求模型架構(gòu)中包含自注意力機(jī)制。基于注意力的自適應(yīng)很可能也依賴于學(xué)習(xí)到的注意力圖的質(zhì)量,而注意力圖的質(zhì)量會(huì)因不同的架構(gòu)和預(yù)訓(xùn)練方式而異。
盡管本工作側(cè)重于通過(guò)簡(jiǎn)潔的實(shí)驗(yàn)來(lái)展示注意力熵作為一種無(wú)監(jiān)督TTA損失函數(shù)的有效性,但未來(lái)的工作可以探索根據(jù)輸入特征對(duì)注意力熵和輸出熵進(jìn)行動(dòng)態(tài)加權(quán),或者利用從淺層到深層的多層注意力損失,以期進(jìn)一步提升性能。
原文鏈接:https://www.arxiv.org/pdf/2511.18925
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.