網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

通過(guò)注意力熵最小化實(shí)現(xiàn)測(cè)試時(shí)自適應(yīng)

2026-02-24 14:25:19　來(lái)源: CreateAMind

上海舉報(bào)

分享至

LookSharp：通過(guò)注意力熵最小化實(shí)現(xiàn)測(cè)試時(shí)自適應(yīng)

LOOKSHARP: ATTENTION ENTROPYMINIMIZATION FOR TEST-TIME ADAPTATION

https://www.arxiv.org/pdf/2511.18925

摘要

測(cè)試時(shí)自適應(yīng)（TTA）旨在推理過(guò)程中更新模型，以減少因數(shù)據(jù)分布偏移而產(chǎn)生的誤差。雖然對(duì)輸出分布進(jìn)行熵最小化已被證明是一種有效的TTA損失函數(shù)，但我們轉(zhuǎn)而研究利用Transformer在注意力機(jī)制中計(jì)算的中間分布。我們提出了LookSharp方法，該方法將最后一層中CLS令牌對(duì)圖像塊的注意力熵最小化作為新的TTA目標(biāo)，促使模型在遇到偏移數(shù)據(jù)時(shí)仍能保持聚焦的注意力。我們證明，注意力熵最小化能夠提高模型在ImageNet-C數(shù)據(jù)集上的魯棒性。同時(shí)，我們還展示了該方法與輸出熵最小化互為補(bǔ)充，并能保持模型在干凈數(shù)據(jù)上的性能。

1 引言與相關(guān)工作

深度網(wǎng)絡(luò)在符合訓(xùn)練分布的數(shù)據(jù)上表現(xiàn)優(yōu)異，但在部署于存在分布偏移的數(shù)據(jù)時(shí)，往往會(huì)遭遇災(zāi)難性的性能下降。最近的測(cè)試時(shí)自適應(yīng)方法探索了對(duì)輸出分布進(jìn)行熵最小化，這有助于促使模型在測(cè)試時(shí)做出更自信的預(yù)測(cè)。盡管這種方法有效，但它將特征提取器視為一個(gè)黑盒，忽略了那些本可指導(dǎo)自適應(yīng)的內(nèi)部表征。視覺(jué)Transformer因其可擴(kuò)展性，已成為視覺(jué)識(shí)別領(lǐng)域的主流架構(gòu)，它提供了圖像塊上的注意力分布，能夠明確捕捉空間關(guān)系和特征重要性。

我們利用這些注意力分布進(jìn)行測(cè)試時(shí)自適應(yīng)，將視覺(jué)Transformer中注意力分布的熵最小化作為一種無(wú)監(jiān)督損失來(lái)更新模型參數(shù)。由于這種方法能使注意力分布變得“銳利”，更集中于更少的令牌上，我們將其命名為L(zhǎng)ookSharp。具體來(lái)說(shuō)，我們最小化由最后一層注意力頭中CLS令牌對(duì)圖像塊令牌的注意力分?jǐn)?shù)所定義的分布的熵。我們的方法主要基于兩個(gè)關(guān)鍵觀察。首先，如圖1(b)所示，如果注意力熵過(guò)于分散，模型的準(zhǔn)確率會(huì)急劇下降。其次，像DINOv3這樣的現(xiàn)代視覺(jué)Transformer，通過(guò)互聯(lián)網(wǎng)規(guī)模的自監(jiān)督訓(xùn)練，已經(jīng)學(xué)會(huì)了可解釋且以目標(biāo)為中心的注意力圖。

我們?cè)贗mageNet-C數(shù)據(jù)集上，采用批量情節(jié)性設(shè)置來(lái)演示我們的自適應(yīng)方法應(yīng)對(duì)圖像損壞的效果。即，模型在每個(gè)批次上更新，然后重置。我們還展示了結(jié)合注意力熵和輸出熵可以帶來(lái)進(jìn)一步的性能提升。

自適應(yīng)中的熵最小化。測(cè)試時(shí)自適應(yīng)常常依賴于熵最小化。Tent方法更新歸一化層的統(tǒng)計(jì)量和參數(shù)以最小化輸出熵。MEMO通過(guò)使用測(cè)試時(shí)增強(qiáng)從單個(gè)樣本創(chuàng)建批次，并采用與Tent相同的損失情節(jié)性地更新所有參數(shù)，從而擴(kuò)展了該方法。其他工作如SAR和EATA則將輸出熵與銳度感知最小化、數(shù)據(jù)篩選以及通過(guò)參數(shù)正則化錨定源模型相結(jié)合。

自適應(yīng)中的注意力機(jī)制。利用注意力機(jī)制進(jìn)行更新的研究相對(duì)較少。Attent方法將測(cè)試時(shí)的注意力統(tǒng)計(jì)量與存儲(chǔ)的源域統(tǒng)計(jì)量進(jìn)行對(duì)齊。與Attent不同，我們的方法是純粹的測(cè)試時(shí)自適應(yīng)，不需要存儲(chǔ)源域統(tǒng)計(jì)量。相反，它僅依賴于推理過(guò)程中注意力的置信度。因此，我們只與其他完全在測(cè)試時(shí)進(jìn)行更新的方法進(jìn)行比較。

2 方法：注意力熵最小化

我們排除了CLS令牌對(duì)自身以及對(duì)寄存器令牌的注意力分?jǐn)?shù)，因?yàn)槲覀兿ＭP(guān)注的是圖像的空間塊，而非全局信息。最小化此損失函數(shù)可以鼓勵(lì)每個(gè)注意力頭將其注意力集中（低熵地）放在一個(gè)較小的圖像塊令牌子集上，而不是分散地關(guān)注更多令牌。我們也嘗試了先對(duì)分布進(jìn)行平均再計(jì)算其熵的方法，但效果較差。這結(jié)果是合理的，因?yàn)楦鱾€(gè)注意力頭往往會(huì)趨向于特化。我們利用最后一層的注意力分?jǐn)?shù)，因?yàn)樗鼈兪亲畛墒斓摹?/p>

我們發(fā)現(xiàn)，將(Wang等人，2021)中使用的標(biāo)準(zhǔn)輸出熵最小化與注意力熵最小化相結(jié)合，可以進(jìn)一步提升性能。我們使用的標(biāo)準(zhǔn)輸出熵最小化損失函數(shù)如下：

3 實(shí)驗(yàn)與結(jié)果

我們使用一種通用架構(gòu)和最新的自監(jiān)督骨干網(wǎng)絡(luò)，在圖像分類任務(wù)上采用標(biāo)準(zhǔn)的測(cè)試時(shí)自適應(yīng)基準(zhǔn)進(jìn)行實(shí)驗(yàn)。我們考慮的是按批次進(jìn)行情節(jié)性測(cè)試時(shí)自適應(yīng)的設(shè)置，即每個(gè)批次處理后參數(shù)會(huì)被重置（Zhang 等人，2022），同時(shí)我們也與在線（無(wú)重置）方法（Wang 等人，2021）進(jìn)行了比較。

數(shù)據(jù)集：我們使用 ImageNet-C（Hendrycks & Dietterich，2019）進(jìn)行評(píng)估，該數(shù)據(jù)集在標(biāo)準(zhǔn)的 ImageNet 驗(yàn)證集基礎(chǔ)上，增加了 15 種不同類型的 corruption，每種有 5 個(gè)嚴(yán)重級(jí)別。我們僅在最嚴(yán)重的第 5 級(jí)上進(jìn)行評(píng)估。同時(shí)，我們也在干凈數(shù)據(jù)上進(jìn)行 TTA，以確保我們的方法在沒(méi)有分布偏移的情況下仍能保持性能。

模型：我們使用 DINOv3-Base（Siméon 等人，2025），該模型在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。我們?cè)谠磾?shù)據(jù)（ImageNet 訓(xùn)練集）上，使用標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù)（即線性探測(cè)）訓(xùn)練了一個(gè)線性分類頭。這在驗(yàn)證集上達(dá)到了 83.57% 的 top-1 準(zhǔn)確率。圖像按照 Krizhevsky 等人（2012）的方法，被預(yù)處理為標(biāo)準(zhǔn)的 ImageNet 尺寸（224×224）。

基線方法：我們?cè)u(píng)估了不進(jìn)行任何測(cè)試時(shí)更新的情況，以衡量源模型的魯棒性。我們還將所提方法與 Tent（Wang 等人，2021）進(jìn)行了比較，Tent 方法僅更新歸一化層的參數(shù)，分別在情節(jié)性和在線兩種情況下進(jìn)行。

結(jié)果。表1顯示，與未經(jīng)過(guò)自適應(yīng)的源模型相比，我們的方法在ImageNet-C上提高了平均準(zhǔn)確率。單獨(dú)使用輸出頭熵?fù)p失的效果優(yōu)于單獨(dú)使用注意力熵?fù)p失，但將兩者結(jié)合使用能取得更佳的結(jié)果。在干凈數(shù)據(jù)上，僅使用注意力損失會(huì)輕微損害性能（83.57% → 82.95%），而使用組合損失則能略微提升準(zhǔn)確率（83.57% → 83.80%）。

總體而言，我們的組合目標(biāo)函數(shù)實(shí)現(xiàn)了最佳的平均corruption準(zhǔn)確率，將平均準(zhǔn)確率從47.54%（源模型）提升到了54.02%（提升了6.48個(gè)百分點(diǎn)）。基于注意力的熵最小化方法在處理模糊類及類似模糊的corruption（如彈性變換）時(shí)效果最好。從圖2可以看出，這是因?yàn)槟：龍D像會(huì)使注意力圖變得更加分散，而這正是注意力熵?fù)p失（）直接解決的問(wèn)題。注意力損失的可視化效果見(jiàn)附錄A。

在我們的實(shí)驗(yàn)中，我們發(fā)現(xiàn)Tent（在線）方法對(duì)學(xué)習(xí)率高度敏感，這與Zhao等人（2023）的觀察一致。較大的學(xué)習(xí)率能提升在某些corruption上的性能，但會(huì)導(dǎo)致模型在其他corruption上崩潰，使得平均準(zhǔn)確率低于源模型。我們選擇的學(xué)習(xí)率是在第5級(jí)測(cè)試集上能達(dá)到最大平均準(zhǔn)確率的值。

4 結(jié)論與未來(lái)工作

我們提出了LookSharp，一種簡(jiǎn)單的測(cè)試時(shí)自適應(yīng)方法，該方法通過(guò)最小化CLS令牌到圖像塊令牌的注意力熵來(lái)實(shí)現(xiàn)，并在ImageNet-C上展示了一致的性能提升，尤其是在處理模糊類corruption時(shí)。將注意力熵與輸出熵相結(jié)合能獲得最佳的整體準(zhǔn)確率，這表明這兩種信號(hào)是互補(bǔ)的。

局限性。本方法由于需要進(jìn)行前向-反向-前向傳播，會(huì)帶來(lái)額外的計(jì)算開(kāi)銷，并且要求模型架構(gòu)中包含自注意力機(jī)制。基于注意力的自適應(yīng)很可能也依賴于學(xué)習(xí)到的注意力圖的質(zhì)量，而注意力圖的質(zhì)量會(huì)因不同的架構(gòu)和預(yù)訓(xùn)練方式而異。

盡管本工作側(cè)重于通過(guò)簡(jiǎn)潔的實(shí)驗(yàn)來(lái)展示注意力熵作為一種無(wú)監(jiān)督TTA損失函數(shù)的有效性，但未來(lái)的工作可以探索根據(jù)輸入特征對(duì)注意力熵和輸出熵進(jìn)行動(dòng)態(tài)加權(quán)，或者利用從淺層到深層的多層注意力損失，以期進(jìn)一步提升性能。

原文鏈接：https://www.arxiv.org/pdf/2511.18925

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.