在計算機視覺領域,目標檢測技術已取得長足進步,但傳統閉集檢測方式仍存在明顯短板。想象一下,如果你能讓機器像人類一樣,只需看到幾個例子就能識別從未見過的物體,而不必經歷漫長的再訓練過程,這會帶來怎樣的變革?FS-DETR正是為解決這一挑戰而生。它通過巧妙的視覺提示和偽類嵌入機制,使模型能夠在單次前向傳遞中同時檢測多個新類別,且支持每類任意數量的樣本。最令人驚嘆的是,它不僅超越了所有無需再訓練的方法,甚至在極少樣本情況下擊敗了大多數需要再訓練的方法。這種能夠"即插即用"的檢測能力,將如何重塑我們對機器視覺學習能力的認知?
![]()
認知的邊界
傳統目標檢測技術在過去幾年取得了巨大突破,這主要得益于深度學習的廣泛應用。但這些系統普遍采用閉集設定——在固定類別上訓練和測試,這種方式存在著難以忽視的局限性。
想象你有一臺機器人助手,它能識別家中的常見物品如椅子、桌子和電視。某天,你帶回一個電子筆記本,但機器人無法識別它,因為它從未在訓練數據中見過這類物品。在現實世界中,不可能預先標注所有可能遇到的物體,因此大多數當前系統只訓練識別一小部分物體類別。
人類視覺系統則截然不同。我們可以僅通過看一眼新物體,就能在不同場景中識別它,無需"重新訓練"我們的視覺能力。這種能力很可能源于我們已學習的表示知識,這正是少樣本目標檢測(FSOD)試圖模擬的核心能力。
少樣本目標檢測指的是借助幾個樣本(通常為1-10個)來檢測訓練時未見過的新類別物體的任務。從2019年開始,這一領域的研究顯著增加,各種方法競相登場。這些方法主要分為兩大類:基于再訓練的方法和無需再訓練的方法。
基于再訓練的方法假設在測試前可以利用新類別的少量樣本微調模型。這類方法又可分為基于元學習和基于微調的方法。元學習方法如FSRW、MetaDet和Meta R-CNN嘗試通過元學習將知識從基類遷移到新類別。而基于微調的方法如TFA、FSCE和DeFRCN則采用預訓練再微調的標準流程,它們在性能上明顯優于元學習方法。
無需再訓練的方法則更為靈活,能夠在不需額外訓練的情況下直接部署。這類方法主要基于度量學習,如QA-FewDet和AirDet等。它們通常使用交叉注意力機制在骨干網絡和查詢特征間進行細化,或通過原型學習和跨尺度支持引導的方式生成檢測建議。
盡管現有FSOD系統取得了可觀進展,但要成為真正實用和靈活的系統,它們仍需滿足三個關鍵要求:(a)使用即插即用,無需測試時再訓練;(b)能在同一前向傳遞中同時處理任意數量的新物體類別和每類任意數量的樣本;(c)達到與閉集系統相當的分類準確率。目前的FSOD系統距離滿足這三點要求仍有不小差距,特別是在MSCOCO這樣的困難數據集上。
變革的設計
FS-DETR是一種基于DETR框架的創新少樣本檢測器,完全無需重新訓練就能同時處理多個新類別。這種設計思路的獨特之處在于,它將少樣本檢測問題重新構建為一個通過視覺提示控制的集合預測問題。
![]()
DETR原本通過一組可學習的查詢來重新定義目標檢測任務,這些查詢通過交叉注意力機制與圖像特征交互,從而產生檢測預測。FS-DETR在此基礎上進行了關鍵擴展,使其能夠處理開放集少樣本檢測問題。
FS-DETR的核心創新在于兩點:首先,它將新類別的視覺模板作為額外的視覺提示輸入到系統中;其次,這些提示被"打上"偽類嵌入的標記,這些偽類標記最終會在解碼器輸出中被預測出來,同時還會預測邊界框位置。
具體來說,FS-DETR的架構由三個主要部分組成:(1)CNN骨干網絡,用于從目標圖像和模板中提取視覺特征;(2)變換器編碼器,對圖像令牌執行自注意力,并在模板和圖像令牌之間執行交叉注意力;(3)變換器解碼器,處理對象查詢和模板以預測偽類和邊界框。
模板編碼是FS-DETR的第一個關鍵步驟。對于可用的m個類別(每類k個示例),模板圖像首先通過CNN骨干網絡生成模板特征。然后,這些特征被動態地關聯到偽類嵌入中,這些嵌入是隨機初始化并在訓練過程中學習的。值得注意的是,這些偽類嵌入與實際類別無關,是完全類別無關的。
這些帶有偽類嵌入的模板接著作為視覺提示被添加到傳遞給解碼器的對象查詢序列中。這樣,模板就能通過注意力機制將偽類相關信息注入到對象查詢中。這可以被視為一種新型的訓練感知軟提示。
在編碼器階段,目標圖像首先通過相同的CNN骨干網絡生成特征,并通過位置編碼增強。然后,這些特征通過多頭自注意力、層歸一化和MLP層進行處理,以獲取全局上下文信息。FS-DETR還引入了多頭交叉注意力層,用于在解碼前過濾和突出感興趣的圖像令牌。
解碼器接受連接的模板和可學習對象查詢作為輸入,通過自注意力和交叉注意力層進行轉換,最終用于偽類預測和邊界框回歸。值得一提的是,FS-DETR對應于模板和對象查詢的解碼器特征使用不同的MLP進行處理,這是因為它們攜帶的信息在語義上有所不同。
FS-DETR的訓練過程也頗具特色。對于目標圖像中存在的每個基類,系統會從訓練集中不同的圖像隨機采樣并裁剪該類別的對象作為模板。在應用圖像增強后,裁剪的對象/模板通過CNN骨干網絡傳遞。對于每個目標圖像和模板i,訓練目標是(c^s_i, b_i),其中c^s_i是目標偽類標簽,b_i是歸一化的邊界框坐標。
為了計算損失,只使用最后一個解碼層輸出的N個轉換對象查詢進行偽類分類和邊界框回歸。系統通過二分匹配找到最優排列,最終損失由交叉熵分類損失、L1邊界框回歸損失和IoU損失組成。
由于變換器架構相比CNN缺乏歸納偏置,更容易過擬合,因此FS-DETR采用無監督預訓練策略。系統使用ImageNet-100和部分MSCOCO圖像進行預訓練,其中類別和邊界框是通過對象提議系統即時生成的,無需使用任何標簽。這種預訓練方式顯著提升了系統的泛化能力。
與其他方法如TSF和AirDet不同,FS-DETR不學習任何類型的基類原型,而是完全動態的(數據與數據之間的交互,而非數據與原型的交互)。此外,與使用二元交叉熵損失的度量學習方法不同,FS-DETR訓練預測偽類,使用交叉熵以類別無關的方式,這是一個更強大的訓練目標。
![]()
技術的本質
FS-DETR的核心優勢在于它的視覺提示機制和偽類嵌入設計,這兩項創新使得模型能夠在沒有再訓練的情況下識別新類別物體。傳統目標檢測器需要大量特定類別的數據才能學習識別新物體,而FS-DETR只需要幾個示例就能完成同樣的任務。
視覺提示機制是FS-DETR的第一個關鍵創新。在這個系統中,新類別的視覺模板直接作為提示輸入到模型中。具體來說,這些模板有兩種用途:一是在編碼器中通過交叉注意力過濾骨干網絡的圖像特征;二是作為視覺提示添加到解碼器的可學習對象查詢前面。這種設計允許系統在推理時直接使用新類別的視覺外觀信息,無需額外的訓練過程。
偽類嵌入是系統的另一個關鍵組成部分。每個視覺模板都被賦予一個特定的偽類嵌入,這些嵌入在訓練過程中學習得到。值得注意的是,這些偽類嵌入是類別無關的,它們不與實際類別名稱相關聯。在訓練過程中,每次迭代都會隨機將模板關聯到偽類嵌入,這確保了系統學習到的是通用的檢測能力,而非特定類別的識別能力。當一個新類別的多個示例輸入系統時,它們會共享同一個偽類嵌入,這樣系統就能將它們識別為同一類別。
在技術實現上,偽類嵌入的添加方式非常直接:對于每個類別i的k個模板提示,系統會分配一個偽類嵌入c^s_i,并將其添加到模板特征上。這些帶有偽類標記的模板隨后被預置到傳遞給解碼器的對象查詢序列前,形成一個擴展的查詢序列。
FS-DETR處理多類別和多樣本的能力尤為突出。與需要為每個新類別單獨運行一次前向傳遞的其他方法不同,FS-DETR能在單次前向傳遞中同時處理多個新類別,每個類別可以有任意數量的示例。這大大提高了系統的效率,特別是在需要識別多個新類別的場景中。
在推理階段,用戶只需提供新類別的幾個視覺模板,系統就能直接用于檢測這些新類別,無需任何微調或再訓練。這種"即插即用"的能力使FS-DETR特別適合實時部署和資源受限的設備。
![]()
與競爭方法相比,FS-DETR的設計更加簡潔和優雅。例如,TSF方法使用額外的變換器插件模塊來建模輸入特征與基類信息之間的交互,而AirDet則嘗試學習一組原型和跨尺度支持引導的建議網絡。相比之下,FS-DETR不需要任何額外的模塊或仔細設計的結構,它直接將提示附加到解碼器的對象查詢上,通過標準的注意力機制實現所有功能。
FS-DETR的訓練目標也與其他方法不同。許多基于度量學習的方法使用二元交叉熵損失進行訓練,而FS-DETR使用多類別交叉熵來預測偽類,這是一個更強大的訓練目標。因為系統不需要學習類別名稱與視覺表示之間的映射,而是直接學習檢測物體的能力,所以它能更好地泛化到未見過的類別。
值得一提的是,FS-DETR的無監督預訓練策略在提高系統性能方面起到了關鍵作用。通過在ImageNet-100和部分MSCOCO圖像上進行預訓練,系統能夠學習到更加通用的表示,這對于少樣本學習尤為重要。預訓練過程中,系統使用對象提議系統生成類別和邊界框,完全不依賴任何人工標注。
實驗的力量
為了全面評估FS-DETR的性能,研究團隊在PASCAL VOC和MSCOCO這兩個廣泛使用的數據集上進行了大量實驗。實驗設置遵循前人工作的慣例,將數據集分為基類和新類別,用基類進行訓練,用新類別進行測試。
在PASCAL VOC數據集上,FS-DETR的表現尤為突出。對于每個k-shot實驗(k=1,2,3,5,10),FS-DETR都顯著優于所有無需再訓練的方法,在某些情況下,性能提升高達17.8個AP50點。例如,在Novel Set 1的1-shot實驗中,FS-DETR達到了45.0的AP50,而之前最好的無需再訓練方法QA-FewDet僅為41.0。這一差距在k值增加時仍然存在,展示了FS-DETR在各種樣本數量下的穩定性能。
![]()
更令人印象深刻的是,FS-DETR甚至超越了許多需要再訓練的方法,特別是在極少樣本(k=1,2)的情況下。例如,在Novel Set 2的1-shot實驗中,FS-DETR達到了37.3的AP50,而需要再訓練的方法如DeFRCN僅為29.5。這表明FS-DETR能夠在沒有額外訓練的情況下,實現與專門為新類別微調的模型相當甚至更好的性能。
在更具挑戰性的MSCOCO數據集上,FS-DETR同樣表現出色。它在大多數k-shot設置下都超越了所有無需再訓練的方法,例如,在1-shot實驗中,FS-DETR達到了7.0的AP和13.6的AP50,明顯優于之前最好的方法AirDet(5.97的AP和10.52的AP50)。與再訓練方法相比,FS-DETR在k=1,2的情況下也能匹配或超越大多數方法,這在MSCOCO這樣困難的數據集上是一個顯著成就。
研究團隊還進行了大量消融實驗,以評估不同組件對FS-DETR性能的貢獻。這些實驗涵蓋了模板編碼設計、預訓練策略、輔助損失以及個別組件的影響等方面。
模板編碼設計的實驗表明,使用注意力池化而非全局平均池化可以提升性能,而增加分辨率從128像素到192像素并沒有帶來額外收益。這表明對于當前數據集,細粒度細節并非識別新類別的關鍵,較高級別的概念已經足夠。此外,雖然空間增強通常有助于目標識別,但在模板邊界框上添加噪聲反而降低了準確率。
預訓練策略的實驗結果特別引人注目。未經預訓練的模型在Novel Set 1的1-shot實驗中只能達到19.0的AP50,而經過預訓練的模型達到了45.0,性能提升超過兩倍。這凸顯了無監督預訓練在少樣本學習中的重要性,它能幫助模型建立更好的泛化能力,防止對基類的過擬合。
![]()
研究團隊還探索了在對象查詢上應用額外輔助損失(如L2特征損失和對比損失)的效果,但沒有觀察到進一步的性能提升。這表明偽類分類損失已經足夠引導網絡學習有效的表示。
最后,個別組件的消融實驗表明,FS-DETR編碼器中的多頭交叉注意力層和解碼器中的類型特定MLP都對性能有顯著貢獻。移除這些組件會導致性能下降,特別是移除編碼器中的交叉注意力層會使得Novel Set 1的1-shot性能從45.0降至38.1。這表明早期在圖像處理中注入模板相關信息對于突出關鍵區域至關重要。
除了定量結果,研究團隊還提供了大量定性可視化結果,展示了FS-DETR在各種場景下的檢測能力。這些可視化結果直觀地展示了系統如何利用少量示例準確定位和分類新類別的物體,即使這些物體在形狀、大小、姿態和遮擋等方面有很大變化。
總體而言,實驗結果表明FS-DETR不僅滿足了實用FSOD系統的所有要求——無需再訓練、能處理多個新類別、性能接近閉集系統——而且在很多情況下超越了當前最先進的方法,特別是在極少樣本學習方面。這一成就標志著少樣本目標檢測領域的重要進展,為構建更加靈活和實用的計算機視覺系統鋪平了道路。
參考資料
Bulat, A., Guerrero, R., Martinez, B., &; Tzimiropoulos, G. (2023). FS-DETR: Few-Shot DEtection TRansformer with prompting and without re-training. ICCV 2023.
Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., &; Zagoruyko, S. (2020). End-to-End Object Detection with Transformers. ECCV 2020.
Xu, Q., Tian, Z., Wang, Y., &; Huang, T. (2022). Meta-DETR: Few-Shot Object Detection via Unified Image-Level Meta-Learning. IEEE TPAMI.
Hu, L., Zhang, S., Wang, S., Kang, B., &; Li, H. (2022). AirDet: Few-Shot Detection without Fine-tuning. CVPR 2022.
Wang, X., Huang, T., Barnes, C., Zhong, Y., &; Lu, H. (2022). Query Adaptive Few-Shot Object Detection with Heterogeneous Graph Convolutional Networks. ICCV 2021.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.