網易首頁 > 網易號 > 正文申請入駐

TPAMI 2025 | 中國科大提出UniSOT：統一多模態單目標跟蹤新范式，性能顯著提升

2025-11-08 20:34:54　來源: 算法與數學之美

北京舉報

分享至

文章來源：我愛計算機視覺（ID：aicvml）

今天，CV君想和大家分享一篇來自中國科學技術大學和Sangfor Research Institute的最新研究，這篇論文已被 TPAMI 接收，提出了一種名為 UniSOT 的統一框架，旨在解決多模態單目標跟蹤（Single Object Tracking, SOT）領域的長期挑戰。 UniSOT 這個名字，顧名思義，就是“Unified Single Object Tracking”的縮寫，它代表著一種全新的、能夠同時處理多種參考模態和視頻模態的統一跟蹤器。

論文標題 : UniSOT: A Unified Framework for Multi-Modality Single Object Tracking
論文作者 : Yinchao Ma, Yuyang Tang, Wenfei Yang, Tianzhu Zhang*, Xu Zhou, and Feng Wu (*通訊作者)
作者機構 : 中國科學技術大學；Sangfor Research Institute
論文地址 : https://arxiv.org/abs/2511.01427
錄用信息 : 該論文已被 TPAMI 接收

研究背景與動機

在單目標跟蹤任務中，我們通常需要根據給定的參考信息來追蹤視頻序列中的特定目標。隨著應用場景的日益復雜，對跟蹤器的要求也越來越高。一方面，用戶可能通過不同的方式來指定目標，例如直接給出目標的邊界框（BBOX），或者用自然語言（NL）描述目標，甚至兩者結合（NL+BBOX）。另一方面，視頻數據本身也變得多樣化，除了常見的RGB圖像，還可能包含深度信息（RGB+Depth）、熱成像信息（RGB+Thermal）或者事件流信息（RGB+Event），這些輔助模態在光照不足、遮擋等復雜環境下能顯著提升跟蹤的魯棒性。

然而，目前大多數現有的跟蹤器都是為特定的參考模態或視頻模態設計的。這意味著，如果我們要處理不同類型的輸入或不同模態的視頻，就需要開發或部署多個獨立的模型，這無疑增加了開發和部署的復雜性。

圖1. 現有解決方案與UniSOT的對比。傳統跟蹤器通常針對特定模態定制，而UniSOT旨在提供一個統一的框架。

作者認為，設計這樣一個統一的跟蹤器主要面臨兩大挑戰：

如何為多樣的參考模態設計一個統一的跟蹤模型？ 不同參考模態（視覺框和自然語言）之間存在巨大的語義鴻溝，這給特征提取器的一致性學習和預測頭（Box Head）的穩定目標定位帶來了困難。
如何為多樣的視頻模態設計一個統一的訓練策略？ 不同的輔助視頻模態（深度、熱成像、事件流）包含的信息量和特性各不相同，如何設計一個統一的微調機制，既能學習到跨視頻模態的對齊特征，又能保留各自模態的特有線索，是一個難題。

為了解決上述問題，研究人員提出了 UniSOT 框架。

UniSOT 的核心技術原理

UniSOT 的核心思想是構建一個統一的跟蹤器，能夠以統一的參數同時處理三種參考模態和四種視頻模態。它主要由兩個核心設計構成：一個是針對參考模態統一的設計，另一個是針對視頻模態統一的設計。

UniSOT 整體框架圖

針對參考模態的統一設計

為了統一處理不同的參考模態，UniSOT 設計了一個 參考通用的特征提取器（Reference-Generalized Feature Extractor） 和一個 參考自適應的預測頭（Reference-Adaptive Box Head, RABH）。

1. 參考通用的特征提取器

這個特征提取器基于Transformer構建，巧妙地解決了多模態特征學習、融合與對齊的問題。

統一跟蹤框架示意圖

分層特征提取與融合 ：它包含N個淺層Encoder和M個深層Encoder。在淺層，視覺（圖像）和語言特征被分開獨立提取，避免了在低層次特征建模時產生混淆；在深層，兩者才進行融合，以實現高層語義的交互。
任務導向的多頭注意力（TMHA） ：為了在聯合訓練時兼容不同的參考輸入（比如有時只有BBOX，沒有NL）， UniSOT 引入了注意力掩碼機制，屏蔽掉那些與當前任務無關的特征交互。
多模態對比損失（MMCLoss） ：為了解決視覺和語言之間的語義鴻溝，作者設計了一個目標級別的對比損失。它通過拉近不同參考模態（視覺/語言）的語義Token與搜索區域中目標特征的相似度，同時推遠與背景（特別是硬背景，即干擾物）特征的相似度，從而將視覺和語言特征對齊到統一的語義空間，并增強了參考特征的判別力。

多模態對比損失（MMCLoss）示意圖

2. 參考自適應的預測頭（RABH）

傳統的預測頭對于不同的參考模態輸入，處理方式是固定的，這可能導致定位結果不穩定。為此，RABH 被設計成一個動態的頭部，它能根據不同的參考信息，自適應地從視頻上下文中挖掘場景特征來輔助定位。

參考自適應預測頭（RABH）示意圖

其核心是一個新穎的 基于分布的交叉注意力機制。該機制能夠從歷史幀（上下文）中自適應地挖掘出 目標（Target）、干擾物（Distractor） 和 背景（Background） 三種特征。具體來說，它首先計算參考模態的語義Token與歷史幀中所有Patch的相似度，然后根據一個預設的閾值 β，將與目標外觀相似但非目標的Patch識別為“干擾物”，其余的則為“背景”。這樣，通過對比學習的方式，利用動態更新的目標、干擾物和背景原型來進行目標定位，大大提升了在復雜場景下的穩定性和魯棒性。

針對視頻模態的統一設計

在完成了對RGB序列上不同參考模態的統一后，UniSOT 進入第二訓練階段，以統一處理多種視頻模態（RGB+Depth, RGB+Thermal, RGB+Event）。其核心是 秩自適應模態適配（Rank-Adaptive Modality Adaptation, RAMA） 機制。

輔助模態調整塊（AMTB）示意圖

RAMA 的設計靈感來源于AdaLoRA，它通過在預訓練好的模型中注入增量權重（? = PΛQ）的方式來適配新的視頻模態，而不是微調整個模型。

參數共享與模態對齊 ：所有輔助模態共享正交矩陣P和Q，這有助于學習跨視頻模態的對齊特征。
秩自適應與模態特定 ：每個輔助模態擁有自己獨立的奇異值矩陣Λ（即ΛD, ΛT, ΛE），并通過一個重要性評估函數來動態地為不同層、不同模塊、不同模態的增量參數分配不同的秩（rank）。這意味著模型可以自動判斷每個模態需要多少“特定信息”，為信息量大的模態分配更高的秩，為信息量少的模態分配較低的秩，從而在學習模態共性特征的同時，保留了模態的個性特征，并有效防止了過擬合。

實驗結果與分析

研究團隊在 18 個基準上對 UniSOT 進行了廣泛的實驗評估，結果表明其性能顯著優于那些為特定模態設計的現有方法。

參考模態統一的有效性

在 TNL2K 數據集上， UniSOT 在BBOX、NL、NL+BBOX三種參考模態下的AUC性能均超過了現有方法 3.0% 以上。
消融實驗（表10）證明，MMCLoss和RABH兩個模塊都帶來了顯著的性能提升。例如，在NL參考下，MMCLoss帶來了2.3%的AUC提升，RABH帶來了2.0%的AUC提升。

UniSOT中不同組件的消融實驗

視頻模態統一的有效性

在 RGB+Depth (VOT-RGBD22, DepthTrack), RGB+Thermal (LasHeR, RGBT234), 和 RGB+Event (VisEvent) 三類任務上， UniSOT 的主要指標比之前的統一模型 Un-Track 提升了 2.0% 以上。
例如，在RGBT234數據集上， UniSOT-B 的MSR比Un-Track高出1.6% (64.1% vs 62.5%)。在VisEvent上，AUC高出1.8% (60.7% vs 58.9%)。

與SOTA RGBD跟蹤器的比較

與SOTA RGBT跟蹤器的比較

與SOTA RGBE跟蹤器的比較

可視化分析

可視化結果也直觀地證明了 UniSOT 的有效性。例如，RABH能夠更穩定地定位目標，有效抑制干擾物；MMCLoss使得視覺和語言語義Token的響應圖更加一致且具有判別力。

目標定位結果可視化顯示

不同參考模態下的跟蹤結果可視化

不同輔助模態下的跟蹤結果可視化

總結與展望

UniSOT 的提出，無疑為多模態單目標跟蹤領域帶來了新的思路。它通過一系列精巧的設計，首次實現了一個能夠以統一參數處理多種參考模態和視頻模態的跟蹤器，極大地提升了跟蹤器的實用性和泛化能力。CV君覺得，這種統一化的設計理念，不僅簡化了模型部署，也為未來更復雜的跨模態感知任務提供了寶貴的經驗。

你覺得這個技術未來會用在哪些場景？一起來聊聊吧！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.