<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      TPAMI 2025 | 中國科大提出UniSOT:統一多模態單目標跟蹤新范式,性能顯著提升

      0
      分享至

      文章來源:我愛計算機視覺(ID:aicvml)

      今天,CV君想和大家分享一篇來自中國科學技術大學和Sangfor Research Institute的最新研究,這篇論文已被 TPAMI 接收,提出了一種名為 UniSOT 的統一框架,旨在解決多模態單目標跟蹤(Single Object Tracking, SOT)領域的長期挑戰。 UniSOT 這個名字,顧名思義,就是“Unified Single Object Tracking”的縮寫,它代表著一種全新的、能夠同時處理多種參考模態和視頻模態的統一跟蹤器。



      • 論文標題 : UniSOT: A Unified Framework for Multi-Modality Single Object Tracking

      • 論文作者 : Yinchao Ma, Yuyang Tang, Wenfei Yang, Tianzhu Zhang*, Xu Zhou, and Feng Wu (*通訊作者)

      • 作者機構 : 中國科學技術大學;Sangfor Research Institute

      • 論文地址 : https://arxiv.org/abs/2511.01427

      • 錄用信息 : 該論文已被 TPAMI 接收

      研究背景與動機

      在單目標跟蹤任務中,我們通常需要根據給定的參考信息來追蹤視頻序列中的特定目標。隨著應用場景的日益復雜,對跟蹤器的要求也越來越高。一方面,用戶可能通過不同的方式來指定目標,例如直接給出目標的邊界框(BBOX),或者用自然語言(NL)描述目標,甚至兩者結合(NL+BBOX)。另一方面,視頻數據本身也變得多樣化,除了常見的RGB圖像,還可能包含深度信息(RGB+Depth)、熱成像信息(RGB+Thermal)或者事件流信息(RGB+Event),這些輔助模態在光照不足、遮擋等復雜環境下能顯著提升跟蹤的魯棒性。

      然而,目前大多數現有的跟蹤器都是為特定的參考模態或視頻模態設計的。這意味著,如果我們要處理不同類型的輸入或不同模態的視頻,就需要開發或部署多個獨立的模型,這無疑增加了開發和部署的復雜性。


      圖1. 現有解決方案與UniSOT的對比。傳統跟蹤器通常針對特定模態定制,而UniSOT旨在提供一個統一的框架。

      作者認為,設計這樣一個統一的跟蹤器主要面臨兩大挑戰:

      1. 如何為多樣的參考模態設計一個統一的跟蹤模型? 不同參考模態(視覺框和自然語言)之間存在巨大的語義鴻溝,這給特征提取器的一致性學習和預測頭(Box Head)的穩定目標定位帶來了困難。

      2. 如何為多樣的視頻模態設計一個統一的訓練策略? 不同的輔助視頻模態(深度、熱成像、事件流)包含的信息量和特性各不相同,如何設計一個統一的微調機制,既能學習到跨視頻模態的對齊特征,又能保留各自模態的特有線索,是一個難題。

      為了解決上述問題,研究人員提出了 UniSOT 框架。

      UniSOT 的核心技術原理

      UniSOT 的核心思想是構建一個統一的跟蹤器,能夠以統一的參數同時處理三種參考模態和四種視頻模態。它主要由兩個核心設計構成:一個是針對參考模態統一的設計,另一個是針對視頻模態統一的設計。


      UniSOT 整體框架圖

      針對參考模態的統一設計

      為了統一處理不同的參考模態,UniSOT 設計了一個 參考通用的特征提取器(Reference-Generalized Feature Extractor) 和一個 參考自適應的預測頭(Reference-Adaptive Box Head, RABH)。

      1. 參考通用的特征提取器

      這個特征提取器基于Transformer構建,巧妙地解決了多模態特征學習、融合與對齊的問題。


      統一跟蹤框架示意圖

      • 分層特征提取與融合 :它包含N個淺層Encoder和M個深層Encoder。在淺層,視覺(圖像)和語言特征被分開獨立提取,避免了在低層次特征建模時產生混淆;在深層,兩者才進行融合,以實現高層語義的交互。

      • 任務導向的多頭注意力(TMHA) :為了在聯合訓練時兼容不同的參考輸入(比如有時只有BBOX,沒有NL), UniSOT 引入了注意力掩碼機制,屏蔽掉那些與當前任務無關的特征交互。

      • 多模態對比損失(MMCLoss) :為了解決視覺和語言之間的語義鴻溝,作者設計了一個目標級別的對比損失。它通過拉近不同參考模態(視覺/語言)的語義Token與搜索區域中目標特征的相似度,同時推遠與背景(特別是硬背景,即干擾物)特征的相似度,從而將視覺和語言特征對齊到統一的語義空間,并增強了參考特征的判別力。

      多模態對比損失(MMCLoss)示意圖

      2. 參考自適應的預測頭(RABH)

      傳統的預測頭對于不同的參考模態輸入,處理方式是固定的,這可能導致定位結果不穩定。為此,RABH 被設計成一個動態的頭部,它能根據不同的參考信息,自適應地從視頻上下文中挖掘場景特征來輔助定位。


      參考自適應預測頭(RABH)示意圖

      其核心是一個新穎的 基于分布的交叉注意力機制。該機制能夠從歷史幀(上下文)中自適應地挖掘出 目標(Target)、干擾物(Distractor)背景(Background) 三種特征。具體來說,它首先計算參考模態的語義Token與歷史幀中所有Patch的相似度,然后根據一個預設的閾值 β,將與目標外觀相似但非目標的Patch識別為“干擾物”,其余的則為“背景”。這樣,通過對比學習的方式,利用動態更新的目標、干擾物和背景原型來進行目標定位,大大提升了在復雜場景下的穩定性和魯棒性。

      針對視頻模態的統一設計

      在完成了對RGB序列上不同參考模態的統一后,UniSOT 進入第二訓練階段,以統一處理多種視頻模態(RGB+Depth, RGB+Thermal, RGB+Event)。其核心是 秩自適應模態適配(Rank-Adaptive Modality Adaptation, RAMA) 機制。


      輔助模態調整塊(AMTB)示意圖

      RAMA 的設計靈感來源于AdaLoRA,它通過在預訓練好的模型中注入增量權重(? = PΛQ)的方式來適配新的視頻模態,而不是微調整個模型。

      • 參數共享與模態對齊 :所有輔助模態共享正交矩陣P和Q,這有助于學習跨視頻模態的對齊特征。

      • 秩自適應與模態特定 :每個輔助模態擁有自己獨立的奇異值矩陣Λ(即ΛD, ΛT, ΛE),并通過一個重要性評估函數來動態地為不同層、不同模塊、不同模態的增量參數分配不同的秩(rank)。這意味著模型可以自動判斷每個模態需要多少“特定信息”,為信息量大的模態分配更高的秩,為信息量少的模態分配較低的秩,從而在學習模態共性特征的同時,保留了模態的個性特征,并有效防止了過擬合。

      實驗結果與分析

      研究團隊在 18 個基準上對 UniSOT 進行了廣泛的實驗評估,結果表明其性能顯著優于那些為特定模態設計的現有方法。

      參考模態統一的有效性

      • TNL2K 數據集上, UniSOT 在BBOX、NL、NL+BBOX三種參考模態下的AUC性能均超過了現有方法 3.0% 以上。

      • 消融實驗(表10)證明,MMCLoss和RABH兩個模塊都帶來了顯著的性能提升。例如,在NL參考下,MMCLoss帶來了2.3%的AUC提升,RABH帶來了2.0%的AUC提升。

      UniSOT中不同組件的消融實驗

      視頻模態統一的有效性

      • RGB+Depth (VOT-RGBD22, DepthTrack), RGB+Thermal (LasHeR, RGBT234), 和 RGB+Event (VisEvent) 三類任務上, UniSOT 的主要指標比之前的統一模型 Un-Track 提升了 2.0% 以上。

      • 例如,在RGBT234數據集上, UniSOT-B 的MSR比Un-Track高出1.6% (64.1% vs 62.5%)。在VisEvent上,AUC高出1.8% (60.7% vs 58.9%)。

      與SOTA RGBD跟蹤器的比較


      與SOTA RGBT跟蹤器的比較


      與SOTA RGBE跟蹤器的比較

      可視化分析

      可視化結果也直觀地證明了 UniSOT 的有效性。例如,RABH能夠更穩定地定位目標,有效抑制干擾物;MMCLoss使得視覺和語言語義Token的響應圖更加一致且具有判別力。


      目標定位結果可視化顯示


      不同參考模態下的跟蹤結果可視化


      不同輔助模態下的跟蹤結果可視化

      總結與展望

      UniSOT 的提出,無疑為多模態單目標跟蹤領域帶來了新的思路。它通過一系列精巧的設計,首次實現了一個能夠以統一參數處理多種參考模態和視頻模態的跟蹤器,極大地提升了跟蹤器的實用性和泛化能力。CV君覺得,這種統一化的設計理念,不僅簡化了模型部署,也為未來更復雜的跨模態感知任務提供了寶貴的經驗。

      你覺得這個技術未來會用在哪些場景?一起來聊聊吧!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      自律,C羅現在的身材與十年前幾乎沒什么區別

      自律,C羅現在的身材與十年前幾乎沒什么區別

      懂球帝
      2025-12-20 12:37:05
      迪麗熱巴“天使蹲”火出圈,顏值驚艷全網,醫生:無基礎者慎入

      迪麗熱巴“天使蹲”火出圈,顏值驚艷全網,醫生:無基礎者慎入

      悠悠說世界
      2025-12-21 08:34:39
      彈劾賴清德當天,5名大法官下場力挺,藍白震怒,大V:斗爭太慘烈

      彈劾賴清德當天,5名大法官下場力挺,藍白震怒,大V:斗爭太慘烈

      王姐懶人家常菜
      2025-12-20 16:38:37
      深度揭秘?|?“規劃女王”高楊,把自己“規劃”到了監獄——一個“技術官僚”的腐敗折疊

      深度揭秘?|?“規劃女王”高楊,把自己“規劃”到了監獄——一個“技術官僚”的腐敗折疊

      一分為三看人生
      2025-12-20 00:10:11
      白崇禧之子,一生無妻無兒,相伴38年高中同學死后,他公開性取向

      白崇禧之子,一生無妻無兒,相伴38年高中同學死后,他公開性取向

      墨說古今
      2025-12-16 23:10:42
      Anbernic安伯尼克RG477V掌機發布,可模擬Wii U、PS2游戲

      Anbernic安伯尼克RG477V掌機發布,可模擬Wii U、PS2游戲

      IT之家
      2025-12-21 09:44:48
      上海財大校長劉元春直言:不是老百姓不花錢,是錢沒到他們手上!

      上海財大校長劉元春直言:不是老百姓不花錢,是錢沒到他們手上!

      小濤叨叨
      2025-12-20 12:05:37
      石破茂的預言開始應驗,中方還沒有發力,日本企業就已經撐不住了

      石破茂的預言開始應驗,中方還沒有發力,日本企業就已經撐不住了

      來科點譜
      2025-12-21 08:57:41
      宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

      宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

      八斗小先生
      2025-07-17 15:12:37
      楊鳴:這賽季聯賽可能是歷史上最激烈的,末節很容易出現逆轉

      楊鳴:這賽季聯賽可能是歷史上最激烈的,末節很容易出現逆轉

      懂球帝
      2025-12-20 21:45:12
      到底是什么肉?消費者:必勝客實物牛排與菜單差距大,口感奇怪;暗訪發現…

      到底是什么肉?消費者:必勝客實物牛排與菜單差距大,口感奇怪;暗訪發現…

      上觀新聞
      2025-12-19 14:17:05
      我開了8年車,勸普通家庭別碰30萬級汽車,這些隱性成本真扛不住

      我開了8年車,勸普通家庭別碰30萬級汽車,這些隱性成本真扛不住

      李子櫥
      2025-12-20 16:48:52
      浙江金華一?;ê闷?172cm 仙姿玉色貌美如花 絕世佳人不過如此

      浙江金華一?;ê闷?172cm 仙姿玉色貌美如花 絕世佳人不過如此

      戶外小阿隋
      2025-12-20 11:01:02
      就在今天!12月21日凌晨,傳來全紅嬋、張家齊新消息

      就在今天!12月21日凌晨,傳來全紅嬋、張家齊新消息

      皮皮觀天下
      2025-12-21 05:04:19
      普京喊話呂特:“為何執意要跟我們打仗?”

      普京喊話呂特:“為何執意要跟我們打仗?”

      參考消息
      2025-12-20 21:25:31
      萬萬沒想到,釋永信全家被扒,原來他才是那個“冰山一角”!

      萬萬沒想到,釋永信全家被扒,原來他才是那個“冰山一角”!

      智慧生活筆記
      2025-12-21 08:58:19
      女留學生染指上千外國男子,拍成視頻走紅網絡,父母與她斷絕關系

      女留學生染指上千外國男子,拍成視頻走紅網絡,父母與她斷絕關系

      阿胡
      2024-06-16 11:06:11
      若人類全部滅絕,數億年后,地球上有可能再次進化出人類嗎?

      若人類全部滅絕,數億年后,地球上有可能再次進化出人類嗎?

      心中的麥田
      2025-12-19 20:24:22
      黃埔名將胡璉:晚年絕口不提粟裕,死前讓子孫拿紙筆畫下一幅地圖

      黃埔名將胡璉:晚年絕口不提粟裕,死前讓子孫拿紙筆畫下一幅地圖

      宅家伍菇涼
      2025-12-21 09:30:03
      官方辟謠深圳西站正式開工拆遷

      官方辟謠深圳西站正式開工拆遷

      黃河新聞網呂梁頻道
      2025-12-20 11:04:11
      2025-12-21 10:44:49
      算法與數學之美 incentive-icons
      算法與數學之美
      分享知識,交流思想
      5271文章數 64595關注度
      往期回顧 全部

      科技要聞

      生態適配已超95% 鴻蒙下一關:十萬個應用

      頭條要聞

      愛潑斯坦案最新文件公布 有記錄顯示來電人為特朗普

      頭條要聞

      愛潑斯坦案最新文件公布 有記錄顯示來電人為特朗普

      體育要聞

      我開了20年大巴,現在是一名西甲主帥

      娛樂要聞

      鹿晗關曉彤戀愛期間毫不避諱?

      財經要聞

      百年老店陷貼牌爭議 同仁堂必須作出取舍

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態度原創

      藝術
      家居
      教育
      數碼
      手機

      藝術要聞

      毛主席致傅作義的信件曝光,字跡生動令人震撼!

      家居要聞

      高端私宅 理想隱居圣地

      教育要聞

      從“招生困難”到“火爆教育圈”,范家小學做對了什么?

      數碼要聞

      IDC:受內存超級周期沖擊,明年PC價格將普漲15%-20%

      手機要聞

      白色靈動島:消息稱努比亞手機也將“上島”,可自行選擇開關

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 999国产精品视频免费| 亚洲日韩中文字幕在线播放 | 一区二区三区久久| 国产欧美精品一区aⅴ影院| 亚洲伊人情人综合网站| 日韩av影院在线观看| 丰满少妇人妻久久久久久| 丁香婷婷社区| 久久精品99久久久久久久久| 精品熟女少妇免费久久| 久久高潮少妇视频免费| 一本一本久久a久久精品综合不卡| 九九国产在线| 亚洲国产区| 欧美啊v| 熟妇导航| 欧美18videosex性欧美tube1080 | 伊人偷拍| 东京热大乱w姦| 中文字幕三区| 亚洲AV日韩精品久久久久| 亚洲国产综合自在线另类| 国模吧无码一区二区三区| 国产成人精品午夜2022| 人妻在线资源| 光山县| 操逼不卡| 淫荡人妻中文字幕| 又大又紧又粉嫩18p少妇| 亚洲精品成人A在线观看| 日韩av爽爽爽久久久久久| 国产思思99re99在线观看| 亚洲日韩精品一区二区三区无码| 国产婷婷综合在线视频| 在线观看免费人成视频色9| 国产成人精品亚洲| 无码123| 足交91| 中文字幕av在线| 久久99久久99精品免视看国产成人| 成全我在线观看免费第二季|