<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      CLIP驅動的無監督學習:實現多標簽圖像分類的突破

      0
      分享至

      圖像分類一直是計算機視覺領域的核心任務,但傳統方法依賴大量人工標注數據。當一張圖像包含多個物體時,獲取完整標注更是耗時費力。新興的CLIP模型雖展現出驚人的零樣本分類能力,卻主要專注于識別單一對象。如何突破這一局限?CDUL方法開辟了新路徑,它巧妙融合全局與局部圖像特征,無需任何人工標注即可實現高質量多標簽分類。當CLIP只能識別一匹馬時,CDUL卻能同時發現馬與騎手。通過精心設計的全局-局部聚合策略和梯度對齊訓練方法,它在多個基準數據集上超越了現有無監督方法,甚至接近弱監督學習的表現水平。這一突破或將徹底改變我們處理復雜視覺信息的方式。


      標注困境

      當今計算機視覺領域面臨著一個嚴峻的挑戰:圖像標注成本高昂且費時。特別是在多標簽圖像分類任務中,問題更為突出。想象一下,一張照片中同時出現了人、狗、沙發和電視,傳統方法需要人工標注出每一個物體。在大規模數據集上,如MS-COCO包含超過8萬張訓練圖像,完整標注工作量驚人。這種高成本的標注需求嚴重限制了計算機視覺技術的發展和應用。

      現有的解決方案主要分為監督學習、弱監督學習和無監督學習三類。全監督方法需要完整的標注信息,標注成本最高;弱監督方法僅需部分標注,如每張圖像只標注一個或少數幾個物體,成本有所降低;而無監督方法則完全不需要人工標注,成本最低,但通常性能較差。

      近年來,CLIP(Contrastive Language-Image Pre-training)模型因其出色的零樣本分類能力而廣受關注。CLIP通過在互聯網上收集的4億對圖像-文本數據進行預訓練,學習了豐富的視覺-語言知識。這使得CLIP可以直接對未見過的類別進行分類,無需額外的標注數據和訓練過程。

      然而,CLIP在多標簽分類任務上表現不佳。以MS-COCO數據集為例,原始CLIP模型的平均精度(mAP)僅為65.3%。這主要是因為CLIP在預訓練過程中,每張圖像通常只與一段描述文本配對,這使得模型傾向于關注圖像中最顯著的單一對象。如圖中的馬匹會獲得極高的置信度(0.98),而騎手則被忽略。這種"單標簽偏好"使CLIP難以適應多標簽場景。


      現有的無監督多標簽分類方法,如Naive AN、Szegedy等,通常依賴于偽標簽技術。它們首先為訓練數據生成初始偽標簽,然后通過迭代優化過程不斷改進模型和偽標簽。然而,這些方法的初始偽標簽質量較低,限制了最終模型的性能。以PASCAL VOC 2012數據集為例,ROLE方法的mAP僅為82.6%,遠低于弱監督方法的89.5%。

      在實際應用中,無標注多標簽分類具有廣闊的應用前景。例如,在內容檢索系統中,能夠準確識別圖像中的多個對象可以大幅提升搜索準確度;在監控系統中,自動識別場景中的多個物體可以實現更精準的異常檢測;在輔助機器人領域,多標簽識別能力可以幫助機器人更好地理解復雜環境。這些應用場景都對無監督多標簽分類技術提出了迫切需求。

      通過對比分析發現,弱監督方法如G2NetPL和LL-R在PASCAL VOC 2012上分別達到了89.5%和89.7%的mAP,而現有最佳無監督方法Szegedy僅達到86.8%。這一性能差距清晰表明,提升無監督多標簽分類性能的關鍵在于如何生成更高質量的初始偽標簽,以及如何在訓練過程中有效優化這些偽標簽。

      CDUL設計

      CDUL(CLIP-Driven Unsupervised Learning)方法針對無監督多標簽分類問題提出了創新解決方案,其核心框架包含三個關鍵階段:初始化、訓練和推理。

      在初始化階段,CDUL充分利用CLIP模型強大的零樣本能力,創新性地提出了基于全局-局部圖像-文本相似度聚合的方法來擴展CLIP進行多標簽預測。具體來說,CDUL將每張圖像分割成多個片段,利用CLIP分別生成整張圖像(全局)和每個片段(局部)的相似度向量。隨后,通過相似度聚合器整合全局和局部相似度向量,生成更為全面的多標簽預測。

      這一設計解決了CLIP的核心局限性。以一張包含"馬"和"人"的圖像為例,原始CLIP可能給"馬"類別分配0.98的高置信度,而"人"類別僅獲得很低的置信度。而通過CDUL的局部分析,圖像某些片段中"人"類別可能獲得較高置信度,從而在最終聚合后得到更加平衡的預測結果。


      在實現全局-局部聚合時,CDUL采用了一種精巧的min-max方法。對于每個類別,CDUL首先找出所有片段中該類別獲得的最高相似度分數,如果該分數超過預設閾值,就認為這個類別可能存在于圖像中;否則,就認為這個類別在圖像中出現的可能性較小。最終,全局相似度和聚合后的局部相似度通過簡單平均得到最終的偽標簽,即S^final = (S^global + S^aggregate)/2。

      實驗數據表明,這種聚合策略能顯著提升偽標簽質量。在PASCAL VOC 2012數據集上,僅使用全局對齊的偽標簽mAP為85.3%,而采用CDUL的全局-局部聚合后,偽標簽mAP提升至90.3%,增幅達5%。在COCO數據集上,提升更為顯著,從65.4%提高到72.8%,增幅達7.4%。


      在訓練階段,CDUL提出了梯度對齊方法,通過交替更新網絡參數和偽標簽來優化分類網絡。這一過程包含兩個交替進行的步驟:首先,固定偽標簽,訓練網絡參數以最小化KL散度損失;然后,固定網絡參數,更新偽標簽的潛在參數。

      具體來說,在每輪訓練開始時,偽標簽初始化為S^final。固定偽標簽后,利用KL散度損失L(Yp|Yu, X)訓練網絡,其中Yp是預測標簽,Yu是偽標簽,X是輸入圖像。訓練完成后,固定預測標簽Yp,更新偽標簽的潛在參數:

      ?u = ?u - ψ(yu)°?yu L(Yu|Yp, X)

      其中,yu = σ(?u),σ是sigmoid函數,ψ(yu)是均值為0.5的高斯分布。這個高斯分布的作用是增加不確定偽標簽的變化率,減少確定偽標簽的變化率。例如,如果偽標簽值為0.5(極不確定),高斯分布達到最大值,表示需要大幅調整該偽標簽;如果偽標簽為0或1(非常確定),高斯分布接近最小值,表示該偽標簽應保持基本不變。

      這種交替優化方法不斷推動預測標簽Yp和偽標簽Yu逐漸接近最優解,以最小化總損失函數。實驗證明,移除高斯分布模塊會導致性能下降0.5%,而使用硬偽標簽代替軟偽標簽會導致性能下降0.9%。

      在推理階段,CDUL直接將整張圖像輸入分類網絡獲得預測結果,無需分割圖像或使用CLIP模型,這大大降低了計算成本。值得注意的是,CDUL使用的分類網絡參數量僅為CLIP模型的25%左右,更適合實際部署應用。

      CDUL的每個組件都經過精心設計,共同構成了一個強大的無監督多標簽分類系統。全局-局部聚合器確保了初始偽標簽的高質量,梯度對齊訓練方法則保證了網絡能有效學習多標簽分類能力。實驗表明,在PASCAL VOC 2012數據集上,CDUL達到了88.6%的mAP,比現有最佳無監督方法提升了6.0%,甚至接近一些弱監督方法的性能水平。

      實驗見真知

      CDUL方法通過一系列嚴格實驗證明了其在無監督多標簽圖像分類領域的優越性。在四個廣泛使用的多標簽數據集上,CDUL均取得了令人矚目的成績。

      在MS-COCO數據集上,該數據集包含80個類別的8萬多張訓練圖像,CDUL達到了69.2%的平均精度(mAP),超過了現有最佳無監督方法ROLE的67.1%,提升了2.1個百分點。更值得注意的是,CDUL的性能甚至超過了Chen等人的弱監督方法(68.1%),而后者使用了10%的標注數據。


      在PASCAL VOC 2012數據集上,CDUL取得了88.6%的mAP,比現有最佳無監督方法Szegedy提高了1.8個百分點(86.8%)。同樣在PASCAL VOC 2007數據集上,CDUL達到89.0%的mAP,超過現有最佳無監督方法Szegedy的87.9%。這些結果表明,CDUL在無需任何人工標注的情況下,能夠接近弱監督方法的性能水平,如G2NetPL(89.5%)和LL-R(89.7%),而這些方法至少需要每張圖像一個標注標簽。

      從類別層面來看,CDUL在大多數類別上都取得了顯著提升。尤其對于那些小尺寸物體的識別,如"盆栽植物"、"書"、"杯子"和"酒杯"等,CDUL表現尤為出色。在PASCAL VOC 2012數據集上,CDUL在"牛"類別上的精度達到91.9%,比ROLE方法的79.8%提高了12.1個百分點;在"電視顯示器"類別上,CDUL達到89.0%,比ROLE的82.3%提高了6.7個百分點。這表明CDUL的梯度對齊訓練方法能夠有效捕獲更多信息,特別是對于那些容易被忽略的小物體。

      為了深入理解CDUL的工作機制,研究團隊進行了一系列消融實驗。關于偽標簽質量的研究表明,全局-局部聚合策略顯著提升了偽標簽的質量。在PASCAL VOC 2012數據集上,僅使用全局對齊的偽標簽mAP為85.3%,而采用CDUL的全局-局部聚合后,偽標簽mAP提升至90.3%。類似地,在COCO數據集上,全局對齊的偽標簽mAP為65.4%,而CDUL的全局-局部聚合將其提升至72.8%。

      不同聚合策略的比較也很有啟發性。簡單平均所有局部和全局相似度向量的策略在PASCAL VOC 2012上獲得88.5%的mAP,取最大相似度分數的策略獲得89.5%,而CDUL的聚合策略達到90.3%。這證明了CDUL的聚合方法確實能保留更多細粒度語義信息。

      研究團隊還探索了不同視覺編碼器對偽標簽質量的影響。實驗表明,使用更強大的視覺編碼器確實能提高偽標簽質量。例如,使用ResNet-5064作為CLIP的視覺編碼器,生成的偽標簽質量比使用ViT-B-32高4.6個百分點。雖然更強大的編碼器需要更多計算資源,但由于CLIP僅在初始化階段使用一次,不會增加訓練和推理階段的計算負擔。

      為了直觀展示CDUL的工作效果,研究團隊還提供了類激活映射(CAM)可視化結果。這些結果顯示,隨著訓練進行,分類網絡能夠逐漸學習正確的預測目標。例如,在某張包含"馬"和"人"的圖像上,初始階段網絡可能只關注"馬",但隨著訓練進行,網絡逐漸開始關注"人",最終能夠同時識別兩個對象。這直觀地證明了CDUL能夠學習多標簽分類能力。

      值得一提的是,CDUL在推理階段只使用訓練好的分類網絡,不需要CLIP模型,這大大降低了計算成本。與直接使用CLIP結合全局-局部對齊策略(CLIP-GLA)相比,CDUL不僅性能更好(在PASCAL VOC 2012上高1.7個百分點,在COCO上高3.5個百分點),而且參數量更少(2500萬vs.1.02億),更適合實際部署。

      深遠影響


      CDUL方法的提出不僅是技術上的創新,更對計算機視覺領域產生了深遠影響。它徹底改變了人們對無監督多標簽圖像分類的認識,證明了即使沒有任何人工標注,也能實現高質量的多標簽分類。

      在標注成本方面,CDUL實現了顯著突破。傳統的全監督多標簽分類方法需要為每張圖像標注所有存在的對象,這在大規模數據集上幾乎不可行。以MS-COCO為例,該數據集包含超過8萬張訓練圖像,平均每張圖像有2.9個標簽,總計需要約23.8萬個標注。即使采用眾包方式,每個標注假設需要5秒,也需要耗費約33萬分鐘(約230天)的人力。而CDUL完全不需要人工標注,將標注成本降至零,同時性能僅比全監督方法低約10個百分點。

      與弱監督方法相比,CDUL也展現出獨特優勢。雖然弱監督方法如G2NetPL和LL-R在部分數據集上性能略高于CDUL,但它們至少需要每張圖像一個標注標簽。這意味著對于包含M張圖像的數據集,仍需M個標注。而CDUL不需要任何標注,完全消除了標注成本。更重要的是,CDUL在某些情況下甚至超過了使用10%標注數據的弱監督方法,如在COCO數據集上超過了Chen等人的方法(69.2% vs. 68.1%)。

      通過類激活映射(CAM)可視化,我們能直觀理解CDUL是如何工作的。在一張同時包含"瓶子"和"酒杯"的圖像中,CDUL模型能夠同時定位并正確分類這兩個物體,而傳統方法往往只能識別其中一個。類似地,在包含"杯子"和"遙控器"的圖像中,CDUL也能準確定位這些小物體,展示了其處理復雜場景的能力。

      值得注意的是,CDUL與弱監督方法在本質上有很大不同。弱監督方法假設提供的部分標簽是正確的,可以信任用于訓練。而CDUL使用CLIP生成的偽標簽可能包含大量未知和不正確的標簽(例如,原始CLIP在COCO數據集上的mAP僅為65.3%)。CDUL的主要貢獻在于同時訓練多標簽分類模型和修正不正確的偽標簽,這是一個更具挑戰性的任務。

      CDUL的潛在應用非常廣泛。在內容檢索系統中,CDUL可以幫助更準確地理解圖像內容,提高搜索準確度;在監控系統中,CDUL可以自動識別場景中的多個物體,實現更精準的異常檢測;在自動駕駛領域,CDUL可以幫助車輛更全面地理解道路環境;在醫學圖像分析中,CDUL可以輔助識別多種病理特征。這些應用都將極大受益于CDUL的無監督多標簽分類能力。

      未來,CDUL還有很多值得探索的改進方向。例如,可以嘗試更先進的圖像分割方法來獲取更精確的局部特征;可以探索更復雜的全局-局部聚合策略;可以嘗試與其他預訓練模型如DALLE結合;還可以將CDUL擴展到視頻多標簽分類等更復雜任務。隨著研究的深入,CDUL方法有望在更多領域展現其強大潛力。

      總的來說,CDUL開創了無監督多標簽圖像分類的新范式,不僅大幅降低了標注成本,還在性能上接近甚至超過部分弱監督方法。它證明了結合大規模預訓練模型(如CLIP)和精心設計的訓練策略,可以實現高質量的無監督學習,為計算機視覺領域的發展開辟了新路徑。

      參考資料

      1. Abdelfattah, R., Guo, Q., Li, X., Wang, X., &; Wang, S. (2023). CDUL: CLIP-Driven Unsupervised Learning for Multi-Label Image Classification. ICCV 2023.

      2. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., … &; Sutskever, I. (2021). Learning transferable visual models from natural language supervision. ICML 2021.

      3. Zhou, T., Wang, W., Qi, S., Ling, H., &; Shen, J. (2022). Self-supervised image-text pre-training for multi-modal understanding and generation. CVPR 2022.

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      麻省理工學院核科學教授在家中被槍殺,特朗普親信稱是針對猶太裔教授的連環謀殺

      麻省理工學院核科學教授在家中被槍殺,特朗普親信稱是針對猶太裔教授的連環謀殺

      現代快報
      2025-12-17 18:59:04
      為了防止其它國家給柬埔寨運輸武器彈藥,泰國直接封鎖了泰國灣!

      為了防止其它國家給柬埔寨運輸武器彈藥,泰國直接封鎖了泰國灣!

      荊楚寰宇文樞
      2025-12-17 22:13:04
      "永久產權″來了!不動產登記正式生效,不用糾結土地年限了!

      "永久產權″來了!不動產登記正式生效,不用糾結土地年限了!

      蜉蝣說
      2025-12-16 19:47:24
      410次開房賬單!南航“捷徑女”從臨時工到副處長,撕開央企遮羞布

      410次開房賬單!南航“捷徑女”從臨時工到副處長,撕開央企遮羞布

      墨印齋
      2025-12-16 19:15:31
      常務副皇帝怡親王胤祥后人今何在:九世孫退休前是北京副處級干部

      常務副皇帝怡親王胤祥后人今何在:九世孫退休前是北京副處級干部

      銘記歷史呀
      2025-12-17 17:42:20
      寒冬將至,提醒大家:少吃蝦和豆腐,多吃3樣,養陽散寒平安過冬

      寒冬將至,提醒大家:少吃蝦和豆腐,多吃3樣,養陽散寒平安過冬

      江江食研社
      2025-12-16 10:30:05
      巨虧超千億,某車企遭重創!

      巨虧超千億,某車企遭重創!

      電動知家
      2025-12-16 21:16:58
      2-0!亞馬爾送助攻,2億超巨閃耀,拉什福德自我救贖,巴薩6連勝

      2-0!亞馬爾送助攻,2億超巨閃耀,拉什福德自我救贖,巴薩6連勝

      我的護球最獨特
      2025-12-17 06:21:28
      膨大劑是什么東西,打過膨大劑的紅薯花生,究竟有沒有毒?

      膨大劑是什么東西,打過膨大劑的紅薯花生,究竟有沒有毒?

      半解智士
      2025-12-17 18:36:39
      黎智英被定罪,兒子:希望各國權衡與中國關系時,再提釋放父親。

      黎智英被定罪,兒子:希望各國權衡與中國關系時,再提釋放父親。

      南權先生
      2025-12-17 16:51:04
      蜜雪冰城暴打美國人,28塊錢一杯,還能雙倍糖,給肥胖之國上強度

      蜜雪冰城暴打美國人,28塊錢一杯,還能雙倍糖,給肥胖之國上強度

      攬星河的筆記
      2025-12-16 19:17:02
      輸北京發布會!吳乃群回應連續3T要問當值裁判,付豪致謝遼迷!

      輸北京發布會!吳乃群回應連續3T要問當值裁判,付豪致謝遼迷!

      細話籃球
      2025-12-17 22:16:34
      最新談判結果公布!特朗普突然改口,烏軍發起反攻,俄羅斯上當了

      最新談判結果公布!特朗普突然改口,烏軍發起反攻,俄羅斯上當了

      博覽歷史
      2025-12-16 18:16:57
      新娘跳樓最新:工資卡上交、每月僅留500元,27萬彩禮給弟娶妻

      新娘跳樓最新:工資卡上交、每月僅留500元,27萬彩禮給弟娶妻

      吃瓜局
      2025-12-16 15:24:39
      國劇盛典:任嘉倫面相變了,陳都靈嫩的能掐出水,賈靜雯可真敢穿

      國劇盛典:任嘉倫面相變了,陳都靈嫩的能掐出水,賈靜雯可真敢穿

      娛樂圈筆娛君
      2025-12-17 11:12:51
      五糧液,也撐不住了!

      五糧液,也撐不住了!

      資市會
      2025-12-17 14:35:04
      萬科王石最新照片:戴上了假發,古稀之年依然不服老

      萬科王石最新照片:戴上了假發,古稀之年依然不服老

      微微熱評
      2025-12-17 11:28:02
      攜手斬獲6座大滿貫!世界第一阿爾卡拉斯,同恩師費雷羅分道揚鑣

      攜手斬獲6座大滿貫!世界第一阿爾卡拉斯,同恩師費雷羅分道揚鑣

      全景體育V
      2025-12-17 20:34:36
      CBA裁判鬧大笑話!連吹3技犯+驅逐楊鳴,5次罰球卻讓北京罰了6個

      CBA裁判鬧大笑話!連吹3技犯+驅逐楊鳴,5次罰球卻讓北京罰了6個

      籃球專區
      2025-12-17 22:33:10
      復旦大學研究生自爆退學,同門的師兄弟也基本退學了

      復旦大學研究生自爆退學,同門的師兄弟也基本退學了

      蝴蝶花雨話教育
      2025-12-17 08:19:38
      2025-12-17 22:59:00
      清風鑒史 incentive-icons
      清風鑒史
      作有深度的歷史解讀
      2696文章數 36643關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      藝術
      時尚
      本地
      公開課
      軍事航空

      藝術要聞

      毛主席書寫林則徐詩詞,字跡超凡,引發關注。

      這才是50歲女人該有的冬季穿搭,既保暖又體面,想不優雅都難

      本地新聞

      云游安徽|踏過戰壕與石板,讀一部活的淮北史

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      最新現場:山東艦完成年度最后一次海上訓練

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久亚洲精品中文字幕| 午夜无码人妻AV大片| 四虎影视永久在线观看| 美女网站免费观看视频| 成人av无码一区二区三区 | 欧美黑人又粗又大又爽免费| 国产成人精品永久免费视频| 中文字幕人妻精品免费| 国产一区二区三区免费观看| 男女啪啪永久免费观看网站| 欧州成人与兽| 欧美激情精品久久久久久| 杨幂激情无码精品久久| 日本三级成本人网站| 自拍偷拍亚洲| 西西444www高清大胆| 国产成人高清亚洲综合| 色就色中文字幕在线视频| 亚洲资源网| 亚洲欧美日韩高清一区二区三区 | 四房播色综合久久婷婷| 乱色熟女综合一区二区三区 | 国产精品久久人妻无码网站一区 | 国产富婆一区二区三区| 四虎影成人精品a片| 免费一区二区三区| 人妖网站| 成年入口无限观看免费完整大片| 久久国产99| 亚洲欧美成人一区二区在线电影 | 国产suv精品一区二区| 国产热A欧美热A在线视频| 456中文字幕| 天天躁日日摸久久久精品| 欧美日本中文| 亚洲第一无码av无码专区| 四川少妇大战4黑人| 台北市| 中文字幕无码免费久久9一区9| 欧美顶级metart裸体全部自慰| 伊人免费在线观看|