<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      自監督學習如何在計算機視覺領域從判別式走向生成式模型的歷程

      0
      分享至

      在機器學習的世界里,一場靜默卻深刻的革命悄然展開。三年間,計算機視覺領域的自監督學習從邊緣走向中心,從對比走向生成,從依賴標簽到自我學習。這種無需人工標注的學習方式,正如黑暗中尋找光明的智者,從數據本身中提煉出隱藏的規律與模式。自2018年起,研究者們提出了超過100種通用自監督學習框架,它們如同百花齊放,各具特色卻又相互啟發。從早期的聚類和對比學習,到后來占據主導地位的掩碼圖像建模,這一演變不僅改變了模型訓練的方式,更深刻重塑了人工智能理解視覺世界的能力。本文將揭開這場技術變革的面紗,探索計算機如何從無標簽的數據中學習到豐富的視覺表征。

      無需標注的學習

      計算機視覺領域長期以來依賴大量帶標簽的數據進行訓練。想象一下,要讓計算機識別一只貓,傳統方法需要向它展示成千上萬張已經標記為"貓"的圖片。這種監督學習方法雖然直接有效,但面臨兩大挑戰:一是獲取標簽成本高昂,二是標簽質量難以保證。

      2012年,AlexNet在ImageNet挑戰賽上的驚艷表現標志著深度學習在計算機視覺領域的崛起。但隨著時間推移,僅靠增加數據量和模型復雜度帶來的性能提升逐漸見頂。如圖1所示,近年來ImageNet上的分類準確率提升已經放緩,這表明監督學習可能遇到了瓶頸。

      自監督學習的核心思想可以追溯到更早的時期,但直到2018年前后才真正開始在計算機視覺領域嶄露頭角。與自然語言處理(NLP)領域不同,圖像數據是高維、連續且非結構化的,這使得設計適合圖像的自監督學習任務變得更具挑戰性。

      自監督學習的魅力在于它能夠從數據本身創造監督信號。通過設計巧妙的"預訓練任務",模型可以在無需人工標注的情況下學習到有用的特征表示。這些預訓練任務包括圖像上色、圖像修復、幾何變換預測、拼圖求解、實例判別等。

      2018年,耶魯大學教授Zisserman在演講中正式將這種學習范式稱為"自監督學習",并指出之前被歸類為無監督學習的許多方法實際上是自監督的,因為監督信號來自數據本身而非人工標注。這一觀點得到了包括Yann LeCun在內的多位人工智能領域權威的認可,LeCun甚至修改了他著名的"蛋糕類比",將自監督學習描述為智能的主體部分。


      自監督學習可以分為生成式和判別式兩大類。生成式方法致力于學習數據的分布,代表方法包括自編碼器和生成對抗網絡。判別式方法則專注于學習區分不同數據樣本的特征表示,例如通過對比學習和聚類。在計算機視覺領域,判別式方法在2018至2021年間占據主導地位,而后生成式方法崛起并超越了判別式方法的表現。

      實踐證明,這些無需標注的學習方法不僅能夠降低對人工標注的依賴,還能學習到更加魯棒和通用的特征表示,這為計算機視覺的進一步發展開辟了新的道路。

      判別學習四路徑

      在判別式自監督學習的發展歷程中,出現了四種主要技術路線:聚類、對比學習、知識蒸餾和信息最大化。這四條路徑各具特色,卻又相互借鑒,共同推動了判別式自監督學習的繁榮。


      聚類方法是最直觀的自監督學習方式之一,其核心思想是通過將相似的樣本聚在一起來創建偽標簽。2018年,Facebook AI Research團隊提出的Deep Cluster成為這一領域的開拓性工作。該方法首先使用K-means算法對圖像特征進行聚類,然后用聚類結果作為偽標簽訓練網絡。但聚類方法面臨著幾個固有問題:離線訓練限制了大規模應用,大簇可能主導大部分標簽,小簇可能導致過度細粒度的標簽,空簇和模型崩潰也是常見困擾。

      隨后,多個改進版本相繼問世。2019年的Local Aggregation引入了局部聚合度量進行軟聚類分配;同年,SeLa通過Sinkhorn-Knopp算法改進了Deep Cluster,有效防止模型崩潰;2020年的Swav實現了在線聚類并保持不同視圖間的分配一致性,這被認為是當前最穩定和準確的聚類自監督方法之一。

      對比學習是2018年后最受關注的自監督學習方法。其基本思想是使同一圖像的不同增強視圖在特征空間中靠近,而不同圖像的特征遠離。2018年的InstDist和CPC開創了這一方向,但真正的突破來自于2019年底Facebook AI Research提出的MoCo。MoCo利用動量編碼器和內存庫在對比學習框架中取得了接近監督學習的效果。2020年,Google Research團隊的SimCLR通過投影頭和更強的數據增強進一步提升了性能。此后,MoCo-v2、SimCLR-v2等改進版本不斷涌現,對比學習成為主流自監督方法。

      對比學習方法的一個關鍵挑戰是防止網絡崩潰,即所有樣本映射到相同的特征點。主流解決方案是使用負樣本,但這也帶來了關于如何選擇高質量負樣本的討論。2020年的DCL提出了無偏對比目標來改進負樣本選擇;2021年的AdCo則嘗試將自訓練的對抗性負樣本融入自監督學習過程。

      知識蒸餾類方法是2020年出現的一種新思路,其代表作是DeepMind的BYOL和Facebook AI Research的SimSiam。令人驚訝的是,這些方法既不使用負樣本也不依賴聚類,而是通過網絡不對稱性或停止梯度傳播等技巧避免崩潰。BYOL使用一個"學生"網絡預測"教師"網絡的表示,而SimSiam則是一個使用停止梯度技巧的對稱框架。雖然這些方法的崩潰避免機制尚未完全理解,但它們的優異性能引發了廣泛關注。

      信息最大化是2021年興起的判別式自監督學習方法,代表作包括WMSE、Barlow Twins和VicReg。這些方法不需要負樣本或不對稱架構,而是通過創新的損失函數避免崩潰。Barlow Twins讓嵌入向量的歸一化互相關矩陣接近單位矩陣,VicReg則基于方差、不變性和協方差設計了損失函數。這類方法的優勢在于理論基礎更為扎實,但損失函數較為復雜。

      隨著研究的深入,研究者發現這四類方法可以相互借鑒和融合。2021年底的UniGrad宣稱統一了聚類、對比學習、知識蒸餾和信息最大化四種方法。此外,一些增強模塊如InfoMin、MocHi、ReSim等可以應用于多種框架以提升性能。

      判別式自監督學習的迅速發展不僅在ImageNet線性探測上接近甚至超過了監督學習的表現,也在目標檢測、分割等下游任務中展現出強大的遷移能力。盡管如此,大多數判別式方法仍然使用ResNet等CNN架構作為骨干網絡,這與后來興起的生成式方法偏好Vision Transformer形成了鮮明對比。

      生成學習新紀元

      2020年底,計算機視覺領域的自監督學習迎來了一場悄無聲息的革命。原本被研究者認為不如判別式方法有效的生成式自監督學習開始嶄露頭角,并在短短一年內迅速占據了主導地位。這一轉變如此迅速,以至于從2021年最后一季度到2023年第一季度,生成式自監督學習的研究進展幾乎以月為單位更新狀態。

      生成式自監督學習主要分為兩大類:基于生成對抗網絡(GAN)的方法和基于掩碼圖像建模(MIM)的方法。其中,后者成為了這場革命的中堅力量。


      基于GAN的生成式自監督學習可以追溯到2016年的BiGAN和ALI,它們通過添加額外的編碼器網絡,使GAN不僅能生成圖像,還能提取特征。2019年,Donahue和Simonyan提出的BigBiGAN結合了BiGAN架構和更強大的BigGAN生成器,取得了更好的特征提取效果。受到判別式自監督學習的啟發,Chen等人在2019年提出了SS-GAN,將圖像旋轉預測作為輔助任務引入GAN訓練。

      盡管這些方法取得了一定進展,但由于GAN本身的局限性,如模式崩潰、難以擴展到高分辨率圖像等問題,基于GAN的生成式自監督學習并未成為主流方法。

      真正的變革來自于掩碼圖像建模(MIM)。這一技術受到了自然語言處理中掩碼語言建模的啟發,特別是BERT的成功。MIM的基本思想是將圖像分割成小塊,隨機遮蓋部分小塊,然后訓練模型預測這些被遮蓋的內容。

      雖然Dosovitskiy等人在2020年提出視覺變換器(ViT)時就提到了MIM的可能性,但直到2021年6月,微軟研究院的Bao等人提出BEiT,MIM才真正展示出其強大潛力。BEiT將圖像分成多個等大小的補丁,遮蓋部分補丁,并要求模型預測這些補丁對應的離散視覺標記,這些標記由DALL-E的tokenizer生成。

      緊隨其后,Facebook AI Research的He等人在2021年11月提出了MAE,這是一個非對稱自編碼器框架,直接學習重建圖像補丁。MAE的獨特之處在于其編碼器(ViT)只處理未遮蓋的補丁(通常只有25%),無需tokenizer,使訓練速度大大提升。He等人的實驗表明,重建像素值和重建DALL-E標記在效果上沒有統計學上的顯著差異,這意味著簡單的像素重建就是一個可行的目標。

      生成式自監督學習的爆發速度之快,以至于許多框架的改進版本甚至在原始版本發表前就已經問世。例如,BEiT-v2和BEiT-v3分別在2022年8月提出,它們使用CLIP tokenizer并引入了補丁聚合策略,獲得了更好的結果。同樣,CAE的改進版CAE-v2也在發表前就已經用CLIP tokenizer替換了DALL-E tokenizer。


      除了不同的重建目標,MIM還探索了不同的輸入處理方式。2023年初,Fang等人提出的CIM使用輔助生成器(BEiT)污染輸入圖像,然后要求模型同時進行補丁分類和原始圖像生成。

      值得注意的是,幾乎所有這些生成式框架都使用ViT作為骨干網絡,而判別式框架則主要使用ResNet。這一趨勢直到2023年初才有所改變,Tian等人的SparK證明了經典卷積神經網絡(CNN)和現代CNN(如ConvNext)也可以通過MIM訓練,并獲得媲美ViT的結果。

      生成式和判別式自監督學習的界限也在逐漸模糊。越來越多的研究開始嘗試結合兩者的優勢,比如2021年底的iBOT結合了MIM和DINO的蒸餾目標,2022年的CAN、CMAE和ConMIM則結合了MIM和對比學習。這種融合趨勢表明,未來的自監督學習可能不再嚴格區分生成式和判別式,而是采取更加靈活的混合方法。


      評估與展望前路

      自監督學習的主要目標是訓練出能夠提取有用特征的編碼器,但如何評估這些特征的質量成為了研究者面臨的重要問題。在自監督學習文獻中,主要有三種評估方法:完全微調、線性探測和K近鄰評估。

      完全微調是最全面的評估方法,它在自監督預訓練后,將一個線性層添加到模型中,然后在特定任務上重新訓練整個模型。這種方法可以充分釋放模型學到的特征潛力,但也可能掩蓋預訓練質量的差異。

      線性探測,也被稱為線性協議,是自監督學習中最常用的評估方法。它在凍結預訓練模型的情況下,只訓練一個新添加的線性層。這種方法能更直接地反映預訓練特征的線性可分性。

      K近鄰評估是最簡單的方法,它直接使用預訓練模型提取特征,然后通過K近鄰算法進行分類。雖然這種方法在早期的自監督學習研究中較為流行,但近年來已經較少使用。

      有趣的是,判別式和生成式自監督學習框架在評估偏好上存在明顯差異。大多數判別式框架傾向于使用線性探測,而生成式框架則更喜歡完全微調。這一差異源于僅使用MIM作為預訓練任務的生成式框架在線性探測中表現較差,只有當它們結合了對比學習等判別元素或使用對比訓練的CLIP tokenizer時,線性探測準確率才會顯著提高。

      除了評估方法的選擇,自監督學習還面臨著一系列開放性問題和挑戰。

      自監督學習的理論基礎仍然不完善。雖然最早的聚類和對比學習方法已經收到了相當多的理論分析,但其他自監督范式的理論解釋仍然缺乏。特別是為什么某些架構能避免模型崩潰,而其他架構需要特殊技巧才能穩定訓練,這一問題尚未得到滿意的解答。

      自監督學習模型的領域適應性也是一個重要問題。大多數通用自監督框架都在ImageNet等自然圖像數據集上進行評估,但它們在醫學影像等特殊領域的效果如何,還需要更多研究。同樣,自監督學習在圖像分類之外的任務,如目標檢測、姿態估計和動作識別等方面的表現也值得進一步探索。


      自監督學習的校準性、可解釋性和對抗魯棒性也是研究者關注的方向。初步發現表明,通過自監督訓練的模型在這些方面可能展現出不同于監督學習模型的特性,但這些效果的機制和影響尚未完全明確。

      自監督學習的訓練效率是一個亟待解決的問題。與監督學習相比,自監督學習通常需要更多的計算資源和更長的訓練時間。例如,Chen等人在2021年報告,用ViT骨干網絡訓練MoCo-v3需要約625個TPU天。這也解釋了為何大多數自監督學習的貢獻都來自擁有充足計算資源的工業實驗室,如Facebook AI Research、微軟研究院、DeepMind和谷歌研究院等。雖然一些研究已經開始探索高效訓練和評估技術,但在這方面仍有很長的路要走。

      關于tokenizer在生成式自監督學習中的作用也引發了爭議。多項研究表明,使用先前在大型圖像語料庫上訓練的tokenizer(如CLIP tokenizer)可以顯著提升模型性能。但是,使用這種預訓練tokenizer來展示相對于沒有這種高級監督的其他框架的最先進結果,近來受到了研究社區的批評。tokenizer在生成式自監督學習中的有效性和必要性是一個值得深入探討的領域。

      展望未來,生成式還是判別式自監督學習將主導發展方向?這個問題沒有簡單的答案。近期比較研究表明,兩種方法各有優缺點,判別式自監督學習可能更側重于形狀特征,而生成式自監督學習則可能偏向紋理特征。更重要的是,越來越多的新框架開始結合兩種方法的優點,比如通過對比學習和掩碼圖像建模的結合,或通過蒸餾等技術。這種融合趨勢可能會持續,未來的自監督學習框架很可能會借鑒兩方面的進展,以進一步提升性能。

      參考資料:

      1. Ozbulak, U., Lee, H. J., Boga, B., et al. (2023). Know Your Self-supervised Learning: A Survey on Image-based Generative and Discriminative Training. Transactions on Machine Learning Research.

      2. He, K., Chen, X., Xie, S., et al. (2022). Masked Autoencoders Are Scalable Vision Learners. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.

      3. Chen, T., Kornblith, S., Norouzi, M., &; Hinton, G. (2020). A Simple Framework for Contrastive Learning of Visual Representations. International Conference on Machine Learning.

      4. Bao, H., Dong, L., &; Wei, F. (2021). BEiT: BERT Pre-Training of Image Transformers. International Conference on Learning Representations.

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一個巨大的半導體泡沫!寒武紀,摩爾線程,沐曦營收70億,市值1.2萬億

      一個巨大的半導體泡沫!寒武紀,摩爾線程,沐曦營收70億,市值1.2萬億

      爆角追蹤
      2025-12-17 19:24:09
      打的就是精銳!烏軍在波克羅夫斯克附近重創俄羅斯一整個精銳師

      打的就是精銳!烏軍在波克羅夫斯克附近重創俄羅斯一整個精銳師

      知法而形
      2025-12-17 22:17:48
      4次撲點 6冠加身!俄羅斯門將封神之作:巴黎全隊致敬英雄

      4次撲點 6冠加身!俄羅斯門將封神之作:巴黎全隊致敬英雄

      葉青足球世界
      2025-12-18 08:41:33
      赴日外國游客突破3900萬人次再創歷史新高 中國游客影響有限

      赴日外國游客突破3900萬人次再創歷史新高 中國游客影響有限

      顫抖的熊貓
      2025-12-17 22:12:26
      澤連斯基還是跪了,其實結果早已注定

      澤連斯基還是跪了,其實結果早已注定

      阿爾法34號
      2025-12-18 09:05:34
      全網瘋傳的江門大瓜,年度最復雜的家庭倫理關系

      全網瘋傳的江門大瓜,年度最復雜的家庭倫理關系

      杭城村叔
      2025-12-17 21:01:23
      12月21冬至,比牛羊肉還補的是這“3樣”,營養全易消化,不上火

      12月21冬至,比牛羊肉還補的是這“3樣”,營養全易消化,不上火

      阿龍美食記
      2025-12-17 19:54:39
      稅務局回應大廳凳子被指形似刑具:大家反饋坐著很舒服,專門定做的,采購經過正規審批,價格比市場便宜

      稅務局回應大廳凳子被指形似刑具:大家反饋坐著很舒服,專門定做的,采購經過正規審批,價格比市場便宜

      觀威海
      2025-12-18 10:18:04
      馬斯克預測某車企:必死!

      馬斯克預測某車企:必死!

      電動知家
      2025-12-17 16:25:04
      海南封關首日實探三亞免稅城:免稅價疊加消費券,蘋果手機最高可減1000元

      海南封關首日實探三亞免稅城:免稅價疊加消費券,蘋果手機最高可減1000元

      極目新聞
      2025-12-18 12:08:09
      陳慧琳演唱會穿三角褲衩,五十多了合適嗎?人老心不老

      陳慧琳演唱會穿三角褲衩,五十多了合適嗎?人老心不老

      蕾爸退休日記
      2025-12-16 22:37:37
      南京博物院館藏明代《江南春》現身拍賣市場,捐贈者后人起訴博物館:為何多幅名畫“消失”

      南京博物院館藏明代《江南春》現身拍賣市場,捐贈者后人起訴博物館:為何多幅名畫“消失”

      澎湃新聞
      2025-12-17 08:16:28
      姆巴佩獨造3球,年度65球比肩三大傳奇,皇馬3-2險勝魚腩晉級16強

      姆巴佩獨造3球,年度65球比肩三大傳奇,皇馬3-2險勝魚腩晉級16強

      釘釘陌上花開
      2025-12-18 05:57:26
      11月中國訪日游客:56.3萬人次, 同比增長3%

      11月中國訪日游客:56.3萬人次, 同比增長3%

      新浪財經
      2025-12-17 20:01:07
      柬埔寨街頭為什么拆除中文招牌?

      柬埔寨街頭為什么拆除中文招牌?

      懷疑探索者
      2025-12-17 20:34:23
      太突然!菲律賓20艘漁船“鐵索連環”闖黃巖島,馬科斯這招真的狠

      太突然!菲律賓20艘漁船“鐵索連環”闖黃巖島,馬科斯這招真的狠

      潮鹿逐夢
      2025-12-18 11:08:23
      故宮一件我一件的含金量又上升了,南京博物館藏品細節越挖多了!

      故宮一件我一件的含金量又上升了,南京博物館藏品細節越挖多了!

      你食不食油餅
      2025-12-18 02:04:53
      美國現在也攔不住泰國,大難臨頭了洪森才明白,中方的做法最正確

      美國現在也攔不住泰國,大難臨頭了洪森才明白,中方的做法最正確

      博覽歷史
      2025-12-17 17:04:35
      4300萬粉絲網紅劉二狗賬號被封

      4300萬粉絲網紅劉二狗賬號被封

      三言科技
      2025-12-18 08:48:13
      高標準梯田(農田)荒廢的背后 完全不切實際一場鬧劇

      高標準梯田(農田)荒廢的背后 完全不切實際一場鬧劇

      原某報記者
      2025-12-17 14:31:27
      2025-12-18 14:39:00
      文史明鑒 incentive-icons
      文史明鑒
      每個人都是自己的歷史學家
      1340文章數 10668關注度
      往期回顧 全部

      科技要聞

      新一代AI創業大賽頒獎典禮暨AI投資論壇

      頭條要聞

      絲芭傳媒再發文:將舉報鞠婧祎涉嫌嚴重經濟犯罪行為

      頭條要聞

      絲芭傳媒再發文:將舉報鞠婧祎涉嫌嚴重經濟犯罪行為

      體育要聞

      巴黎首奪世界級冠軍 加冕6冠王比肩巴薩拜仁

      娛樂要聞

      內娛解約大戰:鞠婧祎和絲芭,誰是狼人

      財經要聞

      重大改革,身關14億人的政策徹底變了!

      汽車要聞

      開箱日產大沙發 精致辦公or躺平追劇 哪個更適配?

      態度原創

      藝術
      本地
      教育
      數碼
      親子

      藝術要聞

      卡洛斯·杜蘭:不只是薩金特的老師!

      本地新聞

      云游安徽|決戰烽火照古今,千秋一脈看宿州

      教育要聞

      AI時代下,這5個黃金專業幫孩子搶占未來賽道

      數碼要聞

      掃地機器人鼻祖iRobot破產,CEO坦言沒打過中國品牌

      親子要聞

      誰打我女兒我就打他女兒!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 91.www| 午夜男女爽爽影院免费视频下载| 久久国内精品自在自线91| 色人妻中文字幕| 壶关县| 欧美xxxxx高潮喷水| 欧美又大又色又爽aaaa片| 亚洲一区二区三区在线| 中文字幕熟妇人| 色欲av狠狠躁天天躁无码中文| 无码精品国产va在线观看dvd| 久久久久高潮毛片免费全部播放| 日本免费人成视频在线观看| 五月天成人社区| 亚洲日韩成人无码| 一本色道久久综合无码人妻| 久久精品国产69国产精品亚洲| 亚洲AV成人片在线观看| 中日韩在线| 色又黄又爽18禁免费视频| 国产对白老熟女正在播放| 久久久精品94久久精品| 日日艹| 老妇肥熟凸凹丰满刺激| 亚洲熟妇自偷自拍另欧美| 影音先锋一区二区| 阳泉市| 日日碰狠狠添天天爽五月婷| 亚洲av永久无码一区二区三区| 97无码国产精品久久久日本| 楚雄市| 夜鲁鲁鲁夜夜综合视频欧美| 91视频在线| 夊夊夊夂夂夂夂夂夂夂亚洲亚洲亚洲亚洲色色色 | 日本成熟老妇乱| 亚洲精品久久一区二区三区四区| 黑人巨大精品| 中文字幕热久久久久久久| 肉体暴力强伦轩在线播放| jizz日本大全| av无码天堂|