<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      積極自監督學習:只需少量低成本關系知識,即可解鎖強大表征能力

      0
      分享至

      在機器學習的世界里,數據標注一直是制約發展的瓶頸。自監督學習通過數據增強技術解決了部分問題,但仍需大量數據或精心設計的增強策略。積極自監督學習(PAL)框架提出了一種全新視角,它不再追求完整標簽,而是關注樣本間的相似性關系。"告訴我誰是你的朋友,我便知道你是誰"—這句古老諺語成為PAL方法的精髓。通過構建相似性圖譜,PAL實現了自監督與監督學習的理論統一,并引入低成本的標注策略,僅需詢問"這兩個樣本相似嗎?"這樣的簡單問題。相比傳統標注,這種方式所需專業知識更少,效率更高,甚至可以像reCaptcha一樣融入日常互聯網活動中。PAL框架或將重新定義機器學習的標注范式。


      數據增強背后的秘密

      自監督學習技術在近幾年獲得了爆發式發展,成為了學習數據表征的首選方案。這種方法最吸引人的地方在于它不需要大量人工標注的數據,而是通過巧妙的設計,讓模型從未標注的數據中學習有意義的信息表示。但自監督學習有個關鍵前提:需要構建"正樣本對"——也就是已知在語義上相似的樣本對。

      這個要求看似簡單,但實際上是自監督學習最大的限制。在實踐中,研究人員主要通過數據增強技術來解決這個問題。數據增強是什么?簡單說,就是對同一個輸入數據應用一些已知的變換,比如對圖像進行旋轉、裁剪或添加噪聲等。這些變換后的圖像雖然在像素級別上發生了變化,但它們的語義內容保持不變——比如,一張貓的照片無論怎么旋轉或裁剪,它仍然是一張貓的照片。

      現在主流的自監督學習方法如SimCLR、VICReg和BarlowTwins等,都依賴于這種方式來構建正樣本對。它們的工作原理可以簡化為兩個核心步驟:首先,確保經過數據增強后的相同輸入的表征保持一致;其次,防止表征出現"維度崩塌"——也就是避免所有輸入都被映射到相同的表征。

      以VICReg為例,它的損失函數結合了三部分:一個匹配項,確保正樣本對的表征相似;一個方差項,防止各維度的表征坍縮為常數;以及一個協方差項,促使表征的不同維度之間保持正交。這種精心設計的平衡機制使模型能夠學習到有意義的特征表示。

      但這種基于數據增強的方法存在明顯局限性。首先,設計適合特定數據類型的增強策略需要專業知識和大量實驗。其次,很難將已有的先驗知識整合到自監督學習框架中。比如,如果我們已經知道某些樣本屬于同一類別,如何在不改變整個訓練流程的情況下利用這些信息?

      正是這些局限促使研究者思考:能否找到一種更通用、更靈活的框架,既能保留自監督學習的優點,又能克服其缺點?這就引出了積極自監督學習(PAL)的核心思想——通過相似性圖譜重新定義學習范式。

      相似性圖譜的統一力量

      積極自監督學習(PAL)框架的核心在于引入了一個特殊的數學結構——相似性圖譜。這個圖譜用一個對稱矩陣G來表示,其中每個節點代表一個數據樣本,邊則反映樣本間的相似關系。矩陣中的每個元素Gij表示樣本i和樣本j之間的語義關系強度。


      這種表示方法看似簡單,卻具有強大的統一能力。研究表明,所有主流的自監督學習損失函數都可以通過相似性圖譜G來統一表示。以VICReg損失為例,它可以被重寫為:

      LVIC2(Z; G) = ||ZZ^T - G||^2_F

      這里Z是模型的輸出表征,G是相似性圖譜。這個公式的含義是:我們希望樣本間表征的相似度(ZZ^T)盡可能接近我們預定義的相似性圖譜G。

      同樣地,SimCLR和BarlowTwins等方法也可以用相似性圖譜來表達。SimCLR的損失函數可以重寫為:

      LSim(Z; G) = -∑i,j∈[N] Gi,j log(exp(z?^T_i z?_j)/∑k∈[N] exp(z?^T_i z?_k))

      這表明,雖然這些方法在表面上看起來不同,但它們實際上都在優化同一個目標:使模型學到的表征之間的關系與預定義的相似性圖譜一致。

      更令人驚訝的是,監督學習也可以通過相似性圖譜來表示。在監督學習中,如果兩個樣本屬于同一類別,它們在圖譜中就有一條邊連接;否則沒有連接。也就是說,監督學習的相似性圖譜可以表示為G(sup) = YY^T,其中Y是標簽的獨熱編碼矩陣。

      這意味著自監督學習和監督學習實際上是同一個問題的兩種不同表現形式!區別僅在于使用的相似性圖譜不同:自監督學習使用基于數據增強生成的圖譜G(ssl),而監督學習使用基于標簽信息的圖譜G(sup)。

      更進一步的理論分析表明,當使用足夠豐富的模型類別(如神經網絡)時,如果將自監督學習的損失函數與監督學習的相似性圖譜G(sup)結合,那么得到的最優表征將與直接使用標簽進行監督學習得到的表征等價(除了一些可忽略的對稱性)。這一理論結果意義重大:它證明了只要提供正確的相似性圖譜,即使使用為自監督學習設計的損失函數,也能解決監督學習問題。

      這種統一視角不僅在理論上優雅,更在實踐中提供了靈活性。它允許我們將任何先驗知識(如部分標簽信息)自然地整合到自監督學習框架中,而無需修改訓練流程。例如,我們可以構造一個混合圖譜G = (1-α)G(ssl) + α? ?^T,其中?包含已知標簽的獨熱編碼,α控制先驗知識的權重。實驗表明,即使只有少量標簽信息,這種方法也能顯著提升表征學習的性能。

      更重要的是,相似性圖譜的視角為我們提供了一個自然過渡到主動學習的途徑。傳統的主動學習關注如何高效地選擇樣本進行標注,而在PAL框架下,我們可以改為查詢樣本間的相似性關系。這種查詢通常更容易回答,需要的專業知識更少,因此成本更低。例如,我們可以設計類似reCaptcha的接口,讓用戶從多個圖像中選出與參考圖像語義相關的那些,而不是要求他們提供精確的標簽。


      總的來說,相似性圖譜為表征學習提供了一個統一的理論框架,不僅解釋了現有方法之間的聯系,還為設計更靈活、更高效的學習算法開辟了道路。這種框架特別適合處理大規模未標注數據和低成本標注場景,有望在實際應用中產生深遠影響。

      朋友圈里識人才

      積極自監督學習(PAL)的核心思想可以用一句古老諺語概括:"告訴我誰是你的朋友,我便知道你是誰"。這句話背后的邏輯在機器學習領域得到了全新的應用:相比于直接給每個樣本貼標簽(如"這是一只貓"),PAL更關注樣本之間的關系(如"這兩張圖片是同類事物")。

      PAL框架通過引入一個查詢機制(稱為oracle)來獲取樣本間的關系信息。這個過程可以用一個通用算法表示:首先從采樣器中收集一批數據點的索引,然后詢問標注者這些數據點之間的語義關系,最后根據這些關系更新模型參數。整個流程看似簡單,但蘊含深刻的思想轉變。

      傳統標注工作通常需要專業知識。比如要在ImageNet數據集上標注圖像,標注者需要區分"鯉魚"、"金魚"和"大白鯊"等細微類別。這種精細標注不僅耗時,也需要較高的專業知識。而PAL只需詢問"這兩個樣本語義上是否相關",降低了對標注者專業性的要求。

      PAL將標注策略分為被動和主動兩類。被動策略在訓練前預先確定如何查詢樣本關系,不會利用訓練過程中收集的信息。有趣的是,傳統的自監督學習實際上就是一種被動策略——它通過對同一輸入應用不同的數據增強來自動生成正樣本對,無需人工查詢。監督學習也可以看作另一種被動策略,只是它的查詢是通過已知標簽來實現的。

      PAL的創新點在于引入了主動查詢策略,使系統能夠根據當前學習狀態智能地選擇最有價值的查詢。與傳統主動學習相比,PAL的查詢更加經濟高效。傳統主動學習通常要求對選定樣本給出完整標簽,而PAL只需詢問樣本間的相似性關系。

      具體來說,PAL提出了一種" la Captcha"的查詢策略:選擇一個具有最少已知實例的類別作為模板,然后詢問一批數據點是否與該模板相似。這種策略有幾個明顯優勢:它能夠在任何時刻停止并產生平衡的標注數據集;它不需要事先知道有多少類別,而是逐步發現;它可以通過選擇性查詢來避免數據不平衡問題。

      為了證明主動查詢策略的優越性,研究者進行了控制實驗。在一個簡單的四類環形數據集上,主動查詢策略與被動策略相比,在相同查詢次數下取得了顯著更低的測試誤差。這種差異在查詢次數較少時尤為明顯,表明PAL能夠更高效地利用有限的標注資源。


      在實際應用中,主動查詢策略表現出色。以NNCLR(Nearest-Neighbor Contrastive Learning of Representations)為例,它在ImageNet上的準確率達到75.6%(前1名)和92.4%(前5名),超過了傳統自監督方法SimCLR(71.7%)和VICReg(73.2%/91.1%)。NNCLR的關鍵在于它定義正樣本對的方式:不是通過數據增強,而是找出在當前表征空間中最接近的鄰居,這本質上是一種主動查詢策略。

      PAL不僅適用于分類問題,還能處理更復雜的場景。比如當標簽存在層次結構時(如ImageNet的語義樹),可以先詢問粗粒度信息("這是不是魚?"),再逐步深入到細粒度分類。當面對類別不平衡問題時,可以根據類別概率調整查詢策略,確保稀有類別也能獲得足夠的標注。這種靈活性使PAL成為一個真正通用的框架,能夠應對各種實際挑戰。

      實踐中的應用價值

      PAL框架不只是理論上的創新,它在實際應用中展現出巨大潛力。多項實驗表明,PAL能夠在各種數據集上取得出色表現,特別是在標注資源有限的情況下。

      在合成數據實驗中,研究者使用核方法(kernel methods)來驗證PAL的理論結果,避免了神經網絡架構、優化方法等因素的干擾。實驗圍繞一個四類同心圓數據集進行,結果清晰地展示了主動查詢策略的優勢:與被動策略相比,主動策略在相同查詢次數下能夠獲得更低的測試誤差。特別是在查詢次數少于200次時,主動策略的誤差率比被動策略低約20%。

      在實際圖像數據集上,PAL同樣表現出色。以NNCLR為例,它在ImageNet上的準確率達到75.6%(前1名)和92.4%(前5名),超過了傳統自監督方法SimCLR(71.7%)和VICReg(73.2%/91.1%)。這一結果驗證了PAL中主動查詢策略的有效性:通過尋找表征空間中最近鄰作為正樣本,NNCLR實現了比固定數據增強策略更好的性能。

      PAL框架的一個重要特性是能夠無縫整合已知標簽信息。研究者通過混合圖譜G = (1-α)G(ssl) + α? ?^T來實現這一點,其中α控制已知標簽的權重。實驗表明,當混合系數α設置合理時,即使只有少量已知標簽(如200個樣本中的50個),也能顯著提升模型性能。這種能力對半監督學習場景特別有價值。


      在低成本標注方面,PAL提供了實用的解決方案。現實中,很多大規模數據集如ImageNet就是通過類似PAL的方式標注的:先通過搜索引擎獲取候選圖像,再讓標注者從中挑出不符合類別的圖像。這種"找出異類"的標注方式比直接分類更高效。另一個成功案例是reCaptcha,它通過讓用戶識別屬于同一類別的圖像,既保障了網絡安全,又收集了大量標注數據。據估計,reCaptcha已幫助標注了數百萬張圖像。

      PAL的低成本優勢在實際應用中得到驗證。Criteo工程師發現,在一批15張圖像中找出異類是標注效率的"甜點",這正是PAL方法的典型操作。這種批量處理方法不僅降低了單個樣本的標注成本,還能提高標注質量,因為比較多個樣本往往比獨立判斷單個樣本更容易。


      對于不同類型的數據和任務,PAL提供了靈活的適應策略。當處理具有層次結構的標簽時(如ImageNet的語義樹),可以先詢問粗粒度信息,再逐步深入。當面對數據不平衡問題時,可以根據類別概率調整查詢策略。當類別數量龐大時,可以結合當前學習狀態,優先查詢分類邊界附近的不確定樣本。這些策略都能在不改變PAL框架的情況下實現,展示了其通用性和靈活性。

      PAL框架的理論健壯性也值得關注。由于它本質上是一個矩陣分解問題,可以直接借用矩陣分解領域的理論結果。研究表明,即使在標注存在噪聲的情況下(即oracle有時會給出錯誤回答),隨機梯度下降方法仍能收斂到最優解,表現出良好的魯棒性。

      展望未來,PAL框架有望重新定義數據標注和機器學習的關系。它不僅提供了一種低成本高效率的標注方式,還搭建了連接自監督學習、監督學習和半監督學習的橋梁。隨著大規模預訓練模型的普及,如何高效利用有限標注資源成為關鍵問題,PAL正好提供了解決方案。

      更重要的是,PAL框架使我們重新思考了"標簽"和"關系"的角色。傳統上,機器學習關注樣本和標簽之間的映射,而PAL提醒我們:樣本之間的關系可能是一種更基礎、更容易獲取的信息。這種轉變不僅在技術層面有意義,也可能引發對學習本質的深入思考。

      參考資料

      1. Cabannes, V., Bottou, L., Lecun, Y., &; Balestriero, R. (2023). Active Self-Supervised Learning: A Few Low-Cost Relationships Are All You Need. ICCV 2023.

      2. Chen, T., Kornblith, S., Norouzi, M., &; Hinton, G. (2020). A simple framework for contrastive learning of visual representations. ICML 2020.

      3. Bardes, A., Ponce, J., &; LeCun, Y. (2021). VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning. ICLR 2022.

      4. Dwibedi, D., Aytar, Y., Tompson, J., Sermanet, P., &; Zisserman, A. (2021). With a little help from my friends: Nearest-neighbor contrastive learning of visual representations. ICCV 2021.

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      許世友當面怒問李德生:你有啥可驕傲的?李德生:等你這把火燒完

      許世友當面怒問李德生:你有啥可驕傲的?李德生:等你這把火燒完

      何咯說
      2025-12-26 19:25:01
      糖尿病患者總在半夜2、3點醒來,一般暗示這5個并發癥,需注意

      糖尿病患者總在半夜2、3點醒來,一般暗示這5個并發癥,需注意

      看世界的人
      2025-12-27 17:35:08
      大批人開始返鄉!有人判斷,不出5年,農村會開始越來越熱鬧

      大批人開始返鄉!有人判斷,不出5年,農村會開始越來越熱鬧

      小談食刻美食
      2025-12-26 16:45:23
      據說全球僅20例!巴西一女子在同一晚與2名男子發生了關系

      據說全球僅20例!巴西一女子在同一晚與2名男子發生了關系

      忠于法紀
      2025-12-04 11:25:07
      調查發現:老人過了72歲后,基本都有這7個現狀,要學會接受

      調查發現:老人過了72歲后,基本都有這7個現狀,要學會接受

      王二哥老搞笑
      2025-12-27 06:49:03
      黃日華:一生一個郭靖便足矣,他卻演了6個別人無法超越的角色

      黃日華:一生一個郭靖便足矣,他卻演了6個別人無法超越的角色

      芳芳歷史燴
      2025-12-27 13:12:38
      突發!某車企兩高層被秘密帶走調查!

      突發!某車企兩高層被秘密帶走調查!

      電動知家
      2025-12-27 10:25:08
      太絕了!這水果蒸完,喉嚨里的痰“嘩嘩”化,全家人都愛喝!

      太絕了!這水果蒸完,喉嚨里的痰“嘩嘩”化,全家人都愛喝!

      江江食研社
      2025-12-16 08:30:06
      庫里獲提名!MVP榜TOP10更新:約基奇轟56+16+15領跑火箭申京入選

      庫里獲提名!MVP榜TOP10更新:約基奇轟56+16+15領跑火箭申京入選

      鍋子籃球
      2025-12-27 12:40:41
      船蛆:這個奇怪的動物群體,它們到底如何吃下木頭、泥沙和石頭?

      船蛆:這個奇怪的動物群體,它們到底如何吃下木頭、泥沙和石頭?

      怪羅
      2025-12-26 23:55:53
      男子發現女兒非親生,多部門調解讓他放棄追責!評論區一言難盡!

      男子發現女兒非親生,多部門調解讓他放棄追責!評論區一言難盡!

      你食不食油餅
      2025-12-25 20:35:40
      山西省退休人員超335萬人,平均養老金多少?繳費30年能領多少?

      山西省退休人員超335萬人,平均養老金多少?繳費30年能領多少?

      云鵬敘事
      2025-12-27 05:30:02
      沒想到!白蘿卜配山楂,才2天時間,解決了大煩惱,真是高手!

      沒想到!白蘿卜配山楂,才2天時間,解決了大煩惱,真是高手!

      江江食研社
      2025-12-20 07:30:07
      痛心!安徽“半掛西施”王迪去世,有三臺X6000,出事前剛換輪胎

      痛心!安徽“半掛西施”王迪去世,有三臺X6000,出事前剛換輪胎

      鋭娛之樂
      2025-12-27 20:43:12
      成功了!彈劾提案通過,賴清德或將下臺,兩岸統一最佳窗口出現?

      成功了!彈劾提案通過,賴清德或將下臺,兩岸統一最佳窗口出現?

      博覽歷史
      2025-12-26 19:07:23
      藏不住了 徐湖平2位“貴人”浮出水面多情人 龐家曝發票造假鐵證

      藏不住了 徐湖平2位“貴人”浮出水面多情人 龐家曝發票造假鐵證

      阿纂看事
      2025-12-27 09:39:21
      普京公開表示戀愛!卡巴耶娃再成焦點,俄“第一夫人”浮出水面?

      普京公開表示戀愛!卡巴耶娃再成焦點,俄“第一夫人”浮出水面?

      手工制作阿殲
      2025-12-27 14:26:23
      69歲趙本山:每天2包煙,頓頓8兩酒,跟生前的楊少華如出一轍

      69歲趙本山:每天2包煙,頓頓8兩酒,跟生前的楊少華如出一轍

      豐譚筆錄
      2025-12-16 10:55:06
      張梓琳帶女兒過節一臉孕相,胖妹臉型完美,這美貌馬賽克都擋不住

      張梓琳帶女兒過節一臉孕相,胖妹臉型完美,這美貌馬賽克都擋不住

      八怪娛
      2025-12-26 16:00:33
      隨著利雅得新月3-2,沙特聯最新積分榜出爐:C羅率隊僅1分優勢領跑

      隨著利雅得新月3-2,沙特聯最新積分榜出爐:C羅率隊僅1分優勢領跑

      側身凌空斬
      2025-12-27 06:48:06
      2025-12-27 22:15:00
      臆說歷史 incentive-icons
      臆說歷史
      作有深度的歷史解讀
      162文章數 233關注度
      往期回顧 全部

      科技要聞

      小米也漲價了!業界稱終端再不漲明年必虧

      頭條要聞

      美媒:特朗普顯然觸及了中國的紅線 中方怒了

      頭條要聞

      美媒:特朗普顯然觸及了中國的紅線 中方怒了

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂要聞

      張昊唯逃稅涉黃風波落幕:法院認定朋友造謠

      財經要聞

      注意,開始拉物價了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態度原創

      房產
      教育
      游戲
      公開課
      軍事航空

      房產要聞

      年銷20億+!中交·藍色港灣用好房子致敬好生活

      教育要聞

      30號展播!廣州市“Fun學英語”系列活動之“讀者劇場”展評活動|AI+教師發展公益行·廣州站

      PS5玩家注意!這個設置將改善成千上萬款游戲的體驗

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      英法德三國領導人通話 重申對烏支持

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 97超碰人妻| 青草青草视频2免费观看| 韩国三级hd中文字幕| 97se亚洲综合自在线| 国产19p| 午夜无码人妻A∨大片| 永久免费观看美女裸体的网站| 三男一女吃奶添下面视频| 在线成人AV| 亚洲综合成人网| 湟中县| 国产成人欧美综合在线影院| 亚洲男人第一av网站| 粉嫩小泬无遮挡久久久久久| 国产黄片视频在线观看| 精品人妻少妇| 日韩精品极品视频在线观看免费| 永久免费在线观看蜜桃视频| www.com黄色| 无码人妻精品一区二区蜜桃91| 亚洲精品美女久久久久99| 伊人色色| 中文字幕亚洲在线观看| AV口爆| 色翁荡熄又大又硬又粗又视频| 精品久久久久久久久中文字幕| 亚洲国产精品综合久久网络| 久草综合视频| 成人精品中文字幕| 午夜羞羞影院男女爽爽爽| 无码人妻系列| 亚洲AV成人无码久久精品黑人| 天天爱天天躁XXXXAAAA| 18分钟处破好疼哭视频在线观看 | 国产xxxxxxx| 亚洲图片在线| 国产精品亚洲mnbav网站| 亚洲av永久无码一区二区三区| 人妻av一区二区三区av免费| 日韩欧美一级特黄大片| 久久XXX|