<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      混重組:跨模態混合補丁重組是開放世界語義分割的優秀掩碼學習器

      0
      分享至

      在人工智能視覺領域,語義分割一直是一項挑戰性任務,尤其是在開放世界場景中。傳統方法依賴大量人工標注數據,限制了其應用范圍。近期,一種名為"MixReorg"的創新方法悄然崛起,它通過跨模態混合補丁重組技術,突破了這一瓶頸。這種方法不需要像素級標注,只需圖像-文本對數據,就能實現高精度的開放世界語義分割。MixReorg通過巧妙構建細粒度的補丁-文本對應關系,并設計了上下文混合和混合恢復等創新策略,使模型能夠學習更精確的語義對齊能力。在多個基準測試中,它顯著超越了現有方法,為計算機視覺開辟了新的可能性。


      分割的困境

      當今計算機視覺技術蓬勃發展,語義分割作為其關鍵任務之一,應用場景廣泛。從虛擬現實、虛擬試衣到電影后期制作、自動駕駛,精準的圖像分割能力已成為眾多應用的基礎設施。想象一下,手機應用能識別出照片中的每一個物體,并能準確標記其邊界;或者自動駕駛系統能精確區分路面上的行人、車輛和交通標志。這就是語義分割技術的魅力所在。

      傳統語義分割方法雖然取得了顯著成就,但它們存在一個根本性的局限:依賴大量像素級標注數據。這些標注數據需要專業人員一像素一像素地勾畫圖像中的每個物體邊界,工作量巨大且成本高昂。以一張普通分辨率的圖像為例,完整標注可能需要一名專業人員花費10-30分鐘,而訓練一個高性能模型通常需要數千甚至數萬張這樣的標注圖像。

      更值得注意的是,這些方法通常在"封閉世界"設定下運行,即它們只能識別訓練集中已出現的類別。如果測試圖像中出現了訓練時未見過的物體類別,這些模型往往會出現嚴重的誤判。例如,一個在城市道路場景下訓練的分割模型,當遇到從未見過的農村場景或罕見物體時,就會感到"手足無措"。

      在真實世界中,物體種類繁多且不斷變化,完全覆蓋所有可能遇到的類別幾乎不可能。這就是所謂的"開放世界"問題——模型需要面對訓練時未見過的物體類別,并能合理處理它們。


      一些早期嘗試解決開放世界分割問題的方法包括少樣本學習和無監督聚類。少樣本學習雖然減輕了標注負擔,但仍假設訓練集和測試集中的類別屬于同一潛在特征空間,這在實際應用中往往不成立。無監督聚類方法則難以保證分割結果的語義一致性。

      近年來,隨著視覺-語言模型(如CLIP)的興起,研究人員開始探索只使用文本監督的語義分割方法。其中,GroupViT通過視覺-語言對比學習實現了圖像補丁的自動分組,取得了當時最先進的開放世界分割性能。ViL-Seg則通過引入視覺嵌入的在線聚類來實現圖像分割。這些方法利用大量圖像-文本對數據為開放世界場景提供了豐富的視覺和文本語義。

      然而,盡管這些方法在一定程度上實現了不同模態的局部信息對齊,但它們仍然是一種基于計算的隱式匹配策略。它們通過計算補丁-文本或詞元級別的相似性矩陣來學習細粒度匹配,這種方式效率不高且精度有限。如何從圖像-文本對數據中學習更加細粒度的語義對齊,成為基于文本監督的開放世界分割任務的關鍵挑戰。

      在實際測試中,這些基于文本監督的方法經常在復雜場景下表現不佳。例如,當圖像中包含多個物體或物體邊界模糊時,它們往往難以給出準確的分割結果。這主要是因為它們缺乏像素級的精細監督信號,無法充分捕捉物體的空間結構和邊界信息。

      重組的革新

      針對上述挑戰,MixReorg提出了一種全新且簡單的預訓練范式,旨在增強模型的補丁重組能力。這種方法的核心創新在于,它能夠從圖像-文本對數據中構建細粒度的補丁-文本對應關系,而且不需要額外的標注成本。

      MixReorg的靈感來源于混合圖像建模相關工作,如拼圖游戲和混合圖像重建。但與之前的方法不同,MixReorg的混合補丁重組是一個專為語義分割設計的跨模態掩碼學習器。它通過混合不同圖像的補丁生成混合圖像,同時保留補丁與文本之間的對應關系。

      具體來說,MixReorg將不同圖像的補丁隨機混合在一起,形成一系列帶有已知分割掩碼的混合圖像。根據原始圖像-文本對,混合圖像的補丁-文本對應關系也被保留下來,混合圖像的掩碼則用作混合圖像的語義分割標簽。這樣,我們就從圖像-文本對數據中獲得了補丁-文本對數據,無需任何額外標注。

      這種方法看似簡單,卻面臨兩個主要挑戰:首先,混合圖像分割容易受到低級特征的干擾,使模型無法通過高級語義實現混合圖像的補丁重組;其次,混合圖像中的每個補丁容易受到來自不同圖像的不相關補丁的干擾,這可能導致圖像語義難以與相應文本匹配。

      為解決第一個挑戰,MixReorg提出了上下文混合和漸進式混合兩種策略。上下文混合策略在混合操作前添加一個Transformer層,使混合圖像中的每個補丁能夠預先獲取其原始圖像的全局語義,從而強制模型從高級語義中學習混合圖像重組。這樣做避免了低級特征對模型語義學習的干擾,使分割更加精準。

      漸進式混合策略則通過使用原始圖像特征增強混合圖像特征中的全局語義信息。具體做法是,在Transformer的多層處理過程中,不斷將原始圖像的特征信息融入到混合圖像的特征中,這樣可以有效防止混合操作導致的語義信息丟失。


      為應對第二個挑戰,MixReorg設計了混合恢復策略。它通過混合圖像恢復與文本之間的對比學習,保證混合圖像中每個補丁標記與文本的語義關聯。這種方式能有效抑制混合圖像中來自不同圖像的補丁之間的相互干擾。

      與現有方法相比,MixReorg的創新之處在于它提供了一種真正的數據級別的細粒度監督信號,而不僅僅是計算上的偽局部信息對應。這種方法直接從數據入手,通過巧妙的混合和重組操作,創造出比原始圖像-文本對更加細粒度的監督信息。

      在實踐中,MixReorg通過一系列精心設計的損失函數來指導模型學習。混合分割損失促使模型學習準確分割混合圖像中各個補丁的能力;恢復對比損失則確保模型能夠將混合圖像中的補丁與其對應的文本正確對齊。這兩種損失協同工作,使模型同時具備精確分割和語義對齊的能力。

      MixReorg的另一個實用優勢是,在測試階段,它只需執行原始圖像分支,不會增加任何額外的測試時間。這使得它在實際應用中具有很高的效率。這種高效的架構設計使MixReorg不僅在性能上超越現有方法,而且在實用性上也有明顯優勢。

      實驗結果表明,通過這種創新的跨模態混合補丁重組方法,MixReorg成功建立了一個強大的開放世界分割模型,在多個基準測試中顯著超越了現有的零樣本分割基線。它在PASCAL VOC2012、PASCAL Context、MS COCO和ADE20K等標準數據集上分別提高了5.0%、6.2%、2.5%和3.4%的平均交并比(mIoU),這些提升對于計算機視覺領域來說是相當顯著的。

      技術深入解析

      MixReorg的技術實現看似復雜,實際上思路清晰且巧妙。這個系統的核心是一個三階段圖像編碼器,它能夠處理混合圖像并生成精確的分割結果。

      這個編碼器的第一階段是上下文混合。在這個階段,系統將不同圖像的補丁隨機混合在一起,生成帶有已知分割掩碼的混合圖像。與其他混合方法不同的是,MixReorg在混合前添加了一個transformer層,讓每個補丁能先獲取到原始圖像的全局語義信息。這就好比給每個拼圖塊先打上了原始圖畫的標記,使它們即使被打亂,也能記住自己來自哪里。

      具體來說,對于一批圖像-文本對,系統先把每張圖像分割成不重疊的補丁,并將它們投影到潛在空間。然后,它隨機混合來自M張不同圖像的補丁,構造M張混合圖像。這個過程會保留每個補丁與其原始圖像文本之間的對應關系,從而形成一個帶有補丁-文本對應關系的語義分割數據集。

      第二階段是漸進式混合。在這個階段,普通圖像和混合圖像的補丁標記分別與一組可學習的分組標記連接,并獨立輸入到多層transformer中。同時,系統使用原始圖像的特征來增強混合圖像特征中的上下文信息。這就像是在拼圖過程中,不時參考原圖來確保方向正確。

      第三階段是混合恢復。在這個階段,系統會根據混合前圖像的補丁位置恢復混合圖像。原始特征、混合特征和恢復特征通過兩階段分組塊進行分割,生成相應的分段標記。這些分段標記經過多層transformer處理后,通過MLP投影到與文本嵌入相同的維度。


      計算損失時,MixReorg使用兩種主要損失函數:混合分割損失和恢復對比損失。混合分割損失通過計算混合圖像的預測掩碼與真實掩碼之間的交叉熵來優化模型。恢復對比損失則通過恢復特征與文本嵌入之間的對比學習來增強跨模態語義對齊能力。

      值得注意的是,MixReorg在測試時只需執行原始圖像分支,不會增加任何額外的測試時間。這使它在實際應用中既高效又實用。

      從技術角度看,MixReorg的創新在于它成功地將補丁混合與跨模態學習結合起來,創造了一種新的掩碼學習方法。這種方法不需要像素級標注,只需圖像-文本對數據,就能實現高精度的開放世界語義分割。

      出眾的表現

      經過嚴格測試,MixReorg在多個基準數據集上展現出卓越的性能,證明了其作為開放世界分割模型的強大能力。

      在PASCAL VOC2012數據集上,MixReorg的單尺度評估達到了47.9%的平均交并比(mIoU),多尺度評估更是達到了50.5%,比基線方法GroupViT分別提高了6.8%和5.0%。這個提升在計算機視覺領域是相當顯著的。要知道,PASCAL VOC數據集包含20個前景類別,是評估分割模型的標準數據集之一。

      在PASCAL Context數據集上,MixReorg的表現同樣令人印象深刻。它在單尺度評估中達到23.9%的mIoU,多尺度評估中達到25.4%,比GroupViT分別提高了5.7%和6.2%。考慮到PASCAL Context包含59個類別,涵蓋更廣泛的物體類型,這一提升更加值得稱贊。

      在MS COCO數據集上,MixReorg的單尺度評估為21.3%,多尺度評估為23.6%,比GroupViT分別提高了2.9%和2.5%。COCO是一個更具挑戰性的數據集,包含80個類別和更復雜的場景,MixReorg仍然能夠取得顯著改進。

      即使在最具挑戰性的ADE20K數據集上,MixReorg也表現出色。它的單尺度評估為8.7%,多尺度評估為10.1%,比GroupViT分別提高了2.9%和3.4%。ADE20K包含150個類別,場景多樣且復雜,能在這樣的數據集上取得提升,充分證明了MixReorg方法的強大泛化能力。

      除了與GroupViT的比較外,MixReorg還超越了許多其他先進方法。例如,在PASCAL VOC上,它優于使用額外自監督信息的SLIP(12.3%)和CLIP-MAE(16.8%),以及使用更多訓練數據的MaskCLIP(21.7%)。這種全面的優勢表明,MixReorg的跨模態混合補丁重組方法能夠更有效地學習細粒度語義對齊。

      除了語義分割外,MixReorg在圖像分類任務上也表現出色。在ImageNet零樣本分類測試中,MixReorg的top-1準確率為38.8%,top-5準確率為66.7%,顯著優于GroupViT的37.5%和65.5%。這表明MixReorg通過細粒度掩碼學習實現了更好的圖像-文本對齊。


      為了深入了解MixReorg各組件的貢獻,研究團隊進行了全面的消融研究。實驗表明,上下文混合(CM)策略是至關重要的。僅添加一個transformer層(即GroupViT+)并不能提高性能,但加入CM后,性能顯著提升(19.3% vs 18.2%)。這證明了在模型早期獲取全局語義信息的重要性。

      另外,實驗還探索了混合用于上下文混合操作的圖像數量M的影響。結果顯示,M=16是最佳選擇。隨著M的增加,混合圖像包含更多語義類別,有助于模型學習語義分組(20.5% vs 17.1%)。但M超過某個閾值(如M=32)后,由于分辨率限制,混合圖像中的語義表示不足,反而會干擾模型學習(20.5% vs 18.2%)。


      漸進式混合模塊的數量P也是一個重要參數。當P=0時,即不使用原始圖像增強混合圖像,模型性能較差。隨著P的增加,混合圖像特征的語義變得更清晰,更有利于模型學習區分不同語義。實驗表明,P=6時模型性能最佳,比P=0提高約7%的mIoU。

      直觀地看,MixReorg生成的分割結果在視覺上也明顯優于GroupViT。在處理包含多個類別的復雜圖像時,MixReorg能夠更準確地分割不同物體。同時,對于"stuff"類別(如天空、草地等),MixReorg的分割質量也明顯優于GroupViT。這表明MixReorg具有更強的高級語義理解和分割能力。

      研究團隊還可視化了從混合圖像重組的結果,發現MixReorg能夠正確地將大多數圖像補丁分割到其對應的原始語義中。混合圖像預測的混淆矩陣表明,MixReorg能夠有效地將補丁與文本對齊。

      總的來說,MixReorg通過創新的跨模態混合補丁重組方法,成功地從圖像-文本對數據中構建了細粒度的補丁-文本數據,并設計了有效的掩碼學習策略,實現了開放世界語義分割的顯著性能提升。這種方法不僅在多個基準測試中表現優異,而且在實際應用中具有高效性和實用性。

      參考資料

      1. Cai, K., Ren, P., Zhu, Y., Xu, H., Liu, J., Li, C., Wang, G., &; Liang, X. (2023). MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation.

      2. GroupViT: Zhou, D., Kang, B., Jin, X., Yang, L., Lian, X., Hou, Q., &; Feng, J. (2022). Semantic segmentation with text supervision.

      3. CLIP: Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., … &; Sutskever, I. (2021). Learning transferable visual models from natural language supervision.

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      人口告別世界第一?二孩催生無效后,國家終于向住房出手了

      人口告別世界第一?二孩催生無效后,國家終于向住房出手了

      春秋論娛
      2025-12-25 07:11:24
      F-16擊落全部34枚導彈,“匕首”沒擊中目標!確認犧牲英雄身份

      F-16擊落全部34枚導彈,“匕首”沒擊中目標!確認犧牲英雄身份

      鷹眼Defence
      2025-12-24 16:17:27
      彈劾賴清德拉長戰線,若能在縣市長選舉中重創民進黨也是大成功

      彈劾賴清德拉長戰線,若能在縣市長選舉中重創民進黨也是大成功

      海峽導報社
      2025-12-27 08:08:08
      中國是如何擁有殲20的?美國五角大樓:中國瞞了全世界!

      中國是如何擁有殲20的?美國五角大樓:中國瞞了全世界!

      老澽爆笑大聰明
      2025-12-27 17:08:01
      10年跟蹤100多個孩子, 杜克教授發現:照這個趨勢, 滑落的中產只會越來越多

      10年跟蹤100多個孩子, 杜克教授發現:照這個趨勢, 滑落的中產只會越來越多

      二胎媽媽圈
      2025-12-25 22:14:35
      聯盟倒數第一3人20+爆冷大勝猛龍 鶯歌29+6奎克利25分

      聯盟倒數第一3人20+爆冷大勝猛龍 鶯歌29+6奎克利25分

      醉臥浮生
      2025-12-27 10:28:09
      演員保劍鋒回應出軌傳聞

      演員保劍鋒回應出軌傳聞

      大風新聞
      2025-12-27 10:50:06
      享受假期,泰山球員黃政宇的妻子曬出兩人在韓國休假游玩照

      享受假期,泰山球員黃政宇的妻子曬出兩人在韓國休假游玩照

      懂球帝
      2025-12-27 07:58:15
      暴漲17℃!馬上抵達浙江,大反轉......

      暴漲17℃!馬上抵達浙江,大反轉......

      浙江之聲
      2025-12-27 08:32:30
      中方制裁準時開始,30道通牒發往美國,直接叫停合作,財產全凍結

      中方制裁準時開始,30道通牒發往美國,直接叫停合作,財產全凍結

      閱識
      2025-12-27 17:20:01
      嘲諷張柏芝三胎全是賠錢貨,向太忍無可忍,揭露寧靜嫁老外內幕

      嘲諷張柏芝三胎全是賠錢貨,向太忍無可忍,揭露寧靜嫁老外內幕

      悠悠說世界
      2025-12-26 12:03:43
      高價羽絨服賣不動,胖東來山姆500元以下羽絨服被瘋搶,打誰的臉

      高價羽絨服賣不動,胖東來山姆500元以下羽絨服被瘋搶,打誰的臉

      王新喜
      2025-12-27 11:45:16
      這是發廣告還是發福利?阿隆·戈登為內衣品牌拍攝寫真

      這是發廣告還是發福利?阿隆·戈登為內衣品牌拍攝寫真

      章眽八卦
      2025-12-25 11:48:11
      吃相太難看!知名羽絨服品牌舊款換名漲價900,欺瞞消費者割韭菜

      吃相太難看!知名羽絨服品牌舊款換名漲價900,欺瞞消費者割韭菜

      阿傖說事
      2025-12-27 14:34:18
      “生娃送房”,最高75㎡!湖北一地出手

      “生娃送房”,最高75㎡!湖北一地出手

      中國基金報
      2025-12-27 13:34:56
      周渝民演唱會爆料:朱孝天缺席真相大揭曉,16年兄弟情竟是演戲!

      周渝民演唱會爆料:朱孝天缺席真相大揭曉,16年兄弟情竟是演戲!

      情感大頭說說
      2025-12-26 10:55:42
      林心如親手做豬腳面 和2千元紅酒為霍建華慶生 每年禮物太用心

      林心如親手做豬腳面 和2千元紅酒為霍建華慶生 每年禮物太用心

      葉敘說
      2025-12-27 13:03:48
      呂良偉70大壽:楊受成彎腰舉杯、章小惠胖出水桶腰、王晶鍋蓋頭

      呂良偉70大壽:楊受成彎腰舉杯、章小惠胖出水桶腰、王晶鍋蓋頭

      無處不風景love
      2025-12-26 17:11:43
      整容臉又來禍害央視劇?青蛙眼,饅頭臉,香腸唇,別辣觀眾眼睛了

      整容臉又來禍害央視劇?青蛙眼,饅頭臉,香腸唇,別辣觀眾眼睛了

      冷紫葉
      2025-12-27 15:24:04
      上海市內免稅店搬新址!創新模式“市內選購,口岸提貨”

      上海市內免稅店搬新址!創新模式“市內選購,口岸提貨”

      文匯報
      2025-12-27 18:22:11
      2025-12-27 19:55:00
      臆說歷史 incentive-icons
      臆說歷史
      作有深度的歷史解讀
      162文章數 233關注度
      往期回顧 全部

      科技要聞

      小米也漲價了!業界稱終端再不漲明年必虧

      頭條要聞

      男子戒毒后隨領導出差被警察帶走驗尿 回家后工作沒了

      頭條要聞

      男子戒毒后隨領導出差被警察帶走驗尿 回家后工作沒了

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂要聞

      張昊唯逃稅涉黃風波落幕:法院認定朋友造謠

      財經要聞

      注意,開始拉物價了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態度原創

      房產
      時尚
      手機
      家居
      軍事航空

      房產要聞

      年銷20億+!中交·藍色港灣用好房子致敬好生活

      從0度穿到20度,這件衣服才是今年冬天的“頂流”!

      手機要聞

      對標小米17 Ultra!榮耀Magic8 RSR再次被確認,春節前發布

      家居要聞

      格調時尚 智慧品質居所

      軍事要聞

      英法德三國領導人通話 重申對烏支持

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 97人人看| 游戏| 色人妻中文字幕| 欧美日韩亚洲国产| 国产av普通话对白国语| 亚洲色av性色在线观无码| 春色校园综合人妻av| 中文字幕无码av激情不卡 | 亚洲色拍偷| 日韩变态另类| 伊人久久人妻| 鲜城| 巴林右旗| 超碰66| 汕尾市| 午夜插逼| 2025日韩无码| 熟妇与黑人一区二区三区乱码| 久久人妻无码一区二区三区av| 无码av免费精品一区二区三区| 成人性生交大片免费| 无码天堂va亚洲va在线va| 久久久久99精品成人片牛牛影视| 日本一卡2卡3卡四卡精品网站 | 亚州精品熟女在线| 熟女爱V| 亚洲五月婷婷| 9191久久| 99久久婷婷国产综合精品电影| 国产美女无遮挡裸色视频| 无码国产精品一区二区免费式芒果 | av鲁丝一区鲁丝二区鲁丝三区 | 中文日韩在线一区二区| 国产高清在线精品一区不卡| 国产av一区二区三区| 狠狠婷婷综合久久久久久| 麻豆av一区二区天美传媒| 一本加勒比hezyo无码专区| 成年女人免费v片| 久久99精品国产99久久6男男| 久久国产av影片|