<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      從“Spider”到SAM 3:概念提示分割小考

      0
      分享至

      文章來源:我愛計算機視覺(ID:aicvml)

      最近,SAM 3 以概念提示分割再次引起計算機視覺研究社區(qū)的注意。圖像分割技術(shù),作為理解視覺世界的基石,正從為特定任務(wù)(如車輛分割、息肉分割、偽裝物體檢測)訓練的專用模型,邁向能夠“分割萬物”的通用大模型時代。今天,CV君將和大家一起,藉由三篇論文,回顧從專才模型到通用模型SAM系列的概念分割的技術(shù)演進。

      在深入探討這些前沿技術(shù)之前,CV君覺得有必要先聊聊圖像分割領(lǐng)域里兩個核心概念的區(qū)分:上下文無關(guān)概念(Context-Independent, CI)上下文依賴概念(Context-Dependent, CD)

      簡單來說,CI 概念指的是那些無論出現(xiàn)在什么場景下,其定義和識別特征都相對固定的物體,比如“人”、“汽車”、“飛機”等。它們的類別是固定的,不隨環(huán)境變化而改變。長久以來,多類別的語義分割領(lǐng)域主要關(guān)注的就是這類 Multi-CI 概念的分割。

      CD 概念則恰恰相反,它們的識別和理解嚴重依賴其所處的環(huán)境和上下文信息。例如,偽裝的物體、陰影、透明物體,以及醫(yī)學影像中的病灶等。這些概念的特點是,目標本身如果不結(jié)合周圍環(huán)境,就難以被準確識別。由于不同CD概念之間存在較大的領(lǐng)域/模態(tài)差異(domain/modality gap),長期以來,對CD概念的研究多是面向單一概念的“專才”范式。


      本圖來自下述的Spider文

      上圖展示了CI概念(如熊、船、巴士)與CD概念(如顯著物體、陰影、COVID-19感染病灶、息肉)在視覺上的對比。CI概念的分割目標清晰,而CD概念的分割則需要考慮其與周圍環(huán)境的互動。

      研究業(yè)界論文可以發(fā)現(xiàn),傳統(tǒng)的 Multi-CI 概念語義分割領(lǐng)域目前已明顯遇到瓶頸,而轉(zhuǎn)向 Multi-CD 概念分割,無疑是一個新的起點。如果能將這些復雜的CD概念統(tǒng)一起來,完成復雜的 Multi-CD 概念預測,將是進一步完善圖像分割范式的重要一步。畢竟,Multi-CI + Multi-CD 才是語義分割的完整構(gòu)成。

      接下來,就讓我們從 Spider 開始,看看這些模型是如何一步步探索 Multi-CD 概念分割的。

      Spider:統(tǒng)一上下文依賴概念的分割專家

      首先,讓我們回到2024年5月,一篇被ICML 2024錄用的論文為我們介紹了一位“專家”型選手。



      • 論文標題: Spider: A Unified Framework for Context-dependent Concept Segmentation

      • 錄用信息: ICML 2024

      • 論文地址: https://arxiv.org/abs/2405.01002

      在分割領(lǐng)域,有些概念的識別嚴重依賴其周圍的環(huán)境,比如偽裝的章魚、透明的玻璃杯或是醫(yī)學影像中的病灶。這些被稱為“上下文依賴(Context-Dependent)”概念。傳統(tǒng)方法通常為每一種任務(wù)都訓練一個“專才”模型,費時費力且難以泛化。

      為了解決這個問題,來自大連理工大學的研究者們提出了一個名為Spider(蜘蛛)的統(tǒng)一模型。它能夠在一個復雜的網(wǎng)絡(luò)(語義空間)中,通過交錯的概念(任務(wù)領(lǐng)域和類別語義)精準地“爬”到任何感興趣的目標上。


      Spider的核心思想

      Spider的核心在于其獨特的“概念濾波器(Concept Filters)”機制。它接收一組“圖像-掩碼”對作為視覺提示(prompt),然后動態(tài)生成一個濾波器,指導模型在當前圖像中分割出與提示相似的概念。

      如下圖所示,這種方法與之前工作的特征交互方式有所不同。Spider不只是簡單地融合特征,而是利用提示信息來生成一個動態(tài)的、針對特定概念的“篩子”,從而能更靈活地處理不同的分割任務(wù)。


      整個流程可以概括為:

      1. 輸入 :待分割的目標圖像,以及一組包含同類概念的“圖像-掩碼”提示。

      2. 特征提取 :圖像和提示分別通過編碼器提取特征。

      3. 概念濾波 :利用提示特征生成前景和背景感知的查詢(queries),并通過一個動態(tài)生成的概念濾波器作用于解碼器的最后一層。

      4. 輸出 :精準的分割掩碼。


      實驗效果如何?

      Spider的表現(xiàn)非常亮眼。在一個包含8個不同上下文依賴分割任務(wù)(4個自然場景+4個醫(yī)學場景)的數(shù)據(jù)集上,Spider以單一模型顯著超越了當時最先進的8個“專才”模型


      從可視化結(jié)果中我們可以看到,無論是顯著性物體、偽裝物體,還是各種醫(yī)學病灶,Spider都能給出高質(zhì)量的分割結(jié)果。


      更令人印象深刻的是它的持續(xù)學習能力。當模型在T1-T4任務(wù)上預訓練后,可以持續(xù)微調(diào)以適應(yīng)T5-T8的新任務(wù),而舊任務(wù)的性能下降非常小。這證明了Spider框架的強大擴展性。


      承前啟后:對SAM系列模型評估后的思考

      Spider展示了統(tǒng)一模型的潛力,但它仍是一個“專家系統(tǒng)”。而幾乎同時期,以SAM(Segment Anything Model)為代表的“通才”基礎(chǔ)模型橫空出世,試圖“分割萬物”。那么,這些通用大模型在Spider所關(guān)注的“上下文依賴”這類精細任務(wù)上表現(xiàn)如何呢?

      一篇于2024年12月提交給IJCV的論文延續(xù)了這一探索,建立了一個統(tǒng)一的評估框架,全面審視了SAM和SAM 2在11種不同上下文依賴概念上的表現(xiàn)。



      • 論文標題: Inspiring the Next Generation of Segment Anything Models:Comprehensively Evaluate SAM and SAM 2 with Diverse Prompts Towards Context-Dependent Concepts under Different Scenes

      • 投稿信息: IJCV 投稿

      • 論文地址: https://arxiv.org/abs/2412.01240

      這項工作更像是一次全面的“摸底考試”,它不僅評估了SAM系列,還為未來的類似SAM 3的分割模型探索了方向。


      SAM vs SAM 2

      在深入評估之前,我們先簡單回顧下SAM和SAM 2的結(jié)構(gòu)差異。SAM 2引入了前一幀的預測結(jié)果作為額外輸入,增強了在視頻或序列數(shù)據(jù)上的表現(xiàn)。


      “大一統(tǒng)”評估結(jié)果

      研究者們在包括顯著物體、偽裝物體、陰影、透明物體、工業(yè)缺陷以及多種醫(yī)學病灶在內(nèi)的圖像和視頻數(shù)據(jù)集上,對SAM和SAM 2進行了詳細的量化和質(zhì)化評估。



      結(jié)果發(fā)現(xiàn),盡管SAM系列模型非常強大,但在很多需要深度上下文理解的任務(wù)上,它們的“零樣本”表現(xiàn)并不總是盡如人意。例如,在偽裝物體檢測和陰影檢測中,SAM的分割結(jié)果常常不完整或存在明顯錯誤。

      下面是一些可視化對比,可以直觀地看到SAM和SAM 2在不同任務(wù)上的表現(xiàn):

      偽裝物體檢測 (上) vs. 陰影檢測 (下)


      透明物體分割 (上) vs. 工業(yè)表面異常檢測 (下)


      這項評估工作如同一面鏡子,照見了通用大模型在走向真正“萬能”的道路上,還需要在理解復雜、微妙的視覺概念方面繼續(xù)努力。這也為SAM 3等類似模型的登場埋下了伏筆。

      范式躍進:SAM 3 的“概念分割”革命

      時間快進到2025年10月,一篇投往ICLR 2026的論文揭開了SAM 3的神秘面紗。



      • 論文標題: SAM 3: Segment Anything with Promptable Concept Segmentation

      • 投稿信息: ICLR 2026 投稿

      • 論文地址: https://openreview.net/forum?id=r35clVtGzw

      SAM 3不僅在傳統(tǒng)的“可提示化視覺分割”(Promptable Visual Segmentation, PVS)任務(wù)(如通過點擊來分割物體)上超越了SAM 2,更帶來了一個全新的范式——“可提示化概念分割”(Promptable Concept Segmentation, PCS)


      這意味著,用戶現(xiàn)在可以通過一個簡短的名詞短語(如“a striped cat”)、一張示例圖片,或兩者的結(jié)合,來讓模型分割出圖像中所有屬于這個“概念”的實例。這無疑是向更高級、更智能的交互方式邁出的一大步。

      值得注意的是,SAM 3的作者們在定義“可提示化概念分割”(PCS)任務(wù)時,也充分考慮到了我們之前討論的“上下文依賴”(Context-Dependent)概念所帶來的挑戰(zhàn)。他們在論文中明確指出,PCS任務(wù)本身具有內(nèi)在的模糊性,因為其詞匯是開放的。例如,像“‘大的’圓圈”這樣的描述是主觀的,而一些短語甚至是依賴于上下文的(context-dependent phrases),比如“品牌標識”,可能根本無法在視覺上被明確“接地”(groundable)。

      這表明,即使是像SAM 3這樣強大的通用模型,在邁向真正理解萬物的過程中,也必須正視和處理這些復雜的、依賴于具體情境才能準確界定的視覺概念。


      SAM 3 的架構(gòu)與數(shù)據(jù)引擎

      為了實現(xiàn)這一飛躍,SAM 3在架構(gòu)上進行了重要升級。它集成了一個“提示編碼器(Prompt Encoder)”,能夠理解文本和圖像示例,并將其轉(zhuǎn)化為模型可以利用的表征。



      當然,強大的模型離不開海量、高質(zhì)量的數(shù)據(jù)。SAM 3的背后是一個龐大的“數(shù)據(jù)引擎”,它通過一個多階段的流程,收集、標注和驗證了包含一個名為SA-Co(Segment Anything with Concepts)的超大規(guī)模數(shù)據(jù)集。


      SAM 3 的驚人能力

      SAM 3的能力是全方位的。在傳統(tǒng)的交互式分割基準上,它大幅超越了之前的模型。


      更重要的是,在新的PCS任務(wù)上,SAM 3展現(xiàn)了強大的概念理解和泛化能力。它甚至可以作為一個智能體(Agent),與多模態(tài)大語言模型(MLLM)結(jié)合,完成復雜的推理分割任務(wù)。例如,當被要求“分割出所有舉起手的人”時,MLLM可以向SAM 3發(fā)出“手”和“人”的查詢,并分析返回的掩碼來得到最終答案。

      總結(jié)與展望

      從Spider的“專才多能”,到SAM系列的“萬物通才”,我們看到了一條清晰的技術(shù)演進路徑:

      1. 統(tǒng)一與泛化 :從為每個任務(wù)定制模型,到用一個統(tǒng)一框架解決一類問題(Spider)。

      2. 基礎(chǔ)模型崛起 :出現(xiàn)像SAM這樣,旨在解決所有分割問題的通用基礎(chǔ)模型。

      3. 評估與反思 :通過系統(tǒng)性評估,發(fā)現(xiàn)通用模型在特定細分領(lǐng)域的不足,為后續(xù)改進指明方向。

      4. 概念與交互 :最新的SAM 3引入了對“概念”的理解,將交互從“點”和“框”提升到了“語義”層面,實現(xiàn)了新的飛躍。

      這條路還遠未到終點。如何讓模型更好地理解模糊、抽象甚至帶有主觀性的概念?如何進一步降低對海量標注數(shù)據(jù)的依賴?這些都是未來值得探索的方向。

      大家對這個技術(shù)演進路線怎么看?你覺得“概念分割”的未來會用在哪些有趣的場景?一起來聊聊吧!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      上海空氣灰蒙蒙一片?專家:已達中度污染

      上海空氣灰蒙蒙一片?專家:已達中度污染

      看看新聞Knews
      2025-12-20 17:44:11
      【獨家】小米給全國汽車經(jīng)銷商發(fā)超一億元“紅包”

      【獨家】小米給全國汽車經(jīng)銷商發(fā)超一億元“紅包”

      界面新聞
      2025-12-20 12:27:14
      博主:申花俱樂部投資方的態(tài)度成為路易斯續(xù)約的“攔路虎”

      博主:申花俱樂部投資方的態(tài)度成為路易斯續(xù)約的“攔路虎”

      懂球帝
      2025-12-21 09:25:09
      罪惡的柬埔寨,讓中國人聞風喪膽?為什么是東南亞最可怕的國家?

      罪惡的柬埔寨,讓中國人聞風喪膽?為什么是東南亞最可怕的國家?

      歷史人文2
      2025-12-14 09:28:10
      央視發(fā)聲!張本智和奪冠沒1周,意外發(fā)生,王楚欽、林詩棟被牽連

      央視發(fā)聲!張本智和奪冠沒1周,意外發(fā)生,王楚欽、林詩棟被牽連

      莉莉和奶奶
      2025-12-20 12:26:51
      “白天冬至,單衣過冬;晚上冬至,凍死老牛”,今年冬至在幾點?

      “白天冬至,單衣過冬;晚上冬至,凍死老牛”,今年冬至在幾點?

      周哥一影視
      2025-12-21 09:13:27
      77歲老藝術(shù)家何慶魁,被親兒子捅刀:他嫖不動了,每月1萬夠花

      77歲老藝術(shù)家何慶魁,被親兒子捅刀:他嫖不動了,每月1萬夠花

      豐譚筆錄
      2025-12-15 10:43:28
      赫魯曉夫三次救兒子無果:跪在斯大林腳上,苦苦哀求,最終被槍斃

      赫魯曉夫三次救兒子無果:跪在斯大林腳上,苦苦哀求,最終被槍斃

      清清河邊草
      2024-04-07 21:57:45
      朱孝天格局太小了!F4演唱會贏麻了,朱孝天嘲諷阿信,簡直破大防

      朱孝天格局太小了!F4演唱會贏麻了,朱孝天嘲諷阿信,簡直破大防

      小娛樂悠悠
      2025-12-21 09:56:01
      岳云鵬等行李皺著眉,寬松夾克襯圓臉蛋,被站姐圍拍意外又接地氣

      岳云鵬等行李皺著眉,寬松夾克襯圓臉蛋,被站姐圍拍意外又接地氣

      小喬古裝漢服
      2025-12-19 17:25:10
      曼聯(lián)6500萬簽塞門約計劃細節(jié)曝光!只有20天操作,已討論個人待遇

      曼聯(lián)6500萬簽塞門約計劃細節(jié)曝光!只有20天操作,已討論個人待遇

      羅米的曼聯(lián)博客
      2025-12-21 09:57:13
      2025最慘大撤退:18萬家快遞驛站,快把所有人得罪光了

      2025最慘大撤退:18萬家快遞驛站,快把所有人得罪光了

      金錯刀
      2025-12-14 15:34:35
      馬克西38+4+2,濃眉24+15,弗拉格追平詹姆斯紀錄,克萊要被交易

      馬克西38+4+2,濃眉24+15,弗拉格追平詹姆斯紀錄,克萊要被交易

      毒舌NBA
      2025-12-21 10:41:47
      南博再爆大瓜:生物碩士“速成”美院博士,冒名捐贈者龐家后人

      南博再爆大瓜:生物碩士“速成”美院博士,冒名捐贈者龐家后人

      聽心堂
      2025-12-20 09:23:43
      佟麗婭好低調(diào)!偷偷一個人跑去看言承旭f4演唱會,自掏腰包1880元

      佟麗婭好低調(diào)!偷偷一個人跑去看言承旭f4演唱會,自掏腰包1880元

      小娛樂悠悠
      2025-12-21 10:07:26
      袁世凱坐龍椅的真實老照片,接受群臣朝拜,“妃子們”也非常漂亮

      袁世凱坐龍椅的真實老照片,接受群臣朝拜,“妃子們”也非常漂亮

      文史微鑒
      2025-12-13 22:13:15
      2015年,谷俊山被判死緩,朱德外孫對他的評價一針見血

      2015年,谷俊山被判死緩,朱德外孫對他的評價一針見血

      歷史龍元閣
      2025-12-03 13:50:04
      真實的陶淵明:晚年為生存乞討,5個兒子無一成才,63歲活活餓死

      真實的陶淵明:晚年為生存乞討,5個兒子無一成才,63歲活活餓死

      玥來玥好講故事
      2025-12-10 20:33:51
      長達10年,女子被丈夫下藥供陌生人性侵,人數(shù)創(chuàng)紀錄讓女子崩潰

      長達10年,女子被丈夫下藥供陌生人性侵,人數(shù)創(chuàng)紀錄讓女子崩潰

      干史人
      2024-09-16 20:00:03
      奉勸大家:這9樣生活用品,別買“太便宜”的,越便宜越容易吃虧

      奉勸大家:這9樣生活用品,別買“太便宜”的,越便宜越容易吃虧

      摳搜俠
      2025-12-20 16:57:15
      2025-12-21 12:39:00
      算法與數(shù)學之美 incentive-icons
      算法與數(shù)學之美
      分享知識,交流思想
      5271文章數(shù) 64595關(guān)注度
      往期回顧 全部

      科技要聞

      生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個應(yīng)用

      頭條要聞

      醫(yī)生被控強奸2名幼女案再審 其檢察官父親作無罪辯護

      頭條要聞

      醫(yī)生被控強奸2名幼女案再審 其檢察官父親作無罪辯護

      體育要聞

      送快船西部墊底!鵜鶘大勝步行者獲4連勝

      娛樂要聞

      鹿晗關(guān)曉彤戀愛期間毫不避諱?

      財經(jīng)要聞

      百年老店陷貼牌爭議 同仁堂必須作出取舍

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態(tài)度原創(chuàng)

      家居
      手機
      健康
      游戲
      軍事航空

      家居要聞

      高端私宅 理想隱居圣地

      手機要聞

      華為Nova15系列全解析:機身重量、電池容量、核心配置,均清晰!

      這些新療法,讓化療不再那么痛苦

      魔獸世界:安其拉神殿最讓人無法抗拒的武器,哪款能讓你逆襲?

      軍事要聞

      澤連斯基:前線局勢愈發(fā)艱難

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 人妻系列无码专区无码中出| 国产无套精品一区二区| 潞城市| 亚洲欧洲av| 日韩av一区二区三区精品| 亚洲成亚洲成网| 国产精品无码dvd在线观看| 亚洲精品久久久久久下一站| 精品2020婷婷激情五月| 人妻人久久精品中文字幕| 四房播播成人网| 亚洲乱码国产乱码精品精大量| 国产精品久久午夜夜伦鲁鲁| 精品国产免费一区二区三区香蕉| 偷看少妇自慰xxxx| 中文字幕日韩精品人妻| 久久av高潮av无码av喷吹| 亚洲成人无码中文字幕| 白丝乳交内射一二三区| 91精品国产福利尤物免费| 免费jizz| 精品无码人妻一区二区三区三州| 337p粉嫩大胆色噜噜噜| 国产国产乱老熟女视频网站97| 国产v专区| 亚洲天堂在线99| 最近最好的中文字幕2019免费| 国产精品综合av一区二区国产馆| 国产成人91| 忘忧草社区在线www| 久久综合九色综合欧洲98| 五月婷婷五月天| 微山县| 久久婷婷五月综合色精品| 亚洲成人在线| 国产精品中文| 中文字幕人妻精品免费| 亚洲色成人www永久网站| 亚洲日韩国产精品第一页一区| 铁牛TV尤物| 天天躁夜夜踩很很踩2022|