文章來源:我愛計算機視覺(ID:aicvml)
最近,SAM 3 以概念提示分割再次引起計算機視覺研究社區(qū)的注意。圖像分割技術(shù),作為理解視覺世界的基石,正從為特定任務(wù)(如車輛分割、息肉分割、偽裝物體檢測)訓練的專用模型,邁向能夠“分割萬物”的通用大模型時代。今天,CV君將和大家一起,藉由三篇論文,回顧從專才模型到通用模型SAM系列的概念分割的技術(shù)演進。
在深入探討這些前沿技術(shù)之前,CV君覺得有必要先聊聊圖像分割領(lǐng)域里兩個核心概念的區(qū)分:上下文無關(guān)概念(Context-Independent, CI)與上下文依賴概念(Context-Dependent, CD)。
簡單來說,CI 概念指的是那些無論出現(xiàn)在什么場景下,其定義和識別特征都相對固定的物體,比如“人”、“汽車”、“飛機”等。它們的類別是固定的,不隨環(huán)境變化而改變。長久以來,多類別的語義分割領(lǐng)域主要關(guān)注的就是這類 Multi-CI 概念的分割。
而CD 概念則恰恰相反,它們的識別和理解嚴重依賴其所處的環(huán)境和上下文信息。例如,偽裝的物體、陰影、透明物體,以及醫(yī)學影像中的病灶等。這些概念的特點是,目標本身如果不結(jié)合周圍環(huán)境,就難以被準確識別。由于不同CD概念之間存在較大的領(lǐng)域/模態(tài)差異(domain/modality gap),長期以來,對CD概念的研究多是面向單一概念的“專才”范式。
![]()
本圖來自下述的Spider文
上圖展示了CI概念(如熊、船、巴士)與CD概念(如顯著物體、陰影、COVID-19感染病灶、息肉)在視覺上的對比。CI概念的分割目標清晰,而CD概念的分割則需要考慮其與周圍環(huán)境的互動。
研究業(yè)界論文可以發(fā)現(xiàn),傳統(tǒng)的 Multi-CI 概念語義分割領(lǐng)域目前已明顯遇到瓶頸,而轉(zhuǎn)向 Multi-CD 概念分割,無疑是一個新的起點。如果能將這些復雜的CD概念統(tǒng)一起來,完成復雜的 Multi-CD 概念預測,將是進一步完善圖像分割范式的重要一步。畢竟,Multi-CI + Multi-CD 才是語義分割的完整構(gòu)成。
接下來,就讓我們從 Spider 開始,看看這些模型是如何一步步探索 Multi-CD 概念分割的。
Spider:統(tǒng)一上下文依賴概念的分割專家
首先,讓我們回到2024年5月,一篇被ICML 2024錄用的論文為我們介紹了一位“專家”型選手。
![]()
論文標題: Spider: A Unified Framework for Context-dependent Concept Segmentation
錄用信息: ICML 2024
論文地址: https://arxiv.org/abs/2405.01002
在分割領(lǐng)域,有些概念的識別嚴重依賴其周圍的環(huán)境,比如偽裝的章魚、透明的玻璃杯或是醫(yī)學影像中的病灶。這些被稱為“上下文依賴(Context-Dependent)”概念。傳統(tǒng)方法通常為每一種任務(wù)都訓練一個“專才”模型,費時費力且難以泛化。
為了解決這個問題,來自大連理工大學的研究者們提出了一個名為Spider(蜘蛛)的統(tǒng)一模型。它能夠在一個復雜的網(wǎng)絡(luò)(語義空間)中,通過交錯的概念(任務(wù)領(lǐng)域和類別語義)精準地“爬”到任何感興趣的目標上。
![]()
Spider的核心思想
Spider的核心在于其獨特的“概念濾波器(Concept Filters)”機制。它接收一組“圖像-掩碼”對作為視覺提示(prompt),然后動態(tài)生成一個濾波器,指導模型在當前圖像中分割出與提示相似的概念。
如下圖所示,這種方法與之前工作的特征交互方式有所不同。Spider不只是簡單地融合特征,而是利用提示信息來生成一個動態(tài)的、針對特定概念的“篩子”,從而能更靈活地處理不同的分割任務(wù)。
![]()
整個流程可以概括為:
輸入 :待分割的目標圖像,以及一組包含同類概念的“圖像-掩碼”提示。
特征提取 :圖像和提示分別通過編碼器提取特征。
概念濾波 :利用提示特征生成前景和背景感知的查詢(queries),并通過一個動態(tài)生成的概念濾波器作用于解碼器的最后一層。
輸出 :精準的分割掩碼。
![]()
實驗效果如何?
Spider的表現(xiàn)非常亮眼。在一個包含8個不同上下文依賴分割任務(wù)(4個自然場景+4個醫(yī)學場景)的數(shù)據(jù)集上,Spider以單一模型顯著超越了當時最先進的8個“專才”模型。
![]()
從可視化結(jié)果中我們可以看到,無論是顯著性物體、偽裝物體,還是各種醫(yī)學病灶,Spider都能給出高質(zhì)量的分割結(jié)果。
![]()
更令人印象深刻的是它的持續(xù)學習能力。當模型在T1-T4任務(wù)上預訓練后,可以持續(xù)微調(diào)以適應(yīng)T5-T8的新任務(wù),而舊任務(wù)的性能下降非常小。這證明了Spider框架的強大擴展性。
![]()
承前啟后:對SAM系列模型評估后的思考
Spider展示了統(tǒng)一模型的潛力,但它仍是一個“專家系統(tǒng)”。而幾乎同時期,以SAM(Segment Anything Model)為代表的“通才”基礎(chǔ)模型橫空出世,試圖“分割萬物”。那么,這些通用大模型在Spider所關(guān)注的“上下文依賴”這類精細任務(wù)上表現(xiàn)如何呢?
一篇于2024年12月提交給IJCV的論文延續(xù)了這一探索,建立了一個統(tǒng)一的評估框架,全面審視了SAM和SAM 2在11種不同上下文依賴概念上的表現(xiàn)。
![]()
論文標題: Inspiring the Next Generation of Segment Anything Models:Comprehensively Evaluate SAM and SAM 2 with Diverse Prompts Towards Context-Dependent Concepts under Different Scenes
投稿信息: IJCV 投稿
論文地址: https://arxiv.org/abs/2412.01240
這項工作更像是一次全面的“摸底考試”,它不僅評估了SAM系列,還為未來的類似SAM 3的分割模型探索了方向。
![]()
SAM vs SAM 2
在深入評估之前,我們先簡單回顧下SAM和SAM 2的結(jié)構(gòu)差異。SAM 2引入了前一幀的預測結(jié)果作為額外輸入,增強了在視頻或序列數(shù)據(jù)上的表現(xiàn)。
![]()
“大一統(tǒng)”評估結(jié)果
研究者們在包括顯著物體、偽裝物體、陰影、透明物體、工業(yè)缺陷以及多種醫(yī)學病灶在內(nèi)的圖像和視頻數(shù)據(jù)集上,對SAM和SAM 2進行了詳細的量化和質(zhì)化評估。
![]()
![]()
結(jié)果發(fā)現(xiàn),盡管SAM系列模型非常強大,但在很多需要深度上下文理解的任務(wù)上,它們的“零樣本”表現(xiàn)并不總是盡如人意。例如,在偽裝物體檢測和陰影檢測中,SAM的分割結(jié)果常常不完整或存在明顯錯誤。
下面是一些可視化對比,可以直觀地看到SAM和SAM 2在不同任務(wù)上的表現(xiàn):
偽裝物體檢測 (上) vs. 陰影檢測 (下)![]()
![]()
透明物體分割 (上) vs. 工業(yè)表面異常檢測 (下)![]()
![]()
這項評估工作如同一面鏡子,照見了通用大模型在走向真正“萬能”的道路上,還需要在理解復雜、微妙的視覺概念方面繼續(xù)努力。這也為SAM 3等類似模型的登場埋下了伏筆。
范式躍進:SAM 3 的“概念分割”革命
時間快進到2025年10月,一篇投往ICLR 2026的論文揭開了SAM 3的神秘面紗。
![]()
論文標題: SAM 3: Segment Anything with Promptable Concept Segmentation
投稿信息: ICLR 2026 投稿
論文地址: https://openreview.net/forum?id=r35clVtGzw
SAM 3不僅在傳統(tǒng)的“可提示化視覺分割”(Promptable Visual Segmentation, PVS)任務(wù)(如通過點擊來分割物體)上超越了SAM 2,更帶來了一個全新的范式——“可提示化概念分割”(Promptable Concept Segmentation, PCS)。
![]()
這意味著,用戶現(xiàn)在可以通過一個簡短的名詞短語(如“a striped cat”)、一張示例圖片,或兩者的結(jié)合,來讓模型分割出圖像中所有屬于這個“概念”的實例。這無疑是向更高級、更智能的交互方式邁出的一大步。
值得注意的是,SAM 3的作者們在定義“可提示化概念分割”(PCS)任務(wù)時,也充分考慮到了我們之前討論的“上下文依賴”(Context-Dependent)概念所帶來的挑戰(zhàn)。他們在論文中明確指出,PCS任務(wù)本身具有內(nèi)在的模糊性,因為其詞匯是開放的。例如,像“‘大的’圓圈”這樣的描述是主觀的,而一些短語甚至是依賴于上下文的(context-dependent phrases),比如“品牌標識”,可能根本無法在視覺上被明確“接地”(groundable)。
這表明,即使是像SAM 3這樣強大的通用模型,在邁向真正理解萬物的過程中,也必須正視和處理這些復雜的、依賴于具體情境才能準確界定的視覺概念。
![]()
SAM 3 的架構(gòu)與數(shù)據(jù)引擎
為了實現(xiàn)這一飛躍,SAM 3在架構(gòu)上進行了重要升級。它集成了一個“提示編碼器(Prompt Encoder)”,能夠理解文本和圖像示例,并將其轉(zhuǎn)化為模型可以利用的表征。
![]()
![]()
當然,強大的模型離不開海量、高質(zhì)量的數(shù)據(jù)。SAM 3的背后是一個龐大的“數(shù)據(jù)引擎”,它通過一個多階段的流程,收集、標注和驗證了包含一個名為SA-Co(Segment Anything with Concepts)的超大規(guī)模數(shù)據(jù)集。
![]()
SAM 3 的驚人能力
SAM 3的能力是全方位的。在傳統(tǒng)的交互式分割基準上,它大幅超越了之前的模型。
![]()
更重要的是,在新的PCS任務(wù)上,SAM 3展現(xiàn)了強大的概念理解和泛化能力。它甚至可以作為一個智能體(Agent),與多模態(tài)大語言模型(MLLM)結(jié)合,完成復雜的推理分割任務(wù)。例如,當被要求“分割出所有舉起手的人”時,MLLM可以向SAM 3發(fā)出“手”和“人”的查詢,并分析返回的掩碼來得到最終答案。
總結(jié)與展望
從Spider的“專才多能”,到SAM系列的“萬物通才”,我們看到了一條清晰的技術(shù)演進路徑:
統(tǒng)一與泛化 :從為每個任務(wù)定制模型,到用一個統(tǒng)一框架解決一類問題(Spider)。
基礎(chǔ)模型崛起 :出現(xiàn)像SAM這樣,旨在解決所有分割問題的通用基礎(chǔ)模型。
評估與反思 :通過系統(tǒng)性評估,發(fā)現(xiàn)通用模型在特定細分領(lǐng)域的不足,為后續(xù)改進指明方向。
概念與交互 :最新的SAM 3引入了對“概念”的理解,將交互從“點”和“框”提升到了“語義”層面,實現(xiàn)了新的飛躍。
這條路還遠未到終點。如何讓模型更好地理解模糊、抽象甚至帶有主觀性的概念?如何進一步降低對海量標注數(shù)據(jù)的依賴?這些都是未來值得探索的方向。
大家對這個技術(shù)演進路線怎么看?你覺得“概念分割”的未來會用在哪些有趣的場景?一起來聊聊吧!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.