從“Spider”到SAM 3：概念提示分割小考

2025-10-25 21:55:35　來源: 算法與數(shù)學之美

北京舉報

分享至

文章來源：我愛計算機視覺（ID：aicvml）

最近，SAM 3 以概念提示分割再次引起計算機視覺研究社區(qū)的注意。圖像分割技術(shù)，作為理解視覺世界的基石，正從為特定任務(wù)（如車輛分割、息肉分割、偽裝物體檢測）訓練的專用模型，邁向能夠“分割萬物”的通用大模型時代。今天，CV君將和大家一起，藉由三篇論文，回顧從專才模型到通用模型SAM系列的概念分割的技術(shù)演進。

在深入探討這些前沿技術(shù)之前，CV君覺得有必要先聊聊圖像分割領(lǐng)域里兩個核心概念的區(qū)分：上下文無關(guān)概念（Context-Independent, CI）與上下文依賴概念（Context-Dependent, CD）。

簡單來說，CI 概念指的是那些無論出現(xiàn)在什么場景下，其定義和識別特征都相對固定的物體，比如“人”、“汽車”、“飛機”等。它們的類別是固定的，不隨環(huán)境變化而改變。長久以來，多類別的語義分割領(lǐng)域主要關(guān)注的就是這類 Multi-CI 概念的分割。

而CD 概念則恰恰相反，它們的識別和理解嚴重依賴其所處的環(huán)境和上下文信息。例如，偽裝的物體、陰影、透明物體，以及醫(yī)學影像中的病灶等。這些概念的特點是，目標本身如果不結(jié)合周圍環(huán)境，就難以被準確識別。由于不同CD概念之間存在較大的領(lǐng)域/模態(tài)差異（domain/modality gap），長期以來，對CD概念的研究多是面向單一概念的“專才”范式。

本圖來自下述的Spider文

上圖展示了CI概念（如熊、船、巴士）與CD概念（如顯著物體、陰影、COVID-19感染病灶、息肉）在視覺上的對比。CI概念的分割目標清晰，而CD概念的分割則需要考慮其與周圍環(huán)境的互動。

研究業(yè)界論文可以發(fā)現(xiàn)，傳統(tǒng)的 Multi-CI 概念語義分割領(lǐng)域目前已明顯遇到瓶頸，而轉(zhuǎn)向 Multi-CD 概念分割，無疑是一個新的起點。如果能將這些復雜的CD概念統(tǒng)一起來，完成復雜的 Multi-CD 概念預測，將是進一步完善圖像分割范式的重要一步。畢竟，Multi-CI + Multi-CD 才是語義分割的完整構(gòu)成。

接下來，就讓我們從 Spider 開始，看看這些模型是如何一步步探索 Multi-CD 概念分割的。

Spider：統(tǒng)一上下文依賴概念的分割專家

首先，讓我們回到2024年5月，一篇被ICML 2024錄用的論文為我們介紹了一位“專家”型選手。

論文標題： Spider: A Unified Framework for Context-dependent Concept Segmentation
錄用信息： ICML 2024
論文地址： https://arxiv.org/abs/2405.01002

在分割領(lǐng)域，有些概念的識別嚴重依賴其周圍的環(huán)境，比如偽裝的章魚、透明的玻璃杯或是醫(yī)學影像中的病灶。這些被稱為“上下文依賴（Context-Dependent）”概念。傳統(tǒng)方法通常為每一種任務(wù)都訓練一個“專才”模型，費時費力且難以泛化。

為了解決這個問題，來自大連理工大學的研究者們提出了一個名為Spider（蜘蛛）的統(tǒng)一模型。它能夠在一個復雜的網(wǎng)絡(luò)（語義空間）中，通過交錯的概念（任務(wù)領(lǐng)域和類別語義）精準地“爬”到任何感興趣的目標上。

Spider的核心思想

Spider的核心在于其獨特的“概念濾波器（Concept Filters）”機制。它接收一組“圖像-掩碼”對作為視覺提示（prompt），然后動態(tài)生成一個濾波器，指導模型在當前圖像中分割出與提示相似的概念。

如下圖所示，這種方法與之前工作的特征交互方式有所不同。Spider不只是簡單地融合特征，而是利用提示信息來生成一個動態(tài)的、針對特定概念的“篩子”，從而能更靈活地處理不同的分割任務(wù)。

整個流程可以概括為：

輸入：待分割的目標圖像，以及一組包含同類概念的“圖像-掩碼”提示。
特征提取 ：圖像和提示分別通過編碼器提取特征。
概念濾波 ：利用提示特征生成前景和背景感知的查詢（queries），并通過一個動態(tài)生成的概念濾波器作用于解碼器的最后一層。
輸出：精準的分割掩碼。

實驗效果如何？

Spider的表現(xiàn)非常亮眼。在一個包含8個不同上下文依賴分割任務(wù)（4個自然場景+4個醫(yī)學場景）的數(shù)據(jù)集上，Spider以單一模型顯著超越了當時最先進的8個“專才”模型。

從可視化結(jié)果中我們可以看到，無論是顯著性物體、偽裝物體，還是各種醫(yī)學病灶，Spider都能給出高質(zhì)量的分割結(jié)果。

更令人印象深刻的是它的持續(xù)學習能力。當模型在T1-T4任務(wù)上預訓練后，可以持續(xù)微調(diào)以適應(yīng)T5-T8的新任務(wù)，而舊任務(wù)的性能下降非常小。這證明了Spider框架的強大擴展性。

承前啟后：對SAM系列模型評估后的思考

Spider展示了統(tǒng)一模型的潛力，但它仍是一個“專家系統(tǒng)”。而幾乎同時期，以SAM（Segment Anything Model）為代表的“通才”基礎(chǔ)模型橫空出世，試圖“分割萬物”。那么，這些通用大模型在Spider所關(guān)注的“上下文依賴”這類精細任務(wù)上表現(xiàn)如何呢？

一篇于2024年12月提交給IJCV的論文延續(xù)了這一探索，建立了一個統(tǒng)一的評估框架，全面審視了SAM和SAM 2在11種不同上下文依賴概念上的表現(xiàn)。

論文標題： Inspiring the Next Generation of Segment Anything Models：Comprehensively Evaluate SAM and SAM 2 with Diverse Prompts Towards Context-Dependent Concepts under Different Scenes
投稿信息： IJCV 投稿
論文地址： https://arxiv.org/abs/2412.01240

這項工作更像是一次全面的“摸底考試”，它不僅評估了SAM系列，還為未來的類似SAM 3的分割模型探索了方向。

SAM vs SAM 2

在深入評估之前，我們先簡單回顧下SAM和SAM 2的結(jié)構(gòu)差異。SAM 2引入了前一幀的預測結(jié)果作為額外輸入，增強了在視頻或序列數(shù)據(jù)上的表現(xiàn)。

“大一統(tǒng)”評估結(jié)果

研究者們在包括顯著物體、偽裝物體、陰影、透明物體、工業(yè)缺陷以及多種醫(yī)學病灶在內(nèi)的圖像和視頻數(shù)據(jù)集上，對SAM和SAM 2進行了詳細的量化和質(zhì)化評估。

結(jié)果發(fā)現(xiàn)，盡管SAM系列模型非常強大，但在很多需要深度上下文理解的任務(wù)上，它們的“零樣本”表現(xiàn)并不總是盡如人意。例如，在偽裝物體檢測和陰影檢測中，SAM的分割結(jié)果常常不完整或存在明顯錯誤。

下面是一些可視化對比，可以直觀地看到SAM和SAM 2在不同任務(wù)上的表現(xiàn)：

偽裝物體檢測 (上) vs. 陰影檢測 (下)

透明物體分割 (上) vs. 工業(yè)表面異常檢測 (下)

這項評估工作如同一面鏡子，照見了通用大模型在走向真正“萬能”的道路上，還需要在理解復雜、微妙的視覺概念方面繼續(xù)努力。這也為SAM 3等類似模型的登場埋下了伏筆。

范式躍進：SAM 3 的“概念分割”革命

時間快進到2025年10月，一篇投往ICLR 2026的論文揭開了SAM 3的神秘面紗。

論文標題： SAM 3: Segment Anything with Promptable Concept Segmentation
投稿信息： ICLR 2026 投稿
論文地址： https://openreview.net/forum?id=r35clVtGzw

SAM 3不僅在傳統(tǒng)的“可提示化視覺分割”（Promptable Visual Segmentation, PVS）任務(wù)（如通過點擊來分割物體）上超越了SAM 2，更帶來了一個全新的范式——“可提示化概念分割”（Promptable Concept Segmentation, PCS）。

這意味著，用戶現(xiàn)在可以通過一個簡短的名詞短語（如“a striped cat”）、一張示例圖片，或兩者的結(jié)合，來讓模型分割出圖像中所有屬于這個“概念”的實例。這無疑是向更高級、更智能的交互方式邁出的一大步。

值得注意的是，SAM 3的作者們在定義“可提示化概念分割”（PCS）任務(wù)時，也充分考慮到了我們之前討論的“上下文依賴”（Context-Dependent）概念所帶來的挑戰(zhàn)。他們在論文中明確指出，PCS任務(wù)本身具有內(nèi)在的模糊性，因為其詞匯是開放的。例如，像“‘大的’圓圈”這樣的描述是主觀的，而一些短語甚至是依賴于上下文的（context-dependent phrases），比如“品牌標識”，可能根本無法在視覺上被明確“接地”（groundable）。

這表明，即使是像SAM 3這樣強大的通用模型，在邁向真正理解萬物的過程中，也必須正視和處理這些復雜的、依賴于具體情境才能準確界定的視覺概念。

SAM 3 的架構(gòu)與數(shù)據(jù)引擎

為了實現(xiàn)這一飛躍，SAM 3在架構(gòu)上進行了重要升級。它集成了一個“提示編碼器（Prompt Encoder）”，能夠理解文本和圖像示例，并將其轉(zhuǎn)化為模型可以利用的表征。

當然，強大的模型離不開海量、高質(zhì)量的數(shù)據(jù)。SAM 3的背后是一個龐大的“數(shù)據(jù)引擎”，它通過一個多階段的流程，收集、標注和驗證了包含一個名為SA-Co（Segment Anything with Concepts）的超大規(guī)模數(shù)據(jù)集。

SAM 3 的驚人能力

SAM 3的能力是全方位的。在傳統(tǒng)的交互式分割基準上，它大幅超越了之前的模型。

更重要的是，在新的PCS任務(wù)上，SAM 3展現(xiàn)了強大的概念理解和泛化能力。它甚至可以作為一個智能體（Agent），與多模態(tài)大語言模型（MLLM）結(jié)合，完成復雜的推理分割任務(wù)。例如，當被要求“分割出所有舉起手的人”時，MLLM可以向SAM 3發(fā)出“手”和“人”的查詢，并分析返回的掩碼來得到最終答案。

總結(jié)與展望

從Spider的“專才多能”，到SAM系列的“萬物通才”，我們看到了一條清晰的技術(shù)演進路徑：

統(tǒng)一與泛化 ：從為每個任務(wù)定制模型，到用一個統(tǒng)一框架解決一類問題（Spider）。
基礎(chǔ)模型崛起 ：出現(xiàn)像SAM這樣，旨在解決所有分割問題的通用基礎(chǔ)模型。
評估與反思 ：通過系統(tǒng)性評估，發(fā)現(xiàn)通用模型在特定細分領(lǐng)域的不足，為后續(xù)改進指明方向。
概念與交互 ：最新的SAM 3引入了對“概念”的理解，將交互從“點”和“框”提升到了“語義”層面，實現(xiàn)了新的飛躍。

這條路還遠未到終點。如何讓模型更好地理解模糊、抽象甚至帶有主觀性的概念？如何進一步降低對海量標注數(shù)據(jù)的依賴？這些都是未來值得探索的方向。

大家對這個技術(shù)演進路線怎么看？你覺得“概念分割”的未來會用在哪些有趣的場景？一起來聊聊吧！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.