在醫學研究的世界里,影像分割猶如數字解剖師,能精準勾勒出人體內部結構的輪廓。然而,傳統的人工智能模型就像"專科醫生",只能處理特定的器官或組織,面對新任務時就需要從頭訓練,這對于臨床研究者來說簡直是一道無法逾越的高墻。而今,一種名為UniverSeg的神奇模型橫空出世,它打破了這一限制,就像一位通曉全身各系統的"全科醫生",能夠自如應對心臟、大腦、眼睛甚至是從未見過的脊椎分割任務,更令人驚嘆的是,它無需重新訓練就能完成這一切。這究竟是如何實現的?這種突破性技術又將如何改變醫學研究的格局?
![]()
專家的專業障礙
醫學影像分割技術在近年來取得了飛速發展,深度學習模型已成為解決這類問題的主流方法。但這些模型就像是專攻某一領域的專家醫生,只擅長處理特定任務。例如,一個為心臟分割設計的模型在處理大腦影像時會表現糟糕,就像一位心臟科醫生難以勝任神經外科手術一樣。
這種局限性源于深度學習模型的工作原理。傳統的分割模型通常被訓練來識別特定器官或組織的特征。以心臟分割為例,模型會學習心臟在CT或MRI影像中的特征表現,如形狀、位置和密度。但這些特征與肺部、腦部或其他器官截然不同,導致一個模型很難跨越不同解剖結構的鴻溝。
在現實應用中,這種限制造成了嚴重的資源浪費和研究障礙。每當臨床研究人員需要分割新的解剖結構或使用新的成像模態,他們必須:
收集并標注大量該特定任務的數據
設計或調整適合該任務的網絡架構
進行耗時的訓練和優化過程
對模型進行評估和微調
這一系列工作通常需要數周乃至數月的時間,更不用說所需的計算資源和專業知識。根據UniverSeg研究團隊的調查,大多數臨床研究人員不具備訓練深度學習模型所需的技術背景和計算資源。一位醫學研究人員表示:"我們想研究某種罕見疾病的影像特征,但僅僅是為了得到可靠的分割結果,就需要花費數月時間與計算機科學家合作訓練模型,這大大延緩了我們的研究進度。"
現有的一些解決方案試圖通過轉移學習(Transfer Learning)或微調(Fine-tuning)來緩解這一問題。這些方法使用在大規模數據上預訓練的模型,然后針對新任務進行適應性調整。但即使是微調,也需要一定的機器學習專業知識和計算資源,這對于大多數臨床研究者來說仍是一道難以逾越的門檻。
少樣本學習(Few-Shot Learning)方法嘗試使用少量標記數據解決新任務,但這些方法通常局限于特定領域內的新類別識別,難以泛化到全新的解剖結構或成像模態。例如,PANet、ALPNet等少樣本分割方法在處理與訓練數據相似的任務時表現不錯,但面對全新的解剖區域時性能急劇下降。
這種狀況就像是每個醫生只能處理特定疾病,無法快速適應新的臨床挑戰。在2025年的醫學研究環境中,這種局限性已成為制約醫學影像分析發展的重要因素之一。
全能醫生的秘密
面對醫學影像分割領域的困境,麻省理工學院和康奈爾大學的研究團隊開發了UniverSeg,這一創新模型徹底改變了傳統分割模型的工作方式。它不再是一個"專科醫生",而是一個能處理各種醫學影像分割任務的"全科醫生",無需為新任務重新訓練。
![]()
UniverSeg的核心理念是將分割任務本身作為模型的輸入,而不是將模型設計為特定任務的專家。具體來說,它將幾個已標記的示例圖像-標簽對(稱為支持集)作為輸入,這些示例定義了要執行的分割任務。然后,模型學習如何根據這些示例對新的查詢圖像進行分割。這就像是一位醫生通過觀察幾個示例病例,迅速掌握了如何在新病例中識別相同的結構。
這一創新方法的關鍵在于所謂的CrossBlock機制。這是一種全新的神經網絡構建模塊,能夠在不同的空間尺度上有效轉移支持集和查詢圖像之間的信息。在傳統的少樣本學習方法中,模型通常只提取支持集的原型特征,而忽略了空間信息的重要性。而CrossBlock則通過交叉卷積層實現了更細粒度的信息交互:
它首先將查詢圖像的特征與支持集中每個示例的特征連接起來
然后通過可學習的卷積操作處理這些連接特征
最后產生更新后的查詢和支持集表示
這種設計允許模型在多個層次上比較查詢圖像和支持示例,從而識別出相似的結構,即使它們在外觀上有所不同。整個網絡采用類似U形網絡的編碼器-解碼器結構,在不同分辨率上進行特征提取和交互,最終生成精確的分割預測。
為了訓練這個通用模型,研究團隊收集并標準化了名為MegaMedical的大規模數據集,包含53個開放獲取的醫學分割數據集,涵蓋26個醫學領域和16種成像模態,總計超過22,000次掃描。這些數據涉及眼睛、肺部、脊椎椎體、白血細胞、腹部和大腦等多種器官和組織。如此多樣化的訓練數據使模型能夠學習到不同醫學影像任務的共性和差異。
為進一步增強模型的泛化能力,研究團隊引入了兩種關鍵的數據增強策略:
任務內增強:通過對圖像和標簽應用仿射變換、彈性變形或添加噪聲等標準數據增強操作,減少對個別受試者的過擬合。
任務增強:改變整個任務的性質,例如對所有分割圖進行邊緣檢測或水平翻轉所有圖像和標簽。這種增強方式有助于模型適應遠離訓練任務分布的新任務。
研究團隊還設計了一種合成任務生成流程,創建了數千個合成分割任務用于訓練,從而進一步擴大了訓練任務的多樣性。實驗表明,即使只用合成數據訓練的模型在實際醫學影像上也表現出令人驚訝的分割能力,證明了任務多樣性對模型泛化能力的關鍵作用。
在推理階段,UniverSeg的工作流程非常直觀:用戶提供幾個帶標簽的示例(支持集)和一個需要分割的新圖像(查詢)。模型然后在一次前向傳遞中生成分割預測,無需任何額外的訓練或微調。為了提高穩定性,還可以通過集成多個獨立采樣的支持集的預測結果來進一步提高性能。
這種方法徹底改變了處理新醫學分割任務的方式。臨床研究人員不再需要機器學習專業知識或昂貴的計算資源,只需準備幾個帶標簽的示例,就能利用UniverSeg模型對新圖像進行準確分割。正如一位測試該系統的放射科醫生所說:"這就像是有了一位能迅速適應任何分割需求的助手,大大加快了我們的研究進度。"
![]()
超越極限的表現
UniverSeg模型在未見過的六個醫學影像數據集上展現出驚人的分割能力,這些數據集包括三個在訓練數據中有代表的解剖結構(ACDC和SCD的心臟,STARE的視網膜血管)和三個完全未見過的解剖結構(PanDental的下頜骨,SpineWeb的脊椎,以及WBC的白血細胞)。
測試結果令人振奮:UniverSeg在所有六個數據集上都大幅超越了現有的少樣本學習方法。以Dice評分為衡量標準(范圍0-100,0表示無重疊,100表示完美匹配),UniverSeg平均達到71.8分,遠高于最接近的對手SENet的50.1分。這種性能差距在視覺上也非常明顯——UniverSeg產生的分割結果邊緣更加精確,內部區域更加連貫,幾乎可以與專門為這些任務訓練的監督模型媲美。
更令人驚訝的是,在某些數據集上,如PanDental(下頜骨)和WBC(白血細胞),UniverSeg的表現接近甚至可能達到專門訓練的nnUNet模型的水平,而后者需要在每個特定任務上進行耗時的專門訓練。這表明UniverSeg不僅僅是一個權宜之計,而是在某些情況下可以替代傳統的任務特定模型。
為了深入理解影響UniverSeg性能的因素,研究團隊進行了一系列詳細分析。其中最關鍵的發現是訓練任務的多樣性對模型泛化能力的深遠影響。當用MegaMedical數據集的不同比例子集訓練模型時,使用更多訓練任務的模型在未見過的數據集上表現更好。具體來說,使用全部訓練數據的模型比僅使用5%訓練數據的模型平均Dice分數高出約20分。
這種關系并非簡單的線性關系——隨著訓練任務數量的增加,性能提升呈現對數型增長,這意味著雖然更多的任務總是有益的,但邊際收益會隨著任務數量的增加而減少。有趣的是,研究還發現,訓練數據集的選擇同樣重要。在使用相同數量訓練任務的情況下,包含多樣解剖結構(如心臟、腹部、大腦和眼睛)的模型比專注于特定類型病變的模型表現更好,差距可達17.3個Dice分。
支持集的規模是另一個關鍵因素。UniverSeg在大型支持集上表現最佳,平均性能從支持集大小為1時的53.7分迅速提升到支持集大小為16時的69.9分,隨后增長速度趨于平緩。這表明模型能有效利用更多示例中包含的信息,但超過一定數量后,額外示例的價值遞減。
![]()
推理時的集成策略也顯著影響性能。通過平均多個使用不同隨機支持集的預測結果,可以減少對特定支持示例的依賴,從而提高整體穩定性。對于小支持集(小于16),集成帶來的改進尤為明顯,可提高2.4-3.1個Dice分。
在實際應用場景中,標注數據通常很稀缺,因此研究團隊特別分析了UniverSeg在有限示例條件下的表現。結果表明,即使只有少量標記示例,UniverSeg也能生成相當不錯的分割結果。例如,在WBC數據集上,僅使用8個標記示例時,平均Dice分數就能達到約70分,接近使用64個示例時的水平。
不同支持集大小與集成預測數量的組合分析揭示了一個重要發現:增加支持集大小的效果遠大于增加集成預測數量。例如,使用64個支持示例而不進行集成的預測(N=64,K=1)比使用2-8個支持示例但進行64次集成預測(N=2,4,8,K=64)的結果更好,盡管后者實際使用了更多支持示例。這表明UniverSeg以一種根本不同于傳統集成技術的方式利用支持示例中的信息。
模型的訓練策略分析也提供了寶貴見解。實驗表明,所有提出的多樣性增強策略——任務內增強、任務增強和合成任務——都能提高模型性能,聯合使用所有策略時效果最佳,與不使用任何增強或合成任務的基線相比,Dice分數提高了9分。其中,任務增強帶來的單項改進最大,達7.7個Dice分。
更引人注目的是,僅使用合成數據訓練的模型在實際醫學數據集上表現出色,盡管從未接觸過真實醫學影像,依然達到了61.7的平均Dice分。這一發現再次證明,提高訓練中的任務多樣性,即使是通過人工方式,對模型泛化能力有著深遠影響。
在計算效率方面,UniverSeg模型參數量僅為1.18百萬,遠低于ALPNet的43.02百萬和PANet的14.71百萬,接近SENet的0.92百萬。這種高效的參數利用使得模型能在普通硬件上運行,進一步降低了使用門檻。
重塑醫學影像
UniverSeg為臨床研究者帶來的便利堪稱革命性。過去,醫學研究人員面對新的分割任務時,往往需要與計算機科學家合作,花費數周或數月時間收集數據、訓練和微調模型。如今,他們只需準備幾個帶標簽的示例,就能立即得到準確的分割結果,無需了解深度學習的復雜原理或購買昂貴的計算設備。
一位使用UniverSeg分析腦部MRI的神經學研究員分享道:"以前我們需要花費幾個月時間與計算機科學家合作開發分割模型,現在只需幾分鐘就能得到結果。這不僅節省了時間和資源,更重要的是,讓我們能夠迅速驗證研究假設,加快科學發現的步伐。"
這種便利性在罕見疾病研究中尤為珍貴。由于患者數量少,這些領域往往缺乏足夠的數據來訓練專門的分割模型。UniverSeg允許研究人員利用有限的標記樣本,快速獲取分割結果,從而加速病理機制的理解和治療方法的開發。
![]()
在多中心臨床試驗中,UniverSeg也展現出巨大潛力。不同醫院使用的成像設備和參數各不相同,導致圖像存在域偏移問題。傳統模型需要針對每個中心的數據重新訓練或微調,而UniverSeg只需使用來自特定中心的少量示例,就能適應該中心的圖像特征,大大簡化了多中心研究的數據處理流程。
對于臨床診斷輔助,UniverSeg提供了一種靈活的解決方案。放射科醫生可以根據經驗選擇幾個典型病例作為示例,引導模型關注特定的病理特征。這種互動性使得分割工具能更好地適應臨床實踐的需求,而不是強制臨床醫生適應工具的局限性。
UniverSeg也為教育領域帶來了新可能。醫學院可以利用這一工具構建交互式教學系統,學生通過標記幾個示例,立即看到分割結果,從而理解不同解剖結構的特征和變異。這種即時反饋大大提高了學習效率,使醫學教育更加直觀和有效。
除了臨床應用,UniverSeg還能促進醫學研究方法學的發展。傳統上,醫學研究者往往受限于可用的分析工具,不得不調整研究問題以適應現有技術。而UniverSeg顛覆了這一范式,使技術能夠快速適應研究問題,賦予研究者更大的創新自由。
展望未來,UniverSeg團隊正在探索多個拓展方向。最引人注目的是將技術擴展到3D數據分割。目前的實現主要處理2D切片,而許多醫學成像是3D的,如CT和MRI體積數據。團隊計劃通過增強CrossBlock機制處理3D數據,以保持其在處理2D數據時展現的泛化能力。
多標簽分割是另一個重要拓展方向。當前版本專注于二元分割任務,而實際應用中常需要同時分割多種組織或器官。這需要改進支持集處理機制,使模型能同時學習多個標簽之間的關系。
團隊也在探索如何進一步縮小與任務特定模型的性能差距。雖然UniverSeg在某些數據集上已接近專門訓練模型的性能,但在其他復雜任務上仍有提升空間。研究者正在研究如何通過改進模型架構和訓練策略,減少這一差距,同時保持其通用性。
從更廣泛的角度看,UniverSeg代表了醫學影像人工智能領域的新范式:從專門化向通用化的轉變。這種轉變不僅意味著技術上的進步,還意味著醫學研究方式的變革——從依賴專業計算機科學家開發定制工具,到研究者能自主靈活地應用AI技術解決科學問題。
![]()
隨著計算機視覺和自然語言處理領域大型基礎模型的興起,醫學影像領域也在向類似方向發展。UniverSeg可視為這一趨勢的前驅,展示了通用醫學影像模型的可行性和價值。未來,我們可能會看到更強大的醫學影像基礎模型,能夠處理從分割、檢測到診斷的各類任務,真正成為醫學研究和臨床實踐的"萬能助手"。
參考資料:
Butoi, V. I., Gonzalez Ortiz, J. J., Ma, T., Sabuncu, M. R., Guttag, J., &; Dalca, A. V. (2025). UniverSeg: Universal Medical Image Segmentation.
MegaMedical:包含53個開放獲取的醫學分割數據集的集合
CrossBlock:UniverSeg中用于從示例集向新圖像傳輸信息的新型機制
- UniverSeg源代碼和模型權重
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.