文章來源:我愛計算機視覺(ID:aicvml)
最近,視頻生成領域的基石模型正展現出作為潛在“世界模型”模擬物理世界的驚人能力。然而,當這些技術被應用于像外科手術這樣高風險、需要深度專業因果知識而非普適物理規則的領域時,其表現如何?這是一個至關重要但尚未被探索的領域。
為了系統地應對這一挑戰,來自耶魯大學、諾丁漢大學等機構的研究者們進行了一項開創性的研究。他們提出了 SurgVeo,這是首個由專家策劃的、用于評估手術視頻生成模型的基準;同時,他們還設計了一個新穎的四層評估框架——手術合理性金字塔(Surgical Plausibility Pyramid, SPP),旨在從基本外觀到復雜手術策略等多個層面評估模型生成內容的質量。
![]()
論文標題 : How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment
中文標題 ::外科醫生離手術世界模型還有多遠?基于專家評估的零樣本手術視頻生成研究
作者 : Zhen Chen, Qing Xu, Jinlin Wu, Biao Yang, Yuhao Zhai, Geng Guo, Jing Zhang, Yinlu Ding,Nassir Navab, Jiebo Luo
機構 : 耶魯大學,諾丁漢大學,中國科學院,山西醫科大學,山東大學,慕尼黑工業大學,羅切斯特大學
論文地址 : https://arxiv.org/pdf/2511.01775
Benchmark (待開源): https://github.com/franciszchen/SurgVeo
“世界模型”的核心思想是讓機器建立一個關于世界如何運作的內部表征,理解環境如何演變、行為如何導致后果。近期的視頻生成模型,如谷歌的Veo,已經能夠生成非常逼真的通用場景視頻,似乎讓我們離通用物理世界的模擬器越來越近。
然而,外科手術領域與日常物理世界有著本質的不同。它不僅僅是關于物體如何移動或碰撞,而是充滿了需要“專家直覺”的知識,比如解剖學、生理學和生物力學。一個成功的“手術世界模型”必須理解手術刀切開不同組織時會發生什么,理解特定操作背后的戰略意圖。將為模擬“常識物理”而生的模型直接應用于手術這樣需要“專家知識”的領域,其能力邊界在哪里?這正是本研究試圖回答的核心問題。
研究方法:SurgVeo基準與SPP評估框架
為了科學地衡量現有視頻生成模型在手術領域的真實能力,研究者構建了一套完整的評測流程。
![]()
首先,他們創建了 SurgVeo 基準。該基準包含了兩種具有代表性但風格迥異的手術視頻:腹腔鏡子宮切除術和內窺鏡垂體手術。前者代表了在密閉空間內的軟組織操作,后者則要求在關鍵神經血管結構附近進行極其精細的操作。研究者從這些真實手術錄像中提取視頻片段,形成“起始幀-后續真實視頻”的數據對。
接著,他們讓先進的 Veo-3 模型執行一項零樣本(zero-shot)預測任務:給定手術場景的起始幀和一段文本提示(prompt),模型需要生成接下來8秒的手術視頻。
![]()
最關鍵的一步,是由四位具有執業資格的外科醫生組成的專家小組,使用研究者提出的 手術合理性金字塔(SPP) 框架來對生成的視頻進行打分。SPP框架將評估分為四個層級,從下到上,要求越來越高:
視覺感知合理性 (Visual Perceptual Plausibility) :評估視頻最基本的外觀質量,如清晰度、光照、組織紋理和視頻流暢度。
器械操作合理性 (Instrument Operation Plausibility) :評估手術器械的運動軌跡、操作技術是否符合物理規律和手術規范。
環境反饋合理性 (Environment Feedback Plausibility) :評估手術場景(如組織、器官)對器械操作的反應是否真實,例如,組織被牽拉后的變形、切割后的出血模式是否符合生物力學和解剖學原理。
手術意圖合理性 (Surgical Intent Plausibility) :評估預測的系列動作是否展現出清晰、邏輯自洽且符合當前手術階段的戰略目標。這是最高層次的評估,考驗模型是否理解“為什么”要這么做。
專家們會在生成的視頻播放到第1秒、第3秒和第8秒時,參照真實視頻,對這四個維度進行1-5分的打分。
實驗結果:驚人的“合理性差距”
研究結果揭示了一個深刻的斷層,研究者稱之為“合理性差距”(plausibility gap):盡管Veo-3在生成視覺上令人信服的手術場景方面表現出色,但在SPP框架的更高層級上卻嚴重失敗。
量化數據分析
下方的兩個表格分別展示了在腹腔鏡手術和神經外科手術中,不同提示策略下,模型在三個時間點的得分情況。
![]()
腹腔鏡手術評估分數
![]()
神經外科手術評估分數
我們可以清晰地看到:
視覺質量高 :在兩個手術類別中,“視覺感知合理性”的初始得分都很高(例如,基線提示下腹腔鏡手術為3.72分,神經外科為3.88分)。外科醫生評價生成的圖像“清晰得驚人”。
高層邏輯差 :然而,分數在SPP金字塔的更高層級急劇下降。器械操作、環境反饋和手術意圖的得分要低得多,并且隨著時間的推移(從1秒到8秒)迅速惡化。例如,在腹腔鏡手術中,環境反饋合理性得分從1秒時的3.06分驟降至8秒時的1.64分。
![]()
腹腔鏡手術評估分數的小提琴圖
![]()
神經外科手術評估分數的小提琴圖
小提琴圖更直觀地展示了這種差異。視覺感知的得分(最左側)密集分布在高分區域,而其他三個維度的得分則大量堆積在低分區域,且隨著時間推移(顏色由淺到深)不斷下移。
有趣的是,研究還發現,為模型提供更明確的“階段感知”提示(例如,明確告知當前是“血管結扎”階段)并不能顯著改善其表現。這有力地證明,模型的問題不在于缺少上下文信息,而在于根本無法理解和運用這些專業的領域知識。
典型失敗案例
定性的案例分析讓這些冰冷的數字變得更加觸目驚心。
![]()
上圖展示了一些典型的失敗案例:
(a) 視覺質量失真 :生成的視頻畫面亮度發生突兀且不自然的變化,與穩定的手術照明條件不符。
(b) 器械錯誤 :模型“幻覺”出了一種現實中不存在的手術器械。
(c) 操作不當 :真實操作需要向左移動,模型卻生成了向右的錯誤動作。模型展示的器械在處理黏液,而正確的手術操作應是在另一目標部位上進行沖洗與吸引的協同動作。
(d) 不當手術目標 :模型展示的器械在處理黏液,而正確的手術操作應是在另一目標部位上進行沖洗與吸引的協同動作。
(e) 環境反饋錯誤 :模型違反物理定律,讓吸引器像提拉固體一樣將一整塊明膠海綿吸走,而不是吸走表面的液體。
(f) 意圖錯誤 :真實意圖是在硬腦膜上注射生物膠水,模型卻錯誤地預測了一個完全不相關的動作——用棉片擦拭。
錯誤類型的量化分布(上圖)進一步證實了“合理性差距”。在兩種手術中,與高層手術邏輯相關的錯誤(如手術意圖、器械操作錯誤)占了絕大多數,而底層的視覺質量問題僅占一小部分(腹腔鏡6.2%,神外2.8%)。
當然,模型偶爾也能生成一些高分案例,但這些通常是手術動作簡單、甚至是暫停的場景。
![]()
高分案例:(a)中生成了自然的解剖動作,(b)中則幾乎完美復刻了手術暫停的場景。
![]()
災難性失敗案例:(a)中需要縫合,模型卻幻覺出器械并執行無法識別的操作;(b)中需要涂膠水,模型完全搞錯了意圖。
研究意義與未來展望
這項研究首次提供了量化證據,揭示了當前最先進的視頻生成模型在手術AI領域中,令人信服的視覺模仿與真正的因果理解之間存在巨大鴻溝。
CV君認為,這項工作意義重大。它告訴我們,僅僅依靠在通用數據上進行大規模訓練,可能不足以讓模型掌握專家領域的復雜規則。未來的“手術世界模型”可能需要新的架構范式,能夠整合結構化的領域知識,并在生成過程中強制執行嚴格的物理和邏輯約束。
SurgVeo基準和SPP評估框架為未來的研究奠定了一個至關重要的基礎和路線圖,指引著我們如何開發能夠駕馭真實世界醫療領域復雜性的下一代模型。雖然通往真正的手術世界模型道阻且長,但這項研究無疑是邁出的清醒而關鍵的一步。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.