![]()
機器之心發布
通用大模型(LLM)的狂飆突進,終于在醫療垂直領域的「最后一公里」撞上了硬墻。雖然 ChatGPT 在 USMLE(美國執業醫師資格考試)中表現優異,但在面對需要「火眼金睛」和「毫厘必爭」的心臟手術臺上,通用大模型的表現究竟如何?
近日,一項由空軍軍醫大學唐都醫院李妍教授團隊牽頭,與深圳清華大學研究院朱銳團隊聯合完成的 COMPARE 研究在 arXivs 上發表預印版。研究揭示:在經皮冠狀動脈介入治療(PCI)的決策制定中,CA-GPT垂直領域 CA-GPT 系統(一項基于 OCT 影像的 AI 系統),在關鍵決策指標上顯著優于 Open AI 的通用大模型 ChatGPT-5。該研究是基于中科微光醫療(Vivolight Medtech)OCT 系統搭建的 RAG 增強型 AI-OCT 整合決策支持模型。
![]()
- 論文標題:COMPARE: Clinical Optimization with Modular Planning and Assessment via RAG-Enhanced AI-OCT: Superior Decision Support for Percutaneous Coronary Intervention Compared to ChatGPT-5 and Junior Operators
- 論文地址:https://arxiv.org/abs/2512.10702
這不僅是一次算法的勝利,某種程度上可以稱得上是中國腔內影像領域的「DeepSeek 時刻」。這套 CA-GPT 系統有望重新定義心臟介入手術的智能化標準。
01. 巔峰對決
通用大模型在專業戰場「水土不服」
據《2023 年全球心血管疾病負擔報告》統計,每年因心血管疾病死亡的人數達 1920 萬,而經皮冠狀動脈介入治療(PCI)作為最核心的血運重建手術,全球年手術量已超過 400 萬例。在 PCI 手術中,OCT(光學相干斷層成像)被稱為醫生的「第三只眼」,可清晰看到血管內病變情況,但是其圖像解讀高度依賴醫生經驗,初級醫師與資深專家在手術成功率、并發癥發生率等關鍵指標上的差距高達 40% 以上。
![]()
腔內影像中不同技術與分辨率的對比示意圖
在這項納入了 96 名患者、160 處病變的臨床研究中,團隊構建了一個嚴苛的競技場:將 CA-GPT 系統、ChatGPT-5 以及擁有 1-5 年經驗的初級介入醫師放在同一維度下,以資深專家團隊制定的手術記錄為金標準進行盲測 。所有方案均與患者實際接受的手術記錄(由年手術量≥ 200 例、經驗≥ 10 年的高級專家完成)進行比對。評估涵蓋 10 項預設決策指標,分為術前規劃 5 項和術后評估 5 項,每項一致得 1 分,總分 0-5 分。
![]()
10 項不同 PCI 策略的評分標準
值得一提的是,傳統 OCT 圖像解讀還需要醫師逐幀分析,耗時數分鐘至十數分鐘。相比之下,CA-GPT 系統可在 20 秒內完成全面分析并生成結構化報告,將影像解讀時間縮短 95% 以上。
結果顯示,在術前規劃(Pre-PCI)階段,CA-GPTChatGPT形成了「降維打擊」:
- 總體決策評分:CA-GPT 系統的評分中位數達到滿分 5.0,顯著高于 ChatGPT-5 的 3.0(P<0.001),同時也優于初級醫師的 4.0。
- 支架直徑選擇(關鍵指標):CA-GPT 的準確率高達90.3%,而 ChatGPT-5 僅為 63.9%,甚至低于初級醫生的 72.2%。
- 支架長度選擇:CA-GPT 準確率達80.6%,ChatGPT-5 僅為 54.2%。
![]()
決策一致性亞組分析
![]()
各評分項目的性能分布
而在術后評估(Post-PCI)階段,三方總體表現都比術前更好,因為這個階段有了術前方案和實際結果可以參考。但 CA-GPT 依然在一些關鍵指標上表現出優勢,比如:對「最小支架面積是否達標」的判斷,CA-GPT 與專家判斷的吻合度接近 100%;年輕醫生略有差距。
對「支架是否擴張不足」、「是否存在嚴重貼壁不良」的識別,CA-GPT 在支架貼壁評估(93.2% 準確率)等需要精細判斷的項目上,優于初級醫師組(76.1%)。
那為何擁有海量參數的 ChatGPT-5 會敗下陣來?研究指出,通用大模型雖然語言推理能力強,但缺乏對圖像數據的數值敏感性和空間理解力。特別是在面對功能性缺血(OCT-FFR≤0.80)或嚴重鈣化等復雜病變時,通用模型容易產生「幻覺」,而 CA-GPT 則展現了極高的穩定性,在復雜病變亞組分析中依然保持了中位數 5.0 的高分。
02. 解密架構
RAG + DeepSeek 的工程化勝利
CA-GPT 之所以能實現高穩定性和準確性,核心在于摒棄了對單一端到端大模型的迷信,構建了一套嚴密的「小模型 + 大數據 + 大模型」的 RAG 復合智能體架構。
![]()
CA-GPT 訓練模型架構:小模型 + 大數據 + 大模型
據其技術披露,該系統并非簡單的聊天機器人,而是一個精密的協作系統:
- 「感官」精準化(小模型層):系統底層集成了13 項核心功能(含 6 項自研專有算法)。它們負責像「顯微鏡」一樣對 OCT 影像進行結構化分析,在5-10 秒內即可完成管腔分割、斑塊定性、鈣化積分計算等定量工作,為決策提供精準的數據地基。
- 「大腦」邏輯化(DeepSeek):在大模型推理層,該系統基于開源的DeepSeek構建。它不再依賴概率生成文本,而是基于小模型提供的精準量化數據,進行符合醫學邏輯的深度推理。
- 「知識」實時化(RAG 技術):通過檢索增強生成(RAG)技術,系統鏈接了包含超過 100 萬篇心血管文獻及指南的知識庫(DBdata)。這意味著,AI 的每一次決策建議,都能追溯到具體的專家共識或最新指南,有效抑制了 AI 幻覺。
![]()
基于 CA-GPT 的 AI-OCT 系統輔助決策案例介紹
03. 普惠價值
讓縣域醫生擁有「頂級三甲專家」視野
這項技術突破的終極意義,不在于在論文中戰勝 ChatGPT,而在于解決醫療資源分布不均的現實痛點。全球心血管疾病負擔日益加重,但資深介入專家(完成 1000+ 例手術)卻是極度稀缺資源。培養一名能獨立處理復雜病變的醫生,往往需要 8-12 年的漫長周期。研究數據顯示,初級醫生在處理復雜病變時,與專家存在顯著差距。
因此,CA-GPT 系統在本質上是在做「醫療能力的平權」
想象一下,在偏遠的縣級醫院,一位剛工作不久的醫生,在面對復雜的鈣化病變時手足無措。此時,CA-GPT 系統在 5-10 秒內給出了手術策略:
- 「建議預處理使用旋磨術,旋磨頭選擇 1.5mm」
- 「建議支架尺寸 3.0 x 28mm,釋放壓力 12atm」
- 「注意:遠端存在邊緣夾層風險」
這相當于每臺手術都有一位頂尖專家在旁「手把手」指導。
04. 結語
做垂直領域的「定義者」
過去十年,中國醫療器械行業更多是在追趕西方的腳步。但此次發布的 CA-GPT 系統及其臨床成果,標志著中國企業在高端腔內影像領域開始掌握定義權。
不做通用大模型的「套殼」,而是深耕垂直場景的「窄門」。 用數據證明:在醫療這種容錯率為零的領域,唯有將深度學習的精準度與大模型的推理能力完美結合,才是 AI 落地的正途。
這或許就是中國醫療科技的「DeepSeek 時刻」—— 把 AI 技術落地業務場景,用自己的技術,解決最真實的臨床痛點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.