網易首頁 > 網易號 > 正文申請入駐

全球首個！聯(lián)影醫(yī)療重磅發(fā)布

2026-04-27 18:58:15　來源: 醫(yī)療器械經銷商聯(lián)盟

江蘇舉報

分享至

來源：量子位、聯(lián)影智能、聯(lián)盟整理

4月24日，上海聯(lián)影智能科技股份有限公司（以下簡稱“聯(lián)影智能”）開源了全球首個醫(yī)療視頻理解大模型——uAI Nexus MedVLM（元智醫(yī)療視頻理解大模型）。該論文被CVPR 2026收錄，同步開源的還有6245組精標測試集與全球首個醫(yī)療視頻理解公共評測體系。

醫(yī)療視頻理解領域，終于有了第一把"標尺"。

三大核心瓶頸，

長期制約行業(yè)發(fā)展

長期以來，醫(yī)療手術視頻理解領域始終存在三大核心技術瓶頸，制約著行業(yè)的發(fā)展：

其一，數據獲取與標注成本高企。手術視頻涉及患者隱私保護，合規(guī)數據的獲取本身存在較高門檻；而精細化的幀級標注，需要臨床醫(yī)生的專業(yè)參與，標注成本極高，絕大多數研發(fā)團隊難以承擔。

其二，行業(yè)缺乏統(tǒng)一的評測標準。過往行業(yè)內各研發(fā)主體采用獨立的數據集與評測指標，技術能力的橫向對比缺乏統(tǒng)一標尺，導致賽道發(fā)展陷入同質化內耗，技術迭代節(jié)奏受阻。

其三，任務技術壁壘極高。手術視頻理解需要實現(xiàn)毫米級的空間識別、高精度的時序邏輯理解，以及高度專業(yè)化的臨床語義解析，對模型的感知與推理能力要求嚴苛；即便是當前頂級的通用大模型，也難以適配這一高度專業(yè)化的臨床場景。

針對性突破：

53萬條數據，單卡能跑

而本次，聯(lián)影智能發(fā)布的 uAI Nexus MedVLM，就專門針對上述大三瓶頸進行了突破。

uAI Nexus MedVLM的底子是53萬條視頻-指令數據，4B/7B參數規(guī)模，一張卡就能部署。覆蓋內鏡、腹腔鏡、開放手術、機器人手術、護理操作等8個醫(yī)學數據集。

而模型能干8件事：視頻摘要、關鍵安全視野評估、下一步操作預測、技能評估、時間動作定位、密集視頻描述、區(qū)域級描述、時空基礎化。

團隊還開發(fā)了MedGRPO強化學習框架，解決了一個很實際的問題——異構醫(yī)學數據混合訓練容易崩潰。他們用跨數據集獎勵歸一化和醫(yī)學LLM評審機制，讓不同難度的數據集能公平優(yōu)化。這套框架讓器械定位能力提升14%，手術步驟識別能力提升52%。

性能測試結果顯示，uAI Nexus MedVLM 在多項醫(yī)療視頻核心任務中，性能全面超越當前主流通用大模型：

手術安全評估任務中，模型準確率達 89.7%，是GPT-5.4（16.4%）的 5.5 倍，遠超 Gemini-3.1 的 24.2%；
時空動作定位任務中，模型 mIoU 指標為 Gemini-3.1 的 3.2 倍，為 GPT-5.4 的 47 倍；
視頻報告生成任務（5 分制）中，模型得分 4.24 分，高于 GPT-5.4 的 3.98 分。

「元智」醫(yī)療視頻理解大模型 (uAI NEXUS-MedVLM) 在多項醫(yī)療視頻核心任務中性能全面超越主流通用大模型

以腹腔鏡膽囊切除術的操作描述任務為例：

GPT-5.4僅能給出籠統(tǒng)的泛化描述，無法識別具體手術器械；

Gemini-3.1出現(xiàn)了器械識別錯誤，將手術工具誤判為 “電凝鉤”；

其他國產通用大模型則無法識別正確的手術步驟。

而uAI Nexus MedVLM的輸出為：“位于左上方的抓鉗持續(xù)向上并朝中央牽引膽囊，保持張力并為鉤子暴露分離平面”，幾乎接近標準答案。

全鏈條開源，

打造全球協(xié)同研發(fā)生態(tài)

值得一提的事，聯(lián)影這次不只是開源模型，還同步開源了大規(guī)模高質量醫(yī)療視頻標注數據，提供了一個統(tǒng)一的評測基準，徹底解決了過往行業(yè)內技術能力無法橫向對比的問題。

以前各說各話，現(xiàn)在同一個數據集上跑一跑，誰強誰弱一目了然。

此外，聯(lián)影智能還發(fā)布「醫(yī)療視頻理解大模型榜單」，面向全球開發(fā)者發(fā)出邀請。開發(fā)者提交模型結果，系統(tǒng)自動評分，動態(tài)更新排行榜。全球開發(fā)者都能下載模型、用數據集、上傳成果。

醫(yī)療視頻理解大模型榜單

本次 uAI Nexus MedVLM 的開源，不僅是聯(lián)影智能在醫(yī)療AI領域的又一次技術突破，更是整個醫(yī)療視頻理解賽道的全新起點。

未來，隨著該模型與具身智能等前沿技術的融合落地，醫(yī)療 AI 將逐步從影像診斷等單點場景，向全流程、全場景的臨床輔助延伸，真正實現(xiàn)技術普惠，為全球醫(yī)療行業(yè)的數字化轉型，注入全新的行業(yè)動力。

項目主頁
https://uii-ai.github.io/MedGRPO/
模型詳情
https://huggingface.co/UII-AI/uAI-NEXUS-MedVLM-1.0a-7B-RL
數據集
https://huggingface.co/datasets/UII-AI/MedVidBench
大模型榜單
https://huggingface.co/spaces/UII-AI/MedVidBench-Leaderboard
推理代碼
https://github.com/UII-AI/MedGRPO-Code
模型體驗
https://huggingface.co/spaces/UII-AI/MedGRPO-Demo

本文為轉載發(fā)布，僅做分享，文章中觀點僅代表原平臺作者觀點，與本平臺無關。如若本文有與貴平臺發(fā)布原創(chuàng)內容有重合之處，或未經授權使用，系原平臺行為，本平臺僅轉載。您可以第一時間聯(lián)系我們刪除文章，我們會立即響應！

#中國CT報告

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.