![]()
大數據文摘出品
谷歌和DeepMind聯合發布了一個全新的開源人工智能模型套件:MedGemma。
這一套件面向醫療領域打造,不僅支持文本、圖像和多模態輸入,還能廣泛適配放射學、皮膚病學、組織病理學和眼科學等多個分支。
它在今年的I/O開發者大會上首次亮相,MedGemma包含兩個版本:一個是體量為40億參數的4B模型,支持圖文混合處理;另一個是更強大的270億參數的27B模型,提供文本和多模態兩種版本。
![]()
地址:https://huggingface.co/google/medgemma-27b-it
谷歌明確表示,MedGemma可以獨立運行,也可以嵌入基于智能體的系統中,作為醫療AI工具的基礎模塊。
開源,使得這套系統可以被全球研究人員和開發者自由使用,但不能直接用于診斷和治療,需通過相關監管審批。
![]()
MedGemma在多個標準模型基準測試中表現出色,全面超越同級別的基礎模型。
在多模態問答任務中,準確率提升達10%;在X光圖像分類上,提升幅度達到15.5%至18.1%;在復雜的智能體任務中,表現提高10.8%。
在醫療考試數據集MedQA中,4B模型準確率從原來的50.7%躍升至64.4%;而27B模型則從74.9%提升至87.7%。
![]()
圖注:MedGemma 27B 多模態模型在醫學圖像分類和視覺問答任務中表現最佳,顯著優于其他模型。
在PubMedQA、MedMCQA、MMLU等多個醫療子領域的基準測試中,MedGemma持續領先于其基礎模型。
![]()
在X光圖像與報告的數據集MIMIC-CXR中,4B模型的宏觀F1得分達88.9,相比之下,其基礎模型Gemma 3僅為81.2。
F1得分是衡量模型在多種疾病識別中的整體準確率,它的提升意味著模型對復雜臨床圖像的理解能力增強。
在自動生成X光報告方面,模型的RadGraph F1從29.5提升到30.3,表明臨床關鍵信息捕捉能力增強。
對于氣胸檢測任務(即肺部塌陷),準確率從59.7%提升至71.5%,顯示出實質性的突破。
組織病理圖像分析方面,模型的加權F1得分從32.8躍升至94.5,幾乎達到三倍提升。
在電子健康記錄的讀取任務中,引入強化學習后錯誤率下降一半,預示著在臨床數據管理中有巨大潛力。
谷歌同步推出了一項重要組件:MedSigLIP
![]()
圖注:https://arxiv.org/pdf/2303.15343
這是一個專為醫學圖像設計的編碼器,擁有4億參數,是原始SigLIP(Sigmoid Loss for Language Image Pre-training)的醫療擴展版。
MedSigLIP專注于醫學圖像的理解,配合MedGemma處理文本,構成完整的多模態AI架構。
圖像處理分辨率設定為448×448像素,比MedGemma高分辨率版本的896×896更高效。
為了構建通用能力與醫學能力兼具的模型,谷歌以3360萬對圖文配對數據進行訓練,其中包含63.5萬條醫學實例和3260萬個組織病理圖像塊。
醫學數據占比約為2%,在保留SigLIP通用圖像識別能力的基礎上,增強了醫學圖像理解能力。
這一平衡策略的關鍵意義在于:模型不僅能處理醫療圖像,也可用于通用圖像任務,適配多場景需求。
目前,MedGemma已在Hugging Face上線,開發者可以依據其許可協議用于科研、開發與一般AI應用,但在商業化和臨床場景中仍需遵循相關限制。
盡管在多個測試中表現驚艷,谷歌也承認:基準測試成績并不能完全代表臨床真實表現。現實中的使用情境更復雜,模型可能因用戶誤解或交互失誤而出現偏差,限制了實際療效。
地址:https://huggingface.co/google/medgemma-27b-it
作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.