鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
就在醫療AI賽道激戰正酣時,一個攪局者低調入場了。
依舊是螞蟻,依舊「SOTA」!
它就是螞蟻集團聯合浙江省衛生健康信息中心、浙江省安診兒醫學人工智能科技有限公司開源的醫療大模型——螞蟻·安診?(AntAngelMed)。
一經發布就登頂多項醫療基準測試榜單。
![]()
不講什么噱頭,也絲毫不喧囂,它用數據和排名說話:
在OpenAI發布的HealthBench評測中強勢霸榜開源模型第一,超越Baichuan-M2和gpt-oss-120B。
并橫掃MedAIBench、MedBench等權威醫療榜單。
它也是迄今為止參數規模最大的開源醫療模型,足足有100B。
應用門檻相當低,即使是在中小型醫療機構,AntAngelMed也足以支撐起實時多輪交互和規模化部署,是真正能夠落地跑起來的模型。
![]()
它為行業示范出一條清晰明確的路徑——通過“專、精、穩”三位一體,構建通用智能+醫療專長的全棧能力閉環。
環顧全球,AI醫療正在成為一場關乎全人類健康的數字化變革。
李飛飛團隊發布的斯坦福《2025 AI Index Report》中明確指出,AI已經從實驗室正式走向臨床和實際應用。
研究表明,AI比專業醫生在診斷復雜臨床病例時表現更優,而AI與醫生的協作往往能取得最佳結果。與此同時,一系列醫療專用大模型也呈現出持續涌現的態勢。
螞蟻則在用實際行動全面押注這一賽道。
開源即登頂多項權威醫療榜單
具體來說,AntAngelMed是螞蟻集團聯合浙江省衛?健康委共同研發的開源醫療大模型,從誕生之初就是專為真實醫療場景所設計的。
![]()
這也充分體現在模型的基準測試表現上。
比如由OpenAI在去年發布的醫療健康領域評估測試集HealthBench,來自全球60個國家、262名醫?共同構建,包含5000種多輪醫療對話場景,評分標準涵蓋準確性、完整性、溝通質量、情境感知等多維度。
在面對DeepSeek-R1、Qwen3、OpenAI GPT-OSS等一眾開源模型,AntAngelMed以62.5的評分拿下第一。
更進一步,在HealthBench的子集HealthBench-Hard(專為困難場景設計)上,AntAngelMed同樣穩居榜首。
這也是繼Baichuan-M2后,唯二打破HealthBench-Hard 32分魔咒的開源模型,要知道在HealthBench-Hard剛發布時,其困難程度一度讓所有模型都拜倒在32分之下,甚至當時還有很多頂尖模型都直接掛零。
AntAngelMed的表現足以證明,其在最真實也最容易出錯的復雜醫療環境中,仍然能夠表現穩定,專業度拉滿。
![]()
在由國家??智能應?中試基地(醫療)·浙江、中國醫學科學院北京協和醫學院、中國信息通信研究院三?共建的權威測評體系MedAIBench中,AntAngelMed同樣表現突出,尤其是在醫療知識問答、醫療倫理安全等多個核心維度上優勢顯著。
這側面說明,模型不是在醫療基礎知識或者臨床診斷這類單一科目上能力強勁,而是整體醫療水平均衡,短板夠長、專業夠全面,容錯率也會更低。
![]()
而在面向中文醫療場景的醫療大模型評測體系MedBench時,AntAngelMed依舊位列?測榜單第?。
MedBench擁有36個自主評測集,約70萬條樣本,最關鍵的是它區別于很多以英文為主的國際benchmark,更偏向于本土醫療體系,在表達上也更貼合國內問診場景。
AntAngelMed在醫學知識問答、醫學語?理解、醫學語??成、復雜醫學推理、醫療安全與倫理五?核?維度上穩定領先,展現出與基層臨床流程的高度適配和無縫集成。
![]()
以日常生活場景為例,我們向AntAngelMed提問:
- 我最近總是頭暈,可能是什么原因?

生成速度很快,幾乎是秒入秒出。
仔細看思考過程,它首先提及的是要照顧用戶情緒,在給出答案時避免引起恐慌。
nice!這波人性化必須好評,畢竟之前每次上網搜癥狀,都感覺自己得了絕癥……(慌張.jpg)
![]()
在給出具體建議時,它也會基于自身醫學知識,仔細分析癥狀表現,找到最契合的成因。
![]()
結構上邏輯嚴謹,從共感→原因分析→建議→鼓勵,全方位解決用戶需求。
![]()
最終給出的答案也很專業暖心,感覺像是在和一位主任級醫生面對面就診。
![]()
P.S.不過正如AntAngelMed所說,癥狀加劇時一定要及時就醫哦~
![]()
接著讓AntAngelMed試著解讀專業術語:
- 我的一份乳腺癌手術病理報告顯示:ER(90%+),PR(80%+),HER2(1+),Ki-67(15%)。請解釋這些指標代表什么?這對我的分型和后續治療方案意味著什么?

在腫瘤病理報告中,免疫組化(IHC)指標是決定癌癥治療方案(如化療、靶向、免疫治療)的關鍵,而指標組合又極其復雜。
AntAngelMed首先用通俗易懂的語言解釋了這幾個相關指標的含義,對于極少接觸專業醫學知識的普通人,或者需要查找狹窄領域信息的專業醫生來說,頗具參考價值。
![]()
此外,它也能準確識別出癌癥亞型,給出傾向于激素治療而非靶向治療的參考意見。
![]()
值得關注的是,AntAngelMed還會告知用戶接下來可以去掛哪些科室,以及可以詢問主治醫師哪些問題。
對于本看病困難星人,實在是暖暖的、很貼心~
![]()
整體感受下來,AntAngelMed既像一個無微不至的家庭醫生,也像一位經驗豐富的專家學者,無論是個人、醫生、醫療機構,或許都能從中找到最適合的匹配方案。
既要專業度,也要人情味
那么AntAngelMed是如何做到的呢?
要厘清思路,首先需要回到模型本身。
AntAngelMed繼承了百靈?模型Ling-flash-2.0的?效混合專家(MoE)架構,并建立起三階段的訓練過程:
Step 1:持續預訓練。
通過持續預訓練,大量的臨床指南、醫學文獻等高質量知識被融入進模型參數中,讓模型與知識深度融合,能夠自然地以專業醫學角度進行思考和表述。
換言之,這是在為醫學AI打下最堅實的地基。
![]()
Step 2:監督微調。
為了解決真實場景應用的問題,在這個階段里,指令數據兼具多種類型的表述形式,能夠增強模型的通用推理能力,學會分步思考和多方案權衡。
另外,模型的人性化也同步得到提升,要知道醫患問答不等同于學術問答,模型的輸出如何能夠更貼近真實醫生的表達,這是關鍵。
Step 3:GRPO強化學習算法+雙階段強化學習路徑。
這一步決定模型最終能不能被真實使用。
GRPO強化學習算法的引入,讓模型對復雜任務的處理更加得心應手,也能更好地對齊人類價值,約束模型安全邊界。
其中雙階段強化學習又分為兩步:
- 推理強化學習:保障模型的推理邏輯嚴謹,避免中途跳躍。
- 通用強化學習:強化模型的行為風格,明確指導風險。
最終二者結合,共同推動模型朝著專業、克制又能共情的方向演化。
![]()
為了實現模型效率與性能兩手抓,在原有的Ling-flash-2.0架構上,模型也在一系列核心設計上進行了全面優化,比如1/32激活?例、?輔助損失+Sigmoid路由策略、MTP層以及Partial-RoPE等。
最終幫助模型在參數規模相近的情況下,實現了相比Dense架構的7倍效率提升,模型計算成本同步得到大幅度降低。
![]()
要讓模型跑得快、跑得穩,還需要進行推理加速。
這里采用的是FP8量化+EAGLE3優化:
前者負責將模型推理時的數值精度壓縮到FP8,可顯著減少內存占用以提高計算吞吐;而后者主要用于抑制FP8量化帶來的數值抖動,在效率與穩定性中找到最優解。
最終在真實線上醫療系統的典型負載32并發場景中,實現推理吞吐的穩步提升:HumanEval提升71%,GSM8K提升45%,Math-500提升?達94%。
螞蟻醫療AI布局有跡可循
不難看出,AntAngelMed反映了螞蟻對醫療AI領域的洞察細致入微,因為近一線所以懂行業痛點,因為有技術所以懂如何改進。
所以AntAngelMed才能從一眾醫療大模型中脫穎而出,做到真實環境中也可以智商情商雙在線,而非僅僅局限于基準測試的demo。
可以說,AntAngelMed的出現,進一步完善了螞蟻在醫療AI領域的布局。
技術層面,AntAngelMed可以作為最堅實的基座模型,承載起AI在專業場景的規模化落地,解決的是螞蟻最底層的技術需求。
它走的不是通用大模型+Prompt的基礎醫學問答路線,而是深度對齊醫學語料、診療流程和醫學推理鏈后,完成的專業性更強的診療推理。
![]()
國內外目前也有越來越多模型正在推進這一相似的范式轉移。
顯然,螞蟻已率先預見到這條路線的正確性,并沿著它一路狂飆,來到了收獲成果的階段。
產品層面,螞蟻也建立起了以面向用戶的AI健康管家、面向醫生的好大夫在線、面向機構的醫療大模型一體機為代表的三端一體產品矩陣。
從患者、醫生到機構,螞蟻的AI產品全方位覆蓋醫療服務體系,滿足從下至上每一個角色對AI醫療的切身需求。
組織層面,螞蟻在去年年末,完成了一次相當重要的戰略調整,將原來的數字醫療健康事業部正式升級為螞蟻健康事業群。
從事業部升級為事業群,這意味著醫療健康不再是螞蟻的補充業務,而是正式成為與支付寶、數字支付、財富保險、信貸并列的核心板塊。
可以預見的是,螞蟻未來會將更多資源和精力傾向給AI醫療,而AntAngelMed還只是螞蟻正式入局的開端。
那么為什么要選擇做醫療AI呢?
歸根結底在于通用大模型和專業場景存在鴻溝,缺乏相關領域的知識、難以進行復雜任務的決策,以及對話交互不等同于有效協同。
而專業智能體是把通用智能拆解、工程化,本質上是將不確定性約束在具體的產業里,只有這樣才能實現大模型的生產價值最大化。
![]()
醫療則是其中最具代表性的練兵場,醫療的核心不是操作,而是智能密度最高的認知、推理和決策。
對于大模型來說,這是一塊試金石,能倒逼大模型完成深度優化,推動模型向其它基礎領域遷移。
而這個領域恰好還剛剛起步,有足夠大的藍海可以探索。
與此同時,螞蟻也有做醫療AI的底氣,多年來螞蟻深耕支付、醫保領域,為打通醫療AI提供了堅實的數據基礎。
由此,在這條隱秘的醫療戰線里,螞蟻無疑會成為走得最久、也最深的先行者。
P.S.目前AntAngelMed模型系列已在平臺開源,可訪問官方開源倉庫下載使?:
HuggingFace:https://huggingface.co/MedAIBase/AntAngelMed
ModelScope:https://modelscope.cn/models/MedAIBase/AntAngelMed
GitHub: https://github.com/MedAIBase/AntAngelMed
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.