網易首頁 > 網易號 > 正文申請入駐

螞蟻集團團隊顛覆醫療AI訓練方式：用醫生智慧教AI更懂看病

2026-02-26 19:45:45　來源: 至頂AI實驗室

北京舉報

分享至

這項由螞蟻集團聯合香港中文大學（深圳）和北京大學共同完成的研究發表于2026年2月，研究編號為arXiv:2602.09653v2，為醫療人工智能的訓練方式帶來了突破性的改進。

當我們去醫院看病時，好醫生和普通醫生的差別在哪里？好醫生不僅知識豐富，更重要的是，他們知道在什么情況下該說什么話，什么時候該緊張，什么時候該安撫患者。這種細膩的臨床判斷力，正是當前醫療AI最缺乏的能力。

目前的醫療AI就像一個只會背書的學霸。它們在醫學考試中表現優異，能夠回答各種醫學知識問題，但真正面對病人時，卻常常不知道如何恰當地溝通。比如，當一個焦慮的母親詢問孩子發燒是否嚴重時，AI可能會機械地列出所有可能的疾病，把人嚇得夠嗆；而經驗豐富的兒科醫生會先安撫情緒，再有針對性地詢問關鍵癥狀，給出恰當的建議。

研究團隊發現了這個問題的根源：傳統的AI訓練方法就像讓學生只做標準化考試，而忽略了真實的臨床情境訓練。為了解決這個問題，他們開發了一套全新的訓練體系，名為ClinAlign（臨床對齊），這套方法的核心思想是讓真正的醫生來教AI如何在不同情況下給出恰當的回應。

一、醫生手把手教AI的智慧傳承體系

研究團隊設計了一套類似師傅帶徒弟的訓練模式。他們首先收集了7034個真實的醫療咨詢案例，這些案例覆蓋了從簡單的健康咨詢到緊急醫療建議的各種情況。然后，他們讓GPT-5.1這個強大的AI先給出初步的評判標準，就像讓一個聰明的實習生先寫個診療方案草稿。

接下來，真正的醫生登場了。這111位來自不同科室的醫生，包括外科、內科、婦產科等各個專業領域的主治醫生和科室主任，開始像批改作業一樣仔細審查這些AI生成的評判標準。他們不僅要糾正錯誤，更要根據自己的臨床經驗來完善這些標準。

這個過程就像廚師改進食譜一樣。AI給出的初始"食譜"可能在理論上沒問題，但缺乏實際操作的細節。醫生們會說："這里應該強調安全性"，"那里需要考慮患者的心理感受"，"遇到緊急情況時措辭要更明確"。經過平均1.34輪的修改，每個評判標準都得到了醫生們的一致認可。

整個過程耗費了632.2個工作小時，成本約15172.80美元。雖然聽起來不少，但考慮到這是在訓練一個能服務千萬患者的醫療AI，這個投入是非常值得的。最終，他們建立了一個名為HealthRubrics的數據集，這相當于一本由經驗豐富的醫生共同編寫的"AI臨床行為指南"。

二、從具體案例中提煉通用醫療智慧

有了醫生驗證的7034個具體案例后，研究團隊面臨一個新問題：如何讓AI從這些具體案例中學會舉一反三？畢竟，真實世界的醫療咨詢千變萬化，不可能為每一種情況都準備專門的訓練案例。

研究團隊的解決方案非常巧妙，他們開發了一套叫做HealthPrinciples的系統，把醫生們在具體案例中體現的智慧提煉成119條通用原則。這個過程就像從無數個成功的烹飪案例中總結出一套完整的烹飪原理。

這119條原則按照四個維度進行分類：緊急程度、不確定性、用戶專業程度和任務類型。緊急程度分為三個級別：非緊急（如常規健康咨詢）、條件緊急（無法排除重要風險，需要關鍵信息）、緊急（明確的高風險特征，需要立即保護性行動）。不確定性也分為三個級別：信息充足、可減少的不確定性（通過對話可以澄清）、不可減少的不確定性（需要面診、檢查或化驗）。

用戶專業程度分為非專業人士和專業人士兩類，這很重要，因為對普通患者和醫學專業人員的溝通方式完全不同。任務類型則細分為21個類別，包括急診分診、癥狀評估、居家護理指導、藥物安全、檢查結果解讀等等。

每條原則都像一個智慧的提醒。比如，對于"條件緊急"情況的原則是："用冷靜、非警示性的語言傳達潛在嚴重性；給出有序的下一步：停止不安全暴露，現在就做低風險行動，避免傷害，監控癥狀，并具體說明何時何地尋求面診或急診護理。"這樣的表達既體現了醫學的專業性，又保持了人文關懷。

三、讓AI學會在不同情況下恰當應答

有了這119條通用原則后，研究團隊就可以大規模地訓練AI了。他們又收集了16872個額外的醫療問題，利用這些原則為每個問題生成恰當的評判標準。這個過程就像一個經驗豐富的主廚，可以根據不同食材和顧客需求，快速調配出合適的調料配方。

具體來說，當AI遇到一個新的醫療咨詢時，系統首先會分析這個問題屬于哪個類別：是緊急情況嗎？信息是否充足？咨詢者是專業人士還是普通患者？主要任務是什么？然后，系統會從119條原則中選擇相關的原則，平均每個問題會匹配到22.9條原則。

接著，系統會把這些通用原則轉化為針對具體問題的評判標準。比如，如果有人問"我孩子發燒了怎么辦"，系統會識別這是一個"條件緊急"的"癥狀評估"任務，咨詢者是"非專業人士"，然后生成相應的評判標準：回答應該詢問關鍵癥狀（如發燒溫度、持續時間、伴隨癥狀），提供明確的就醫指征，使用安撫性語言等。

研究團隊還開發了一個推理時工具，可以在AI生成回答后，根據這些原則進行自我修正。這就像給AI配備了一個內在的臨床督導，隨時提醒它是否遵循了恰當的臨床溝通原則。

四、訓練效果令人驚艷的實際表現

研究團隊使用強化學習技術，基于這些醫生驗證的評判標準來訓練AI模型。他們選擇了相對較小的Qwen3-4B模型作為基礎，通過精心設計的訓練過程，讓它學會了如何在不同情況下給出恰當的醫療建議。

訓練效果簡直令人驚艷。在HealthBench-Hard這個專門測試醫療AI實用性的嚴格評測中，基礎的Qwen3-4B模型原本只能得到5.2%的分數，經過醫生手工標注的評判標準訓練后，分數躍升到22.9%。當使用提煉的119條通用原則進行大規模訓練后，分數進一步提升到24.4%。

最令人印象深刻的是，當研究團隊使用稍大一些的Qwen3-30B-A3B模型時，經過完整的ClinAlign訓練后，在HealthBench-Hard上達到了33.4%的分數。這個成績不僅超越了許多規模更大的開源模型，甚至超過了一些知名的商業模型，包括DeepSeek-R1和o3等。

在其他評測中，這個經過特殊訓練的醫療AI同樣表現出色。在LLMEval-Med這個測試醫療語言理解、推理和安全倫理的綜合評測中，模型在各個子項目上都有顯著提升。特別值得注意的是，這種訓練方法不僅提升了醫療專業表現，在Arena-Hard-v2這個測試通用能力的評測中也有顯著提升，創意寫作分數從34.9%躍升至79.4%。

研究團隊還發現了一個有趣的現象：隨著訓練問題數量的增加，模型性能持續提升。從1000個問題訓練到20000個問題，在固定計算資源下，性能呈現單調上升趨勢。這說明多樣化的臨床情境訓練比單純的重復訓練更有效，就像醫學生需要接觸各種不同病例才能真正成長一樣。

五、推理時智能修正讓AI越來越聰明

研究團隊還開發了一個特殊功能，讓AI在回答問題時能夠進行自我反思和改進。這個功能基于提煉出的119條醫療智慧原則，當AI生成一個回答后，它會自動檢查這個回答是否符合相關的臨床原則，如果發現不足，會自動進行修正。

這個過程就像一個醫生在給出診斷建議后，會習慣性地再檢查一遍："我有沒有遺漏什么重要信息？表達是否恰當？患者能理解嗎？是否考慮了安全因素？"實驗結果顯示，通過這種自我修正，AI的表現能夠進一步提升，且修正效果在經過幾輪后會趨于穩定。

測試顯示，無論是使用哪種基礎模型，通過多次推理時修正，HealthBench-Hard的表現都會穩步提升。雖然改進幅度會逐漸減小，但這證明了這種方法的普適性和有效性。這意味著即使是現有的AI模型，也可以通過這套原則獲得更好的醫療咨詢能力。

六、突破性成果重新定義醫療AI訓練標準

這項研究的意義遠超表面的性能提升數字。它首次證明了一個重要觀點：對于醫療AI而言，純粹的規模擴展不如精心設計的專業訓練。一個經過臨床智慧訓練的小模型，可以在醫療應用中超越規模大十倍的通用模型。

研究團隊的方法解決了醫療AI領域的一個根本性問題：如何讓AI真正理解臨床情境的復雜性和細致性。傳統方法就像讓學生只背教科書，而ClinAlign方法則像讓學生跟著優秀的臨床醫生實習，學習在真實情況下如何恰當應對。

更重要的是，這套方法具有很強的可擴展性。119條提煉出的醫療智慧原則可以應用到新的醫療問題上，不需要每次都重新請醫生標注。這就像有了一套完整的臨床思維框架，可以指導AI處理各種新遇到的情況。

研究還顯示，這種訓練方法不僅提升了醫療專業能力，也增強了AI的通用交流能力。這表明，深度的專業訓練實際上能夠促進更廣泛的智能表現，就像一個優秀的醫生往往在其他需要細致溝通的領域也會表現出色。

從計算資源的角度來看，這個研究也具有重要的實用價值。它證明了通過精巧的訓練方法，可以用相對較小的模型達到甚至超越大型模型的專業表現。這對于資源有限的醫療機構來說，提供了一個現實可行的AI應用方案。

研究團隊已經承諾將完整的數據集和工具開源，這意味著全球的研究者都可以基于這套方法來改進醫療AI。這種開放合作的精神，將加速整個醫療AI領域的發展，最終讓更多患者受益于更智能、更貼心的AI醫療助手。

這項研究為我們展示了一個令人興奮的未來：AI不再是冷冰冰的機器回答，而是能夠像經驗豐富的醫生一樣，在不同情況下給出恰當、安全、有溫度的醫療建議。當技術與人文關懷完美結合時，我們看到了醫療AI真正的價值所在。

Q&A

Q1：ClinAlign和傳統醫療AI訓練方法有什么不同？

A：傳統方法讓AI像背書一樣學習醫學知識，ClinAlign則讓真正的醫生手把手教AI在不同情況下如何恰當回應。就像從紙上談兵變成了跟著師父實習，AI學會了不僅要答對，還要答得合適、安全、有溫度。

Q2：為什么小模型訓練后能超過大模型性能？

A：因為醫療咨詢不只是知識問題，更重要的是臨床判斷和溝通技巧。經過醫生驗證的專業訓練讓小模型掌握了關鍵的臨床智慧，就像一個有經驗的專科醫生比博學但缺乏臨床經驗的醫學博士更適合看病一樣。

Q3：普通人什么時候能用上這種更智能的醫療AI？

A：研究團隊已承諾開源相關數據集和工具，這將加速全球醫療AI的改進。雖然還需要時間來完善和部署，但這項技術為開發更貼心、更安全的AI醫療助手奠定了重要基礎，相信不久的將來我們就能體驗到。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.