網易首頁 > 網易號 > 正文申請入駐

AI醫生考試高分，實戰不及格？Nature Medicine論文顯示，AI大模型不能幫助公眾作出更好的醫療決策

2026-02-11 18:48:08　來源: 生物世界

上海舉報

分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

當你感覺的身體不適時，是否考慮過向 AI 咨詢醫療建議？

全世界的全球醫療保健提供者正在探索使用大語言模型（LLM）為公眾提供醫療建議。如今，LLM 在醫學執業考試中幾乎能取得滿分，然而，考試所考察的是對標準化知識的記憶和理解。LLM 在這方面是“超級優等生”，能快速檢索海量信息。但在現實場景中，醫療決策更像是一門藝術，需要整合模糊、不完整甚至矛盾的病人信息（癥狀、病史、情緒、社會經濟因素等），并進行權衡。因此，LLM 強大的考試能力，是否能夠轉換為在現實醫療場景中的表現，仍有待觀察。

此外，華山醫院張文宏醫生近日在高山書院論壇上明確表示，反對將 AI 系統性地引入醫院病歷和日常診療流程，其擔心 AI 可能會削弱年輕醫生的臨床思維訓練與專業判斷能力。

2026 年 2 月 9 日，牛津大學的研究人員在國際頂尖醫學期刊Nature Medicine上發表了題為：Reliability of LLMs as medical assistants for the general public: a randomized preregistered study 的研究論文。

該研究進行了一項大規模隨機對照試驗，以測試大語言模型（LLM）作為公眾醫療助手的實際效果，結果出人意料——在各種醫學考試中表現優異、甚至堪比人類專家的大語言模型，在真實醫療場景中，或許并不能有效幫助公眾診斷疾病并做出正確的健康決策。這提示了基于大語言模型的 AI 醫生還需要在未來設計中更好地支持真實用戶，才能安全用于向公眾提供醫學建議。

理想豐滿——LLM醫學知識豐富

近來，人工智能（AI）研究取得的突破有可能通過擴大醫療知識的獲取途徑、讓醫療服務更貼近患者來實現醫療保健的普及化。OpenAI 開發的ChatGPT及谷歌開發的Med-PaLM 2等大語言模型（LLM），在各類醫學考試中表現優異，甚至達到人類醫學專家的水平。這些成就讓人們對于 AI 在醫療領域的應用充滿期待，特別是在醫療資源不發達的地區，AI 醫生被視為解決醫療資源分布不均的有效手段。

實際上，調查結果也顯示，越來越多的人開始向 AI 聊天機器人咨詢健康相關問題。然而，在醫學考試中獲得高分，是否意味著這些 AI 就能在真實醫療場景中發揮作用？

現實骨感——LLM診斷和決策能力有限

在這項最新研究中，研究團隊進行了一項開創性試驗，以測試大語言模型（LLM）能夠幫助公眾準確辨別醫療病癥（例如普通感冒、貧血或膽結石）并選擇一種行動方案（例如呼叫救護車或聯系全科醫生）。

研究團隊招募了 1298 名受試者，他們每人被指派了 10 種不同的醫療情景，并讓他們隨機使用三個 LLM（GPT-4o、Llama 3 或 Command R+）中的一個，或使用他們的常用資源（例如互聯網搜索引擎）作為對照組。

試驗結果令人驚訝，在不用人類受試者進行測試時，這些 LLM 能夠準確完成上述情景，識別疾病的準確率高達 94.9%，選擇行動方案的正確率為 56.3%。然而，當這些人類受試者使用相同的 LLM 時，相關病癥的識別正確率低于34.5%，選擇行動方案的正確率低于44.2%，這些結果甚至沒有超過對照組。

也就是說，人類患者在真實醫療場景中，使用 LLM 用于疾病診斷和醫療決策時，并沒有比使用傳統的搜索引擎更好。這意味著，LLM 本身的醫療知識水平并未轉化為使用者的實際決策能力。

癥結所在——人類-LLM交互難題

為什么會出現這種理想與現實之間的巨大鴻溝呢？

研究團隊進一步人工檢查了其中 30 種情況下的人類-LLM 交互，結果顯示，癥結不在于 LLM 的醫學知識儲備，而在于人類-LLM 交互難題。

在真實醫療場景中，人類患者往往無法準確描述自己的癥狀，也不知道應該提供哪些關鍵信息，這導致人類患者向 LLM 提供的信息不完整或不準確，而 LLM 可能過于依賴專業術語，沒能將醫學知識“翻譯”為公眾所能理解的語言，此外，LLM 有時也可能會生成誤導性或錯誤的信息。

以下圖為例，人類用戶向描述了自己與外賣相關的嚴重胃痛和嘔吐癥狀，LLM 初步列舉了消化不良和胃食管反流這兩種可能性并建議咨詢醫生。人類用戶進一步詢問就醫的緊急程度時，LLM 轉而回答了區分緊急醫療與常規體檢的一般原則。這暴露了人類用戶在提供信息不完整時，LLM 可能無法替代專業醫生的判斷。

因此，LLM 在醫學考試中的表現令人印象深刻，但在與人類的真實對話中準確率明顯下降，其掌握的醫學知識的專業性和公眾理解的通俗性之間存在著巨大鴻溝，標準化的醫學考試和模擬患者互動，并不能體現 LLM 在真實場景中的表現。

基于這些發現，研究團隊建議，LLM 在醫療領域大規模部署之前，應進行系統的人類用戶測試，以評估其與人類的交互能力。

這項研究也提示我們，AI 醫療的發展路徑可能應該是“先專業后普及”，也就是先作為專業醫生的輔助工具，待發展成熟后逐步直接服務于公眾。

論文鏈接：

https://www.nature.com/articles/s41591-025-04074-y

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.