網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

【患者安全】大語(yǔ)言模型-誤診卓越診斷？

2026-03-05 09:07:10　來(lái)源: 醫(yī)護(hù)健康科普

北京舉報(bào)

分享至

Large Language Models

—Misdiagnosing Diagnostic Excellence?

編譯自：Sumant R. Ranji, MD，JAMA Netw Open. 2024;7(10) 圖片來(lái)自網(wǎng)絡(luò)。

在最近的一次美國(guó)國(guó)家醫(yī)學(xué)科學(xué)院會(huì)議上，Goh團(tuán)隊(duì)的研究成果引起了聽(tīng)眾的震驚與擔(dān)憂。這項(xiàng)隨機(jī)臨床試驗(yàn)評(píng)估了全科醫(yī)生在診斷6個(gè)模擬病例時(shí)的表現(xiàn)。醫(yī)生被分為兩組：一組僅使用常規(guī)在線資源，另一組除了這些資源外，還額外使用大語(yǔ)言模型(LLM) (ChatGPT Plus [GPT-4]; OpenAI)。此外，研究還單獨(dú)測(cè)試了LLM的診斷能力。為了客觀評(píng)價(jià)診斷質(zhì)量，研究團(tuán)隊(duì)設(shè)計(jì)了一套評(píng)分標(biāo)準(zhǔn)，由專(zhuān)家對(duì)臨床推理過(guò)程進(jìn)行盲評(píng)，包括醫(yī)生的最終診斷、鑒別診斷及支持/不支持診斷的因素。

研究的主要發(fā)現(xiàn)是：使用LLM輔助診斷的醫(yī)生得分與僅使用傳統(tǒng)資源的醫(yī)生相比，并沒(méi)有顯著提高。然而，LLM單獨(dú)完成診斷時(shí)的表現(xiàn)卻顯著優(yōu)于任何一組醫(yī)生。這一結(jié)果引發(fā)了不少人對(duì)自身職業(yè)未來(lái)的擔(dān)憂，不少與會(huì)者甚至擔(dān)憂：“我們會(huì)失業(yè)嗎？”

Goh團(tuán)隊(duì)的試驗(yàn)在探索生成式人工智能（AI）應(yīng)用于診斷方面邁出了重要一步。該研究通過(guò)分析未經(jīng)專(zhuān)業(yè)LLM培訓(xùn)的醫(yī)生如何在實(shí)際場(chǎng)景中使用GPT-4，為現(xiàn)階段和可預(yù)見(jiàn)未來(lái)的臨床實(shí)踐提供了真實(shí)的評(píng)估。值得注意的是，這項(xiàng)研究沒(méi)有單純關(guān)注最終診斷的準(zhǔn)確性，而是強(qiáng)調(diào)診斷過(guò)程的質(zhì)量，這種更全面的評(píng)價(jià)方法值得未來(lái)研究借鑒。研究同時(shí)表明，僅靠生成式AI并不能提高診斷質(zhì)量，醫(yī)生需要接受專(zhuān)門(mén)的培訓(xùn)，才能充分發(fā)揮這類(lèi)工具的潛力。

作者提醒道：“研究結(jié)果并不意味著LLM可以獨(dú)立承擔(dān)診斷任務(wù)，醫(yī)生的監(jiān)督仍然必不可少。”然而，LLM單獨(dú)診斷表現(xiàn)優(yōu)于醫(yī)生的結(jié)果，勢(shì)必成為引發(fā)關(guān)注的核心話題。對(duì)于以診斷為核心職業(yè)身份的醫(yī)生來(lái)說(shuō)，使用LLM進(jìn)行診斷的前景既讓人興奮，也讓人感到不安。隨著更多關(guān)于LLM診斷能力的研究發(fā)表，醫(yī)生應(yīng)當(dāng)如何看待這些新技術(shù)的挑戰(zhàn)和機(jī)遇呢？

需要謹(jǐn)慎對(duì)待的是，LLM在模擬病例中的優(yōu)異表現(xiàn)是否可以推廣到實(shí)際的臨床實(shí)踐中。模擬病例的診斷條件通常是理想化的——病史、體格檢查結(jié)果、實(shí)驗(yàn)室及影像學(xué)數(shù)據(jù)都以整齊有序的方式呈現(xiàn)，便于構(gòu)建鑒別診斷。而實(shí)際臨床診斷是一個(gè)復(fù)雜的迭代過(guò)程，往往需要在繁雜的環(huán)境中整合來(lái)自患者、家屬及多學(xué)科團(tuán)隊(duì)的多種信息，這種非線性的過(guò)程需要在不斷獲取新信息的基礎(chǔ)上不斷修正診斷，同時(shí)還需要將治療反應(yīng)納入診斷推理，診斷和治療之間的區(qū)別往往變得模糊。

那么，LLM在接近真實(shí)臨床環(huán)境下的表現(xiàn)如何？最近的一項(xiàng)研究評(píng)估了LLM在處理4種常見(jiàn)腹部疾病的診斷和管理方案制定中的表現(xiàn)。研究中，LLM接收的是逐步呈現(xiàn)的患者數(shù)據(jù)，每個(gè)步驟后需總結(jié)信息并提出診斷或額外檢查建議。完成診斷后，LLM還需制定治療計(jì)劃。然而，在這種現(xiàn)實(shí)化的場(chǎng)景中，LLM的表現(xiàn)很差：除最簡(jiǎn)單的病例外，其診斷表現(xiàn)顯著遜色于醫(yī)生，同時(shí)，LLM 也未能始終如一地要求進(jìn)行適當(dāng)?shù)脑\斷檢查，即使在得出正確診斷后也經(jīng)常提出錯(cuò)誤的治療建議。

盡管LLM的性能在不斷提升，但當(dāng)前的局限性仍需關(guān)注。即便未來(lái)LLM能夠基于不斷變化的信息完成復(fù)雜的迭代診斷，它是否能夠有效減少診斷錯(cuò)誤帶來(lái)的傷害仍然值得懷疑。

醫(yī)學(xué)診斷中的錯(cuò)誤通常源于系統(tǒng)性失誤（潛在錯(cuò)誤），這些問(wèn)題讓個(gè)體醫(yī)生的錯(cuò)誤（顯性錯(cuò)誤）最終影響患者。生成式AI的優(yōu)勢(shì)在于幫助醫(yī)生減少認(rèn)知錯(cuò)誤，即數(shù)據(jù)收集和整合方面的失敗。但認(rèn)知錯(cuò)誤并不是孤立于醫(yī)療系統(tǒng)之外的，它往往是醫(yī)生在充滿潛在錯(cuò)誤的環(huán)境中工作時(shí)的表現(xiàn)，例如人員不足、工作壓力大、不完善的電子病歷系統(tǒng)以及醫(yī)護(hù)團(tuán)隊(duì)溝通不暢。這些系統(tǒng)性問(wèn)題會(huì)增加醫(yī)生的認(rèn)知負(fù)擔(dān)，阻礙其做出準(zhǔn)確決策。專(zhuān)注于 AI 的生成潛力以防止認(rèn)知錯(cuò)誤，可能會(huì)最大限度地減少系統(tǒng)故障在診斷錯(cuò)誤中的作用，并分散人們對(duì)解決這些問(wèn)題的注意力。

實(shí)現(xiàn)卓越診斷需要建立一個(gè)支持醫(yī)生準(zhǔn)確決策并全程服務(wù)患者的醫(yī)療體系。生成式AI可以成為其中的重要組成部分，但要成功地將LLM融入臨床診斷，還需要技術(shù)的進(jìn)一步完善、醫(yī)生的系統(tǒng)性培訓(xùn)，以及AI與臨床環(huán)境的深度融合。即使這些條件都具備，也不應(yīng)期待AI能夠獨(dú)立解決所有診斷問(wèn)題。

對(duì)于那些認(rèn)為Goh團(tuán)隊(duì)的研究結(jié)果威脅到醫(yī)生職業(yè)安全的人來(lái)說(shuō)，本文試驗(yàn)中使用AI平臺(tái)的回答或許能帶來(lái)一些安慰。在試驗(yàn)中，研究團(tuán)隊(duì)使用了加州大學(xué)舊金山分校的安全AI平臺(tái)（Versa），并向其提出以下問(wèn)題：“既然最近的研究顯示LLM在模擬病例中的診斷準(zhǔn)確性已經(jīng)達(dá)到甚至超過(guò)了醫(yī)生，這是否意味著未來(lái)LLM會(huì)取代醫(yī)生？”

LLM的回答如下：

“大語(yǔ)言模型（LLM）在模擬病例診斷中顯示出前景，但完全取代醫(yī)生并不現(xiàn)實(shí)。LLM可以通過(guò)提供決策支持、處理大量數(shù)據(jù)和提出診斷建議來(lái)增強(qiáng)醫(yī)療實(shí)踐。然而，醫(yī)學(xué)實(shí)踐還包括復(fù)雜的人際互動(dòng)、倫理判斷和體格檢查，這些是AI無(wú)法完全復(fù)制的。LLM是提升醫(yī)療質(zhì)量的工具，而非醫(yī)生的替代品。LLM的整合應(yīng)以協(xié)作為目標(biāo)，而非取代。”

這段回應(yīng)恰如其分地總結(jié)了生成式AI在醫(yī)療領(lǐng)域的定位。我們不應(yīng)將其視為威脅，而應(yīng)將其視為一種可以與醫(yī)生合作的強(qiáng)大工具，共同推動(dòng)醫(yī)療診斷的進(jìn)步。

【原文】 https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825399

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.