<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      國產醫療大模型斬獲三項SOTA!幻覺率優于GPT-5.2,問診能力超過人類醫生

      0
      分享至


      智東西
      作者 陳駿達
      編輯 漠影

      我盯著屏幕上的AI診斷建議,反復讀了三次。AI用清晰的專業術語羅列了可能的病因,可我的焦慮卻沒有絲毫緩解。

      如果疼痛加劇該怎么辦?這些藥需要一起吃嗎?我該先去哪個科室掛號?這些真正困擾普通患者的問題,答案里只字未提。AI似乎什么都懂,可我依然不知道該怎么做。


      這也正是當前將AI大模型應用于醫療健康產場景的尷尬所在:它們能給出看起來專業感十足的回應,卻撐不起一個真正的醫療決策。

      作為患者,我們既不知道該怎么描述癥狀才算準確,也不清楚該提供哪些關鍵信息。最終,AI只能謹慎地給出一段涵蓋各種可能性、卻難以落地的建議。

      如果,它能更像一位真正的醫生呢?不急于拋出結論,而是先一步步引導,主動補齊醫療決策中缺失的那幾塊關鍵信息,比如疼痛的具體變化、用藥史,或是過往的檢查結果。

      這,或許才是大模型真正走入現實醫療場景、發揮作用的轉折點。

      一、從機械問答到主動提問,會問診的“AI醫生”什么樣?

      昨天,百川智能開源的新一代醫療大模型Baichuan-M3,正是在上述方向上做的一次革新。

      如果說傳統醫療大模型像是醫學知識問答機或醫生角色扮演器,那么百川的追求,是盡可能還原真實的醫療決策過程,讓模型具備主動收集關鍵信息、構建醫學推理鏈路、動態抑制內容幻覺等原生醫療增強能力。

      我們可以用下方這個案例,來感受Baichuan-M3與此前其他大模型的區別。

      比如,當我向通用大模型發送“胸口長了個痘痘,兩個月沒消”這樣的模糊消息時,沒有主動收集信息能力的大模型,往往會基于有限的信息,直奔結論,列舉出海量相關癥狀,讓人一時間不知如何是好。


      而當我與Baichuan-M3交互時,其“嚴肅問診”帶來的體驗則完全不同。發送了相同的信息后,模型會主動要求我給予更多描述,比如具體長在哪個位置,看起來是什么樣的,還貼心地給了對應的選項,供我回復。


      Baichuan-M3逐步排查了吸煙史、手術史、外傷史、感染史等關鍵要素,也問了問我的飲食習慣,家族病史,直到它認為獲取了足夠完整的信息后,才決定給出判斷。


      這種直觀的體驗提升,也在榜單上得到了充分體現。去年5月,OpenAI發布了Healthbench。這一基準測試由來自60個國家的262位醫生共同構建,收錄了5000組高度逼真的多輪醫療對話,是目前較為權威、且貼近真實臨床場景的醫療評測集。

      長期以來,在Healthbench和HealthBench-Hard榜單上,霸榜的一直是GPT系列模型,Baichuan-M2此前曾沖到開源第一的位置,僅次于GPT-5。

      此次發布的Baichuan-M3,則在HealthBench總分上超越OpenAI最新模型GPT-5.2,也在HealthBench Hard上登頂,成為當前全球醫療溝通和推理能力最強的醫療大模型。


      在嚴肅的醫療場景,幻覺率也是一個十分重要的指標。常常被不少患者帶著一同前往診室,尋醫問藥的DeepSeek,幻覺率大概在6.1%左右,目前業內做得最好的GPT-5.2-High,幻覺率則在3.8%左右。Baichuan-M3則做到了3.5%的幻覺率,同樣也是行業SOTA水平。


      隨著Baichuan-M3的問世,百川也同期發布了一項新的測評集——SCAN-bench。這項基準測試由150多位一線醫生聯合打造,能將診療過程拆解為更符合真實場景的病史采集、輔助檢查、精準診斷三大階段,對模型能力做出更全流程的評估。

      在SCAN-bench上,M3在四個重要維度上,均顯著高于人類醫生基線水平,還大幅領先于國內外頂尖模型。


      全新的使用體驗與亮眼的榜單成績背后,百川究竟做對了什么?

      二、SCAN原則、強化學習多管齊下,教會AI“像醫生一樣思考”

      在與百川的溝通中,我們了解到,百川內部其實有不少真正的臨床醫生,他們有的是從大醫院辭職到百川全職工作,也有的在業余時間深度參與。這些一線醫療場景的Know-how,成為指導百川提升醫療大模型表現的重要參考。

      比如,臨床醫生在面對患者時的行事邏輯往往是先排除危急重癥,然后進行常規診療。但基于角色扮演的醫療AI問診模式,往往無法踐行這種安全優先級。沒有關鍵風險點的牽引,問診本身有可能失去重點,無法支撐安全可靠的臨床判斷。

      為解決上述問題,百川需要的是一種范式的革新。他們提出了“嚴肅問診范式”與“SCAN原則”,把臨床問診里的思維過程歸納為:Safety Stratification(安全分層)、Clarity Matters(信息澄清)、Association & Inquiry(關聯追問)與Normative Protocol(規范化輸出)。

      Baichuan-M3登頂的SCAN-bench,正是在這一原則的指導下打造的。這一基準測試的三大階段、多輪動態考核模式,可以更完整地模擬醫生從接診到確診的全過程。


      如果說SCAN原則、嚴肅問診范式,像是給大模型出了一套醫療AI領域的模擬題,那么百川接下來要做的,就是把這套模擬題中的解題思路與評分標準,系統地內化為模型的核心思維框架與行為本能。

      傳統的強化學習算法,往往基于最終的結果給予模型獎勵信號,但是這套模式在醫療決策場景往往會水土不服。一個醫療決策的背后,往往涉及諸多復雜的環節,一個環節出錯,就有可能影響最終的結果。

      百川的解法是把醫療流程劃分為病史采集、鑒別診斷、檢驗檢查和精確診斷四個階段,這些階段相互依賴,但是目標是獨立的。這就允許百川的團隊在訓練過程中給每個環節配備獨立的獎勵機制,讓長程決策的復雜度降低。

      在強化學習中,另一個常見的問題是“獎勵破解”——模型總是能以千奇百怪的捷徑,找到拿高分的方式。比如,只要瘋狂提問,或許就能刷高分數,但這往往不是我們想要看到的結果。

      為此,百川開發了SPAR(基于相對基準的分步懲罰優勢算法)。這一算法進一步細化了步驟懲罰機制,還加入了自適應課程學習的因素,最終有效遏制了無效提問。這一算法還解決了模型出現單步瑕疵時的獎勵誤判,能更為準確地給模型提供指導。


      此外,百川使用的強化學習獎勵模型還融入了醫學教育中的OSCE(客觀結構化臨床考試) 理念,將可計算的動態量表作為獎勵標準,不再單純追逐結果的對錯,而是進行全維度的過程考核。

      最終效果就是,經過訓練的“AI醫生”,整個問診過程變得流暢、清晰、有邏輯,每一步都穩扎穩打,像一個真正在思考的醫生,而不是一個只會背誦知識或耍小聰明騙分的機器學生。

      Baichuan-M3在醫療推理能力方面的提升,以及幻覺率的下降,則得益于他們提出的事實感知強化學習(Fact-Aware RL)訓練架構

      在這一架構中,百川沒有把幻覺約束和推理能力作為兩個單獨的目標進行優化,而是將其結合成一套統一的工程化目標。這樣既能保證模型敢于給出堅定、明確的醫學判斷,也不會使其因過度追求安全而陷入“正確但無用”的沉默,或為追求流暢而滋生危險的事實性幻覺。

      簡單來說,這套方法讓模型學會了一種“負責任的自信”

      三、醫療AI奇點到來,有望緩解行業四大問題

      在Baichuan-M3發布之際,我們也來到了百川在北京的辦公室,與百川智能創始人兼CEO王小川面對面深度溝通。

      此前,百川已在醫療AI方面取得一系列成績。其開源模型M2發布后,月下載量超過十萬次,累計下載近百萬次,被業界視為“2025年影響力最大的開源醫療模型之一”。

      隨后的M2?Plus進一步引入“六元循證”系統,將幻覺降至基線模型的約三分之一,技術實力已吸引同行跟進甚至“挖人”。

      對王小川而言,他認為今年是醫療AI奇點到來的一年,范式變革已經真正開始了。以醫生為權威、為中心的模式正在逐步開始變化,AI工具提供的更多信息,讓患者開始能夠對自己健康負責任。

      其實,做醫療,一直是百川的一條主線,這源自王小川對當前醫療體系四個根本性問題的認知。

      首先,盡管如今我們已經能治愈各種復雜的疾病,但作為一門學科,醫學本身仍是高度不發達的,仍處于“現象密集、理論滯后”的階段。

      這并不是百川的一家之言,此前,AI教母李飛飛也曾表達過類似的觀點,醫療其實是一個黑暗的空間。人的行為和動作在其中扮演了重要,甚至是過于重要的角色。

      同時,醫患角色也存在錯位的問題,決策權與受益權分離。患者是健康的最終受益者和責任人,但決策權和海量相關信息卻掌握在醫生手中。然而,醫生并不總是能有時間、有條件準確地傳達這些信息,可能會溝通不暢、患者體驗不佳。王小川比喻,這如同“圣經的解釋權只在教士手中”

      此外,醫療體系還面臨優質醫生資源不足且分布不均,就醫體系重心偏高,大醫院負荷重,基層與居家健康環節薄弱等結構性問題。

      而像Baichuan-M3這樣的醫療AI的價值,正在于能夠同時從這幾個維度尋求突破。大模型熟練掌握全科知識,能對一項具體的病癥展開跨學科、跨領域的分析,往往超越人類醫生的知識范疇。

      醫療AI也讓優質醫療服務進一步下沉,并通過為患者提供更多看得懂、能理解的信息,推動決策權回歸患者自身。王小川相信,就像不懂法律的陪審團也能通過律師和法官的充分解釋,得出判斷一樣,患者只要掌握了足夠的信息,也能對自己的健康做出負責任的決定。

      結語:走少有人走的路

      在采訪中,王小川向我們提及了一組數據:“去年行業發了500個AI醫療模型。”不過,相信對許多患者和普通用戶而言,更多與醫療相關的AI對話,可能是發生在DeepSeek、豆包這樣的通用AI助手中。

      王小川對這一現象并不焦慮,他認為垂直模型能在醫療上做得比通用底座更好。百川對醫療行業理解更深,選擇了一條少有人走的路,對醫療AI本身也有信仰。

      今年,百川計劃陸續推出2款面向C端的產品,除了全科覆蓋之外,還會在腫瘤、兒科這兩大最復雜、最能體現嚴肅醫療價值的領域重點發力。未來,我們或許還能看到百川在更多領域,給廣大用戶帶來的驚喜。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      45歲童蕾隱居浙江小院!老公獲刑后帶女住平房,泳池種菜太愜意

      45歲童蕾隱居浙江小院!老公獲刑后帶女住平房,泳池種菜太愜意

      胡一舸南游y
      2026-01-12 20:02:01
      俄羅斯譴責他國干涉伊朗內政

      俄羅斯譴責他國干涉伊朗內政

      參考消息
      2026-01-13 12:32:24
      1972年,毛主席當眾指著她鼻子罵:你男人跟別人好了,你怎么不離婚?

      1972年,毛主席當眾指著她鼻子罵:你男人跟別人好了,你怎么不離婚?

      寄史言志
      2026-01-07 21:08:15
      47歲賀嬌龍意外墜馬去世,4年帶貨3.6億,坦言怕付出太少德不配位

      47歲賀嬌龍意外墜馬去世,4年帶貨3.6億,坦言怕付出太少德不配位

      梅亭談
      2026-01-14 10:44:04
      柬埔寨“優秀企業家” 陳志必須死,手上10個電詐園的鍋他必須背

      柬埔寨“優秀企業家” 陳志必須死,手上10個電詐園的鍋他必須背

      我心縱橫天地間
      2025-10-28 16:54:17
      1972年,175位將軍復出沒人要,各大軍區紛紛甩鍋,周總理這招絕了

      1972年,175位將軍復出沒人要,各大軍區紛紛甩鍋,周總理這招絕了

      寄史言志
      2026-01-08 18:02:14
      葉帥讓胡耀邦送自己去機場,卻一把將他拉上飛機,當即下令:起飛

      葉帥讓胡耀邦送自己去機場,卻一把將他拉上飛機,當即下令:起飛

      潯陽咸魚
      2026-01-08 06:35:06
      江西一新娘臨時加8萬彩禮,新郎扭頭就去取錢,新娘到娘家后慌了

      江西一新娘臨時加8萬彩禮,新郎扭頭就去取錢,新娘到娘家后慌了

      濤哥講堂
      2025-01-10 14:13:19
      2020年青海女巨貪家查出密室,丈夫看到一半受不了:我能不能先走

      2020年青海女巨貪家查出密室,丈夫看到一半受不了:我能不能先走

      夕陽渡史人
      2026-01-05 14:49:25
      吉林省副省長楊安娣獲增補為省政協委員

      吉林省副省長楊安娣獲增補為省政協委員

      澎湃新聞
      2026-01-14 17:58:27
      阿維塔電車失控在市區道路時速超100km/h連撞15車,肇事司機稱系駕駛輔助系統失控,阿維塔否定車輛問題,認定為人工駕駛,責任認定引爭議

      阿維塔電車失控在市區道路時速超100km/h連撞15車,肇事司機稱系駕駛輔助系統失控,阿維塔否定車輛問題,認定為人工駕駛,責任認定引爭議

      極目新聞
      2026-01-14 12:08:00
      旱的旱死澇的澇死,原來這些明星都已"無戲可拍",頂流也不行

      旱的旱死澇的澇死,原來這些明星都已"無戲可拍",頂流也不行

      陌識
      2026-01-15 06:05:29
      漢中太守張魯,麾下竟有八大悍將!難怪劉璋坐擁天府,畏其如虎!

      漢中太守張魯,麾下竟有八大悍將!難怪劉璋坐擁天府,畏其如虎!

      王嚾曉
      2026-01-14 13:30:04
      大結局要來?俄軍終于想明白,炸軍工廠不如炸電廠,基輔陷入黑暗

      大結局要來?俄軍終于想明白,炸軍工廠不如炸電廠,基輔陷入黑暗

      自己撐起一片天
      2026-01-15 07:35:22
      1人回歸引熱議!邱貽可留任,孫穎莎教練配置為何不變?

      1人回歸引熱議!邱貽可留任,孫穎莎教練配置為何不變?

      蘇甩甩
      2026-01-15 08:29:20
      為什么不能去干涉別人的因果?網友:我30多了才明白這個道理

      為什么不能去干涉別人的因果?網友:我30多了才明白這個道理

      帶你感受人間冷暖
      2026-01-11 00:05:11
      陳夢客串電視劇不到24小時,擔心的事發生,表哥黃曉明也被牽連

      陳夢客串電視劇不到24小時,擔心的事發生,表哥黃曉明也被牽連

      八斗小先生
      2026-01-14 16:17:17
      克林頓不是男人!要用雪茄助興?萊溫斯基:他把我當成“自助餐”

      克林頓不是男人!要用雪茄助興?萊溫斯基:他把我當成“自助餐”

      老蝣說體育
      2026-01-05 14:59:04
      笑麻了!寶媽求教給娃買衣服不便宜,穿起來土里土氣!評論區炸鍋

      笑麻了!寶媽求教給娃買衣服不便宜,穿起來土里土氣!評論區炸鍋

      另子維愛讀史
      2026-01-14 19:58:01
      呆呆發文暫時退網,不接受任何采訪!本人就一個賬號,沒商業代言

      呆呆發文暫時退網,不接受任何采訪!本人就一個賬號,沒商業代言

      鋭娛之樂
      2026-01-14 15:24:52
      2026-01-15 09:44:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      11069文章數 116942關注度
      往期回顧 全部

      健康要聞

      血常規3項異常,是身體警報!

      頭條要聞

      牛彈琴:伊朗局勢氣氛已烘托到位 戰火一觸即發

      頭條要聞

      牛彈琴:伊朗局勢氣氛已烘托到位 戰火一觸即發

      體育要聞

      你是個好球員,我們就拿你交易吧

      娛樂要聞

      網紅彭十六偷稅被封殺 曾成功轉型明星

      財經要聞

      “瘋狂的白銀”,還能走多遠?

      科技要聞

      反壟斷大棒,為何砸向了攜程

      汽車要聞

      曝Model Y或降到20萬以內!

      態度原創

      家居
      健康
      旅游
      手機
      公開課

      家居要聞

      心之所向 現代建構之美

      血常規3項異常,是身體警報!

      旅游要聞

      浙江常山:石灰窯變面包窯 “石灰村”變旅游村

      手機要聞

      小米國產第一,OPPO追平vivo,傳音落入其它

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产猛烈高潮尖叫视频免费| 亚洲中文字幕无码天然素人| 综合网激情五月| 国产精品国产三级国产试看| 美国黄色片一区二区三区| 亚洲无码精品人妻| 蜜臀av色欲a片无码精品一区| 97色精品视频在线观看| 天堂资源中文| 亚洲中文无码手机永久| www日韩| 亚洲第一av网站| 亚洲中文久久久久久精品国产| 久久久精品2019中文字幕之3| 永久免费无码网站在线观看个| 亚洲综合色在线| 日韩日韩日韩日韩日韩| 国产高清在线精品一区二区三区| 国产日产亚洲系列av| 99伊人| 超碰在线91| 波多野结系列18部无码观看AV| 国产精品三级片一区| 国内精品久久久久久中文字幕| 久久精品中文字幕有码| 亚洲国产成人精品无码区蜜柚| 日逼av| 苍梧县| 国产九色AV刺激露脸对白| 久久96| 久久影院综合精品| 97精品国产手机| 亚洲中文天堂| 国产乱子伦农村xxxx| 国产一区亚洲一区| 蜜桃av蜜臀av色欲av麻| 少妇下面好紧好多水真爽播放| 欧洲精品色在线观看| 精品国产乱子伦一区二区三区,精品一| 日韩福利在线视频| 40岁成熟女人牲交片|