![]()
新智元報道
編輯:艾倫
【新智元導讀】百川發布并開源全球最強醫療模型 Baichuan-M3,各項指標均已 SOTA!同時 M3 也超越了人類醫生的平均水平。它最大的進步是告別了機械的「背醫書」,學會了像真人醫生一樣主動追問、排查病因,主打「嚴肅問診」,不僅能把模糊的病情問清楚,更解決了 AI「胡說八道」的頑疾,準確度超越 GPT-5.2-High。這是 AI 從「聊天機器人」向「專業醫生」進化的關鍵一步。AI醫療,奇點已至。
在很長一段時間里,人們習慣了這樣一種人機交互:你在搜索框或聊天窗口輸入「頭痛怎么辦?」,屏幕對面會瞬間拋回幾千字關于腦瘤、高血壓或頸椎病的百科知識,最后附上一句正確的廢話——「建議您及時就醫」。
這不僅是搜索引擎時代的頑疾,也是目前大模型的通病。
它們像是一個博聞強記但缺乏臨床經驗的醫學生,背下了所有醫書,卻不懂得如何面對一個活生生的人。
就在今天,這個僵局要被打破了。
百川智能發布并開源了新一代醫療增強大語言模型 Baichuan-M3。
在百川創始人王小川看來,這絕非僅僅是模型參數的升級,更是一次對「AI 醫療」的重新定義。
M3 不再滿足于做一個被動的答題者,它試圖掌握一種人類醫生最核心的職業本能——嚴肅問診。
數據顯示,Baichuan-M3 在全球權威醫療 AI 評測 HealthBench 及其高難度子集 HealthBench Hard 上雙雙奪冠!
![]()
甚至在 OpenAI 最引以為傲的低幻覺領域,Baichuan-M3 也以 3.5% 的幻覺率擊敗了 GPT-5.2,實現全面 SOTA!
![]()
真正的變化體現在「百小應」App 里:當患者描述模糊的癥狀時,AI 不再急于給出結論,而是像一位經驗豐富的老大夫一樣,開始了一場抽絲剝繭的「偵探游戲」。
![]()
百小應網頁端:https://ying.baichuan-ai.com/chat
從「被動答題」
到「主動追問」
醫療的本質,是信息不對稱的博弈。
患者往往無法準確描述自己的痛苦,「肚子疼」在醫學上可能對應著從胃痙攣到急性胰腺炎等數十種可能。
之前,大多數醫療大模型的訓練邏輯是「完形填空」——盡力補全用戶話語中的缺失。
OpenAI 發布的 HealthBench 評測集,本質上考查的也是這種「單輪靜態問答」能力。
然而,百川的技術團隊發現,這種邏輯在真實臨床中是危險的。
醫生看病,第一件事永遠是排除危急重癥。
但在傳統的提示詞工程下,AI 往往因為急于表現「博學」,而忽略了對「紅旗征」(指危險信號)的排查。
Baichuan-M3 的核心突破,在于它首次具備了原生的「端到端」嚴肅問診能力。
這種能力源于百川獨創的 SCAN 全新問診原則。
在百小應的實際體驗中,如果用戶說「頭暈」,M3 不會立刻列舉頭暈的原因,而是會啟動一套縝密的追問邏輯:
安全分層(Safety Stratification):「是一陣一陣的暈,還是天旋地轉?有沒有伴隨惡心嘔吐?」(排查中風或耳石癥風險)
信息澄清(Clarity Matters):「最近有沒有熬夜或測量過血壓?」(量化誘因)
關聯追問(Association & Inquiry):基于初步回答,像偵探一樣鎖定嫌疑病因。
在以往,長輪次的對話訓練容易讓模型「迷路」,導致邏輯破碎。
百川新的SPAR 算法通過分步懲罰機制,讓 AI 學會了在有限的對話輪次中,精準地問出最關鍵的信息。
在百小應上,這意味著 AI 能將患者口中「有點痛」、「不舒服」等主觀體感,轉化為醫生看得懂的、結構化的臨床數據。
攻克「AI 的痼疾」:幻覺
如果說「不會問診」只是讓 AI 顯得笨拙,那么「幻覺」則意味著安全風險。
在嚴肅醫療場景下,大模型一本正經地胡說八道(即 AI 幻覺)是不可接受的。
2025 年,盡管 DeepSeek 等國產模型讓 AI 普及到了千家萬戶,但大多數通用模型公司并未將「降幻覺」提升到與寫代碼、做數學題同等的高度。
百川選擇了一條更難的路:將醫療幻覺抑制前移。
不同于行業通用的「外掛知識庫」(RAG)模式,Baichuan-M3 試圖從「基因」里剔除幻覺。
技術團隊構建了一套事實感知強化學習(Fact-Aware RL)架構。
![]()
簡單來說,就是在模型訓練的每一次獎懲中,都加入對醫學事實的嚴苛校驗。
這相當于在 AI 的大腦里植入了一個實時的「審稿人」。
當模型試圖為了讓答案看起來通順而編造一個藥物劑量時,懲罰機制會立刻介入。
這種「內化」的訓練方法效果顯著。
在不依賴任何外部搜索工具的情況下,M3 的醫療幻覺率降至 3.5%!
這一數據不僅優于 GPT-5.2,更是刷新了全球的最好成績。
對于百小應的用戶來說,這意味著 AI 給出的每一條建議,是基于嚴謹醫學邏輯的「負責任表達」。
在遇到自身知識邊界外的復雜病例時,M3 更傾向于引導就醫,而不是盲目自信地開方。
誰來給「AI 醫生」監考?
如何評價一個醫生的水平?看他背了多少書,還是看他治好了多少人?
過去,以 HealthBench 為代表的評測集,更像是醫學院的筆試題。
它考核的是 AI「會不會回答問題」。
但在百川看來,這遠遠不夠。
臨床如戰場,醫生面對的是動態的、混亂的、信息不全的真實世界。
醫療模型必須要能夠帶著診療目標,完整的收集患者信息。
為了給 M3 一場真正的「臨床大考」,百川聯合 150 多位一線醫生,借鑒醫學教育中經典的 OSCE(客觀結構化臨床考試)方法,搭建了 SCAN-bench 評測體系。
這是一個包含病史采集、輔助檢查、精準診斷全流程的動態考場。
AI 不僅要答對最后的病名,還要被考核「問診思路是否清晰」、「檢查開得是否合理」、「有沒有漏掉高危風險」。
在實驗過程中百川發現,問診準確度每增加 2%,最終診療結果的準確度就會提升 1%。評測結果顯示,M3 在SCAN的四個維度均顯著高于人類醫生基線水平,并大幅領先于國內外頂尖模型。
![]()
分數超越人類醫生平均值并非意味著 AI 已經全面超越了名醫,但在標準化的問診流程、知識的廣度以及對指南的絕對遵循上,AI 展現出了人類難以比擬的穩定性。
醫療 AI 的「最后一公里」
技術的高低,最終要落回到具體的應用場景中。
隨著 M3 的發布,百川智能旗下的醫療應用「百小應」正在經歷一場靜悄悄的質變。
在過去,患者去醫院就像是一場「盲盒游戲」。
排隊三小時,看病三分鐘,面對醫生時語無倫次,把關鍵病史忘得一干二凈。
而接入 M3 后的百小應,正在試圖成為醫患之間的「翻譯官」。
在患者端,它是一個 24 小時在線的「全科醫生助理」。
當你感到不適,它通過多輪專業的追問,幫你理清病情,生成一份專業的病情摘要。
在醫生端,這可能意味著工作流的重塑。
當患者坐到診室時,醫生看到的將會是一份已經排除了基礎風險、羅列了關鍵癥狀的結構化報告。
醫生可以跳過機械的信息收集環節,直接進入高價值的診斷與治療決策。
這就是百川強調的「強推理、低幻覺的醫療服務能力」的真實落地。
它不試圖取代醫生,而是試圖通過提升問診能力、準確性,來幫助醫生決策。
披荊斬棘的 AI 醫療先鋒
2026 年初,全球 AI 醫療的競爭已進入深水區。
從 OpenAI 的 ChatGPT Health 到 Anthropic 的 Claude for Healthcare,巨頭們都在爭奪這塊最難啃的骨頭。
在這場競速中,Baichuan-M3 的出現具有特殊的標本意義。
它標志著中國 AI 醫療從「跟隨者」轉身為「定義者」。
百川證明了,通過對醫療決策過程的深度建模,大模型可以走出「聊天機器人」的舒適區,進入嚴肅、嚴謹且充滿敬畏的臨床世界。
技術是冰冷的,但醫療永遠關乎人性的溫度。
AI 無法替代醫生握住患者顫抖的手,但它可以讓醫生在握手之前,看得更清楚、判得更準確。
針對人口老齡化,AI 是最靠譜的解決優質醫療資源短缺的幾乎唯一的方案。
百川作為國內最早一批開始探索 AI 醫療的公司,在迷霧中努力探索出一條可落地的 AI 賦能醫療的道路。
參考資料:
百川開源全球最強醫療大模型M3,「嚴肅問診」定義AI醫療新能力
百小應網頁端:https://ying.baichuan-ai.com/chat
開源鏈接:
Hugging Face 地址:
https://huggingface.co/baichuan-inc/Baichuan-M3-235B
GitHub 地址:
https://github.com/baichuan-inc/Baichuan-M3-235B
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.