<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      發布 ChatGPT 健康 6 天后,OpenAI 在自家醫療健康 Benchmark 上被反超

      0
      分享至


      百川智能表示今年上半年,將陸續發布兩款 to C 的醫療產品。


      作者|Li Yuan

      編輯|鄭玄

      你有沒有向 AI 助手問過你的健康問題?

      如果你和我一樣是一個 AI 的深度用戶,大概率你也試過。

      OpenAI 自己給出來的數據是,健康已成為 ChatGPT 最常見的使用場景之一,全球每周有超過 2.3 億人提出與健康和保健相關的問題。

      正因如此,跨入 2026 年,健康領域也大有成為 AI 領域必爭之地的跡象了。

      1 月 7 日,OpenAI 發布 ChatGPT 健康,允許用戶連接電子醫療記錄和各類健康應用,讓用戶能夠獲得更針對性的醫療回復;而 1 月 12 日,Anthropic 也立馬推出了 Claude for Healthcare,并強調了新模型的醫學場景能力。

      不過有趣的是,這次,中國公司沒有落下,甚至大有領先之意。

      1 月 13 日,百川智能宣布發布百川 M3 模型,在 OpenAI 發布的醫療健康領域評估測試集 HealthBench,反超 OpenAI 的 GPT-5.2 High,獲得 SOTA。

      在宣布 All-in 醫療受到諸多質疑后,百川智能似乎終于證明了自己。極客公園此次也專程與王小川聊了聊百川智能如何看待此次 M3 模型的能力,以及 AI 醫療的終局。

      01

      首次在健康領域測試集超越 OpenAI

      此次發布的 M3 模型,最亮眼的成績之一,在于模型第一次在 OpenAI 發布的醫療健康領域評估測試集 HealthBench,超越 OpenAI 的 GPT-5.2 High,獲得 SOTA。


      SOTA On Healthbench、Healthbench Hard and Hallucination Evaluation

      Healthbench 是 OpenAI 在 2025 年 5 月份發布的醫療健康領域評估測試集,由 262 位來自 60 個國家的醫生共同構建,收錄了 5000 組高度逼真的多輪醫療對話,是目前全球最權威、也最貼近真實臨床場景的醫療評測集之一。

      發布后,OpenAI 的模型一直霸榜。

      而此次,百川智能的新一代開源醫療大模型 Baichuan-M3,則獲得了 65.1 分的綜合成績位列全球第一,甚至在專門考驗復雜決策能力的 HealthBench Hard 上,M3 也成功奪冠,刷新了最高分。

      百川還同步公布了一個幻覺率的測試結果,在幻覺率,M3 模型達到了 3.5%,屬于全球最低。

      值得注意的是,這個幻覺率是不依賴外部檢索工具,純模型設置下的醫療幻覺率。

      百川智能表示,能夠達到這兩點,關鍵的模型提升在于為醫療引入了合適于醫療的強化學習算法。

      百川在 M3 模型上首次使用了 Fact Aware RL(事實感知強化學習)技術,達到了既讓模型不說套話,也不讓模型亂說話的效果。

      這在醫療領域實際上是非常關鍵的。

      在沒有優化的模型中提問醫療問題,最容易出現的問題就是兩類,一是模型直接胡編亂造你的癥狀,臆測一個疾病出來;而另一個則是語義模糊,最終提示你還是得去看醫生,而這無論對于醫生還是患者,都沒有太大幫助。

      這正是因為很多模型以純幻覺率作為優化目標,此時模型可能通過堆砌簡單正確的事實來稀釋整體幻覺率。而百川引入語義聚類與重要性加權機制——聚類消除冗余表述的干擾,加權確保核心醫學論斷獲得更高權重。

      同時,如果單純引入高權重的幻覺懲罰,極易迫使模型陷入「少說少錯」的保守策略,因此 Fact Aware RL 的算法中還設計了動態權重調節機制,根據模型當前的能力水平自適應地平衡這兩個目標——在能力構建階段,側重醫療知識的學習與表達(高 Task Weight);在能力成熟后,逐步收緊事實性約束(提升 Hallucination Weight)。

      當可以聯網搜索時,百川還加入了基于多輪搜索的在線校驗模塊,同時引入了高效的緩存系統,進行海量醫療知識的對齊。

      02

      問診水平超過人類醫生,

      步入可用階段


      不過,在 Healthbench 上超過 OpenAI 并不是此次唯一的亮點。

      此次更有趣的一個點,百川自己創造性地構建了一個 SCAN-benche 評測集。比起刷榜 OpenAI 的評測集,百川自己構建的評測集,或許更能說明百川智能在醫療上想要優化的方向。

      此次百川構建的測評集,關鍵點在于優化「端到端的問診能力」。這源于百川自己做的實驗洞察:問診準確度每增加 2%,診療結果準確度就會增加 1%。

      也就是說相比于 OpenAI 的 HealthBench,仍然主要關注「AI 會不會回答問題」,百川的 SCAN-benche 希望評測出的是:AI 是否能在一問一答中,獲取有效信息,同時給出正確的診療結果和醫療意見。

      通常情況下,我們向 AI 助手提問,如果只是提到「你是一位經驗豐富的醫生」,通常并不會得到太好的模型效果。因為真正的醫生,問診的流程是十分規范的——百川將其歸納為四個象限的 SCAN 原則:Safety Stratification(安全分層)、Clarity Matters(信息澄清)、Association & Inquiry(關聯追問)與 Normative Protocol(規范化輸出)。

      圍繞 SCAN 原則,百川借鑒醫學教育里長期使用的 OSCE 方法,聯合 150 多位一線醫生,搭建了 SCAN-bench 評測體系,將診療過程拆解為病史采集、輔助檢查、精準診斷三大階段,通過動態、多輪的方式進行考核,完整模擬醫生從接診到確診的全過程,也以在這幾個流程中,都獲得更好的結果,來優化模型。

      此次百川也公布了 M3 模型在 SCAN-benche 上的測評結果。


      結果十分有趣。百川此次不僅和模型進行了對比,還找來了真人醫生進行對比。而在四個象限中,真人醫生實際上都已經落后于模型能夠達到的水平了。

      極客公園特意對此向百川團隊進行了提問,得到的回答是:此次的測評,全都是真人的專科醫生在專科案例上與模型進行的比較。模型能夠獲勝,其一,在于模型更耐心,但更重要的是,模型擁有更好的跨學科的知識的掌握能力。

      比如在一個案例中,提到 10 歲孩子反復發熱,而發熱是一個非常綜合的醫療現象,如果只詢問咳嗽等肺部情況,就容易忽略關節和泌尿系統中的嚴重問題,誤判為普通感染。

      人類醫生通常只對分科的病情比較擅長,這也是復雜癥狀常常需要專家會診,或者疑難病癥專家也常常要去翻書找資料的原因。

      而沒有經過專門訓練,只是扮演醫生的普通模型,往往也很難回答好這類問題。

      03

      下一步:逐漸開始做 C 端產品,

      推進更嚴肅的醫療

      對于百川智能而言,超過人類醫生這個節點,意義十分重大:這意味著 AI 開始邁過可用性的門檻,開始能夠被部署到使用場景中了。

      從 1 月 13 日起,用戶已經可以開始在百小應的網站和 app 中,體驗到 M3 模型提供的回答了。

      目前的網站設計十分有趣,雖然都是使用 M3 模型進行回答,但是區分醫生版和用戶版。在醫生版,回答更加簡潔,引用更多參考文獻,也更「不說人話」。而在普通病人版,模型幾乎不會一次性給出回答,都會進行更多追問,進行更明確的診斷。


      百川智能提到,模型在后臺的思考很有意思。「我們經常能看到這個模型在思維鏈中提到,『這個患者沒有理我的這個問題,但是這個問題我必須要問。』甚至我們有看到過那種極端的,說我已經問了患者 20 輪了,這個已經超出了設定的最大輪數,但是這個問題我還是要問。這是因為在訓練的過程中模型把話說得討巧,是得不到獎勵的,它必須真的得到了足夠多的關鍵的信息,得到正確的診斷,才能得到獎勵。這個是我們跟其他人訓練模型的一個明顯的不同?!?/p>

      近來很多 AI 公司都開始介入醫療領域。這也是百川智能認為自己的最大不同之處——要做更嚴肅的醫療。

      「這意味著百川在選擇場景時,并不是看哪個場景最好做就去做哪個。相反,百川堅持要不斷上推技術能力,挑戰更難的問題?!雇跣〈ㄖv到。

      一個典型的例子是未來百川會優先做腫瘤??频慕鉀Q場景,而心理療愈排在百川的優先級的比較靠后的位置。

      在通俗觀點中,普遍認為 AI 提供心理療愈會更簡單,也是一個更容易落地的場景。百川的判斷邏輯則不同。他們認為腫瘤領域有更嚴格的科學依據。在這里,AI 更有可能做出嚴肅的醫療效果,從而達到或者超越人類醫生的水平。相比之下,心理學領域缺乏這種確定性的科學錨點。

      再比如有的公司選擇給醫生做分身,王小川則認為這種方向并不是百川想要做的方向。醫生的分身本身不能完整復用醫生的水平,更不能超越醫生的水平。這樣的 AI 最終只能淪為幌子和獲客工具,并不能真正推動嚴肅醫療。

      這種對嚴肅性的堅持,深刻影響了百川的很多商業選擇。

      這直接關系到王小川對醫療 AI 下個階段根本問題的思考。他認為,當前這個階段最重要的任務是在增強 AI 能力的基礎上,逐漸提供更多的醫療供給。

      中國多年來一直嘗試推行分級診療和全科醫生制度。初衷是希望老百姓先在基層看病,解決大醫院掛號難、排隊長、擁堵不堪的現狀。

      這個制度之所以推行困難,本質上是因為醫療資源的供給不足?;鶎俞t療機構缺乏高水平的醫生。大家即便只是感冒也愿意去三甲醫院排隊,是因為對基層的診療水平不放心。

      這正是醫療 AI 發揮作用的關鍵點。大模型能夠把頂尖的醫學知識實現規?;职l。它填補了基層的供給缺口,讓每一個社區、每一個家庭都能擁有像三甲醫院專家一樣的診療能力。

      而長遠來開,這還能有更廣泛的影響,可能讓醫療的讓決策權從醫生手中逐漸轉移到用戶身上。在傳統的醫療場景中,患者是利益的受益方,但往往沒有決策權。決策權集中在醫生手中。這種權力的不對稱往往會帶來溝通成本和治療中的痛苦。

      而百川希望通過 AI,讓患者能夠更容易地獲得優質醫療資源的供給。「很多人覺得醫療太復雜了,患者是永遠理解不了的。但我們想的在美國的司法體系里面有個叫陪審團制度。法律也是非常專業的一個事,陪審團的普通人不懂,那就要求在法官、律師和檢察官能夠進行帶領,做充分的辯論,把話說清楚,說到一個普通人能判斷有罪沒罪的程度,讓普通人能依據邏輯正常判斷即可?!雇跣〈ㄖv到。

      這也是百川智能不愿意只做簡單場景,而是希望不斷向高難度的嚴肅診療推進的原因之一。

      當被問到解決高難度問題是否在商業上最有回報時,王小川給出了深刻的回答。

      他認為,解決感冒發燒這類小問題,很難在用戶心中建立起足夠的信任。醫療是一個高度依賴信任的行業。只有當 AI 能夠解決重疾等高難度難題時,才能真正建立起信任的基礎。

      從商業邏輯上看,患者面對嚴肅的健康問題時,也更有意愿為高質量的 AI 服務付費。這種信任不僅是商業回報的前提,更是 AI 醫療能夠規?;瘧玫暮诵?。

      而從更根本的意義上講,醫療對于百川智能和王小川本人而言,仍然意味著是一條接近通用人工智能(AGI)的路徑。

      王小川認為,AI 目前在文、理、工、藝等領域都已找到了切實的解法,醫療則是一個極為獨特的領域。人類對醫學的探索尚未窮盡,AI 在這一領域也正處于摸索階段。

      百川的路線圖非常清晰。首先通過 AI 提升診病效率,解決當前醫療供給短缺的問題。在此基礎上,百川致力于建立與患者之間的深度信任。當患者愿意使用 AI 工具,長期進行醫療咨詢,AI 就能在長期的陪伴中積累真實且高質量的醫療數據。

      這些數據的終極目標是構建生命的數學模型。這是一條人類醫生至今尚未完全走通的道路,未來很有可能由 AI 率先實現。如果能完成對生命本質的建模,這將成為推動通用人工智能邁向更高階進步的關鍵一步。

      *頭圖來源:百川智能官網

      本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO

      極客一問

      你如何看待 AI 醫療?

      蘋果首款折疊 iPhone Fold 手機殼金屬模具曝光。

      點贊關注極客公園視頻號,

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      溥儀100w大洋出掉的翡翠青椒驚現蘇富比

      溥儀100w大洋出掉的翡翠青椒驚現蘇富比

      阿褲趣聞君
      2026-02-15 14:08:24
      大量上市!鉀是蘋果的7倍,中老年多吃它,手腳麻利,精神好

      大量上市!鉀是蘋果的7倍,中老年多吃它,手腳麻利,精神好

      阿龍美食記
      2026-02-21 20:45:25
      不要輕易做手術!醫生提醒:62歲后,這5類手術可盡量避免

      不要輕易做手術!醫生提醒:62歲后,這5類手術可盡量避免

      今日養生之道
      2026-02-15 14:14:53
      SpaceX:獵鷹9號火箭從加州發射了25顆星鏈衛星

      SpaceX:獵鷹9號火箭從加州發射了25顆星鏈衛星

      每日經濟新聞
      2026-02-21 21:49:04
      崔敏靜摘得女子1500米銀牌,3屆冬奧會收獲4金3銀

      崔敏靜摘得女子1500米銀牌,3屆冬奧會收獲4金3銀

      懂球帝
      2026-02-21 10:18:49
      一覺醒來,世界大變,特朗普改新打法了

      一覺醒來,世界大變,特朗普改新打法了

      牛彈琴
      2026-02-21 08:02:08
      復出后的效果立竿見影,接下來湖人必須得為他提供頂薪合同了?

      復出后的效果立竿見影,接下來湖人必須得為他提供頂薪合同了?

      稻谷與小麥
      2026-02-21 22:28:12
      其實世界第一消費大國根本不是美國,而是中國。

      其實世界第一消費大國根本不是美國,而是中國。

      流蘇晚晴
      2026-02-20 17:51:40
      劉衛東“受賄數額特別巨大”是怎么回事?

      劉衛東“受賄數額特別巨大”是怎么回事?

      雪中風車
      2026-02-20 22:18:22
      血腥之刃!波蘭女將被冰刀擊中面部血流滿面 已送醫需接受縫針治療

      血腥之刃!波蘭女將被冰刀擊中面部血流滿面 已送醫需接受縫針治療

      勁爆體壇
      2026-02-21 08:10:06
      張一山請發小來家過年,發小成油膩大叔,他像小孩,家里一年一樣

      張一山請發小來家過年,發小成油膩大叔,他像小孩,家里一年一樣

      科學發掘
      2026-02-21 17:06:12
      吳京親口確認!《鏢人》第二部能否上映懸了?15億票房成生死線

      吳京親口確認!《鏢人》第二部能否上映懸了?15億票房成生死線

      淡淡稻花香s
      2026-02-21 17:56:09
      一年流出視頻294部的小寶到底探過多少朵花?

      一年流出視頻294部的小寶到底探過多少朵花?

      挪威森林
      2026-01-25 17:18:42
      龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個“硬傷”

      龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個“硬傷”

      她時尚丫
      2026-02-17 22:41:30
      你知道女人最抵抗不了男人什么嗎99%的人都不知道

      你知道女人最抵抗不了男人什么嗎99%的人都不知道

      風起見你
      2026-02-22 01:49:13
      中國男人不行?4年前賈宗洋摔了 4年后2人摔了 2次都是徐夢桃安慰

      中國男人不行?4年前賈宗洋摔了 4年后2人摔了 2次都是徐夢桃安慰

      念洲
      2026-02-21 19:37:49
      初六6不出,到頭一場空”,大年初六,6不出是指啥?不要犯忌諱

      初六6不出,到頭一場空”,大年初六,6不出是指啥?不要犯忌諱

      刺頭體育
      2026-02-21 16:34:59
      蘭姐汪大爺同行去臺北!透露馬筱梅預產期就這兩天,汪小菲再當爸

      蘭姐汪大爺同行去臺北!透露馬筱梅預產期就這兩天,汪小菲再當爸

      樂悠悠娛樂
      2026-02-20 11:34:37
      父親出車禍,妻子卻將所有醫療資源,拿去救只是拇指骨折的學弟

      父親出車禍,妻子卻將所有醫療資源,拿去救只是拇指骨折的學弟

      點讀故事會
      2024-10-18 10:11:09
      厲害!袁弘、張歆藝在武漢買房了!

      厲害!袁弘、張歆藝在武漢買房了!

      東方不敗然多多
      2026-02-21 14:49:46
      2026-02-22 04:35:00
      極客公園
      極客公園
      讓最棒的創新成為頭條
      11815文章數 78765關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      貝加爾湖7名遇難者身份全部確認 1家4口僅1人生還

      頭條要聞

      貝加爾湖7名遇難者身份全部確認 1家4口僅1人生還

      體育要聞

      徐夢桃:這是我第一塊銅牌 給我換個吉祥物

      娛樂要聞

      黃曉明澳門賭博輸十幾億 本人親自回應

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      藝術
      親子
      本地
      公開課
      軍事航空

      藝術要聞

      他的肖像畫和人體畫,竟讓人贊嘆不已!

      親子要聞

      中韓寶寶得要從小灌輸中國文化 真正的年味是什么?

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      硬核揭秘!福建艦“一馬當先”底氣何在

      無障礙瀏覽 進入關懷版