網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

國產(chǎn)醫(yī)療大模型斬獲三項SOTA！幻覺率優(yōu)于GPT-5.2，問診能力超過人類醫(yī)生

2026-01-14 17:53:15　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達
編輯漠影

我盯著屏幕上的AI診斷建議，反復讀了三次。AI用清晰的專業(yè)術語羅列了可能的病因，可我的焦慮卻沒有絲毫緩解。

如果疼痛加劇該怎么辦？這些藥需要一起吃嗎？我該先去哪個科室掛號？這些真正困擾普通患者的問題，答案里只字未提。AI似乎什么都懂，可我依然不知道該怎么做。

這也正是當前將AI大模型應用于醫(yī)療健康產(chǎn)場景的尷尬所在：它們能給出看起來專業(yè)感十足的回應，卻撐不起一個真正的醫(yī)療決策。

作為患者，我們既不知道該怎么描述癥狀才算準確，也不清楚該提供哪些關鍵信息。最終，AI只能謹慎地給出一段涵蓋各種可能性、卻難以落地的建議。

如果，它能更像一位真正的醫(yī)生呢？不急于拋出結論，而是先一步步引導，主動補齊醫(yī)療決策中缺失的那幾塊關鍵信息，比如疼痛的具體變化、用藥史，或是過往的檢查結果。

這，或許才是大模型真正走入現(xiàn)實醫(yī)療場景、發(fā)揮作用的轉折點。

一、從機械問答到主動提問，會問診的“AI醫(yī)生”什么樣？

昨天，百川智能開源的新一代醫(yī)療大模型Baichuan-M3，正是在上述方向上做的一次革新。

如果說傳統(tǒng)醫(yī)療大模型像是醫(yī)學知識問答機或醫(yī)生角色扮演器，那么百川的追求，是盡可能還原真實的醫(yī)療決策過程，讓模型具備主動收集關鍵信息、構建醫(yī)學推理鏈路、動態(tài)抑制內容幻覺等原生醫(yī)療增強能力。

我們可以用下方這個案例，來感受Baichuan-M3與此前其他大模型的區(qū)別。

比如，當我向通用大模型發(fā)送“胸口長了個痘痘，兩個月沒消”這樣的模糊消息時，沒有主動收集信息能力的大模型，往往會基于有限的信息，直奔結論，列舉出海量相關癥狀，讓人一時間不知如何是好。

而當我與Baichuan-M3交互時，其“嚴肅問診”帶來的體驗則完全不同。發(fā)送了相同的信息后，模型會主動要求我給予更多描述，比如具體長在哪個位置，看起來是什么樣的，還貼心地給了對應的選項，供我回復。

Baichuan-M3逐步排查了吸煙史、手術史、外傷史、感染史等關鍵要素，也問了問我的飲食習慣，家族病史，直到它認為獲取了足夠完整的信息后，才決定給出判斷。

這種直觀的體驗提升，也在榜單上得到了充分體現(xiàn)。去年5月，OpenAI發(fā)布了Healthbench。這一基準測試由來自60個國家的262位醫(yī)生共同構建，收錄了5000組高度逼真的多輪醫(yī)療對話，是目前較為權威、且貼近真實臨床場景的醫(yī)療評測集。

長期以來，在Healthbench和HealthBench-Hard榜單上，霸榜的一直是GPT系列模型，Baichuan-M2此前曾沖到開源第一的位置，僅次于GPT-5。

此次發(fā)布的Baichuan-M3，則在HealthBench總分上超越OpenAI最新模型GPT-5.2，也在HealthBench Hard上登頂，成為當前全球醫(yī)療溝通和推理能力最強的醫(yī)療大模型。

在嚴肅的醫(yī)療場景，幻覺率也是一個十分重要的指標。常常被不少患者帶著一同前往診室，尋醫(yī)問藥的DeepSeek，幻覺率大概在6.1%左右，目前業(yè)內做得最好的GPT-5.2-High，幻覺率則在3.8%左右。Baichuan-M3則做到了3.5%的幻覺率，同樣也是行業(yè)SOTA水平。

隨著Baichuan-M3的問世，百川也同期發(fā)布了一項新的測評集——SCAN-bench。這項基準測試由150多位一線醫(yī)生聯(lián)合打造，能將診療過程拆解為更符合真實場景的病史采集、輔助檢查、精準診斷三大階段，對模型能力做出更全流程的評估。

在SCAN-bench上，M3在四個重要維度上，均顯著高于人類醫(yī)生基線水平，還大幅領先于國內外頂尖模型。

全新的使用體驗與亮眼的榜單成績背后，百川究竟做對了什么？

二、SCAN原則、強化學習多管齊下，教會AI“像醫(yī)生一樣思考”

在與百川的溝通中，我們了解到，百川內部其實有不少真正的臨床醫(yī)生，他們有的是從大醫(yī)院辭職到百川全職工作，也有的在業(yè)余時間深度參與。這些一線醫(yī)療場景的Know-how，成為指導百川提升醫(yī)療大模型表現(xiàn)的重要參考。

比如，臨床醫(yī)生在面對患者時的行事邏輯往往是先排除危急重癥，然后進行常規(guī)診療。但基于角色扮演的醫(yī)療AI問診模式，往往無法踐行這種安全優(yōu)先級。沒有關鍵風險點的牽引，問診本身有可能失去重點，無法支撐安全可靠的臨床判斷。

為解決上述問題，百川需要的是一種范式的革新。他們提出了“嚴肅問診范式”與“SCAN原則”，把臨床問診里的思維過程歸納為：Safety Stratification（安全分層）、Clarity Matters（信息澄清）、Association & Inquiry（關聯(lián)追問）與Normative Protocol（規(guī)范化輸出）。

Baichuan-M3登頂?shù)腟CAN-bench，正是在這一原則的指導下打造的。這一基準測試的三大階段、多輪動態(tài)考核模式，可以更完整地模擬醫(yī)生從接診到確診的全過程。

如果說SCAN原則、嚴肅問診范式，像是給大模型出了一套醫(yī)療AI領域的模擬題，那么百川接下來要做的，就是把這套模擬題中的解題思路與評分標準，系統(tǒng)地內化為模型的核心思維框架與行為本能。

傳統(tǒng)的強化學習算法，往往基于最終的結果給予模型獎勵信號，但是這套模式在醫(yī)療決策場景往往會水土不服。一個醫(yī)療決策的背后，往往涉及諸多復雜的環(huán)節(jié)，一個環(huán)節(jié)出錯，就有可能影響最終的結果。

百川的解法是把醫(yī)療流程劃分為病史采集、鑒別診斷、檢驗檢查和精確診斷四個階段，這些階段相互依賴，但是目標是獨立的。這就允許百川的團隊在訓練過程中給每個環(huán)節(jié)配備獨立的獎勵機制，讓長程決策的復雜度降低。

在強化學習中，另一個常見的問題是“獎勵破解”——模型總是能以千奇百怪的捷徑，找到拿高分的方式。比如，只要瘋狂提問，或許就能刷高分數(shù)，但這往往不是我們想要看到的結果。

為此，百川開發(fā)了SPAR（基于相對基準的分步懲罰優(yōu)勢算法）。這一算法進一步細化了步驟懲罰機制，還加入了自適應課程學習的因素，最終有效遏制了無效提問。這一算法還解決了模型出現(xiàn)單步瑕疵時的獎勵誤判，能更為準確地給模型提供指導。

此外，百川使用的強化學習獎勵模型還融入了醫(yī)學教育中的OSCE（客觀結構化臨床考試）理念，將可計算的動態(tài)量表作為獎勵標準，不再單純追逐結果的對錯，而是進行全維度的過程考核。

最終效果就是，經(jīng)過訓練的“AI醫(yī)生”，整個問診過程變得流暢、清晰、有邏輯，每一步都穩(wěn)扎穩(wěn)打，像一個真正在思考的醫(yī)生，而不是一個只會背誦知識或耍小聰明騙分的機器學生。

Baichuan-M3在醫(yī)療推理能力方面的提升，以及幻覺率的下降，則得益于他們提出的事實感知強化學習（Fact-Aware RL）訓練架構。

在這一架構中，百川沒有把幻覺約束和推理能力作為兩個單獨的目標進行優(yōu)化，而是將其結合成一套統(tǒng)一的工程化目標。這樣既能保證模型敢于給出堅定、明確的醫(yī)學判斷，也不會使其因過度追求安全而陷入“正確但無用”的沉默，或為追求流暢而滋生危險的事實性幻覺。

簡單來說，這套方法讓模型學會了一種“負責任的自信”。

三、醫(yī)療AI奇點到來，有望緩解行業(yè)四大問題

在Baichuan-M3發(fā)布之際，我們也來到了百川在北京的辦公室，與百川智能創(chuàng)始人兼CEO王小川面對面深度溝通。

此前，百川已在醫(yī)療AI方面取得一系列成績。其開源模型M2發(fā)布后，月下載量超過十萬次，累計下載近百萬次，被業(yè)界視為“2025年影響力最大的開源醫(yī)療模型之一”。

隨后的M2?Plus進一步引入“六元循證”系統(tǒng)，將幻覺降至基線模型的約三分之一，技術實力已吸引同行跟進甚至“挖人”。

對王小川而言，他認為今年是醫(yī)療AI奇點到來的一年，范式變革已經(jīng)真正開始了。以醫(yī)生為權威、為中心的模式正在逐步開始變化，AI工具提供的更多信息，讓患者開始能夠對自己健康負責任。

其實，做醫(yī)療，一直是百川的一條主線，這源自王小川對當前醫(yī)療體系四個根本性問題的認知。

首先，盡管如今我們已經(jīng)能治愈各種復雜的疾病，但作為一門學科，醫(yī)學本身仍是高度不發(fā)達的，仍處于“現(xiàn)象密集、理論滯后”的階段。

這并不是百川的一家之言，此前，AI教母李飛飛也曾表達過類似的觀點，醫(yī)療其實是一個黑暗的空間。人的行為和動作在其中扮演了重要，甚至是過于重要的角色。

同時，醫(yī)患角色也存在錯位的問題，決策權與受益權分離。患者是健康的最終受益者和責任人，但決策權和海量相關信息卻掌握在醫(yī)生手中。然而，醫(yī)生并不總是能有時間、有條件準確地傳達這些信息，可能會溝通不暢、患者體驗不佳。王小川比喻，這如同“圣經(jīng)的解釋權只在教士手中”。

此外，醫(yī)療體系還面臨優(yōu)質醫(yī)生資源不足且分布不均，就醫(yī)體系重心偏高，大醫(yī)院負荷重，基層與居家健康環(huán)節(jié)薄弱等結構性問題。

而像Baichuan-M3這樣的醫(yī)療AI的價值，正在于能夠同時從這幾個維度尋求突破。大模型熟練掌握全科知識，能對一項具體的病癥展開跨學科、跨領域的分析，往往超越人類醫(yī)生的知識范疇。

醫(yī)療AI也讓優(yōu)質醫(yī)療服務進一步下沉，并通過為患者提供更多看得懂、能理解的信息，推動決策權回歸患者自身。王小川相信，就像不懂法律的陪審團也能通過律師和法官的充分解釋，得出判斷一樣，患者只要掌握了足夠的信息，也能對自己的健康做出負責任的決定。

結語：走少有人走的路

在采訪中，王小川向我們提及了一組數(shù)據(jù)：“去年行業(yè)發(fā)了500個AI醫(yī)療模型。”不過，相信對許多患者和普通用戶而言，更多與醫(yī)療相關的AI對話，可能是發(fā)生在DeepSeek、豆包這樣的通用AI助手中。

王小川對這一現(xiàn)象并不焦慮，他認為垂直模型能在醫(yī)療上做得比通用底座更好。百川對醫(yī)療行業(yè)理解更深，選擇了一條少有人走的路，對醫(yī)療AI本身也有信仰。

今年，百川計劃陸續(xù)推出2款面向C端的產(chǎn)品，除了全科覆蓋之外，還會在腫瘤、兒科這兩大最復雜、最能體現(xiàn)嚴肅醫(yī)療價值的領域重點發(fā)力。未來，我們或許還能看到百川在更多領域，給廣大用戶帶來的驚喜。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.