![]()
智東西
作者 陳駿達
編輯 漠影
我盯著屏幕上的AI診斷建議,反復讀了三次。AI用清晰的專業(yè)術語羅列了可能的病因,可我的焦慮卻沒有絲毫緩解。
如果疼痛加劇該怎么辦?這些藥需要一起吃嗎?我該先去哪個科室掛號?這些真正困擾普通患者的問題,答案里只字未提。AI似乎什么都懂,可我依然不知道該怎么做。
![]()
這也正是當前將AI大模型應用于醫(yī)療健康產(chǎn)場景的尷尬所在:它們能給出看起來專業(yè)感十足的回應,卻撐不起一個真正的醫(yī)療決策。
作為患者,我們既不知道該怎么描述癥狀才算準確,也不清楚該提供哪些關鍵信息。最終,AI只能謹慎地給出一段涵蓋各種可能性、卻難以落地的建議。
如果,它能更像一位真正的醫(yī)生呢?不急于拋出結論,而是先一步步引導,主動補齊醫(yī)療決策中缺失的那幾塊關鍵信息,比如疼痛的具體變化、用藥史,或是過往的檢查結果。
這,或許才是大模型真正走入現(xiàn)實醫(yī)療場景、發(fā)揮作用的轉折點。
一、從機械問答到主動提問,會問診的“AI醫(yī)生”什么樣?
昨天,百川智能開源的新一代醫(yī)療大模型Baichuan-M3,正是在上述方向上做的一次革新。
如果說傳統(tǒng)醫(yī)療大模型像是醫(yī)學知識問答機或醫(yī)生角色扮演器,那么百川的追求,是盡可能還原真實的醫(yī)療決策過程,讓模型具備主動收集關鍵信息、構建醫(yī)學推理鏈路、動態(tài)抑制內容幻覺等原生醫(yī)療增強能力。
我們可以用下方這個案例,來感受Baichuan-M3與此前其他大模型的區(qū)別。
比如,當我向通用大模型發(fā)送“胸口長了個痘痘,兩個月沒消”這樣的模糊消息時,沒有主動收集信息能力的大模型,往往會基于有限的信息,直奔結論,列舉出海量相關癥狀,讓人一時間不知如何是好。
![]()
而當我與Baichuan-M3交互時,其“嚴肅問診”帶來的體驗則完全不同。發(fā)送了相同的信息后,模型會主動要求我給予更多描述,比如具體長在哪個位置,看起來是什么樣的,還貼心地給了對應的選項,供我回復。
![]()
Baichuan-M3逐步排查了吸煙史、手術史、外傷史、感染史等關鍵要素,也問了問我的飲食習慣,家族病史,直到它認為獲取了足夠完整的信息后,才決定給出判斷。
![]()
這種直觀的體驗提升,也在榜單上得到了充分體現(xiàn)。去年5月,OpenAI發(fā)布了Healthbench。這一基準測試由來自60個國家的262位醫(yī)生共同構建,收錄了5000組高度逼真的多輪醫(yī)療對話,是目前較為權威、且貼近真實臨床場景的醫(yī)療評測集。
長期以來,在Healthbench和HealthBench-Hard榜單上,霸榜的一直是GPT系列模型,Baichuan-M2此前曾沖到開源第一的位置,僅次于GPT-5。
此次發(fā)布的Baichuan-M3,則在HealthBench總分上超越OpenAI最新模型GPT-5.2,也在HealthBench Hard上登頂,成為當前全球醫(yī)療溝通和推理能力最強的醫(yī)療大模型。
![]()
在嚴肅的醫(yī)療場景,幻覺率也是一個十分重要的指標。常常被不少患者帶著一同前往診室,尋醫(yī)問藥的DeepSeek,幻覺率大概在6.1%左右,目前業(yè)內做得最好的GPT-5.2-High,幻覺率則在3.8%左右。Baichuan-M3則做到了3.5%的幻覺率,同樣也是行業(yè)SOTA水平。
![]()
隨著Baichuan-M3的問世,百川也同期發(fā)布了一項新的測評集——SCAN-bench。這項基準測試由150多位一線醫(yī)生聯(lián)合打造,能將診療過程拆解為更符合真實場景的病史采集、輔助檢查、精準診斷三大階段,對模型能力做出更全流程的評估。
在SCAN-bench上,M3在四個重要維度上,均顯著高于人類醫(yī)生基線水平,還大幅領先于國內外頂尖模型。
![]()
全新的使用體驗與亮眼的榜單成績背后,百川究竟做對了什么?
二、SCAN原則、強化學習多管齊下,教會AI“像醫(yī)生一樣思考”
在與百川的溝通中,我們了解到,百川內部其實有不少真正的臨床醫(yī)生,他們有的是從大醫(yī)院辭職到百川全職工作,也有的在業(yè)余時間深度參與。這些一線醫(yī)療場景的Know-how,成為指導百川提升醫(yī)療大模型表現(xiàn)的重要參考。
比如,臨床醫(yī)生在面對患者時的行事邏輯往往是先排除危急重癥,然后進行常規(guī)診療。但基于角色扮演的醫(yī)療AI問診模式,往往無法踐行這種安全優(yōu)先級。沒有關鍵風險點的牽引,問診本身有可能失去重點,無法支撐安全可靠的臨床判斷。
為解決上述問題,百川需要的是一種范式的革新。他們提出了“嚴肅問診范式”與“SCAN原則”,把臨床問診里的思維過程歸納為:Safety Stratification(安全分層)、Clarity Matters(信息澄清)、Association & Inquiry(關聯(lián)追問)與Normative Protocol(規(guī)范化輸出)。
Baichuan-M3登頂?shù)腟CAN-bench,正是在這一原則的指導下打造的。這一基準測試的三大階段、多輪動態(tài)考核模式,可以更完整地模擬醫(yī)生從接診到確診的全過程。
![]()
如果說SCAN原則、嚴肅問診范式,像是給大模型出了一套醫(yī)療AI領域的模擬題,那么百川接下來要做的,就是把這套模擬題中的解題思路與評分標準,系統(tǒng)地內化為模型的核心思維框架與行為本能。
傳統(tǒng)的強化學習算法,往往基于最終的結果給予模型獎勵信號,但是這套模式在醫(yī)療決策場景往往會水土不服。一個醫(yī)療決策的背后,往往涉及諸多復雜的環(huán)節(jié),一個環(huán)節(jié)出錯,就有可能影響最終的結果。
百川的解法是把醫(yī)療流程劃分為病史采集、鑒別診斷、檢驗檢查和精確診斷四個階段,這些階段相互依賴,但是目標是獨立的。這就允許百川的團隊在訓練過程中給每個環(huán)節(jié)配備獨立的獎勵機制,讓長程決策的復雜度降低。
在強化學習中,另一個常見的問題是“獎勵破解”——模型總是能以千奇百怪的捷徑,找到拿高分的方式。比如,只要瘋狂提問,或許就能刷高分數(shù),但這往往不是我們想要看到的結果。
為此,百川開發(fā)了SPAR(基于相對基準的分步懲罰優(yōu)勢算法)。這一算法進一步細化了步驟懲罰機制,還加入了自適應課程學習的因素,最終有效遏制了無效提問。這一算法還解決了模型出現(xiàn)單步瑕疵時的獎勵誤判,能更為準確地給模型提供指導。
![]()
此外,百川使用的強化學習獎勵模型還融入了醫(yī)學教育中的OSCE(客觀結構化臨床考試) 理念,將可計算的動態(tài)量表作為獎勵標準,不再單純追逐結果的對錯,而是進行全維度的過程考核。
最終效果就是,經(jīng)過訓練的“AI醫(yī)生”,整個問診過程變得流暢、清晰、有邏輯,每一步都穩(wěn)扎穩(wěn)打,像一個真正在思考的醫(yī)生,而不是一個只會背誦知識或耍小聰明騙分的機器學生。
Baichuan-M3在醫(yī)療推理能力方面的提升,以及幻覺率的下降,則得益于他們提出的事實感知強化學習(Fact-Aware RL)訓練架構。
在這一架構中,百川沒有把幻覺約束和推理能力作為兩個單獨的目標進行優(yōu)化,而是將其結合成一套統(tǒng)一的工程化目標。這樣既能保證模型敢于給出堅定、明確的醫(yī)學判斷,也不會使其因過度追求安全而陷入“正確但無用”的沉默,或為追求流暢而滋生危險的事實性幻覺。
簡單來說,這套方法讓模型學會了一種“負責任的自信”。
三、醫(yī)療AI奇點到來,有望緩解行業(yè)四大問題
在Baichuan-M3發(fā)布之際,我們也來到了百川在北京的辦公室,與百川智能創(chuàng)始人兼CEO王小川面對面深度溝通。
此前,百川已在醫(yī)療AI方面取得一系列成績。其開源模型M2發(fā)布后,月下載量超過十萬次,累計下載近百萬次,被業(yè)界視為“2025年影響力最大的開源醫(yī)療模型之一”。
隨后的M2?Plus進一步引入“六元循證”系統(tǒng),將幻覺降至基線模型的約三分之一,技術實力已吸引同行跟進甚至“挖人”。
對王小川而言,他認為今年是醫(yī)療AI奇點到來的一年,范式變革已經(jīng)真正開始了。以醫(yī)生為權威、為中心的模式正在逐步開始變化,AI工具提供的更多信息,讓患者開始能夠對自己健康負責任。
其實,做醫(yī)療,一直是百川的一條主線,這源自王小川對當前醫(yī)療體系四個根本性問題的認知。
首先,盡管如今我們已經(jīng)能治愈各種復雜的疾病,但作為一門學科,醫(yī)學本身仍是高度不發(fā)達的,仍處于“現(xiàn)象密集、理論滯后”的階段。
這并不是百川的一家之言,此前,AI教母李飛飛也曾表達過類似的觀點,醫(yī)療其實是一個黑暗的空間。人的行為和動作在其中扮演了重要,甚至是過于重要的角色。
同時,醫(yī)患角色也存在錯位的問題,決策權與受益權分離。患者是健康的最終受益者和責任人,但決策權和海量相關信息卻掌握在醫(yī)生手中。然而,醫(yī)生并不總是能有時間、有條件準確地傳達這些信息,可能會溝通不暢、患者體驗不佳。王小川比喻,這如同“圣經(jīng)的解釋權只在教士手中”。
此外,醫(yī)療體系還面臨優(yōu)質醫(yī)生資源不足且分布不均,就醫(yī)體系重心偏高,大醫(yī)院負荷重,基層與居家健康環(huán)節(jié)薄弱等結構性問題。
而像Baichuan-M3這樣的醫(yī)療AI的價值,正在于能夠同時從這幾個維度尋求突破。大模型熟練掌握全科知識,能對一項具體的病癥展開跨學科、跨領域的分析,往往超越人類醫(yī)生的知識范疇。
醫(yī)療AI也讓優(yōu)質醫(yī)療服務進一步下沉,并通過為患者提供更多看得懂、能理解的信息,推動決策權回歸患者自身。王小川相信,就像不懂法律的陪審團也能通過律師和法官的充分解釋,得出判斷一樣,患者只要掌握了足夠的信息,也能對自己的健康做出負責任的決定。
結語:走少有人走的路
在采訪中,王小川向我們提及了一組數(shù)據(jù):“去年行業(yè)發(fā)了500個AI醫(yī)療模型。”不過,相信對許多患者和普通用戶而言,更多與醫(yī)療相關的AI對話,可能是發(fā)生在DeepSeek、豆包這樣的通用AI助手中。
王小川對這一現(xiàn)象并不焦慮,他認為垂直模型能在醫(yī)療上做得比通用底座更好。百川對醫(yī)療行業(yè)理解更深,選擇了一條少有人走的路,對醫(yī)療AI本身也有信仰。
今年,百川計劃陸續(xù)推出2款面向C端的產(chǎn)品,除了全科覆蓋之外,還會在腫瘤、兒科這兩大最復雜、最能體現(xiàn)嚴肅醫(yī)療價值的領域重點發(fā)力。未來,我們或許還能看到百川在更多領域,給廣大用戶帶來的驚喜。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.