![]()
智東西
作者 陳駿達(dá)
編輯 漠影
我盯著屏幕上的AI診斷建議,反復(fù)讀了三次。AI用清晰的專業(yè)術(shù)語羅列了可能的病因,可我的焦慮卻沒有絲毫緩解。
如果疼痛加劇該怎么辦?這些藥需要一起吃嗎?我該先去哪個(gè)科室掛號?這些真正困擾普通患者的問題,答案里只字未提。AI似乎什么都懂,可我依然不知道該怎么做。
![]()
這也正是當(dāng)前將AI大模型應(yīng)用于醫(yī)療健康產(chǎn)場景的尷尬所在:它們能給出看起來專業(yè)感十足的回應(yīng),卻撐不起一個(gè)真正的醫(yī)療決策。
作為患者,我們既不知道該怎么描述癥狀才算準(zhǔn)確,也不清楚該提供哪些關(guān)鍵信息。最終,AI只能謹(jǐn)慎地給出一段涵蓋各種可能性、卻難以落地的建議。
如果,它能更像一位真正的醫(yī)生呢?不急于拋出結(jié)論,而是先一步步引導(dǎo),主動(dòng)補(bǔ)齊醫(yī)療決策中缺失的那幾塊關(guān)鍵信息,比如疼痛的具體變化、用藥史,或是過往的檢查結(jié)果。
這,或許才是大模型真正走入現(xiàn)實(shí)醫(yī)療場景、發(fā)揮作用的轉(zhuǎn)折點(diǎn)。
一、從機(jī)械問答到主動(dòng)提問,會(huì)問診的“AI醫(yī)生”什么樣?
昨天,百川智能開源的新一代醫(yī)療大模型Baichuan-M3,正是在上述方向上做的一次革新。
如果說傳統(tǒng)醫(yī)療大模型像是醫(yī)學(xué)知識問答機(jī)或醫(yī)生角色扮演器,那么百川的追求,是盡可能還原真實(shí)的醫(yī)療決策過程,讓模型具備主動(dòng)收集關(guān)鍵信息、構(gòu)建醫(yī)學(xué)推理鏈路、動(dòng)態(tài)抑制內(nèi)容幻覺等原生醫(yī)療增強(qiáng)能力。
我們可以用下方這個(gè)案例,來感受Baichuan-M3與此前其他大模型的區(qū)別。
比如,當(dāng)我向通用大模型發(fā)送“胸口長了個(gè)痘痘,兩個(gè)月沒消”這樣的模糊消息時(shí),沒有主動(dòng)收集信息能力的大模型,往往會(huì)基于有限的信息,直奔結(jié)論,列舉出海量相關(guān)癥狀,讓人一時(shí)間不知如何是好。
![]()
而當(dāng)我與Baichuan-M3交互時(shí),其“嚴(yán)肅問診”帶來的體驗(yàn)則完全不同。發(fā)送了相同的信息后,模型會(huì)主動(dòng)要求我給予更多描述,比如具體長在哪個(gè)位置,看起來是什么樣的,還貼心地給了對應(yīng)的選項(xiàng),供我回復(fù)。
![]()
Baichuan-M3逐步排查了吸煙史、手術(shù)史、外傷史、感染史等關(guān)鍵要素,也問了問我的飲食習(xí)慣,家族病史,直到它認(rèn)為獲取了足夠完整的信息后,才決定給出判斷。
![]()
這種直觀的體驗(yàn)提升,也在榜單上得到了充分體現(xiàn)。去年5月,OpenAI發(fā)布了Healthbench。這一基準(zhǔn)測試由來自60個(gè)國家的262位醫(yī)生共同構(gòu)建,收錄了5000組高度逼真的多輪醫(yī)療對話,是目前較為權(quán)威、且貼近真實(shí)臨床場景的醫(yī)療評測集。
長期以來,在Healthbench和HealthBench-Hard榜單上,霸榜的一直是GPT系列模型,Baichuan-M2此前曾沖到開源第一的位置,僅次于GPT-5。
此次發(fā)布的Baichuan-M3,則在HealthBench總分上超越OpenAI最新模型GPT-5.2,也在HealthBench Hard上登頂,成為當(dāng)前全球醫(yī)療溝通和推理能力最強(qiáng)的醫(yī)療大模型。
![]()
在嚴(yán)肅的醫(yī)療場景,幻覺率也是一個(gè)十分重要的指標(biāo)。常常被不少患者帶著一同前往診室,尋醫(yī)問藥的DeepSeek,幻覺率大概在6.1%左右,目前業(yè)內(nèi)做得最好的GPT-5.2-High,幻覺率則在3.8%左右。Baichuan-M3則做到了3.5%的幻覺率,同樣也是行業(yè)SOTA水平。
![]()
隨著Baichuan-M3的問世,百川也同期發(fā)布了一項(xiàng)新的測評集——SCAN-bench。這項(xiàng)基準(zhǔn)測試由150多位一線醫(yī)生聯(lián)合打造,能將診療過程拆解為更符合真實(shí)場景的病史采集、輔助檢查、精準(zhǔn)診斷三大階段,對模型能力做出更全流程的評估。
在SCAN-bench上,M3在四個(gè)重要維度上,均顯著高于人類醫(yī)生基線水平,還大幅領(lǐng)先于國內(nèi)外頂尖模型。
![]()
全新的使用體驗(yàn)與亮眼的榜單成績背后,百川究竟做對了什么?
二、SCAN原則、強(qiáng)化學(xué)習(xí)多管齊下,教會(huì)AI“像醫(yī)生一樣思考”
在與百川的溝通中,我們了解到,百川內(nèi)部其實(shí)有不少真正的臨床醫(yī)生,他們有的是從大醫(yī)院辭職到百川全職工作,也有的在業(yè)余時(shí)間深度參與。這些一線醫(yī)療場景的Know-how,成為指導(dǎo)百川提升醫(yī)療大模型表現(xiàn)的重要參考。
比如,臨床醫(yī)生在面對患者時(shí)的行事邏輯往往是先排除危急重癥,然后進(jìn)行常規(guī)診療。但基于角色扮演的醫(yī)療AI問診模式,往往無法踐行這種安全優(yōu)先級。沒有關(guān)鍵風(fēng)險(xiǎn)點(diǎn)的牽引,問診本身有可能失去重點(diǎn),無法支撐安全可靠的臨床判斷。
為解決上述問題,百川需要的是一種范式的革新。他們提出了“嚴(yán)肅問診范式”與“SCAN原則”,把臨床問診里的思維過程歸納為:Safety Stratification(安全分層)、Clarity Matters(信息澄清)、Association & Inquiry(關(guān)聯(lián)追問)與Normative Protocol(規(guī)范化輸出)。
Baichuan-M3登頂?shù)腟CAN-bench,正是在這一原則的指導(dǎo)下打造的。這一基準(zhǔn)測試的三大階段、多輪動(dòng)態(tài)考核模式,可以更完整地模擬醫(yī)生從接診到確診的全過程。
![]()
如果說SCAN原則、嚴(yán)肅問診范式,像是給大模型出了一套醫(yī)療AI領(lǐng)域的模擬題,那么百川接下來要做的,就是把這套模擬題中的解題思路與評分標(biāo)準(zhǔn),系統(tǒng)地內(nèi)化為模型的核心思維框架與行為本能。
傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法,往往基于最終的結(jié)果給予模型獎(jiǎng)勵(lì)信號,但是這套模式在醫(yī)療決策場景往往會(huì)水土不服。一個(gè)醫(yī)療決策的背后,往往涉及諸多復(fù)雜的環(huán)節(jié),一個(gè)環(huán)節(jié)出錯(cuò),就有可能影響最終的結(jié)果。
百川的解法是把醫(yī)療流程劃分為病史采集、鑒別診斷、檢驗(yàn)檢查和精確診斷四個(gè)階段,這些階段相互依賴,但是目標(biāo)是獨(dú)立的。這就允許百川的團(tuán)隊(duì)在訓(xùn)練過程中給每個(gè)環(huán)節(jié)配備獨(dú)立的獎(jiǎng)勵(lì)機(jī)制,讓長程決策的復(fù)雜度降低。
在強(qiáng)化學(xué)習(xí)中,另一個(gè)常見的問題是“獎(jiǎng)勵(lì)破解”——模型總是能以千奇百怪的捷徑,找到拿高分的方式。比如,只要瘋狂提問,或許就能刷高分?jǐn)?shù),但這往往不是我們想要看到的結(jié)果。
為此,百川開發(fā)了SPAR(基于相對基準(zhǔn)的分步懲罰優(yōu)勢算法)。這一算法進(jìn)一步細(xì)化了步驟懲罰機(jī)制,還加入了自適應(yīng)課程學(xué)習(xí)的因素,最終有效遏制了無效提問。這一算法還解決了模型出現(xiàn)單步瑕疵時(shí)的獎(jiǎng)勵(lì)誤判,能更為準(zhǔn)確地給模型提供指導(dǎo)。
![]()
此外,百川使用的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)模型還融入了醫(yī)學(xué)教育中的OSCE(客觀結(jié)構(gòu)化臨床考試) 理念,將可計(jì)算的動(dòng)態(tài)量表作為獎(jiǎng)勵(lì)標(biāo)準(zhǔn),不再單純追逐結(jié)果的對錯(cuò),而是進(jìn)行全維度的過程考核。
最終效果就是,經(jīng)過訓(xùn)練的“AI醫(yī)生”,整個(gè)問診過程變得流暢、清晰、有邏輯,每一步都穩(wěn)扎穩(wěn)打,像一個(gè)真正在思考的醫(yī)生,而不是一個(gè)只會(huì)背誦知識或耍小聰明騙分的機(jī)器學(xué)生。
Baichuan-M3在醫(yī)療推理能力方面的提升,以及幻覺率的下降,則得益于他們提出的事實(shí)感知強(qiáng)化學(xué)習(xí)(Fact-Aware RL)訓(xùn)練架構(gòu)。
在這一架構(gòu)中,百川沒有把幻覺約束和推理能力作為兩個(gè)單獨(dú)的目標(biāo)進(jìn)行優(yōu)化,而是將其結(jié)合成一套統(tǒng)一的工程化目標(biāo)。這樣既能保證模型敢于給出堅(jiān)定、明確的醫(yī)學(xué)判斷,也不會(huì)使其因過度追求安全而陷入“正確但無用”的沉默,或?yàn)樽非罅鲿扯躺kU(xiǎn)的事實(shí)性幻覺。
簡單來說,這套方法讓模型學(xué)會(huì)了一種“負(fù)責(zé)任的自信”。
三、醫(yī)療AI奇點(diǎn)到來,有望緩解行業(yè)四大問題
在Baichuan-M3發(fā)布之際,我們也來到了百川在北京的辦公室,與百川智能創(chuàng)始人兼CEO王小川面對面深度溝通。
此前,百川已在醫(yī)療AI方面取得一系列成績。其開源模型M2發(fā)布后,月下載量超過十萬次,累計(jì)下載近百萬次,被業(yè)界視為“2025年影響力最大的開源醫(yī)療模型之一”。
隨后的M2?Plus進(jìn)一步引入“六元循證”系統(tǒng),將幻覺降至基線模型的約三分之一,技術(shù)實(shí)力已吸引同行跟進(jìn)甚至“挖人”。
對王小川而言,他認(rèn)為今年是醫(yī)療AI奇點(diǎn)到來的一年,范式變革已經(jīng)真正開始了。以醫(yī)生為權(quán)威、為中心的模式正在逐步開始變化,AI工具提供的更多信息,讓患者開始能夠?qū)ψ约航】地?fù)責(zé)任。
其實(shí),做醫(yī)療,一直是百川的一條主線,這源自王小川對當(dāng)前醫(yī)療體系四個(gè)根本性問題的認(rèn)知。
首先,盡管如今我們已經(jīng)能治愈各種復(fù)雜的疾病,但作為一門學(xué)科,醫(yī)學(xué)本身仍是高度不發(fā)達(dá)的,仍處于“現(xiàn)象密集、理論滯后”的階段。
這并不是百川的一家之言,此前,AI教母李飛飛也曾表達(dá)過類似的觀點(diǎn),醫(yī)療其實(shí)是一個(gè)黑暗的空間。人的行為和動(dòng)作在其中扮演了重要,甚至是過于重要的角色。
同時(shí),醫(yī)患角色也存在錯(cuò)位的問題,決策權(quán)與受益權(quán)分離。患者是健康的最終受益者和責(zé)任人,但決策權(quán)和海量相關(guān)信息卻掌握在醫(yī)生手中。然而,醫(yī)生并不總是能有時(shí)間、有條件準(zhǔn)確地傳達(dá)這些信息,可能會(huì)溝通不暢、患者體驗(yàn)不佳。王小川比喻,這如同“圣經(jīng)的解釋權(quán)只在教士手中”。
此外,醫(yī)療體系還面臨優(yōu)質(zhì)醫(yī)生資源不足且分布不均,就醫(yī)體系重心偏高,大醫(yī)院負(fù)荷重,基層與居家健康環(huán)節(jié)薄弱等結(jié)構(gòu)性問題。
而像Baichuan-M3這樣的醫(yī)療AI的價(jià)值,正在于能夠同時(shí)從這幾個(gè)維度尋求突破。大模型熟練掌握全科知識,能對一項(xiàng)具體的病癥展開跨學(xué)科、跨領(lǐng)域的分析,往往超越人類醫(yī)生的知識范疇。
醫(yī)療AI也讓優(yōu)質(zhì)醫(yī)療服務(wù)進(jìn)一步下沉,并通過為患者提供更多看得懂、能理解的信息,推動(dòng)決策權(quán)回歸患者自身。王小川相信,就像不懂法律的陪審團(tuán)也能通過律師和法官的充分解釋,得出判斷一樣,患者只要掌握了足夠的信息,也能對自己的健康做出負(fù)責(zé)任的決定。
結(jié)語:走少有人走的路
在采訪中,王小川向我們提及了一組數(shù)據(jù):“去年行業(yè)發(fā)了500個(gè)AI醫(yī)療模型。”不過,相信對許多患者和普通用戶而言,更多與醫(yī)療相關(guān)的AI對話,可能是發(fā)生在DeepSeek、豆包這樣的通用AI助手中。
王小川對這一現(xiàn)象并不焦慮,他認(rèn)為垂直模型能在醫(yī)療上做得比通用底座更好。百川對醫(yī)療行業(yè)理解更深,選擇了一條少有人走的路,對醫(yī)療AI本身也有信仰。
今年,百川計(jì)劃陸續(xù)推出2款面向C端的產(chǎn)品,除了全科覆蓋之外,還會(huì)在腫瘤、兒科這兩大最復(fù)雜、最能體現(xiàn)嚴(yán)肅醫(yī)療價(jià)值的領(lǐng)域重點(diǎn)發(fā)力。未來,我們或許還能看到百川在更多領(lǐng)域,給廣大用戶帶來的驚喜。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.