AI 醫(yī)療突然成為了這個(gè)月的熱點(diǎn)。
1 月初 OpenAI 發(fā)布醫(yī)療產(chǎn)品 ChatGPT Health,Anthropic 推出 Claude for Healthcare,昨天,百川智能正式開源新一代醫(yī)療大模型 Baichuan-M3。
評(píng)測(cè)成績(jī)很突出,在全球最權(quán)威的醫(yī)療 AI 評(píng)測(cè) HealthBench 中以 65.1 分的綜合成績(jī)位列全球第一;在專門考驗(yàn)復(fù)雜決策能力的 HealthBench Hard 上,也以 44.4 分的成績(jī)奪冠。這一成績(jī),不僅刷新了 HealthBench 的最高分,更首次在醫(yī)療領(lǐng)域?qū)崿F(xiàn)了對(duì) GPT-5.2 的全面超越。
在 OpenAI 引以為傲的低幻覺領(lǐng)域,M3 也實(shí)現(xiàn)了超越,幻覺率 3.5 全球最低。
此外,M3 還首次具備了原生的「端到端」嚴(yán)肅問診能力。能像醫(yī)生一樣主動(dòng)追問、逐層逼近,把關(guān)鍵病史和風(fēng)險(xiǎn)信號(hào)問出來,進(jìn)而在完整的信息上進(jìn)行深度醫(yī)學(xué)推理。評(píng)測(cè)顯示,其問診能力顯著高于真人醫(yī)生的平均水平。
百川的醫(yī)療應(yīng)用「百小應(yīng)」已同步接入 M3,面向醫(yī)生與患者開放相關(guān)能力。醫(yī)生可借助它推演問診與診療思路,患者及家屬也可通過該應(yīng)用更系統(tǒng)地理解診斷、治療、檢查與預(yù)后背后的醫(yī)學(xué)邏輯。
發(fā)布會(huì)上,我們跟創(chuàng)始人王小川就百川在醫(yī)療領(lǐng)域的下一步、ToC 產(chǎn)品的策略以及商業(yè)化落地上進(jìn)行了交流。
![]()
??關(guān)注 Founder Park,最及時(shí)最干貨的創(chuàng)業(yè)分享
超 19000 人的「AI 產(chǎn)品市集」社群!不錯(cuò)過每一款有價(jià)值的 AI 應(yīng)用。
邀請(qǐng)從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者,飛書掃碼加群:
進(jìn)群后,你有機(jī)會(huì)得到:
最新、最值得關(guān)注的 AI 新品資訊;
不定期贈(zèng)送熱門新品的邀請(qǐng)碼、會(huì)員碼;
最精準(zhǔn)的AI產(chǎn)品曝光渠道
01低幻覺之外,
核心是端到端的問診能力
百川 M3 這次將醫(yī)療幻覺抑制前移至模型訓(xùn)練階段,在強(qiáng)化學(xué)習(xí)過程中將醫(yī)學(xué)事實(shí)一致性作為核心訓(xùn)練目標(biāo)之一,通過將事實(shí)一致性約束融入訓(xùn)練流程,M3 重構(gòu)了幻覺抑制的訓(xùn)練范式,在不依賴工具或檢索增強(qiáng)的純模型設(shè)置下,醫(yī)療幻覺率 3.5,超越 GPT-5.2,達(dá)到全球最低水平。
![]()
除了強(qiáng)推理和低幻覺,端到端的問診能力是本次 M3 最重要的一項(xiàng)突破。
AI 應(yīng)用實(shí)踐中,通過 prompt「你是一位經(jīng)驗(yàn)豐富的醫(yī)生」,激活模型的「角色扮演」是更常見的做法。這種方式得到的是模型的表演行為,而非內(nèi)生能力,激活的是模型應(yīng)該提問的行為,而不是必須獲取關(guān)鍵信息的思考。即便對(duì)話看似完整,也難以支撐安全、可靠的臨床判斷,從根本上偏離了醫(yī)療「安全第一」的原則。
針對(duì)這一問題,百川提出了「嚴(yán)肅問診范式」與「SCAN 原則」,通過 Safety Stratification(安全分層)、Clarity Matters(信息澄清)、Association & Inquiry(關(guān)聯(lián)追問)與 Normative Protocol(規(guī)范化輸出),將臨床問診中高度依賴經(jīng)驗(yàn)的思維過程,第一次系統(tǒng)性地「白盒化」。
借鑒醫(yī)學(xué)教育里長(zhǎng)期使用的 OSCE 方法,聯(lián)合 150 多位一線醫(yī)生,搭建了 SCAN-bench 評(píng)測(cè)體系,該體系以真實(shí)臨床經(jīng)驗(yàn)作為「標(biāo)準(zhǔn)答案」,將診療過程拆解為病史采集、輔助檢查、精準(zhǔn)診斷三大階段,通過動(dòng)態(tài)、多輪的方式進(jìn)行考核,完整模擬醫(yī)生從接診到確診的全過程。相比于 HealthBench,SCAN-bench 是更加全流程端到端的動(dòng)態(tài)評(píng)測(cè)新范式。
同時(shí),還使用原生模型訓(xùn)練方法取代角色扮演 prompt,針對(duì) GRPO 無法穩(wěn)定進(jìn)行長(zhǎng)對(duì)話訓(xùn)練的問題,設(shè)計(jì)了新的 SPAR 算法,使模型能夠在有限對(duì)話輪次中,把臨床真正需要的關(guān)鍵問題問全、問準(zhǔn),把風(fēng)險(xiǎn)兜住,讓輸出經(jīng)得起復(fù)核。
在實(shí)驗(yàn)過程中發(fā)現(xiàn),問診準(zhǔn)確度每增加 2%,診療結(jié)果準(zhǔn)確度就會(huì)增加 1%。評(píng)測(cè)結(jié)果顯示,M3 在 SCAN 的四個(gè)維度均顯著高于人類醫(yī)生基線水平,并大幅領(lǐng)先于國(guó)內(nèi)外頂尖模型,成功構(gòu)建了從精準(zhǔn)的臨床問詢、深度醫(yī)學(xué)推理到安全可靠決策的閉環(huán)。
![]()
02想用 AI 實(shí)現(xiàn)醫(yī)患權(quán)力的讓渡,
而不是取代醫(yī)生
Q:百川主要想解決醫(yī)療場(chǎng)景中的哪些問題?
王小川:醫(yī)療行業(yè)有幾個(gè)核心痛點(diǎn):
第一是好醫(yī)生不夠。上一波互聯(lián)網(wǎng)醫(yī)療,像好大夫、春雨醫(yī)生,它們的模式是通過互聯(lián)網(wǎng)解決連接問題,這就像做滴滴和美團(tuán),前提是供給端要充足。醫(yī)療行業(yè)的供給恰恰是不足的,所以互聯(lián)網(wǎng)時(shí)代解決不了這個(gè)問題。AI 的爆發(fā),可以創(chuàng)造出高質(zhì)量的醫(yī)生供給。大家可能 2023 年還不太信這個(gè)東西,但到了 2025 年,感受就會(huì)越來越明顯。
第二是醫(yī)患關(guān)系不平等。醫(yī)療是少有的受益和決策分離的行業(yè)。作為受益方,患者很難在決策中獲得充分的信息和話語權(quán)。
我們認(rèn)為 AI 可以填補(bǔ)醫(yī)患之間的 gap,不是說醫(yī)生什么都不干了,檢查、手術(shù)、治療都是醫(yī)生干的事情,但我們希望讓患者明明白白地看病,對(duì)于自己的健康狀況有更多地了解,更好地理解醫(yī)生說的話。之前談得比較少,要么就是 AI 取代醫(yī)生,要么就是 AI 幫助醫(yī)生,但更重要的是醫(yī)患權(quán)力的讓渡,醫(yī)生把一部分權(quán)力逐步讓渡給患者。
我們認(rèn)為,未來的醫(yī)療模式既不會(huì)動(dòng)醫(yī)生的蛋糕,也不會(huì)讓患者產(chǎn)生焦慮,解決權(quán)力讓渡的問題,這是必然的趨勢(shì)。比如,一個(gè)病癥,醫(yī)生可能給出兩個(gè)方案,一個(gè)保守,一個(gè)激進(jìn),或者三個(gè)醫(yī)生每個(gè)方案都不一樣,患者怎么選?我們的 AI 醫(yī)生足夠強(qiáng),能夠補(bǔ)充各種信息,把解釋做好時(shí),患者和醫(yī)生的關(guān)系就會(huì)進(jìn)入一個(gè)新的階段。
第三,三甲醫(yī)院消耗過度。中國(guó)和美國(guó)有個(gè)區(qū)別,美國(guó)有家庭醫(yī)生體系,大多數(shù)人都有自己的全科大夫,小病先找他們,有了大病再轉(zhuǎn)到專科,醫(yī)療行為主要發(fā)生在基層。中國(guó),大家習(xí)慣都往大醫(yī)院、三甲醫(yī)院擠,導(dǎo)致醫(yī)療負(fù)擔(dān)非常重。國(guó)家雖然一直在推行基層首診,但虹吸效應(yīng)依然很強(qiáng)。今后一個(gè)大的趨勢(shì)就是醫(yī)療場(chǎng)景會(huì)發(fā)生變化,大家擁有 AI 助手以后,更不去基層了,小毛病自己就看了。國(guó)家號(hào)召的「強(qiáng)基層」,未來可能不僅包括社區(qū)醫(yī)院,居家也會(huì)成為一個(gè)重要的醫(yī)療場(chǎng)景。人們?cè)诩依锞湍芨?AI 對(duì)話、獲取初步診斷,從根本上改變中國(guó)三級(jí)診療的格局。
第四,對(duì)人體的醫(yī)學(xué)機(jī)制認(rèn)知還不夠深入。患者總是覺得自己不懂,醫(yī)生懂,其實(shí)醫(yī)生有的時(shí)候也不懂,每個(gè)科室的醫(yī)生都是知道局部的信息,復(fù)雜問題需要跨科室會(huì)診。今天的 AI for Science,比如過去的蛋白質(zhì)解碼、虛擬細(xì)胞、臨床數(shù)字孿生,可以幫助我們更好地建立人體模型。現(xiàn)在我們有能力收集更豐富的患者真實(shí)數(shù)據(jù),在 AI 的輔助下,有機(jī)會(huì)做到「看病即入組」,更有機(jī)會(huì)做好生命模型。
Baichuan-M3 在今年上半年就能輔助做出更好的醫(yī)療決策,不僅是幫助醫(yī)生,也會(huì)幫助患者。這就是我們想推動(dòng)的事,能夠有 AI 醫(yī)生陪著你,時(shí)時(shí)刻刻照顧你。
Q:未來的大模型,多模態(tài)會(huì)是主戰(zhàn)場(chǎng)嗎?
王小川:多模態(tài)主戰(zhàn)場(chǎng)這句話,我是不認(rèn)同的。
我們?cè)?2023 年就提過,語言是智能的中軸。ChatGPT 發(fā)布時(shí),大家最震撼的是它展現(xiàn)的智力。智力是把不抽象的事情變成抽象事情的能力,所以符號(hào)才是核心。類比即智力,人類智能主要通過三種符號(hào)語言來體現(xiàn):自然語言、數(shù)學(xué)語言和代碼語言。
到目前為止,評(píng)判哪個(gè)公司的模型能力強(qiáng),核心標(biāo)準(zhǔn)依然是基于符號(hào)的。像 Sora 這種視頻生成能力,可用性很強(qiáng),但它不代表智力本身。在醫(yī)療場(chǎng)景里,很多都是決策問題,不只是看片子就行了。醫(yī)院里已經(jīng)有很多小模型在輔助閱片,比如推想醫(yī)療或其他影像公司的模型。這些圖像模型輸出結(jié)果后,最終還是要符號(hào)化,然后用語言模型來做后續(xù)的推理工作。
感知模型和認(rèn)知模型需要結(jié)合,表現(xiàn)就是把影像變成報(bào)告和診斷模型。最近還有胰腺癌頻掃 CT 模型,這些感知模型更像是主干上的葉子,不是「主戰(zhàn)場(chǎng)」。我們很快也會(huì)發(fā)布和圖像相關(guān)的模型,把醫(yī)療影像診斷做到 SOTA 的水平。
Q:很多公司都提到,多模態(tài)數(shù)據(jù)很難「出院」,百川怎么看待醫(yī)院內(nèi)數(shù)據(jù)的處理?
王小川:主要是兩個(gè)要點(diǎn):技術(shù)和場(chǎng)景。
我們認(rèn)為,未來巨大的增量是在院外,不在院內(nèi)。院內(nèi)更多是執(zhí)行場(chǎng)所,比如做手術(shù)、輸液。我們的目標(biāo)不是在院內(nèi)幫醫(yī)生解決流程問題,那個(gè)想象空間是有限的。我們的策略是「隔山打牛」,最重要的價(jià)值是幫到患者。
今天大家總是講數(shù)據(jù)不夠,投了上千億進(jìn)去,去年發(fā)布了 500 款醫(yī)療垂直大模型,但大家有體感嗎?美國(guó),已經(jīng)有兩件事做成了:OpenEvidence,很多醫(yī)生都在用它輔助診療,安全性和準(zhǔn)確度提升了很多;二是 ChatGPT 馬上就要接入健康數(shù)據(jù),2.3 億人很快就可以直接受益。
AI 直接產(chǎn)生作用是在院外,以前信息化是以醫(yī)院為中心、醫(yī)生為中心的這種模式,它都離 AI 的本質(zhì)和 Toc 是遠(yuǎn)的。我們始終強(qiáng)調(diào),這次的技術(shù)紅利是發(fā)生在語言智能上,不是在圖像識(shí)別上。能力識(shí)別不代表真正的智力,它只是一個(gè)「做題家」手里的活兒。
03今年會(huì)發(fā)布兩款 ToC 產(chǎn)品,
正在做睡眠類硬件產(chǎn)品
Q:像「阿福」這類擁有海量用戶的 App,他們獲得的動(dòng)態(tài)反饋數(shù)據(jù),會(huì)不會(huì)讓模型迭代速度超過你們?
王小川:用反饋來推動(dòng)模型迭代,主要體現(xiàn)在兩點(diǎn):第一,你的個(gè)人檔案完善了,服務(wù)更個(gè)性化了,這跟用戶多少?zèng)]關(guān)系;第二,用戶多了,團(tuán)隊(duì)可以通過反饋來改進(jìn)產(chǎn)品,但這更像是傳統(tǒng)互聯(lián)網(wǎng)的產(chǎn)品迭代,不是技術(shù)層面的模型進(jìn)化。你看 Anthropic、Gemini 也沒有那么龐大的 C 端用戶,但模型依然發(fā)展得很快。這件事本質(zhì)上還是技術(shù)驅(qū)動(dòng)的。
注:「阿福」是由螞蟻集團(tuán)推出的一款 AI 健康應(yīng)用。
Q:百川接下來的產(chǎn)品路線想怎么走?
王小川:我們跟「阿福」的定位不太一樣,阿福更偏向泛健康,「健康」本身是一個(gè)很寬泛的概念。我們希望更聚焦,做到至少能取代家庭醫(yī)生的角色。
從第一天起就想做 ToC,幫助患者做輔助決策這件事,價(jià)值非常清晰。我倒不擔(dān)心商業(yè)模式,只要我們能跨過醫(yī)療的專業(yè)門檻,真正為用戶創(chuàng)造價(jià)值,無論是直接向用戶收費(fèi),還是通過服務(wù)包整合后續(xù)的醫(yī)療、藥械資源來收費(fèi),都會(huì)是很容易的事情。
我們今年上半年就會(huì)正式入場(chǎng),之前停頓了一段時(shí)間,目標(biāo)想得很清楚,我們不是只賺醫(yī)院或醫(yī)生的錢。我們會(huì)有兩款產(chǎn)品發(fā)布,免費(fèi)使用,但包含付費(fèi)模塊。
首先是百小應(yīng),醫(yī)生和患者都能用。雖然是同一個(gè)產(chǎn)品,但醫(yī)生和患者的身份不同,給出的結(jié)果也不同。醫(yī)生版更像 OpenEvidence,非常強(qiáng)調(diào)循證,每一句話的出處、引用的文獻(xiàn)都會(huì)清晰標(biāo)明。醫(yī)生可以接受各種專業(yè)的答案,我們給到患者的,是幾個(gè)清晰的選項(xiàng)和要點(diǎn),必須讓他們看得懂,把專業(yè)語言翻譯成他們能理解的內(nèi)容,同時(shí)保留循證的能力。
患者模式會(huì)強(qiáng)調(diào)補(bǔ)充信息,具備進(jìn)入啟發(fā)式的、端到端的問診能力。醫(yī)生不會(huì)這樣,因?yàn)獒t(yī)生有自己提問的方法。在這種情況下,我們和 OpenEvidence 的區(qū)別在于,OpenEvidence 只是服務(wù)于醫(yī)生,我們的產(chǎn)品是信息可復(fù)現(xiàn)、專業(yè)內(nèi)容可懂、患者可決策、建議可行動(dòng)、最終服務(wù)到患者本人,這樣的產(chǎn)品定位,在全球是獨(dú)一無二的。
Q:如果做 ToC 產(chǎn)品,早期怎么培養(yǎng)用戶心智?
王小川:需要三件事:第一,需要一定的市場(chǎng)宣傳投入,我們會(huì)適量增加;第二,要得到醫(yī)生的認(rèn)可。我們的路線和阿福不同,他們可能對(duì)老醫(yī)生觸動(dòng)不大,但我們希望醫(yī)生和患者是一體兩面,共享一款產(chǎn)品。所以不僅要讓患者鼓掌,更要讓專家點(diǎn)頭;第三,產(chǎn)品本身做得足夠好,能自然形成一定的口碑效應(yīng)。
Q:百川的護(hù)城河是什么?
王小川:護(hù)城河分三部分。第一,模型本身。在前沿領(lǐng)域,模型領(lǐng)先一代就是優(yōu)勢(shì),尤其在醫(yī)療領(lǐng)域,大家一定會(huì)選擇更好的;第二,對(duì)問題切入點(diǎn)的選擇。我們更愿意切入一些嚴(yán)肅、高價(jià)值、非共識(shí)的場(chǎng)景。大廠通常要從共識(shí)的地方切入;第三,產(chǎn)品形態(tài)。大家后續(xù)會(huì)看到,我們的產(chǎn)品形態(tài)也是不一樣的。
Q:你提到做嚴(yán)肅醫(yī)療,這會(huì)涉及權(quán)責(zé)問題,診療責(zé)任由誰來負(fù)責(zé)?
王小川:今天我們不會(huì)去碰法律紅線。法律要求診斷結(jié)論和治療方案必須由執(zhí)業(yè)醫(yī)師給出。但我們可以在這個(gè)框架內(nèi),把輔助診斷做得更好。
現(xiàn)在的痛點(diǎn)是,患者在拿到結(jié)論之前,需要大量的解釋和信息。我們主打的概念是「讓患者明明白白看醫(yī)生」,核心是縮短醫(yī)患之間的 gap。比如醫(yī)生給了兩個(gè)治療方案,一個(gè)保守一個(gè)激進(jìn),選哪個(gè)?我們可以幫助患者分析利弊,輔助他們做決策。診療和決策是兩回事,我們認(rèn)為未來決策權(quán)會(huì)更多地讓渡給患者。我們不是替患者做決策,是給建議,幫助患者自己做決策。
Q:M3 的能力已經(jīng)可以支撐這個(gè)目標(biāo)了嗎?
王小川:模型能力已經(jīng)足夠了,現(xiàn)在需要的是建立產(chǎn)品形象和用戶信任。
Q:國(guó)內(nèi)會(huì)出現(xiàn)類似 OpenEvidence這樣的產(chǎn)品嗎?
王小川:可能性不大。在美國(guó),OpenEvidence 確實(shí)能對(duì)醫(yī)療效果提升很多。但在中國(guó)有幾個(gè)障礙:第一,中國(guó)醫(yī)生沒有使用這類輔助系統(tǒng)的習(xí)慣;第二,他們非常忙,沒有額外的時(shí)間去使用一個(gè)新工具;第三,用不用這類工具,對(duì)他們的職稱評(píng)定和論文發(fā)表可能幫助不大。
Q:百川最初為什么選擇兒科作為切入點(diǎn)?
王小川:一開始選兒科,也是想從院外、從相對(duì)輕癥的場(chǎng)景切入。兒童很多時(shí)候是小問題,但家長(zhǎng)焦慮感很強(qiáng)。所以它不是從疾病的嚴(yán)重程度出發(fā),而是從用戶的焦慮感出發(fā)。現(xiàn)在技術(shù)進(jìn)步了,我們才敢拓展到腫瘤這種最核心的領(lǐng)域。
Q:兒科還會(huì)繼續(xù)重投入嗎?
王小川:會(huì)的。「一老一小」始終是我們的方向,我們主要就是慢病、兒科和腫瘤這三個(gè)方向。
Q:你們會(huì)做硬件嗎?
王小川:會(huì),目前正在做一款和睡眠相關(guān)的硬件產(chǎn)品。
轉(zhuǎn)載原創(chuàng)文章請(qǐng)?zhí)砑游⑿牛篺ounderparker
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.