網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

百川開源醫(yī)療大模型 M3，王小川：今年會(huì)發(fā)布兩款 ToC 產(chǎn)品，正在做硬件

2026-01-14 13:38:17　來源: FounderPark

北京舉報(bào)

分享至

AI 醫(yī)療突然成為了這個(gè)月的熱點(diǎn)。

1 月初 OpenAI 發(fā)布醫(yī)療產(chǎn)品 ChatGPT Health，Anthropic 推出 Claude for Healthcare，昨天，百川智能正式開源新一代醫(yī)療大模型 Baichuan-M3。

評(píng)測(cè)成績(jī)很突出，在全球最權(quán)威的醫(yī)療 AI 評(píng)測(cè) HealthBench 中以 65.1 分的綜合成績(jī)位列全球第一；在專門考驗(yàn)復(fù)雜決策能力的 HealthBench Hard 上，也以 44.4 分的成績(jī)奪冠。這一成績(jī)，不僅刷新了 HealthBench 的最高分，更首次在醫(yī)療領(lǐng)域?qū)崿F(xiàn)了對(duì) GPT-5.2 的全面超越。

在 OpenAI 引以為傲的低幻覺領(lǐng)域，M3 也實(shí)現(xiàn)了超越，幻覺率 3.5 全球最低。

此外，M3 還首次具備了原生的「端到端」嚴(yán)肅問診能力。能像醫(yī)生一樣主動(dòng)追問、逐層逼近，把關(guān)鍵病史和風(fēng)險(xiǎn)信號(hào)問出來，進(jìn)而在完整的信息上進(jìn)行深度醫(yī)學(xué)推理。評(píng)測(cè)顯示，其問診能力顯著高于真人醫(yī)生的平均水平。

百川的醫(yī)療應(yīng)用「百小應(yīng)」已同步接入 M3，面向醫(yī)生與患者開放相關(guān)能力。醫(yī)生可借助它推演問診與診療思路，患者及家屬也可通過該應(yīng)用更系統(tǒng)地理解診斷、治療、檢查與預(yù)后背后的醫(yī)學(xué)邏輯。

發(fā)布會(huì)上，我們跟創(chuàng)始人王小川就百川在醫(yī)療領(lǐng)域的下一步、ToC 產(chǎn)品的策略以及商業(yè)化落地上進(jìn)行了交流。

??關(guān)注 Founder Park，最及時(shí)最干貨的創(chuàng)業(yè)分享

超 19000 人的「AI 產(chǎn)品市集」社群！不錯(cuò)過每一款有價(jià)值的 AI 應(yīng)用。

邀請(qǐng)從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者，飛書掃碼加群：

進(jìn)群后，你有機(jī)會(huì)得到：

最新、最值得關(guān)注的 AI 新品資訊；
不定期贈(zèng)送熱門新品的邀請(qǐng)碼、會(huì)員碼；
最精準(zhǔn)的AI產(chǎn)品曝光渠道

01低幻覺之外，

核心是端到端的問診能力

百川 M3 這次將醫(yī)療幻覺抑制前移至模型訓(xùn)練階段，在強(qiáng)化學(xué)習(xí)過程中將醫(yī)學(xué)事實(shí)一致性作為核心訓(xùn)練目標(biāo)之一，通過將事實(shí)一致性約束融入訓(xùn)練流程，M3 重構(gòu)了幻覺抑制的訓(xùn)練范式，在不依賴工具或檢索增強(qiáng)的純模型設(shè)置下，醫(yī)療幻覺率 3.5，超越 GPT-5.2，達(dá)到全球最低水平。

除了強(qiáng)推理和低幻覺，端到端的問診能力是本次 M3 最重要的一項(xiàng)突破。

AI 應(yīng)用實(shí)踐中，通過 prompt「你是一位經(jīng)驗(yàn)豐富的醫(yī)生」，激活模型的「角色扮演」是更常見的做法。這種方式得到的是模型的表演行為，而非內(nèi)生能力，激活的是模型應(yīng)該提問的行為，而不是必須獲取關(guān)鍵信息的思考。即便對(duì)話看似完整，也難以支撐安全、可靠的臨床判斷，從根本上偏離了醫(yī)療「安全第一」的原則。

針對(duì)這一問題，百川提出了「嚴(yán)肅問診范式」與「SCAN 原則」，通過 Safety Stratification（安全分層）、Clarity Matters（信息澄清）、Association & Inquiry（關(guān)聯(lián)追問）與 Normative Protocol（規(guī)范化輸出），將臨床問診中高度依賴經(jīng)驗(yàn)的思維過程，第一次系統(tǒng)性地「白盒化」。

借鑒醫(yī)學(xué)教育里長(zhǎng)期使用的 OSCE 方法，聯(lián)合 150 多位一線醫(yī)生，搭建了 SCAN-bench 評(píng)測(cè)體系，該體系以真實(shí)臨床經(jīng)驗(yàn)作為「標(biāo)準(zhǔn)答案」，將診療過程拆解為病史采集、輔助檢查、精準(zhǔn)診斷三大階段，通過動(dòng)態(tài)、多輪的方式進(jìn)行考核，完整模擬醫(yī)生從接診到確診的全過程。相比于 HealthBench，SCAN-bench 是更加全流程端到端的動(dòng)態(tài)評(píng)測(cè)新范式。

同時(shí)，還使用原生模型訓(xùn)練方法取代角色扮演 prompt，針對(duì) GRPO 無法穩(wěn)定進(jìn)行長(zhǎng)對(duì)話訓(xùn)練的問題，設(shè)計(jì)了新的 SPAR 算法，使模型能夠在有限對(duì)話輪次中，把臨床真正需要的關(guān)鍵問題問全、問準(zhǔn)，把風(fēng)險(xiǎn)兜住，讓輸出經(jīng)得起復(fù)核。

在實(shí)驗(yàn)過程中發(fā)現(xiàn)，問診準(zhǔn)確度每增加 2%，診療結(jié)果準(zhǔn)確度就會(huì)增加 1%。評(píng)測(cè)結(jié)果顯示，M3 在 SCAN 的四個(gè)維度均顯著高于人類醫(yī)生基線水平，并大幅領(lǐng)先于國(guó)內(nèi)外頂尖模型，成功構(gòu)建了從精準(zhǔn)的臨床問詢、深度醫(yī)學(xué)推理到安全可靠決策的閉環(huán)。

02想用 AI 實(shí)現(xiàn)醫(yī)患權(quán)力的讓渡，

而不是取代醫(yī)生

Q：百川主要想解決醫(yī)療場(chǎng)景中的哪些問題？

王小川：醫(yī)療行業(yè)有幾個(gè)核心痛點(diǎn)：

第一是好醫(yī)生不夠。上一波互聯(lián)網(wǎng)醫(yī)療，像好大夫、春雨醫(yī)生，它們的模式是通過互聯(lián)網(wǎng)解決連接問題，這就像做滴滴和美團(tuán)，前提是供給端要充足。醫(yī)療行業(yè)的供給恰恰是不足的，所以互聯(lián)網(wǎng)時(shí)代解決不了這個(gè)問題。AI 的爆發(fā)，可以創(chuàng)造出高質(zhì)量的醫(yī)生供給。大家可能 2023 年還不太信這個(gè)東西，但到了 2025 年，感受就會(huì)越來越明顯。

第二是醫(yī)患關(guān)系不平等。醫(yī)療是少有的受益和決策分離的行業(yè)。作為受益方，患者很難在決策中獲得充分的信息和話語權(quán)。

我們認(rèn)為 AI 可以填補(bǔ)醫(yī)患之間的 gap，不是說醫(yī)生什么都不干了，檢查、手術(shù)、治療都是醫(yī)生干的事情，但我們希望讓患者明明白白地看病，對(duì)于自己的健康狀況有更多地了解，更好地理解醫(yī)生說的話。之前談得比較少，要么就是 AI 取代醫(yī)生，要么就是 AI 幫助醫(yī)生，但更重要的是醫(yī)患權(quán)力的讓渡，醫(yī)生把一部分權(quán)力逐步讓渡給患者。

我們認(rèn)為，未來的醫(yī)療模式既不會(huì)動(dòng)醫(yī)生的蛋糕，也不會(huì)讓患者產(chǎn)生焦慮，解決權(quán)力讓渡的問題，這是必然的趨勢(shì)。比如，一個(gè)病癥，醫(yī)生可能給出兩個(gè)方案，一個(gè)保守，一個(gè)激進(jìn)，或者三個(gè)醫(yī)生每個(gè)方案都不一樣，患者怎么選？我們的 AI 醫(yī)生足夠強(qiáng)，能夠補(bǔ)充各種信息，把解釋做好時(shí)，患者和醫(yī)生的關(guān)系就會(huì)進(jìn)入一個(gè)新的階段。

第三，三甲醫(yī)院消耗過度。中國(guó)和美國(guó)有個(gè)區(qū)別，美國(guó)有家庭醫(yī)生體系，大多數(shù)人都有自己的全科大夫，小病先找他們，有了大病再轉(zhuǎn)到專科，醫(yī)療行為主要發(fā)生在基層。中國(guó)，大家習(xí)慣都往大醫(yī)院、三甲醫(yī)院擠，導(dǎo)致醫(yī)療負(fù)擔(dān)非常重。國(guó)家雖然一直在推行基層首診，但虹吸效應(yīng)依然很強(qiáng)。今后一個(gè)大的趨勢(shì)就是醫(yī)療場(chǎng)景會(huì)發(fā)生變化，大家擁有 AI 助手以后，更不去基層了，小毛病自己就看了。國(guó)家號(hào)召的「強(qiáng)基層」，未來可能不僅包括社區(qū)醫(yī)院，居家也會(huì)成為一個(gè)重要的醫(yī)療場(chǎng)景。人們?cè)诩依锞湍芨?AI 對(duì)話、獲取初步診斷，從根本上改變中國(guó)三級(jí)診療的格局。

第四，對(duì)人體的醫(yī)學(xué)機(jī)制認(rèn)知還不夠深入。患者總是覺得自己不懂，醫(yī)生懂，其實(shí)醫(yī)生有的時(shí)候也不懂，每個(gè)科室的醫(yī)生都是知道局部的信息，復(fù)雜問題需要跨科室會(huì)診。今天的 AI for Science，比如過去的蛋白質(zhì)解碼、虛擬細(xì)胞、臨床數(shù)字孿生，可以幫助我們更好地建立人體模型。現(xiàn)在我們有能力收集更豐富的患者真實(shí)數(shù)據(jù)，在 AI 的輔助下，有機(jī)會(huì)做到「看病即入組」，更有機(jī)會(huì)做好生命模型。

Baichuan-M3 在今年上半年就能輔助做出更好的醫(yī)療決策，不僅是幫助醫(yī)生，也會(huì)幫助患者。這就是我們想推動(dòng)的事，能夠有 AI 醫(yī)生陪著你，時(shí)時(shí)刻刻照顧你。

Q：未來的大模型，多模態(tài)會(huì)是主戰(zhàn)場(chǎng)嗎？

王小川：多模態(tài)主戰(zhàn)場(chǎng)這句話，我是不認(rèn)同的。

我們?cè)?2023 年就提過，語言是智能的中軸。ChatGPT 發(fā)布時(shí)，大家最震撼的是它展現(xiàn)的智力。智力是把不抽象的事情變成抽象事情的能力，所以符號(hào)才是核心。類比即智力，人類智能主要通過三種符號(hào)語言來體現(xiàn)：自然語言、數(shù)學(xué)語言和代碼語言。

到目前為止，評(píng)判哪個(gè)公司的模型能力強(qiáng)，核心標(biāo)準(zhǔn)依然是基于符號(hào)的。像 Sora 這種視頻生成能力，可用性很強(qiáng)，但它不代表智力本身。在醫(yī)療場(chǎng)景里，很多都是決策問題，不只是看片子就行了。醫(yī)院里已經(jīng)有很多小模型在輔助閱片，比如推想醫(yī)療或其他影像公司的模型。這些圖像模型輸出結(jié)果后，最終還是要符號(hào)化，然后用語言模型來做后續(xù)的推理工作。

感知模型和認(rèn)知模型需要結(jié)合，表現(xiàn)就是把影像變成報(bào)告和診斷模型。最近還有胰腺癌頻掃 CT 模型，這些感知模型更像是主干上的葉子，不是「主戰(zhàn)場(chǎng)」。我們很快也會(huì)發(fā)布和圖像相關(guān)的模型，把醫(yī)療影像診斷做到 SOTA 的水平。

Q：很多公司都提到，多模態(tài)數(shù)據(jù)很難「出院」，百川怎么看待醫(yī)院內(nèi)數(shù)據(jù)的處理？

王小川：主要是兩個(gè)要點(diǎn)：技術(shù)和場(chǎng)景。

我們認(rèn)為，未來巨大的增量是在院外，不在院內(nèi)。院內(nèi)更多是執(zhí)行場(chǎng)所，比如做手術(shù)、輸液。我們的目標(biāo)不是在院內(nèi)幫醫(yī)生解決流程問題，那個(gè)想象空間是有限的。我們的策略是「隔山打牛」，最重要的價(jià)值是幫到患者。

今天大家總是講數(shù)據(jù)不夠，投了上千億進(jìn)去，去年發(fā)布了 500 款醫(yī)療垂直大模型，但大家有體感嗎？美國(guó)，已經(jīng)有兩件事做成了：OpenEvidence，很多醫(yī)生都在用它輔助診療，安全性和準(zhǔn)確度提升了很多；二是 ChatGPT 馬上就要接入健康數(shù)據(jù)，2.3 億人很快就可以直接受益。

AI 直接產(chǎn)生作用是在院外，以前信息化是以醫(yī)院為中心、醫(yī)生為中心的這種模式，它都離 AI 的本質(zhì)和 Toc 是遠(yuǎn)的。我們始終強(qiáng)調(diào)，這次的技術(shù)紅利是發(fā)生在語言智能上，不是在圖像識(shí)別上。能力識(shí)別不代表真正的智力，它只是一個(gè)「做題家」手里的活兒。

03今年會(huì)發(fā)布兩款 ToC 產(chǎn)品，

正在做睡眠類硬件產(chǎn)品

Q：像「阿福」這類擁有海量用戶的 App，他們獲得的動(dòng)態(tài)反饋數(shù)據(jù)，會(huì)不會(huì)讓模型迭代速度超過你們？

王小川：用反饋來推動(dòng)模型迭代，主要體現(xiàn)在兩點(diǎn)：第一，你的個(gè)人檔案完善了，服務(wù)更個(gè)性化了，這跟用戶多少?zèng)]關(guān)系；第二，用戶多了，團(tuán)隊(duì)可以通過反饋來改進(jìn)產(chǎn)品，但這更像是傳統(tǒng)互聯(lián)網(wǎng)的產(chǎn)品迭代，不是技術(shù)層面的模型進(jìn)化。你看 Anthropic、Gemini 也沒有那么龐大的 C 端用戶，但模型依然發(fā)展得很快。這件事本質(zhì)上還是技術(shù)驅(qū)動(dòng)的。

注：「阿福」是由螞蟻集團(tuán)推出的一款 AI 健康應(yīng)用。

Q：百川接下來的產(chǎn)品路線想怎么走？

王小川：我們跟「阿福」的定位不太一樣，阿福更偏向泛健康，「健康」本身是一個(gè)很寬泛的概念。我們希望更聚焦，做到至少能取代家庭醫(yī)生的角色。

從第一天起就想做 ToC，幫助患者做輔助決策這件事，價(jià)值非常清晰。我倒不擔(dān)心商業(yè)模式，只要我們能跨過醫(yī)療的專業(yè)門檻，真正為用戶創(chuàng)造價(jià)值，無論是直接向用戶收費(fèi)，還是通過服務(wù)包整合后續(xù)的醫(yī)療、藥械資源來收費(fèi)，都會(huì)是很容易的事情。

我們今年上半年就會(huì)正式入場(chǎng)，之前停頓了一段時(shí)間，目標(biāo)想得很清楚，我們不是只賺醫(yī)院或醫(yī)生的錢。我們會(huì)有兩款產(chǎn)品發(fā)布，免費(fèi)使用，但包含付費(fèi)模塊。

首先是百小應(yīng)，醫(yī)生和患者都能用。雖然是同一個(gè)產(chǎn)品，但醫(yī)生和患者的身份不同，給出的結(jié)果也不同。醫(yī)生版更像 OpenEvidence，非常強(qiáng)調(diào)循證，每一句話的出處、引用的文獻(xiàn)都會(huì)清晰標(biāo)明。醫(yī)生可以接受各種專業(yè)的答案，我們給到患者的，是幾個(gè)清晰的選項(xiàng)和要點(diǎn)，必須讓他們看得懂，把專業(yè)語言翻譯成他們能理解的內(nèi)容，同時(shí)保留循證的能力。

患者模式會(huì)強(qiáng)調(diào)補(bǔ)充信息，具備進(jìn)入啟發(fā)式的、端到端的問診能力。醫(yī)生不會(huì)這樣，因?yàn)獒t(yī)生有自己提問的方法。在這種情況下，我們和 OpenEvidence 的區(qū)別在于，OpenEvidence 只是服務(wù)于醫(yī)生，我們的產(chǎn)品是信息可復(fù)現(xiàn)、專業(yè)內(nèi)容可懂、患者可決策、建議可行動(dòng)、最終服務(wù)到患者本人，這樣的產(chǎn)品定位，在全球是獨(dú)一無二的。

Q：如果做 ToC 產(chǎn)品，早期怎么培養(yǎng)用戶心智？

王小川：需要三件事：第一，需要一定的市場(chǎng)宣傳投入，我們會(huì)適量增加；第二，要得到醫(yī)生的認(rèn)可。我們的路線和阿福不同，他們可能對(duì)老醫(yī)生觸動(dòng)不大，但我們希望醫(yī)生和患者是一體兩面，共享一款產(chǎn)品。所以不僅要讓患者鼓掌，更要讓專家點(diǎn)頭；第三，產(chǎn)品本身做得足夠好，能自然形成一定的口碑效應(yīng)。

Q：百川的護(hù)城河是什么？

王小川：護(hù)城河分三部分。第一，模型本身。在前沿領(lǐng)域，模型領(lǐng)先一代就是優(yōu)勢(shì)，尤其在醫(yī)療領(lǐng)域，大家一定會(huì)選擇更好的；第二，對(duì)問題切入點(diǎn)的選擇。我們更愿意切入一些嚴(yán)肅、高價(jià)值、非共識(shí)的場(chǎng)景。大廠通常要從共識(shí)的地方切入；第三，產(chǎn)品形態(tài)。大家后續(xù)會(huì)看到，我們的產(chǎn)品形態(tài)也是不一樣的。

Q：你提到做嚴(yán)肅醫(yī)療，這會(huì)涉及權(quán)責(zé)問題，診療責(zé)任由誰來負(fù)責(zé)？

王小川：今天我們不會(huì)去碰法律紅線。法律要求診斷結(jié)論和治療方案必須由執(zhí)業(yè)醫(yī)師給出。但我們可以在這個(gè)框架內(nèi)，把輔助診斷做得更好。

現(xiàn)在的痛點(diǎn)是，患者在拿到結(jié)論之前，需要大量的解釋和信息。我們主打的概念是「讓患者明明白白看醫(yī)生」，核心是縮短醫(yī)患之間的 gap。比如醫(yī)生給了兩個(gè)治療方案，一個(gè)保守一個(gè)激進(jìn)，選哪個(gè)？我們可以幫助患者分析利弊，輔助他們做決策。診療和決策是兩回事，我們認(rèn)為未來決策權(quán)會(huì)更多地讓渡給患者。我們不是替患者做決策，是給建議，幫助患者自己做決策。

Q：M3 的能力已經(jīng)可以支撐這個(gè)目標(biāo)了嗎？

王小川：模型能力已經(jīng)足夠了，現(xiàn)在需要的是建立產(chǎn)品形象和用戶信任。

Q：國(guó)內(nèi)會(huì)出現(xiàn)類似 OpenEvidence這樣的產(chǎn)品嗎？

王小川：可能性不大。在美國(guó)，OpenEvidence 確實(shí)能對(duì)醫(yī)療效果提升很多。但在中國(guó)有幾個(gè)障礙：第一，中國(guó)醫(yī)生沒有使用這類輔助系統(tǒng)的習(xí)慣；第二，他們非常忙，沒有額外的時(shí)間去使用一個(gè)新工具；第三，用不用這類工具，對(duì)他們的職稱評(píng)定和論文發(fā)表可能幫助不大。

Q：百川最初為什么選擇兒科作為切入點(diǎn)？

王小川：一開始選兒科，也是想從院外、從相對(duì)輕癥的場(chǎng)景切入。兒童很多時(shí)候是小問題，但家長(zhǎng)焦慮感很強(qiáng)。所以它不是從疾病的嚴(yán)重程度出發(fā)，而是從用戶的焦慮感出發(fā)。現(xiàn)在技術(shù)進(jìn)步了，我們才敢拓展到腫瘤這種最核心的領(lǐng)域。

Q：兒科還會(huì)繼續(xù)重投入嗎？

王小川：會(huì)的。「一老一小」始終是我們的方向，我們主要就是慢病、兒科和腫瘤這三個(gè)方向。

Q：你們會(huì)做硬件嗎？

王小川：會(huì)，目前正在做一款和睡眠相關(guān)的硬件產(chǎn)品。

轉(zhuǎn)載原創(chuàng)文章請(qǐng)?zhí)砑游⑿牛篺ounderparker

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.