![]()
![]()
雖然AI醫(yī)療這條路確實艱苦,但王小川本人似乎更輕松了。
作者|劉楊楠
編輯|王博
“重整旗鼓,建立連接。”
在1月13日下午的媒體溝通會上,談及為何要在新模型發(fā)布之際和媒體進行一次深入交流時,百川智能創(chuàng)始人、CEO王小川用這八個字回復道。
今天,百川智能正式開源新一代醫(yī)療大模型Baichuan-M3,其在全球最權(quán)威的醫(yī)療AI評測HealthBench中以65.1分的綜合成績位列全球第一;在專門考驗復雜決策能力的HealthBench Hard上,也以44.4分的成績奪冠。
![]()
圖片來源:百川智能
這一成績,不僅刷新了 HealthBench的最高分,更首次在醫(yī)療領(lǐng)域?qū)崿F(xiàn)了對GPT-5.2的全面超越。在OpenAI引以為傲的低幻覺領(lǐng)域,M3也實現(xiàn)了超越,幻覺率3.5全球最低。
一眾AI創(chuàng)業(yè)者中,王小川對生命科學的熱情甚高。如今,公司全面轉(zhuǎn)型AI醫(yī)療一年多來,從Baichuan-M1到M3,百川幾乎保持半年一次的頻率迭代模型,并和公立醫(yī)院、政府均有相應合作落地。這一系列新成果,讓王小川再次面向媒體談起百川時,語氣里又多了一分底氣。
某種程度上,對王小川而言,轉(zhuǎn)向AI醫(yī)療算不上“順勢而為”,而更像是一個被不斷壓縮選擇空間后的必然路徑。這也解釋了一個關(guān)鍵事實:百川不是在通用模型失敗之后才轉(zhuǎn)向醫(yī)療,而是在意識到通用模型的邊際收益與自身志向并不匹配后,及時收縮戰(zhàn)線。
當通用模型進入資本、算力與渠道全面博弈的階段,創(chuàng)業(yè)公司能撬動的空間正在迅速變小。而醫(yī)療恰恰相反,它對算力規(guī)模的依賴并非第一位,對醫(yī)學推理、可靠性、長期投入的要求卻極高,是一個巨頭優(yōu)勢尚未完全展開、但創(chuàng)業(yè)公司必須“All in”的賽道。
在王小川看來,近期有兩個信號標志著醫(yī)療AI正式進入應用落地的階段。
一是DeepSeek帶來的沖擊,它讓行業(yè)看到,除了搜索和代碼,AI在專業(yè)領(lǐng)域的推理能力正以超越預期的速度進化;二是全球巨頭的集體轉(zhuǎn)向,2026年1月初,OpenAI發(fā)布ChatGPT Health,Anthropic緊隨其后推出Claude的醫(yī)療計算與Agent能力。
“2024年跟醫(yī)生談AI,大家都不信;2025年大家看到DeepSeek真的比百度靠譜。現(xiàn)在,巨頭都進場了,醫(yī)療作為AI皇冠上的明珠,已經(jīng)正式進入應用范疇。”王小川說。
這次溝通會上,王小川透露,公司賬面仍有30億元現(xiàn)金,這給百川智能未來發(fā)展提供了極大的確定性。
而關(guān)于IPO,王小川表示,大約到2027年,如果市場能夠充分接受百川的技術(shù)與產(chǎn)品,公司會考慮上市。
可見,AI醫(yī)療這場仗,王小川不想、也不會下牌桌。
1.醫(yī)療模型要足夠“嚴肅”
在當前各類大模型應用中,快速出產(chǎn)品、拿用戶、做收入幾乎成為一大共識的打法。
但百川選擇了一條更慢、也更重的路徑,先把模型做到足夠強。即使產(chǎn)品面向C端,模型也要有足夠的實力,得到專業(yè)醫(yī)生的認可。
在百川內(nèi)部,模型能力的領(lǐng)先已經(jīng)被視為構(gòu)建公司護城河的第一要素。M3模型的技術(shù)路線,集中反映了這一選擇背后的邏輯,其背后的訓練范式從M2的“半動態(tài)強化學習”,升級為M3的“全動態(tài)Verifier System”。
在M2階段,百川構(gòu)建了一個“虛擬臨床世界”。這個世界里有兩方:一方是基于真實病例模擬的“虛擬患者”,另一方是負責評估AI表現(xiàn)的“醫(yī)生思維模型”(考官)。在M2訓練中,患者是動態(tài)的,但考官是固定的。
“這帶來一個問題:當模型越來越強,固定考官出的題就不夠難了,能力的增長曲線會變平。”百川智能模型技術(shù)負責人鞠強解釋道。
于是,M3引入了全動態(tài)反饋:當“考生”(AI 模型)變強時,“考官”也會同步進化,從更細粒度、更困難的醫(yī)學原則出發(fā)去挑錯。這種對抗性訓練,讓M3在長對話強化學習中獲得了更強的醫(yī)學推理能力。
此外,為進一步降低幻覺,百川M3將醫(yī)療幻覺抑制前移至模型訓練階段,在強化學習過程中將醫(yī)學事實一致性作為核心訓練目標之一,將“知之為知之,不知為不知”直接作用于模型自身能力的形成過程。
這一新的訓練方法將醫(yī)學事實可靠性內(nèi)化為M3自身的基礎能力,使其在不借助任何外部系統(tǒng)的情況下,依然能夠基于自身醫(yī)學知識進行穩(wěn)定、可信的作答。
通過將事實一致性約束融入訓練流程,M3重構(gòu)了幻覺抑制的訓練范式,在不依賴工具或檢索增強的純模型設置下,醫(yī)療幻覺率3.5,超越GPT-5.2,達到全球最低水平。
![]()
圖片來源:百川智能
更具行業(yè)分水嶺意義的,是百川對“問診”的重新建模。
在多數(shù)AI醫(yī)療產(chǎn)品中,問診被視為一個交互層問題,可以通過prompt或流程設計解決;而百川將其視為一種必須通過強化學習獲得的原生能力。
通過SCAN原則——Safety Stratification(安全分層)、Clarity Matters(信息澄清)、Association & Inquiry(關(guān)聯(lián)追問)與Normative Protocol(規(guī)范化輸出)以及自建評測體系,百川試圖把醫(yī)生高度經(jīng)驗化的思維過程白盒化、結(jié)構(gòu)化。
同時,百川通過在DeepSeek上改進出的SPAR算法,讓模型在有限的對話輪次中,能夠精準地挖掘關(guān)鍵問題,構(gòu)建起從臨床問詢到深度推理,再到安全決策的閉環(huán)。
這并非要取代醫(yī)生的診療權(quán)(如開刀、檢查),而是要在醫(yī)患之間扮演翻譯和顧問。為此,百川的產(chǎn)品“百小應”設計了兩種角色模式:
“醫(yī)生模式”下,百小應會提供極其嚴肅的循證能力,輸出像醫(yī)學論文一樣的標準化描述和引用文獻,輔助醫(yī)生科研和臨床決策。
“患者模式”下,百小應將專業(yè)醫(yī)學語言翻譯成大白話,不僅解釋病情,更會通過滿血問診來收集信息,幫患者分析各種方案的利弊。
這種產(chǎn)品形態(tài)在王小川看來是“全球獨一無二”的。它不再是一個簡單的問答對話框,而是一個能夠主動思考、深度挖掘并引導決策的數(shù)字醫(yī)生。
同時,在醫(yī)療模型究竟該如何迭代的問題上,與多數(shù)醫(yī)療模型強調(diào)參數(shù)規(guī)模或多模態(tài)能力不同,百川的技術(shù)迭代核心圍繞三個問題上:
第一,是否具備真正的醫(yī)學推理能力;
第二,能否在不依賴外部工具的情況下顯著降低幻覺;
第三,是否有更強的醫(yī)療搜索和循證能力。
不過,王小川透露,百川接下來會發(fā)布和圖像相關(guān)的模型,醫(yī)療圖像診斷做到SOTA水平。
不得不說,王小川選擇的這條路極難,也極慢。但正如王小川所說:“醫(yī)療最大的問題,從來不是模型夠不夠聰明,而是你敢不敢為嚴肅性付出足夠成本。”
賬上仍有約30億元現(xiàn)金,使百川成為少數(shù)仍具備長期投入能力的AI醫(yī)療創(chuàng)業(yè)公司。
2.商業(yè)化的主戰(zhàn)場在“院外”
如果回看過去二十年的中國醫(yī)療科技創(chuàng)業(yè)史,會發(fā)現(xiàn)一個反復出現(xiàn)的結(jié)構(gòu)性矛盾:技術(shù)進步速度很快,但價值兌現(xiàn)極慢。
互聯(lián)網(wǎng)醫(yī)療(如好大夫、春雨醫(yī)生)本質(zhì)上在做“連接”,像滴滴和美團一樣撮合醫(yī)生與患者。但醫(yī)療行業(yè)的根本痛點不在于連接,而在于供給不足。全國最頂尖的醫(yī)生大多集中在少數(shù)一線城市的三甲醫(yī)院,無論怎么連接,“排隊三小時,看病三分鐘”的現(xiàn)狀都很難短期改變。
王小川認為,AI 應該扮演填補Gap的角色,讓基層醫(yī)療能力強起來,把醫(yī)療陣地從醫(yī)院延伸到居家。
同時,無論是影像AI、輔助診斷系統(tǒng),還是互聯(lián)網(wǎng)醫(yī)療平臺,大多數(shù)項目最終卡在一個問題上——決策方與買單方不統(tǒng)一。
醫(yī)生擁有診療權(quán),卻不是付費者;患者是受益者,卻缺乏決策權(quán);醫(yī)保是最大支付方,卻對創(chuàng)新極其謹慎。技術(shù)越深入臨床,阻力反而越大。
在百川的判斷中,這正是過去一代互聯(lián)網(wǎng)醫(yī)療以及AI醫(yī)療影像項目難以形成規(guī)模化商業(yè)閉環(huán)的根本原因。不是模型不夠準,也不是循證不夠嚴,而是路徑選擇本身出了問題。
因此,百川在戰(zhàn)略上做了一個與傳統(tǒng)路徑明顯不同的判斷:AI醫(yī)療的主戰(zhàn)場不在院內(nèi),而在院外。
這并不意味著否定醫(yī)生或醫(yī)院的價值,而是承認一個現(xiàn)實:在現(xiàn)有制度框架下,院內(nèi)場景的創(chuàng)新速度天然受限,且高度依賴行政與監(jiān)管節(jié)奏;真正具備增量空間的,是診前、診后、慢病管理、康復以及患者長期決策支持等“非共識但高價值”的院外環(huán)節(jié)。
在這些場景中,AI并不直接替代醫(yī)生的診療權(quán),卻可以系統(tǒng)性地補齊醫(yī)患之間長期存在的信息不對稱。
百川反復強調(diào)“把決策權(quán)還給患者”,并非口號式表達,而是對醫(yī)療權(quán)力結(jié)構(gòu)的一次重新拆解:診療權(quán)仍然屬于醫(yī)生;但知情權(quán)、理解權(quán)與選擇權(quán),應逐步回到患者手中。
在王小川看來,只有當患者真正理解自己的病情、方案與風險,醫(yī)療AI才可能建立長期信任,而信任,才是商業(yè)化之前更高優(yōu)先級的基礎設施。
在具體的落地場景上,百川的選擇是:直達患者,主攻兒科、慢病和腫瘤。
兒科是典型的院外高頻需求場景;慢病需要長期的居家看護;腫瘤則關(guān)乎極高價值的診后康復和復雜決策。
2026年,百川智能將上線兩款C端應用,初期采用免費模式,積累用戶心智和口碑,建立起信任后再探索商業(yè)路徑。
但短期內(nèi),王小川并不過分擔心商業(yè)化問題。他認為只要產(chǎn)品能讓“小白一次性查清多年前的誤診”,信任帶來的口碑效應自然會轉(zhuǎn)化為商業(yè)價值。
為此,百川接下來要做的,便是繼續(xù)打磨技術(shù)和產(chǎn)品,并讓市場充分接受。王小川預計,這個培育市場的過程大概需要兩年(2027年),市場充分成熟后,公司會考慮上市。
同時,王小川透露,長期來看,百川也會考慮出海和布局硬件產(chǎn)品。
但王小川坦言,AI醫(yī)療最難的不是技術(shù),而是監(jiān)管體系與決策結(jié)構(gòu)。
醫(yī)療不同于自動駕駛,權(quán)威性更強,且容錯率幾乎為0。在法律法規(guī)的紅線面前,百川只能在有限內(nèi)做最大價值。他們不輕易開處方,不直接給最終診斷,而是通過極致的循證和信息補全,賦能患者。
“我們之前從通用轉(zhuǎn)醫(yī)療被大家罵慘了,這次這場溝通會,也是希望重整旗鼓,重新和大家建立連接。”王小川透露。
此次溝通會上,「甲子光年」感受到,雖然AI醫(yī)療這條路確實艱苦,但王小川本人似乎更輕松了,我們相信這種輕松是真誠的,因為它往往源于某種深層的篤定。
王小川談到,現(xiàn)在每一個新入職的員工他都會親自面試,確保對方是真的想做醫(yī)療,而不是被百川身上各種光環(huán)裹挾而來。
在2026年的AI牌桌上,王小川不再試圖通過堆砌通用能力來贏得喝彩,而是通過對生命科學的敬畏和對醫(yī)療體系的底層重構(gòu),找到AI醫(yī)療的終極答案。
(封面圖來源:電影《賭神》)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.