網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

把醫(yī)療AI禁錮在嚴(yán)肅區(qū)間：百川M3 Plus首創(chuàng)證據(jù)錨定，幻覺率2.6%

2026-01-23 20:24:14　來源: 量子位

江蘇舉報(bào)

分享至

衡宇發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

誰還沒拿自己日常的小病小痛問過AI？

就是這種日常場(chǎng)景，讓AI悄悄成為很多人就醫(yī)流程里的前置入口。

尋醫(yī)問診時(shí)，咱普通人可以拿DeepSeek、ChatGPT的回答作參考，醫(yī)生卻不能。但在嚴(yán)肅的醫(yī)療領(lǐng)域，不準(zhǔn)確的建議甚至比沒有建議更危險(xiǎn)。

但我們注意到，隨著AI智能越發(fā)涌現(xiàn)，很多醫(yī)生，尤其是年輕醫(yī)生已經(jīng)開始嘗試擁抱AI。

All in醫(yī)療AI的百川智能告訴我們，他們的專業(yè)版模型已有約10萬醫(yī)生用戶，而且年輕人偏多，“用我們模型的用戶畫像和喝瑞幸的用戶畫像高度重合”。

不過年齡只是影響因素之一，醫(yī)療界對(duì)AI大勢(shì)的判斷并不存在根本分歧。

只是在嚴(yán)肅醫(yī)療領(lǐng)域，AI想要真正進(jìn)臨床，必須翻過兩座大山：信任與成本。

百川智能最新發(fā)布的循證增強(qiáng)醫(yī)療大模型Baichuan-M3 Plus給出了極具誠意的答案。

憑借百川智能獨(dú)創(chuàng)的六源循證技術(shù)，結(jié)合Baichuan-M3基座，Baichuan-M3 Plus幻覺率降低至2.6%，處于目前公開評(píng)測(cè)中的全球最低水平。

借用這個(gè)模型，百川希望在嚴(yán)肅醫(yī)療場(chǎng)景下，正面回答“如何讓AI真正成為醫(yī)生可信賴的助手，最終惠及每一位患者”這個(gè)問題。

全球最低幻覺率

Baichuan-M3 Plus（以下簡(jiǎn)稱M3 Plus）是一個(gè)循證增強(qiáng)醫(yī)療大模型，幻覺率全球最低，不到3%。

“循證增強(qiáng)醫(yī)療大模型”是百川如今的模型主線。

循證是個(gè)醫(yī)學(xué)概念，旨在將最佳研究證據(jù)、專業(yè)經(jīng)驗(yàn)以及當(dāng)事人的意愿三者相結(jié)合，以做出更科學(xué)、可靠的決策。

就在10天前，百川醫(yī)療大模型迭代至M3版本，在OpenAI發(fā)布的醫(yī)療評(píng)測(cè)集HealthBench上奪得全球第一，反超GPT-5.2 High。

登頂背后最核心的技術(shù)殺手锏是Fact-Aware RL（事實(shí)感知強(qiáng)化學(xué)習(xí)）。

傳統(tǒng)的強(qiáng)化學(xué)習(xí)（RLHF）往往只關(guān)注人類的偏好，F(xiàn)act-Aware RL技術(shù)通過在獎(jiǎng)勵(lì)模型（Reward Model）中引入醫(yī)學(xué)事實(shí)的硬性約束，讓模型在訓(xùn)練階段就形成了對(duì)幻覺的過敏反應(yīng)。

在訓(xùn)練過程中，百川還特別引入了Citation Reward Model，專門懲罰錯(cuò)誤引用。

具體到HealthBench的評(píng)測(cè)表現(xiàn)上，M3在無工具輔助的原始設(shè)定下，將幻覺率壓低到了3.5%，水平是當(dāng)時(shí)的行業(yè)天花板。

此次最新發(fā)布的M3 Plus，正是由M3模型和日臻成熟的六源循證深度融合而來。

這種結(jié)構(gòu)讓M3 Plus的幻覺率再創(chuàng)新低，來到2.6%。

這個(gè)幻覺率水平，已經(jīng)低于目前業(yè)內(nèi)公認(rèn)的標(biāo)桿產(chǎn)品水平，也低于部分人類醫(yī)生在復(fù)雜醫(yī)學(xué)問題上的平均誤判率區(qū)間。

“如果模型幻覺低能力強(qiáng)，但成本太高，醫(yī)生和醫(yī)院也會(huì)難以真正用起來。”調(diào)用成本下不來，談嚴(yán)肅落地就沒有意義。

為此，M3 Plus在工程層面進(jìn)行了多輪極致優(yōu)化。

M3 Plus 在系統(tǒng)層面進(jìn)行了全面的工程重構(gòu)，通過 MoE 架構(gòu)優(yōu)化、模型量化以及 Gated Eagle-3 投機(jī)解碼等關(guān)鍵技術(shù)，在嚴(yán)格保證模型能力與可靠性的前提下，實(shí)現(xiàn)了 API 調(diào)用成本較上一代降低 70%。

根據(jù)百川給出的數(shù)據(jù)，相同配置下，Gated Eagle-3相較原始Eagle-3可帶來約15%的推理吞吐量提升，從而直接壓低單位請(qǐng)求的推理成本。

好一個(gè)一邊讓嚴(yán)肅性提上去，一邊把價(jià)格打下來。

既有助于消解醫(yī)學(xué)界對(duì)AI時(shí)代來臨想用又不敢用的情緒，又讓大家都用得起。

首創(chuàng)“證據(jù)錨定”，模型說的每一句都是據(jù)實(shí)回答

此前的醫(yī)療大模型雖然大多支持標(biāo)注“文獻(xiàn)引用”，但在實(shí)際使用中，醫(yī)生經(jīng)常遇到兩個(gè)頭疼的痛點(diǎn)。

一種是“張冠李戴”。

模型給出了引用角標(biāo)，但點(diǎn)開發(fā)現(xiàn)引用的文獻(xiàn)里壓根兒沒有那句話。

另一種是“內(nèi)容沖突”。

也是標(biāo)明了有引用，但其實(shí)是AI瞎湊瞎引的，索引的文獻(xiàn)并不能支持AI得出的結(jié)論。

據(jù)統(tǒng)計(jì)，目前醫(yī)療行業(yè)常見的引用準(zhǔn)確率區(qū)間是40%到50%，也就是一半左右的引用在語義或事實(shí)上站不住腳。

溝通會(huì)上，百川智能模型技術(shù)負(fù)責(zé)人鞠強(qiáng)現(xiàn)場(chǎng)提供了一個(gè)真實(shí)案例素材——

在腫瘤藥物不良反應(yīng)的測(cè)試中，某些看起來非常專業(yè)的回答，標(biāo)明引用匯總了權(quán)威協(xié)會(huì)共識(shí)、專家指南和說明書，從形式上看幾乎無可挑剔。

但逐條核對(duì)后發(fā)現(xiàn)，約90%的引用內(nèi)容與結(jié)論本身沒有直接關(guān)系，有的甚至給出的引用里，連藥物都不是詢問模型的那一個(gè)。

一個(gè)看起來有據(jù)可查的答案，背后隱藏著不可接受的嚴(yán)肅錯(cuò)誤。但因?yàn)榭瓷先ジ叨葘I(yè)，有經(jīng)驗(yàn)的醫(yī)生不留神都可能踩坑，更別提還有許多初出茅廬的那些醫(yī)生可能面對(duì)這樣的答案了。

這成了百川在M3 Plus中試圖解決的核心問題。

針對(duì)這一痛點(diǎn)，百川在M3 Plus中引入了證據(jù)錨定（Evidence Anchoring），將循證從理念變成模型必須遵守的結(jié)構(gòu)性約束。

與傳統(tǒng)“標(biāo)明引用”的方式不同，證據(jù)錨定并不是要求模型多列幾篇文獻(xiàn)，它反過來約束模型：如果一句醫(yī)學(xué)結(jié)論找不到能與之精確對(duì)應(yīng)的原始證據(jù)段落，這句話就不應(yīng)該被說出來。

具體實(shí)現(xiàn)上，M3 Plus在生成答案時(shí)，不僅需要標(biāo)注文獻(xiàn)來源，還必須將每一句關(guān)鍵醫(yī)學(xué)判斷，逐條錨定到原始論文、指南或共識(shí)中的具體段落。

每一個(gè)結(jié)論，都需要能在原文中找到明確對(duì)應(yīng)。

說得通俗易懂一點(diǎn)，使用M3 Plus的醫(yī)生可以直接核查AI說的每一句話是否真的有原文支持，判斷其是否真正支持當(dāng)前結(jié)論。

引用內(nèi)容豐富，包括但不限于藥品說明書：

中英文文獻(xiàn)：

以及專家共識(shí)等：

在訓(xùn)練層面，百川將“證據(jù)是否準(zhǔn)確錨定”作為獨(dú)立目標(biāo)進(jìn)行建模，通過Citation Reward Model，顯式懲罰“張冠李戴”“內(nèi)容沖突”等情況。

鞠強(qiáng)解釋，沒有證據(jù)錨定，大多數(shù)大模型就不能真正理解證據(jù)與結(jié)論之間的邏輯關(guān)系。

所謂的引用文獻(xiàn)往往發(fā)生在生成之后，是對(duì)輸出結(jié)果的補(bǔ)充，并不是推理過程的一部分。

模型只學(xué)會(huì)了怎么“像醫(yī)生一樣說有證據(jù)的話”，卻沒有學(xué)會(huì)如何“像醫(yī)生一樣查證”。

但模型有幻覺這件事目前還沒有完美解法。百川團(tuán)隊(duì)也反復(fù)強(qiáng)調(diào)，在醫(yī)學(xué)問題中，不確定性本身就是客觀存在的事實(shí)。

真正重要的是讓錯(cuò)誤盡可能提前暴露，讓使用者能夠盡早識(shí)別風(fēng)險(xiǎn)。

百川M3 Plus之前，業(yè)內(nèi)少有把“引用準(zhǔn)確性”本身當(dāng)成模型核心能力來重新定義的嘗試。

M3 Plus用證據(jù)錨定技術(shù)，把“引用”這件事量化成了可審計(jì)的技術(shù)指標(biāo)，并且提升了模型自己的引用準(zhǔn)確率——從行業(yè)普遍約75%的水平提升至95%以上。

面向醫(yī)療服務(wù)，推出“海納百川”免費(fèi)計(jì)劃

為了讓這套“證據(jù)錨定”技術(shù)真正跑在醫(yī)院的電腦和醫(yī)生的手機(jī)里，百川一邊M3 Plus的API降價(jià)70%之外，一邊同步開啟了 “海納百川計(jì)劃”。

該計(jì)劃中，M3 Plus將以API形式永久免費(fèi)開放，不限Token數(shù)量。

唯一要求是產(chǎn)品需在前臺(tái)展示“Powered by 百川”，且不得對(duì)模型輸出進(jìn)行影響準(zhǔn)確性的修改。

計(jì)劃限定對(duì)象為服務(wù)醫(yī)務(wù)工作者的機(jī)構(gòu)，包括但不限于醫(yī)療信息化廠商、醫(yī)療教育機(jī)構(gòu)、醫(yī)學(xué)研究項(xiàng)目、垂直創(chuàng)業(yè)公司等。

目前，國(guó)內(nèi)有上千家醫(yī)院和數(shù)百億投入的專項(xiàng)工程正在探索AI。“海納百川計(jì)劃”這種技術(shù)普惠戰(zhàn)略，有助于避免行業(yè)在底層技術(shù)上重復(fù)造輪子，也讓醫(yī)生端和醫(yī)療軟件廠商可以在真實(shí)場(chǎng)景中進(jìn)行多輪反復(fù)驗(yàn)證、持續(xù)迭代。

王小川透露，百川智能不是沒有算過“海納百川計(jì)劃”背后的這筆賬。

如果全國(guó)500萬醫(yī)學(xué)工作者都來使用，百川一年預(yù)計(jì)投入成本約1億元，“這是我們能接受的”。

因?yàn)橘~單背后有更昂貴的成本。在醫(yī)療領(lǐng)域，技術(shù)試錯(cuò)的代價(jià)往往最終由具體的生命來承擔(dān)。

對(duì)在診室外等號(hào)的普通人來說，很難感受到幻覺率從3%降到2.6%究竟意味著什么……但對(duì)于每一位身處一線、需要應(yīng)對(duì)海量文獻(xiàn)和復(fù)雜決策的醫(yī)生與醫(yī)學(xué)生來說，這0.4%的跨越就是更堅(jiān)實(shí)的專業(yè)底氣。

這種底氣不應(yīng)只停留在實(shí)驗(yàn)室的PPT里，應(yīng)該去往最需要它的地方。

現(xiàn)在，每一位醫(yī)生和醫(yī)學(xué)生，都可以走進(jìn)“百小應(yīng)”去親身體驗(yàn) M3 Plus 帶來的改變，看看一條結(jié)論如何被證據(jù)段落精準(zhǔn)支撐。

M3 Plus隨著免費(fèi)開放給行業(yè)伙伴之后，這種證據(jù)錨定的專業(yè)能力，會(huì)在更多真實(shí)臨床場(chǎng)景里被實(shí)際使用反復(fù)檢驗(yàn)。

醫(yī)療AI的進(jìn)步，最終會(huì)落到走廊里焦急等待的每一個(gè)普通人身上。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.