衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
誰還沒拿自己日常的小病小痛問過AI?
就是這種日常場(chǎng)景,讓AI悄悄成為很多人就醫(yī)流程里的前置入口。
尋醫(yī)問診時(shí),咱普通人可以拿DeepSeek、ChatGPT的回答作參考,醫(yī)生卻不能。但在嚴(yán)肅的醫(yī)療領(lǐng)域,不準(zhǔn)確的建議甚至比沒有建議更危險(xiǎn)。
但我們注意到,隨著AI智能越發(fā)涌現(xiàn),很多醫(yī)生,尤其是年輕醫(yī)生已經(jīng)開始嘗試擁抱AI。
All in醫(yī)療AI的百川智能告訴我們,他們的專業(yè)版模型已有約10萬醫(yī)生用戶,而且年輕人偏多,“用我們模型的用戶畫像和喝瑞幸的用戶畫像高度重合”。
![]()
不過年齡只是影響因素之一,醫(yī)療界對(duì)AI大勢(shì)的判斷并不存在根本分歧。
只是在嚴(yán)肅醫(yī)療領(lǐng)域,AI想要真正進(jìn)臨床,必須翻過兩座大山:信任與成本。
百川智能最新發(fā)布的循證增強(qiáng)醫(yī)療大模型Baichuan-M3 Plus給出了極具誠意的答案。
憑借百川智能獨(dú)創(chuàng)的六源循證技術(shù),結(jié)合Baichuan-M3基座,Baichuan-M3 Plus幻覺率降低至2.6%,處于目前公開評(píng)測(cè)中的全球最低水平。
借用這個(gè)模型,百川希望在嚴(yán)肅醫(yī)療場(chǎng)景下,正面回答“如何讓AI真正成為醫(yī)生可信賴的助手,最終惠及每一位患者”這個(gè)問題。
全球最低幻覺率
Baichuan-M3 Plus(以下簡(jiǎn)稱M3 Plus)是一個(gè)循證增強(qiáng)醫(yī)療大模型,幻覺率全球最低,不到3%。
“循證增強(qiáng)醫(yī)療大模型”是百川如今的模型主線。
循證是個(gè)醫(yī)學(xué)概念,旨在將最佳研究證據(jù)、專業(yè)經(jīng)驗(yàn)以及當(dāng)事人的意愿三者相結(jié)合,以做出更科學(xué)、可靠的決策。
![]()
就在10天前,百川醫(yī)療大模型迭代至M3版本,在OpenAI發(fā)布的醫(yī)療評(píng)測(cè)集HealthBench上奪得全球第一,反超GPT-5.2 High。
登頂背后最核心的技術(shù)殺手锏是Fact-Aware RL(事實(shí)感知強(qiáng)化學(xué)習(xí))。
傳統(tǒng)的強(qiáng)化學(xué)習(xí)(RLHF)往往只關(guān)注人類的偏好,F(xiàn)act-Aware RL技術(shù)通過在獎(jiǎng)勵(lì)模型(Reward Model)中引入醫(yī)學(xué)事實(shí)的硬性約束,讓模型在訓(xùn)練階段就形成了對(duì)幻覺的過敏反應(yīng)。
在訓(xùn)練過程中,百川還特別引入了Citation Reward Model,專門懲罰錯(cuò)誤引用。
具體到HealthBench的評(píng)測(cè)表現(xiàn)上,M3在無工具輔助的原始設(shè)定下,將幻覺率壓低到了3.5%,水平是當(dāng)時(shí)的行業(yè)天花板。
此次最新發(fā)布的M3 Plus,正是由M3模型和日臻成熟的六源循證深度融合而來。
這種結(jié)構(gòu)讓M3 Plus的幻覺率再創(chuàng)新低,來到2.6%。
![]()
這個(gè)幻覺率水平,已經(jīng)低于目前業(yè)內(nèi)公認(rèn)的標(biāo)桿產(chǎn)品水平,也低于部分人類醫(yī)生在復(fù)雜醫(yī)學(xué)問題上的平均誤判率區(qū)間。
“如果模型幻覺低能力強(qiáng),但成本太高,醫(yī)生和醫(yī)院也會(huì)難以真正用起來。”調(diào)用成本下不來,談嚴(yán)肅落地就沒有意義。
為此,M3 Plus在工程層面進(jìn)行了多輪極致優(yōu)化。
M3 Plus 在系統(tǒng)層面進(jìn)行了全面的工程重構(gòu),通過 MoE 架構(gòu)優(yōu)化、模型量化以及 Gated Eagle-3 投機(jī)解碼等關(guān)鍵技術(shù),在嚴(yán)格保證模型能力與可靠性的前提下,實(shí)現(xiàn)了 API 調(diào)用成本較上一代降低 70%。
根據(jù)百川給出的數(shù)據(jù),相同配置下,Gated Eagle-3相較原始Eagle-3可帶來約15%的推理吞吐量提升,從而直接壓低單位請(qǐng)求的推理成本。
好一個(gè)一邊讓嚴(yán)肅性提上去,一邊把價(jià)格打下來。
既有助于消解醫(yī)學(xué)界對(duì)AI時(shí)代來臨想用又不敢用的情緒,又讓大家都用得起。
首創(chuàng)“證據(jù)錨定”,模型說的每一句都是據(jù)實(shí)回答
此前的醫(yī)療大模型雖然大多支持標(biāo)注“文獻(xiàn)引用”,但在實(shí)際使用中,醫(yī)生經(jīng)常遇到兩個(gè)頭疼的痛點(diǎn)。
一種是“張冠李戴”。
模型給出了引用角標(biāo),但點(diǎn)開發(fā)現(xiàn)引用的文獻(xiàn)里壓根兒沒有那句話。
另一種是“內(nèi)容沖突”。
也是標(biāo)明了有引用,但其實(shí)是AI瞎湊瞎引的,索引的文獻(xiàn)并不能支持AI得出的結(jié)論。
據(jù)統(tǒng)計(jì),目前醫(yī)療行業(yè)常見的引用準(zhǔn)確率區(qū)間是40%到50%,也就是一半左右的引用在語義或事實(shí)上站不住腳。
溝通會(huì)上,百川智能模型技術(shù)負(fù)責(zé)人鞠強(qiáng)現(xiàn)場(chǎng)提供了一個(gè)真實(shí)案例素材——
在腫瘤藥物不良反應(yīng)的測(cè)試中,某些看起來非常專業(yè)的回答,標(biāo)明引用匯總了權(quán)威協(xié)會(huì)共識(shí)、專家指南和說明書,從形式上看幾乎無可挑剔。
但逐條核對(duì)后發(fā)現(xiàn),約90%的引用內(nèi)容與結(jié)論本身沒有直接關(guān)系,有的甚至給出的引用里,連藥物都不是詢問模型的那一個(gè)。
一個(gè)看起來有據(jù)可查的答案,背后隱藏著不可接受的嚴(yán)肅錯(cuò)誤。但因?yàn)榭瓷先ジ叨葘I(yè),有經(jīng)驗(yàn)的醫(yī)生不留神都可能踩坑,更別提還有許多初出茅廬的那些醫(yī)生可能面對(duì)這樣的答案了。
這成了百川在M3 Plus中試圖解決的核心問題。
針對(duì)這一痛點(diǎn),百川在M3 Plus中引入了證據(jù)錨定(Evidence Anchoring),將循證從理念變成模型必須遵守的結(jié)構(gòu)性約束。
與傳統(tǒng)“標(biāo)明引用”的方式不同,證據(jù)錨定并不是要求模型多列幾篇文獻(xiàn),它反過來約束模型:如果一句醫(yī)學(xué)結(jié)論找不到能與之精確對(duì)應(yīng)的原始證據(jù)段落,這句話就不應(yīng)該被說出來。
具體實(shí)現(xiàn)上,M3 Plus在生成答案時(shí),不僅需要標(biāo)注文獻(xiàn)來源,還必須將每一句關(guān)鍵醫(yī)學(xué)判斷,逐條錨定到原始論文、指南或共識(shí)中的具體段落。
每一個(gè)結(jié)論,都需要能在原文中找到明確對(duì)應(yīng)。
說得通俗易懂一點(diǎn),使用M3 Plus的醫(yī)生可以直接核查AI說的每一句話是否真的有原文支持,判斷其是否真正支持當(dāng)前結(jié)論。
引用內(nèi)容豐富,包括但不限于藥品說明書:
![]()
中英文文獻(xiàn):
![]()
以及專家共識(shí)等:
![]()
在訓(xùn)練層面,百川將“證據(jù)是否準(zhǔn)確錨定”作為獨(dú)立目標(biāo)進(jìn)行建模,通過Citation Reward Model,顯式懲罰“張冠李戴”“內(nèi)容沖突”等情況。
鞠強(qiáng)解釋,沒有證據(jù)錨定,大多數(shù)大模型就不能真正理解證據(jù)與結(jié)論之間的邏輯關(guān)系。
所謂的引用文獻(xiàn)往往發(fā)生在生成之后,是對(duì)輸出結(jié)果的補(bǔ)充,并不是推理過程的一部分。
模型只學(xué)會(huì)了怎么“像醫(yī)生一樣說有證據(jù)的話”,卻沒有學(xué)會(huì)如何“像醫(yī)生一樣查證”。
但模型有幻覺這件事目前還沒有完美解法。百川團(tuán)隊(duì)也反復(fù)強(qiáng)調(diào),在醫(yī)學(xué)問題中,不確定性本身就是客觀存在的事實(shí)。
真正重要的是讓錯(cuò)誤盡可能提前暴露,讓使用者能夠盡早識(shí)別風(fēng)險(xiǎn)。
百川M3 Plus之前,業(yè)內(nèi)少有把“引用準(zhǔn)確性”本身當(dāng)成模型核心能力來重新定義的嘗試。
M3 Plus用證據(jù)錨定技術(shù),把“引用”這件事量化成了可審計(jì)的技術(shù)指標(biāo),并且提升了模型自己的引用準(zhǔn)確率——從行業(yè)普遍約75%的水平提升至95%以上。
面向醫(yī)療服務(wù),推出“海納百川”免費(fèi)計(jì)劃
為了讓這套“證據(jù)錨定”技術(shù)真正跑在醫(yī)院的電腦和醫(yī)生的手機(jī)里,百川一邊M3 Plus的API降價(jià)70%之外,一邊同步開啟了 “海納百川計(jì)劃”。
該計(jì)劃中,M3 Plus將以API形式永久免費(fèi)開放,不限Token數(shù)量。
唯一要求是產(chǎn)品需在前臺(tái)展示“Powered by 百川”,且不得對(duì)模型輸出進(jìn)行影響準(zhǔn)確性的修改。
計(jì)劃限定對(duì)象為服務(wù)醫(yī)務(wù)工作者的機(jī)構(gòu),包括但不限于醫(yī)療信息化廠商、醫(yī)療教育機(jī)構(gòu)、醫(yī)學(xué)研究項(xiàng)目、垂直創(chuàng)業(yè)公司等。
![]()
目前,國(guó)內(nèi)有上千家醫(yī)院和數(shù)百億投入的專項(xiàng)工程正在探索AI。“海納百川計(jì)劃”這種技術(shù)普惠戰(zhàn)略,有助于避免行業(yè)在底層技術(shù)上重復(fù)造輪子,也讓醫(yī)生端和醫(yī)療軟件廠商可以在真實(shí)場(chǎng)景中進(jìn)行多輪反復(fù)驗(yàn)證、持續(xù)迭代。
王小川透露,百川智能不是沒有算過“海納百川計(jì)劃”背后的這筆賬。
如果全國(guó)500萬醫(yī)學(xué)工作者都來使用,百川一年預(yù)計(jì)投入成本約1億元,“這是我們能接受的”。
因?yàn)橘~單背后有更昂貴的成本。在醫(yī)療領(lǐng)域,技術(shù)試錯(cuò)的代價(jià)往往最終由具體的生命來承擔(dān)。
對(duì)在診室外等號(hào)的普通人來說,很難感受到幻覺率從3%降到2.6%究竟意味著什么……但對(duì)于每一位身處一線、需要應(yīng)對(duì)海量文獻(xiàn)和復(fù)雜決策的醫(yī)生與醫(yī)學(xué)生來說,這0.4%的跨越就是更堅(jiān)實(shí)的專業(yè)底氣。
這種底氣不應(yīng)只停留在實(shí)驗(yàn)室的PPT里,應(yīng)該去往最需要它的地方。
現(xiàn)在,每一位醫(yī)生和醫(yī)學(xué)生,都可以走進(jìn)“百小應(yīng)”去親身體驗(yàn) M3 Plus 帶來的改變,看看一條結(jié)論如何被證據(jù)段落精準(zhǔn)支撐。
M3 Plus隨著免費(fèi)開放給行業(yè)伙伴之后,這種證據(jù)錨定的專業(yè)能力,會(huì)在更多真實(shí)臨床場(chǎng)景里被實(shí)際使用反復(fù)檢驗(yàn)。
醫(yī)療AI的進(jìn)步,最終會(huì)落到走廊里焦急等待的每一個(gè)普通人身上。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.