很多人可能沒有意識到,放眼全球,醫療是 AI 滲透速度最快的核心行業之一。
根據 Menlo Ventures 的最新研究,2023 年全球醫療機構的 AI 采用率僅為 3%,但到 2025 年,這一數字已飆升至 22%。短短兩年,增長超過 7 倍。
然而,當大洋彼岸的醫療 AI 加速狂飆,患者開始習慣 AI 輔助,甚至超過 45% 的美國醫生已經高頻使用 OpenEvidence 輔助決策時,國內的圖景卻呈現出一種微妙的“錯位”。
一方面,超過1000家醫院開始使用AI系統,國家醫療AI專項投入數百億元,在持續探索如何把AI應用到醫療行業。另一方面,面對復雜的臨床決策,醫生不敢輕易將信任交付給一個偶爾會“胡說八道”的黑盒。
這一困境的本質,是市面上始終缺乏一個真正成熟、嚴謹、且可托付的醫療大模型底座。幸運的是,這個長期困擾行業的“信任死結”,正在被解開。
近期,百川智能正式發布了面向醫療應用開發者的 Baichuan-M3 Plus。
與上一代 M3 相比,M3 Plus 不再僅僅追求通用能力的提升,而是將觸角伸向了真實醫療場景最痛的地方——如何讓模型變得足夠可靠,并具備規模化落地的經濟性。
如果說之前的醫療 AI 還是“嘗鮮品”,那么 M3 Plus 的發布,或許真正有望打通國內醫療 AI 落地的“最后一公里”。
它是如何做到的?我們一起來看看。
/ 01 /AI醫療的“最后一公里”——信任
在所有垂直 AI 賽道中,醫療已經成為資金最密集、確定性最高的方向之一。
2025 年,全球醫療 AI 的年度支出達到 14 億美元,幾乎是 2024 年的三倍。這一數據也標志著一個歷史性時刻:醫療首次超越法律、金融、設計,成為 AI 垂直領域中資金最密集的賽道。
僅在 AI 醫療領域,已經跑出了 8 家 AI 獨角獸,數量明顯高于其他垂直行業。其中表現最突出的,當屬 OpenEvidence。
不到兩年時間內,其月度醫生咨詢量從 2024 年的 36 萬次,增長到 2025 年的850 萬次,增長超過20 倍。
把視角拉回國內,AI在醫療場景加速落地的趨勢同樣存在。
比如,新華社在 2025 年 2 月的一篇報道中提到,國內已有超過 1000 家醫院提供大模型相關的醫療服務和智能應用,醫院可以基于不同大模型底座,開發 AI 助手、健康知識問答等功能。
雖然宏觀層面在大力推進,但落回到微觀層面,也暴露出了一些不足。
比如,大部分醫生并不知道如何使用AI。一個很明顯的例子是,許多醫生已經在私下使用 AI 做資料檢索和輔助分析。但一旦涉及到正式的臨床系統,態度立刻變得謹慎。
中國醫生正面臨的一個現實的挑戰:市面上缺乏一個真正成熟、可托付的醫療大模型。
事實上,這一問題并非國內獨有。
今年年初,國外投資機構Bessemer Venture Partners聯合Amazon Web Services與 Bain & Company,對醫療行業 400 多家公司進行了一次系統調研,試圖回答一個問題:AI 為什么在醫療落地會卡住?
結論指向四個核心障礙:安全問題、缺乏內部 AI 專業能力、成本高企,以及數據準備的挑戰。如果進一步抽象,會發現除數據問題外,其余障礙幾乎都可以歸結為兩個命題:
AI 是否足夠可靠,以及是否具備可接受的經濟性。
在醫療場景中,這兩點不是錦上添花,而是能否使用的前提,尤其是前者。
這也揭示了AI在醫療場景落地的特殊性,與其他AI產品更側重于“能力展示”不同,AI醫療應用更追求“可信交付”。而這恰恰也給了創業公司巨大的機會。
/ 02 /死磕“幻覺”與“有證可循”,百川正在定義醫療AI的新范式
百川選擇的方向,恰恰是在模型層面系統性解決這一問題。
在上周開源發布了 Baichuan-M3后,這次百川進一步推出了面向醫療應用開發者的 M3 Plus。
![]()
與 M3 相比,M3 Plus進一步探索了模型在真實醫療場景中,變得足夠可靠、并具備規模化落地的可能性。
要理解 M3 Plus 的意義,需要回到百川更早的技術選擇。
在去年的 Baichuan-M2 Plus 中,百川首次將「六源循證」這一循證醫學范式系統性引入模型訓練與推理過程。與其說,這是一個簡單的知識庫,不如說是一套圍繞醫學證據構建的結構化認知體系。
這套體系覆蓋從原始研究、證據綜述、指南規范,到臨床實踐、公共健康教育以及監管與真實世界數據等多個層級。模型在訓練和推理過程中,被明確約束只能使用權威醫學來源,而非互聯網泛化信息,并且需要在不同證據層級之間建立清晰映射。
這種設計的直接結果,是模型真正學會了如何基于證據給出判斷。在這一機制下,模型的醫學幻覺顯著下降,可信度開始逼近資深臨床醫生的決策風格。
在 M3 中,百川進一步把幻覺控制前移到模型基座層面,探索更底層的解決路徑,團隊構建了一套事實感知強化學習(Fact-Aware RL)架構。
所謂的Fact-Aware RL ,簡單來說,就是在模型訓練的每一次獎懲中,都加入對醫學事實的嚴苛校驗。這相當于在 AI 的大腦里植入了一個實時的「審稿人」。當模型試圖為了讓答案看起來通順而編造一個藥物劑量時,懲罰機制會立刻介入。
這樣一來,使底座模型在無工具的設定下幻覺也能大幅降低到SOTA水平。
而 M3 Plus,正是將這兩條技術路線合并的結果:一方面,繼承 M3 的低幻覺模型基座;另一方面,在此之上系統性強化循證推理能力。
![]()
在六源循證體系的約束下,模型的事實性幻覺進一步下降,開始具備在真實醫療應用中“可托付”的基礎。
當然,在醫療場景中,僅僅“少說錯話”還不夠。與面向大眾健康助手不同,一個AI產品終究能否被醫生信任,往往取決于另一件事:引用是否準確。
原因很簡單,在醫療場景里,所有決策都要求有引用,因為醫療決策本身就是一個以證據為核心的責任體系。
雖然說引用很重要,但在引用準確性這一關鍵問題上,始終缺乏系統性的優化路徑。現實中,醫療大模型的引用錯誤非常常見,部分市場主流模型產出的結果里,單個問題的引用錯誤率甚至能超過90%。看似非常專業,引用了許多權威協會的專家共識、原則性的官方文件,下面還有一些說明書之類的東西。
但要么“張冠李戴”,看似有引用編號,但文獻內容并不支持當前表述;要么“內容沖突”,角標形式正確,但模型并未真正理解證據立場,只是機械拼接。
這種引用不準確的問題,在醫療場景中變得尤為可怕,但卻始終未引發足夠的重視。
問題的根源在于,很多模型只是把“是否給出引用”當作生成約束,卻從未把“引用是否正確”作為一個可以學習、可以懲罰的核心目標。
在 M3 Plus 中,百川選擇正面解決這一問題,將引用準確性作為獨立的訓練目標進行系統建模:
一是引入專門的 Citation Reward Model,對引用行為本身進行學習;
二是對多類引用錯誤進行明確懲罰,包括編號存在但內容不匹配、描述與原文證據不一致、以及關鍵證據漏召回;
三是將引用正確性與六源循證體系、答案正確性深度耦合,使引用不再是生成完成后的“裝飾”,而是貫穿檢索、理解與生成全過程的結構性約束。
在這一訓練機制下,模型被迫只在“能夠被證據支持”的空間內進行推理。最終,結論與證據段落的匹配準確率超過 95%,真正讓 AI 的醫學判斷做到可核驗、可追責、可教學。
![]()
總的來說,M3 Plus 所做的事情,并不是再一次能力堆疊,而是試圖在模型層面回答一個更根本的問題:如何讓AI的每一次輸出,都有據可查、可信可用。
/ 03 /用成本優勢,砸開了醫療 AI 的天花板
當然,醫療大模型要真正進入真實世界,僅僅做到“效果可靠”還不夠,成本同樣是決定能否規模化落地的硬約束。
在現實部署中,醫療機構和商業應用面對的,并不只是“模型是否足夠強”的問題,更直接的挑戰在于:最先進模型的調用成本,是否允許它被高頻、長期、穩定地使用。如果每一次推理都意味著顯著的邊際成本,再好的能力也只能停留在試點階段。
正是基于這一判斷,在 M3 Plus 中,百川圍繞醫學場景,對模型架構、推理路徑與部署形態進行了系統性的工程重構,在不犧牲模型可靠性與醫學能力的前提下,將綜合使用成本壓縮至上一代的約 30%,為真實規模化使用打開空間。
正是在這一基礎上,百川在經濟性約束上完成了關鍵突破,具備被更廣泛使用的現實條件。
目前,百川不僅面向開發者開放 API 的限時免費體驗,更發起 「海納百川」計劃:面向所有服務醫務工作者的機構,免費提供全球幻覺最低循證增強醫療大模型 M3 Plus 的 API,把服務醫生的AI能力直接交到生態伙伴手里。
當可靠性與經濟性同時被突破,AI 才第一次具備在醫療體系中持續運行、規模化部署的可能性。也只有在這一刻,醫療 AI 的天花板,才真正開始被打開。
從市場規模看,這是一塊足夠大的“長期戰場”。根據公開數據,中國醫療衛生總費用已超過 8 萬億元人民幣,占 GDP 的比重接近 8%,直接和間接從業人員規模達 千萬人以上。無論從支出體量還是社會影響力來看,醫療都是典型的“國民級行業”。
與以往醫療信息化項目不同,本輪 AI 在醫療行業的落地,呈現出明顯的非線性加速特征。根據Menlo Ventures 的報告,醫療系統的傳統 IT 采購周期,已從 8.0 個月縮短至 6.6 個月;門診服務提供商的采購周期,也從 6.0 個月降至 4.7 個月。
AI滲透加速的原因也很好理解,醫療行業本身存在大量剛性需求,使 AI 更容易擊中“非可選項”。
舉個例子,就拿醫生需求來說,醫學知識的爆炸式增長,讓臨床信息處理本身變得不可持續。
現在,醫學知識平均每 5 年更新一次,文獻以每兩分鐘一篇的速度增加。在這樣的背景下,醫生需要在極短時間內完成大量信息篩選與判斷,而傳統檢索工具已難以勝任。
也正是在這一現實背景下,百川的布局顯現出更深層的意義。
/ 04 /總結
過去幾年,大模型領域反復上演著同一種敘事:Demo 足夠驚艷,但真正落地卻異常艱難。能力的提升,并沒有自然轉化為可持續的應用。
百川所體現出的,是一種在行業中并不常見的清醒判斷。在醫療這個萬億級的國民行業里,技術是否“最強”并不是首要問題,“用得起”和“信得過”同樣重要,甚至更重要。
通過 Gated Eagle-3 投機解碼和面向醫學 MoE 的量化重構,百川解決的并不只是算力成本的問題,而是 AI 是否具備進入真實醫療流程的“入場條件”。
在醫學知識以分鐘級速度膨脹的當下,醫生個體的認知與處理能力已接近極限。如何在不增加醫生負擔、不引入額外風險的前提下,擴展醫學決策的能力邊界,正在成為整個體系必須回答的問題。一個不知疲倦、成本可控、且具備嚴格循證約束的 AI,更像是一種基礎能力的延伸,而非簡單的工具替代。
從這個角度看,百川所構建的,并不只是一個模型或一套 API,而是在嘗試為智能醫療建立一層可被長期依賴的技術底座。
![]()
在這場關乎生命與健康的變革中,百川正試圖證明:最好的科技,不是為了取代醫生,而是為了讓醫生回歸治愈的本質,讓醫療回歸服務的初心。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.