![]()
1月22日,百川智能正式發(fā)布 Baichuan-M3 Plus,嚴(yán)肅醫(yī)療場景下的問答準(zhǔn)確性、可靠性,再次刷新了剛剛推出的M3所創(chuàng)下的世界紀(jì)錄。憑借獨(dú)創(chuàng)的六源循證技術(shù)與M3基座結(jié)合,M3 Plus將幻覺率降低至2.6%,低于 Open Evidence,達(dá)到全球最低水平;首創(chuàng)“證據(jù)錨定”技術(shù),不僅給出引文來源,還能將模型生成的每一句醫(yī)學(xué)結(jié)論,精確錨定到原始論文中的對(duì)應(yīng)證據(jù)段落,使 AI 的醫(yī)學(xué)判斷真正做到可核驗(yàn)、可追責(zé)、可教學(xué)。
更具意義的是,百川宣布推出「海納百川」計(jì)劃,將全球最低幻覺的循證增強(qiáng)醫(yī)療大模型以API形式,免費(fèi)開放給中國醫(yī)療服務(wù)機(jī)構(gòu),共同繁榮國內(nèi)的AI醫(yī)療生態(tài),推動(dòng)中國AI醫(yī)療的變革,讓每一位中國醫(yī)務(wù)工作者都能擁有可靠、好用的AI助手。
低幻覺率再次刷新世界紀(jì)錄,讓AI具備邁向臨床的診療能力
對(duì)于中國的醫(yī)生而言,擁抱AI的先決條件,是AI真實(shí)具備了足夠優(yōu)秀的診療能力。當(dāng)患者頻繁使用DeepSeek、豆包等通用大模型的AI產(chǎn)品去尋求診療建議,大量的誤判、幻覺,不僅讓醫(yī)生不勝其煩,更逐漸演變?yōu)橐粓鰧?duì)中國醫(yī)療AI技術(shù)的信任危機(jī)。
隨著上周百川M3大模型的正式開源,這一局面已被徹底打破。M3不僅在 Healthbench、Healthbench Hard 等多個(gè)權(quán)威評(píng)測中登頂榜首,實(shí)現(xiàn)了對(duì) GPT-5.2的全面超越,更在 OpenAI 引以為傲的低幻覺領(lǐng)域完成超越,以3.5%的幻覺率領(lǐng)跑全球。
作為百川拓展低幻覺技術(shù)路線的成功實(shí)踐,M3首創(chuàng)的 Fact-Aware RL的強(qiáng)化學(xué)習(xí)范式,使底座模型在無工具的設(shè)定下,幻覺也能大幅降低到SOTA水平。在此基礎(chǔ)上,M3 Plus 將 M2 Plus 模型已驗(yàn)證有效的六源循證范式,引入模型訓(xùn)練和推理過程,確保模型的每條建議都有專業(yè)醫(yī)學(xué)證據(jù)支持。最終,M3 Plus的事實(shí)性幻覺降低到新的SOTA,僅2.6%,相較GPT-5.2大幅下降超30%。即便與行業(yè)標(biāo)桿 Open Evidence相比,M3 Plus 也完成了超越。
![]()
首創(chuàng)“證據(jù)錨定”技術(shù):讓 AI 的每一句醫(yī)學(xué)結(jié)論,都能被逐句核驗(yàn)
在循證醫(yī)學(xué)體系中,真正決定醫(yī)生是否信任一條結(jié)論的,從來不是語言是否流暢,而是結(jié)論背后的證據(jù)是否權(quán)威、是否準(zhǔn)確、是否可追溯。相比“說得像不像醫(yī)生”,臨床更關(guān)心的是:這句話,究竟依據(jù)哪篇論文、哪條指南、哪一段原文。
當(dāng)前行業(yè)中,無論是通用大模型還是醫(yī)療模型,大多已支持“文獻(xiàn)引用”——在結(jié)論后標(biāo)注論文或指南來源。但在實(shí)際使用中,醫(yī)生往往會(huì)發(fā)現(xiàn):點(diǎn)開引文,依然無法判斷 AI 的這句結(jié)論究竟源自哪一段證據(jù)。更常見的問題是兩類:一是“張冠李戴”,引用編號(hào)存在,但文獻(xiàn)內(nèi)容對(duì)不上;二是“內(nèi)容沖突”,文獻(xiàn)本身正確,但被引用的段落與結(jié)論并不匹配,甚至存在拼接、誤讀。
百川 M3 Plus 首創(chuàng)“證據(jù)錨定(Evidence Anchoring)”技術(shù),不是簡單標(biāo)注“引用自哪篇文獻(xiàn)”,而是要求模型生成的每一句醫(yī)學(xué)結(jié)論,都必須精確對(duì)應(yīng)到原始論文或指南中的具體證據(jù)段落。每一句判斷,都能被逐字溯源、逐條核驗(yàn)。
為實(shí)現(xiàn)這一目標(biāo),百川將“證據(jù)錨定”作為獨(dú)立訓(xùn)練目標(biāo),引入 Citation Reward Model,對(duì)錯(cuò)誤引用進(jìn)行明確懲罰,讓模型只能在“確實(shí)有證據(jù)支持”的空間中推理與生成。最終,結(jié)論與證據(jù)段落的匹配準(zhǔn)確率超過 95%,真正讓 AI 的醫(yī)學(xué)判斷做到可核驗(yàn)、可追責(zé)、可教學(xué)。
![]()
M3 Plus API 調(diào)用價(jià)格較上一代模型大幅降低70%
在大模型快速演進(jìn)的當(dāng)下,能力越強(qiáng)的模型,調(diào)用成本往往越高,許多優(yōu)秀的應(yīng)用因此難以規(guī)模化落地,更難真正走進(jìn)臨床一線。百川認(rèn)為,只有持續(xù)降低智力成本,AI 才能覆蓋臨床、教學(xué)等真實(shí)場景,成為醫(yī)生和患者“用得起、用得好”的基礎(chǔ)能力。
為此,M3 Plus 在系統(tǒng)層面進(jìn)行了全面的工程重構(gòu),通過 MoE 架構(gòu)優(yōu)化、模型量化以及 Gated Eagle-3 投機(jī)解碼等關(guān)鍵技術(shù),在嚴(yán)格保證模型能力與可靠性的前提下,實(shí)現(xiàn)了 API 調(diào)用成本較上一代降低 70%,為 AI 在醫(yī)療場景的規(guī)模化應(yīng)用掃清了關(guān)鍵障礙。
百川全面開放M3 Plus的技術(shù)能力,API限時(shí)免費(fèi)體驗(yàn)15天,所有開發(fā)者均可申請(qǐng)使用。
「海納百川」計(jì)劃開啟,M3 Plus 向行業(yè)伙伴免費(fèi)開放
隨著人工智能開始進(jìn)入門診、病房和醫(yī)學(xué)教學(xué)等真實(shí)場景,越來越多醫(yī)生在工作中接觸到 AI:查資料、看指南、對(duì)照證據(jù)、推敲診療方案。但在高強(qiáng)度、強(qiáng)責(zé)任的臨床環(huán)境中,AI 能在多大程度上真正幫到醫(yī)生,仍需要在真實(shí)使用中不斷探索。
醫(yī)生“用好 AI”的新局面,要靠足夠多的行業(yè)伙伴在真實(shí)場景里一起打磨——怎么嵌入醫(yī)療流程、怎么做證據(jù)呈現(xiàn)、怎么做風(fēng)險(xiǎn)提示、怎么支持年輕醫(yī)生成長。
為此,百川發(fā)起 「海納百川」計(jì)劃:面向所有服務(wù)醫(yī)務(wù)工作者的機(jī)構(gòu),免費(fèi)提供全球幻覺最低循證增強(qiáng)醫(yī)療大模型 M3 Plus 的 API,把服務(wù)醫(yī)生的AI能力直接交到生態(tài)伙伴手里。
從核心技術(shù)的持續(xù)突破,到面向行業(yè)生態(tài)的免費(fèi)開放,「海納百川」不僅是一個(gè)名字,更是一份推動(dòng)中國AI+醫(yī)療發(fā)展的承諾。百川愿與行業(yè)伙伴一道,圍繞醫(yī)生、面向患者,推動(dòng)醫(yī)療 AI 更安全、更可及、更有溫度地發(fā)展,讓技術(shù)進(jìn)步真正轉(zhuǎn)化為人民健康的長期福祉。
「海納百川」計(jì)劃|參與條件:
適用對(duì)象:
為醫(yī)務(wù)工作者提供服務(wù)的機(jī)構(gòu)
醫(yī)務(wù)工作者包括醫(yī)生、藥劑師、醫(yī)技師、護(hù)士、健管師、醫(yī)學(xué)生等
適用場景僅限于:
臨床輔助決策、醫(yī)學(xué)教育
用途限制:
僅用于真實(shí)服務(wù)場景、不得用于數(shù)據(jù)生產(chǎn)
使用要求:
產(chǎn)品需明確展示 Powered by 百川、不得對(duì)模型輸出進(jìn)行影響準(zhǔn)確性的修改
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.