作者|子川
來源|AI先鋒官
大模型競爭越來越激烈,今天你屠個榜,明天我拿個全球第一 !
但似乎沒有一款模型在醫(yī)療領域“拍胸脯”!
畢竟,幻覺問題至今無法解決,滿嘴跑火車的情況對醫(yī)療而言,實在“致命”。
昨天,百川智能發(fā)布了循證增強醫(yī)療大模型Baichuan-M2 Plus。
評測顯示,M2 Plus 的醫(yī)療幻覺率較通用大模型顯著降低,相比 DeepSeek 低約 3 倍,甚至優(yōu)于美國最火醫(yī)療產品 OpenEvidence,可信度比肩資深臨床醫(yī)生水準。
先看M2 Plus的成績單——
在多國醫(yī)學知識考試中,得分優(yōu)于其他頂尖模型
![]()
比如,在美國執(zhí)業(yè)醫(yī)師資格考試(USMLE)中,M2 Plus拿下了97分,和GPT-5打了個平手,穩(wěn)居全球第一梯隊。
在中國執(zhí)業(yè)醫(yī)師資格考試 (NMLE),及格線360分,能考到500分以上就是大家眼里的學神,而M2 Plus直接考了568分。
不僅如此,M2 Plus的幻覺率也大幅度降低!
![]()
在病史分析、診斷思路、治療方案等真實復雜的核心醫(yī)療場景中,綜合幻覺率在所有大模型當中最低。
相較 DeepSeek R1 最新版降低3倍,顯著領先 OpenEvidence和GPT-5。
為什么模型的幻覺率有明顯的下降?
百川給M2 Plus開了獨門藥方——首創(chuàng)“六源循證推理”(EAR)范式。
簡單來說,就是三步走,給AI的嘴,上把鎖。
M2 Plus做的第一件事,就是把網(wǎng)上那些魚龍混雜的非專業(yè)信息全都屏蔽掉,只使用權威來源的醫(yī)學證據(jù)。
在此基礎上構建了從證據(jù)、到實踐、再到真實世界反饋六層證據(jù)類型的知識體系。
原始研究層:索引海量醫(yī)學期刊論文 4000 余萬篇,超過 PubMed 收錄數(shù)量,涵蓋基礎與臨床研究成果,是循證鏈條的起點;
證據(jù)綜述層:整合系統(tǒng)評價和 Meta 分析等高等級證據(jù),提供經(jīng)過匯總的研究結論;
指南規(guī)范層:引入國際和國內權威機構發(fā)布的臨床指南、專家共識和行業(yè)標準,確保回答符合最新規(guī)范;
實踐知識層:包含臨床病例報道、一線專家經(jīng)驗和診療技巧等實用知識,貼近醫(yī)療實踐場景;
公共健康教育層:匯集權威科普和公共衛(wèi)生知識,如疾病預防宣教、健康指導等內容,服務大眾健康教育;
監(jiān)管與真實世界層:涵蓋藥監(jiān)部門公告、臨床試驗登記及大規(guī)模真實世界研究數(shù)據(jù)等信息,以反映最新的監(jiān)管動態(tài)與人群研究結果;
![]()
這六個源頭像一個金字塔,從最底層的4000多萬篇醫(yī)學論文,到藥監(jiān)部門公告和真實世界的研究數(shù)據(jù),一層比一層精煉。
原始層回答“事實是否存在”、證據(jù)層回答“結論是否一致”、指南層回答“行業(yè)如何規(guī)范”、實踐層回答“醫(yī)生應如何決策”、公共層回答“患者應如何理解”、真實世界層回答“是否存在新風險”。
這么一套組合拳下來,就保證了AI的知識庫里全是干貨,先是從源頭上杜絕了胡說八道。
有了靠譜的知識庫還不夠,還得找得準。普通AI搜索就像大海撈針,而M2 Plus用的是一套叫PICO框架的思維模式。
它會像醫(yī)生一樣,把你的問題拆解成四個核心要素:人群(P)、干預(I)、對照(C)、結局(O)。
比如你問“老年人睡前用呼吸機(CPAP)能改善高血壓嗎?”
它會立刻抓住“老年人”、“呼吸機”、“高血壓”這些關鍵點,然后去知識庫里精準匹配最高質量的研究報告。
最關鍵的一步來了。為了防止AI在拿到證據(jù)后自由發(fā)揮。
百川給M2 Plus的訓練機制加了道鎖:獎勵“引用”,懲罰“臆測”。
在M2 Plus的系統(tǒng)里,如果回答能準確引用權威指南或者文獻,就會得高分;
一旦回答脫離了檢索到的證據(jù)就會受到懲罰。
同時,它還內置了內置“證據(jù)評估器”,能自動評估證據(jù)的可信度,優(yōu)先采用最高等級的證據(jù)。
最終的結果就是,M2 Plus的每一個關鍵回答,都會像寫論文一樣,清清楚楚地附上參考文獻和來源,讓你隨時可以查證。
![]()
AI看病這事兒,看起來慢慢要靠譜了。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.