作者|子川
來源|AI先鋒官
大模型競爭越來越激烈,今天你屠個(gè)榜,明天我拿個(gè)全球第一 !
但似乎沒有一款模型在醫(yī)療領(lǐng)域“拍胸脯”!
畢竟,幻覺問題至今無法解決,滿嘴跑火車的情況對醫(yī)療而言,實(shí)在“致命”。
昨天,百川智能發(fā)布了循證增強(qiáng)醫(yī)療大模型Baichuan-M2 Plus。
評(píng)測顯示,M2 Plus 的醫(yī)療幻覺率較通用大模型顯著降低,相比 DeepSeek 低約 3 倍,甚至優(yōu)于美國最火醫(yī)療產(chǎn)品 OpenEvidence,可信度比肩資深臨床醫(yī)生水準(zhǔn)。
先看M2 Plus的成績單——
在多國醫(yī)學(xué)知識(shí)考試中,得分優(yōu)于其他頂尖模型
![]()
比如,在美國執(zhí)業(yè)醫(yī)師資格考試(USMLE)中,M2 Plus拿下了97分,和GPT-5打了個(gè)平手,穩(wěn)居全球第一梯隊(duì)。
在中國執(zhí)業(yè)醫(yī)師資格考試 (NMLE),及格線360分,能考到500分以上就是大家眼里的學(xué)神,而M2 Plus直接考了568分。
不僅如此,M2 Plus的幻覺率也大幅度降低!
![]()
在病史分析、診斷思路、治療方案等真實(shí)復(fù)雜的核心醫(yī)療場景中,綜合幻覺率在所有大模型當(dāng)中最低。
相較 DeepSeek R1 最新版降低3倍,顯著領(lǐng)先 OpenEvidence和GPT-5。
為什么模型的幻覺率有明顯的下降?
百川給M2 Plus開了獨(dú)門藥方——首創(chuàng)“六源循證推理”(EAR)范式。
簡單來說,就是三步走,給AI的嘴,上把鎖。
M2 Plus做的第一件事,就是把網(wǎng)上那些魚龍混雜的非專業(yè)信息全都屏蔽掉,只使用權(quán)威來源的醫(yī)學(xué)證據(jù)。
在此基礎(chǔ)上構(gòu)建了從證據(jù)、到實(shí)踐、再到真實(shí)世界反饋六層證據(jù)類型的知識(shí)體系。
原始研究層:索引海量醫(yī)學(xué)期刊論文 4000 余萬篇,超過 PubMed 收錄數(shù)量,涵蓋基礎(chǔ)與臨床研究成果,是循證鏈條的起點(diǎn);
證據(jù)綜述層:整合系統(tǒng)評(píng)價(jià)和 Meta 分析等高等級(jí)證據(jù),提供經(jīng)過匯總的研究結(jié)論;
指南規(guī)范層:引入國際和國內(nèi)權(quán)威機(jī)構(gòu)發(fā)布的臨床指南、專家共識(shí)和行業(yè)標(biāo)準(zhǔn),確保回答符合最新規(guī)范;
實(shí)踐知識(shí)層:包含臨床病例報(bào)道、一線專家經(jīng)驗(yàn)和診療技巧等實(shí)用知識(shí),貼近醫(yī)療實(shí)踐場景;
公共健康教育層:匯集權(quán)威科普和公共衛(wèi)生知識(shí),如疾病預(yù)防宣教、健康指導(dǎo)等內(nèi)容,服務(wù)大眾健康教育;
監(jiān)管與真實(shí)世界層:涵蓋藥監(jiān)部門公告、臨床試驗(yàn)登記及大規(guī)模真實(shí)世界研究數(shù)據(jù)等信息,以反映最新的監(jiān)管動(dòng)態(tài)與人群研究結(jié)果;
![]()
這六個(gè)源頭像一個(gè)金字塔,從最底層的4000多萬篇醫(yī)學(xué)論文,到藥監(jiān)部門公告和真實(shí)世界的研究數(shù)據(jù),一層比一層精煉。
原始層回答“事實(shí)是否存在”、證據(jù)層回答“結(jié)論是否一致”、指南層回答“行業(yè)如何規(guī)范”、實(shí)踐層回答“醫(yī)生應(yīng)如何決策”、公共層回答“患者應(yīng)如何理解”、真實(shí)世界層回答“是否存在新風(fēng)險(xiǎn)”。
這么一套組合拳下來,就保證了AI的知識(shí)庫里全是干貨,先是從源頭上杜絕了胡說八道。
有了靠譜的知識(shí)庫還不夠,還得找得準(zhǔn)。普通AI搜索就像大海撈針,而M2 Plus用的是一套叫PICO框架的思維模式。
它會(huì)像醫(yī)生一樣,把你的問題拆解成四個(gè)核心要素:人群(P)、干預(yù)(I)、對照(C)、結(jié)局(O)。
比如你問“老年人睡前用呼吸機(jī)(CPAP)能改善高血壓嗎?”
它會(huì)立刻抓住“老年人”、“呼吸機(jī)”、“高血壓”這些關(guān)鍵點(diǎn),然后去知識(shí)庫里精準(zhǔn)匹配最高質(zhì)量的研究報(bào)告。
最關(guān)鍵的一步來了。為了防止AI在拿到證據(jù)后自由發(fā)揮。
百川給M2 Plus的訓(xùn)練機(jī)制加了道鎖:獎(jiǎng)勵(lì)“引用”,懲罰“臆測”。
在M2 Plus的系統(tǒng)里,如果回答能準(zhǔn)確引用權(quán)威指南或者文獻(xiàn),就會(huì)得高分;
一旦回答脫離了檢索到的證據(jù)就會(huì)受到懲罰。
同時(shí),它還內(nèi)置了內(nèi)置“證據(jù)評(píng)估器”,能自動(dòng)評(píng)估證據(jù)的可信度,優(yōu)先采用最高等級(jí)的證據(jù)。
最終的結(jié)果就是,M2 Plus的每一個(gè)關(guān)鍵回答,都會(huì)像寫論文一樣,清清楚楚地附上參考文獻(xiàn)和來源,讓你隨時(shí)可以查證。
![]()
AI看病這事兒,看起來慢慢要靠譜了。
掃碼邀請進(jìn)群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。
往期文章回顧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.