網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

百川發(fā)布M2 Plus，醫(yī)療幻覺率比DeepSeek低3倍！

2025-10-23 07:52:47　來源: AI先鋒官

北京舉報

分享至

作者｜子川

來源｜AI先鋒官

大模型競爭越來越激烈，今天你屠個榜，明天我拿個全球第一！

但似乎沒有一款模型在醫(yī)療領域“拍胸脯”！

畢竟，幻覺問題至今無法解決，滿嘴跑火車的情況對醫(yī)療而言，實在“致命”。

昨天，百川智能發(fā)布了循證增強醫(yī)療大模型Baichuan-M2 Plus。

評測顯示，M2 Plus 的醫(yī)療幻覺率較通用大模型顯著降低，相比 DeepSeek 低約 3 倍，甚至優(yōu)于美國最火醫(yī)療產品 OpenEvidence，可信度比肩資深臨床醫(yī)生水準。

先看M2 Plus的成績單——

在多國醫(yī)學知識考試中，得分優(yōu)于其他頂尖模型

比如，在美國執(zhí)業(yè)醫(yī)師資格考試(USMLE)中，M2 Plus拿下了97分，和GPT-5打了個平手，穩(wěn)居全球第一梯隊。

在中國執(zhí)業(yè)醫(yī)師資格考試 (NMLE)，及格線360分，能考到500分以上就是大家眼里的學神，而M2 Plus直接考了568分。

不僅如此，M2 Plus的幻覺率也大幅度降低！

在病史分析、診斷思路、治療方案等真實復雜的核心醫(yī)療場景中，綜合幻覺率在所有大模型當中最低。

相較 DeepSeek R1 最新版降低3倍，顯著領先 OpenEvidence和GPT-5。

為什么模型的幻覺率有明顯的下降？

百川給M2 Plus開了獨門藥方——首創(chuàng)“六源循證推理”（EAR）范式。

簡單來說，就是三步走，給AI的嘴，上把鎖。

M2 Plus做的第一件事，就是把網(wǎng)上那些魚龍混雜的非專業(yè)信息全都屏蔽掉，只使用權威來源的醫(yī)學證據(jù)。

在此基礎上構建了從證據(jù)、到實踐、再到真實世界反饋六層證據(jù)類型的知識體系。

原始研究層：索引海量醫(yī)學期刊論文 4000 余萬篇，超過 PubMed 收錄數(shù)量，涵蓋基礎與臨床研究成果，是循證鏈條的起點；
證據(jù)綜述層：整合系統(tǒng)評價和 Meta 分析等高等級證據(jù)，提供經(jīng)過匯總的研究結論；
指南規(guī)范層：引入國際和國內權威機構發(fā)布的臨床指南、專家共識和行業(yè)標準，確保回答符合最新規(guī)范；
實踐知識層：包含臨床病例報道、一線專家經(jīng)驗和診療技巧等實用知識，貼近醫(yī)療實踐場景；
公共健康教育層：匯集權威科普和公共衛(wèi)生知識，如疾病預防宣教、健康指導等內容，服務大眾健康教育；
監(jiān)管與真實世界層：涵蓋藥監(jiān)部門公告、臨床試驗登記及大規(guī)模真實世界研究數(shù)據(jù)等信息，以反映最新的監(jiān)管動態(tài)與人群研究結果；

這六個源頭像一個金字塔，從最底層的4000多萬篇醫(yī)學論文，到藥監(jiān)部門公告和真實世界的研究數(shù)據(jù)，一層比一層精煉。

原始層回答“事實是否存在”、證據(jù)層回答“結論是否一致”、指南層回答“行業(yè)如何規(guī)范”、實踐層回答“醫(yī)生應如何決策”、公共層回答“患者應如何理解”、真實世界層回答“是否存在新風險”。

這么一套組合拳下來，就保證了AI的知識庫里全是干貨，先是從源頭上杜絕了胡說八道。

有了靠譜的知識庫還不夠，還得找得準。普通AI搜索就像大海撈針，而M2 Plus用的是一套叫PICO框架的思維模式。

它會像醫(yī)生一樣，把你的問題拆解成四個核心要素：人群（P）、干預（I）、對照（C）、結局（O）。

比如你問“老年人睡前用呼吸機（CPAP）能改善高血壓嗎？”

它會立刻抓住“老年人”、“呼吸機”、“高血壓”這些關鍵點，然后去知識庫里精準匹配最高質量的研究報告。

最關鍵的一步來了。為了防止AI在拿到證據(jù)后自由發(fā)揮。

百川給M2 Plus的訓練機制加了道鎖：獎勵“引用”，懲罰“臆測”。

在M2 Plus的系統(tǒng)里，如果回答能準確引用權威指南或者文獻，就會得高分；

一旦回答脫離了檢索到的證據(jù)就會受到懲罰。

同時，它還內置了內置“證據(jù)評估器”，能自動評估證據(jù)的可信度，優(yōu)先采用最高等級的證據(jù)。

最終的結果就是，M2 Plus的每一個關鍵回答，都會像寫論文一樣，清清楚楚地附上參考文獻和來源，讓你隨時可以查證。

AI看病這事兒，看起來慢慢要靠譜了。

掃碼邀請進群，我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型，順便學一些AI搞錢技能。

往期文章回顧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.