![]()
來源:獵云網
1月13日,百川智能宣布正式開源新一代醫療大模型 Baichuan-M3。
據悉,Baichuan-M3在全球最權威的醫療 AI 評測 HealthBench 中以 65.1 分的綜合成績位列全球第一;在專門考驗復雜決策能力的 HealthBench Hard 上,也以44.4分的成績奪冠。這一成績,不僅刷新了 HealthBench 的最高分,更首次在醫療領域實現了對 GPT-5.2 的全面超越。
隨著監督信號持續變細、變難,模型得以不斷突破能力上限,使 M3 在復雜醫學問題上的表現實現躍遷,成為當前全球醫療溝通和推理能力最強的醫療大模型。
此外,百川M3將醫療幻覺抑制前移至模型訓練階段,在強化學習過程中將醫學事實一致性作為核心訓練目標之一,將“知之為知之,不知為不知”直接作用于模型自身能力的形成過程。這一新的訓練方法將醫學事實可靠性內化為M3自身的基礎能力,使其在不借助任何外部系統的情況下,依然能夠基于自身醫學知識進行穩定、可信的作答。
通過將事實一致性約束融入訓練流程,M3重構了幻覺抑制的訓練范式,在不依賴工具或檢索增強的純模型設置下,醫療幻覺率3.5,超越GPT-5.2,達到全球最低水平。
除了強推理和低幻覺,端到端的問診能力是本次M3最重要的一項突破。
在過去醫療大模型的應用實踐中,其不圍繞關鍵風險點展開的信息收集,即便對話看似完整,也難以支撐安全、可靠的臨床判斷,從根本上偏離了醫療“安全第一”的原則。
針對這一行業困境,我們提出了“嚴肅問診范式”與“SCAN原則”,通過Safety Stratification(安全分層)、Clarity Matters(信息澄清)、Association & Inquiry(關聯追問)與Normative Protocol(規范化輸出),將臨床問診中高度依賴經驗的思維過程,第一次系統性地“白盒化”。
圍繞SCAN原則,我們借鑒醫學教育里長期使用的 OSCE 方法,聯合 150 多位一線醫生,搭建了 SCAN-bench 評測體系,該體系以真實臨床經驗作為“標準答案”,將診療過程拆解為病史采集、輔助檢查、精準診斷三大階段,通過動態、多輪的方式進行考核,完整模擬醫生從接診到確診的全過程。相比于HealthBench,SCAN-bench是更加全流程端到端的動態評測新范式。
同時,我們還使用原生模型訓練方法取代角色扮演prompt,針對GRPO無法穩定進行長對話訓練的問題,設計了新的 SPAR 算法,使模型能夠在有限對話輪次中,把臨床真正需要的關鍵問題問全、問準,把風險兜住,讓輸出經得起復核。
在實驗過程中我們發現,問診準確度每增加2%,診療結果準確度就會增加1%。評測結果顯示,M3 在SCAN的四個維度均顯著高于人類醫生基線水平,并大幅領先于國內外頂尖模型,成功構建了從精準的臨床問詢、深度醫學推理到安全可靠決策的閉環。
M3具備的原生的“端到端”嚴肅問診能力,使它能像醫生一樣主動追問、逐層逼近,把關鍵病史和風險信號問出來,進而在完整的信息上進行深度醫學推理。評測顯示,其問診能力顯著高于真人醫生的平均水平。
當前,百川智能的醫療應用“百小應”已同步接入 M3,面向醫生與患者開放相關能力。醫生可借助它推演問診與診療思路,患者及家屬也可通過該應用更系統地理解診斷、治療、檢查與預后背后的醫學邏輯。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.