<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      百川開源全球最強醫療大模型M3,「嚴肅問診」定義AI醫療新能力

      0
      分享至

      勇礪商業評論 阿桶觀察 白麗

      2026年1月13日,百川智能正式開源新一代醫療大模型 Baichuan-M3,其在全球最權威的醫療 AI 評測 HealthBench 中以 65.1 分的綜合成績位列全球第一;在專門考驗復雜決策能力的 HealthBench Hard 上,也以44.4分的成績奪冠。這一成績,不僅刷新了 HealthBench 的最高分,更首次在醫療領域實現了對 GPT-5.2 的全面超越。在OpenAI引以為傲的低幻覺領域,M3也實現了超越,幻覺率3.5全球最低。

      此外,M3 還首次具備了原生的“端到端”嚴肅問診能力。它能像醫生一樣主動追問、逐層逼近,把關鍵病史和風險信號問出來,進而在完整的信息上進行深度醫學推理。評測顯示,其問診能力顯著高于真人醫生的平均水平。

      Hugging Face 地址:https://huggingface.co/baichuan-inc/Baichuan-M3-235B

      GitHub 地址:https://github.com/baichuan-inc/Baichuan-M3-235B

      醫療溝通和推理能力超越 GPT-5.2,登頂世界第一

      2025年5月份,OpenAI發布HealthBench,由 262 位來自 60 個國家的醫生共同構建,收錄了 5000 組高度逼真的多輪醫療對話,構建了全球最權威、也最貼近真實臨床場景的醫療評測集。這一事件,被視為 OpenAI 在醫療領域開始“重兵投入”,吹響進軍醫療的號角。

      相當長一段時間里,無論是HealthBench總分還是 HealthBench-Hard 子集, GPT系列模型從未被超越。2025 年 8 月,百川開源醫療增強大模型 M2 在 HealthBench 上力壓 gpt-oss-120B、DeepSeek-R1 等同期所有開源模型,并在 HealthBench Hard 上取得 34.7 分的成績,僅次于GPT-5,成為全球唯二突破 32 分的模型。



      2025年,強化學習無疑是新一代 Scaling Law 的技術中軸。在M2 發布后的五個月里,我們對強化學習系統進行了全面升級,將原本以患者模擬器和靜態 Rubric 為主的半動態反饋,升級為隨模型能力不斷演進的全動態 Verifier System。隨著監督信號持續變細、變難,模型得以不斷突破能力上限,使 M3 在復雜醫學問題上的表現實現躍遷,不僅在 HealthBench 總分上超越 OpenAI 最新模型 GPT-5.2,也在 HealthBench Hard 上登頂,成為當前全球醫療溝通和推理能力最強的醫療大模型。

      重構幻覺抑制的訓練范式,刷新醫療幻覺率底線

      幻覺是這一代大模型技術范式的通病,更是AI進入嚴肅醫療的攔路虎。在大多數場景幻覺只是體驗問題,而在嚴肅醫療場景可導致安全事件。

      降低幻覺,一直是 OpenAI 最重視的研究方向之一。幾乎每一代 GPT 模型的幻覺率均為行業最低。OpenAI也是第一個單獨評測醫療能力和提供醫療服務的通用模型公司。

      國內 DeepSeek等模型的普及,讓越來越多人開始使用AI并嘗試進行醫療健康咨詢。但大多數模型公司并沒有把“降幻覺”提升到與推理、代碼等相同的高度。用這樣的模型獲取健康咨詢和診療建議,對AI醫療的普及和醫患信任建立帶來很大困擾。

      百川M3將醫療幻覺抑制前移至模型訓練階段,在強化學習過程中將醫學事實一致性作為核心訓練目標之一,將“知之為知之,不知為不知”直接作用于模型自身能力的形成過程。這一新的訓練方法將醫學事實可靠性內化為M3自身的基礎能力,使其在不借助任何外部系統的情況下,依然能夠基于自身醫學知識進行穩定、可信的作答。

      通過將事實一致性約束融入訓練流程,M3重構了幻覺抑制的訓練范式,在不依賴工具或檢索增強的純模型設置下,醫療幻覺率3.5,超越GPT-5.2,達到全球最低水平。



      構建「嚴肅問診」新能力,端到端問診超越真人醫生

      除了強推理和低幻覺,端到端的問診能力是本次M3最重要的一項突破。2025年行業的技術共識是,用戶提供更完整的上下文,模型才有更好的表現??稍卺t療領域,患者很難完整表達自己的病癥,需要模型像醫生一樣有能力把患者的混亂敘述轉變成可做診療決策的信息。

      HealthBench代表了OpenAI對臨床場景的認知高度,然而它本質上是一個切片式的評測,考核的更像是“AI會不會回答問題”,而不是帶著診療目標,完整的患者信息收集。這也正說明了行業對問診重要性和建模思路的理解不足。

      應用實踐中,通過prompt“你是一位經驗豐富的醫生”,激活模型的“角色扮演”是更常見的做法。這種方式得到的是模型的表演行為,而非內生能力,激活的是模型應該提問的行為,而不是必須獲取關鍵信息的思考。例如,臨床醫生面對患者的第一反應,永遠是先排除危急重癥,再考慮常規診療,這是刻在職業本能里的安全優先級。但常見的“角色扮演”的問診方式,無法將“紅旗征識別與處置”作為核心行動原則。這種不圍繞關鍵風險點展開的信息收集,即便對話看似完整,也難以支撐安全、可靠的臨床判斷,從根本上偏離了醫療“安全第一”的原則。

      針對這一行業困境,我們提出了“嚴肅問診范式”與“SCAN原則”,通過Safety Stratification(安全分層)、Clarity Matters(信息澄清)、Association & Inquiry(關聯追問)與Normative Protocol(規范化輸出),將臨床問診中高度依賴經驗的思維過程,第一次系統性地“白盒化”。

      圍繞SCAN原則,我們借鑒醫學教育里長期使用的 OSCE 方法,聯合 150 多位一線醫生,搭建了 SCAN-bench 評測體系,該體系以真實臨床經驗作為“標準答案”,將診療過程拆解為病史采集、輔助檢查、精準診斷三大階段,通過動態、多輪的方式進行考核,完整模擬醫生從接診到確診的全過程。相比于HealthBench,SCAN-bench是更加全流程端到端的動態評測新范式。

      同時,我們還使用原生模型訓練方法取代角色扮演prompt,針對GRPO無法穩定進行長對話訓練的問題,設計了新的 SPAR 算法,使模型能夠在有限對話輪次中,把臨床真正需要的關鍵問題問全、問準,把風險兜住,讓輸出經得起復核。

      在實驗過程中我們發現,問診準確度每增加2%,診療結果準確度就會增加1%。評測結果顯示,M3 在SCAN的四個維度均顯著高于人類醫生基線水平,并大幅領先于國內外頂尖模型,成功構建了從精準的臨床問詢、深度醫學推理到安全可靠決策的閉環。



      從 1 月初 OpenAI 發布醫療產品 ChatGPT Health,到今天 Anthropic 推出 Claude for Healthcare,AI 醫療正在全球范圍內提檔加速,競爭也正式進入深水區。在這場競速中,作為國內唯一專注醫療的大模型企業,百川持續突破低幻覺率、端到端問診和復雜臨床推理等核心能力,已從“跟隨者”躍遷為行業“引領者”與新范式的“定義者”,正以硬核實力扛起中國 AI 醫療發展的旗幟。

      我們的醫療應用“百小應”已同步接入 M3,面向醫生與患者開放相關能力。醫生可借助它推演問診與診療思路,患者及家屬也可通過該應用更系統地理解診斷、治療、檢查與預后背后的醫學邏輯。(白麗)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      TOP14位身高170以上的女神,有顏有燈有演技

      TOP14位身高170以上的女神,有顏有燈有演技

      素然追光
      2026-01-02 02:45:02
      發現馬上扔!一家四口吃了被放倒!醫生:煮熟也沒用

      發現馬上扔!一家四口吃了被放倒!醫生:煮熟也沒用

      路醫生健康科普
      2025-12-12 14:56:15
      s媽第六次發文,有人擔心她想不開!網友 后悔來不及了

      s媽第六次發文,有人擔心她想不開!網友 后悔來不及了

      草莓解說體育
      2026-01-25 04:43:15
      馮小剛養女徐朵曬家中日常,別墅寬敞卻樸素,夫妻倆寵溺藏不住

      馮小剛養女徐朵曬家中日常,別墅寬敞卻樸素,夫妻倆寵溺藏不住

      驕陽之夏明
      2026-01-24 19:37:45
      貝森特:中國是俄羅斯石油最大買家但中國再買不到委內瑞拉石油了

      貝森特:中國是俄羅斯石油最大買家但中國再買不到委內瑞拉石油了

      達文西看世界
      2026-01-24 20:26:02
      六旬老人跟團北京5日游,第3天猝死!連續兩天凌晨集合,導游臨時在車上通知增加游覽項目,法院判了

      六旬老人跟團北京5日游,第3天猝死!連續兩天凌晨集合,導游臨時在車上通知增加游覽項目,法院判了

      都市快報橙柿互動
      2026-01-24 21:54:45
      國家動真格了!封殺大批網紅,原因一致,沒有一個值得同情

      國家動真格了!封殺大批網紅,原因一致,沒有一個值得同情

      娛小余
      2026-01-23 22:18:02
      胡春華發表署名文章

      胡春華發表署名文章

      社評
      2025-10-31 10:11:37
      凌晨4點開戰!西甲爭冠格局突變 皇馬贏球即登頂

      凌晨4點開戰!西甲爭冠格局突變 皇馬贏球即登頂

      古裝戲精
      2026-01-24 14:00:18
      演員王傳君發文宣布退出

      演員王傳君發文宣布退出

      喬話
      2026-01-22 17:43:06
      北京兩會|市政協委員沈騰:建議醫院建立“續方快線”,分流開藥與看病人員

      北京兩會|市政協委員沈騰:建議醫院建立“續方快線”,分流開藥與看病人員

      北青網-北京青年報
      2026-01-24 20:47:14
      觸目驚心!2025俄羅斯高校集體崩盤,無一所進全球前200

      觸目驚心!2025俄羅斯高校集體崩盤,無一所進全球前200

      老馬拉車莫少裝
      2026-01-22 21:24:42
      李躍勇任駐馬店市委書記

      李躍勇任駐馬店市委書記

      界面新聞
      2026-01-24 17:23:17
      善惡終有報!47歲“跌落神壇”的李玉剛,終是活成了“跳梁小丑”

      善惡終有報!47歲“跌落神壇”的李玉剛,終是活成了“跳梁小丑”

      凡知
      2026-01-22 09:51:54
      3-2,24曼聯舊將絕殺,助西甲第17掀翻西甲第5,豪取3連勝

      3-2,24曼聯舊將絕殺,助西甲第17掀翻西甲第5,豪取3連勝

      側身凌空斬
      2026-01-25 01:13:51
      何慶魁兒子爆料,閆學晶之所以有今天的發展,因為她太“會來事”

      何慶魁兒子爆料,閆學晶之所以有今天的發展,因為她太“會來事”

      西樓知趣雜談
      2026-01-24 07:22:04
      親人在陰間真正缺少的東西,掃墓時火苗偏向你,是催你送3樣東西

      親人在陰間真正缺少的東西,掃墓時火苗偏向你,是催你送3樣東西

      古怪奇談錄
      2026-01-21 14:31:45
      一夜之間全黑了!上海多家商鋪報警!網友目瞪口呆:真實的商戰……

      一夜之間全黑了!上海多家商鋪報警!網友目瞪口呆:真實的商戰……

      環球網資訊
      2026-01-24 07:05:16
      字越少,事越大!

      字越少,事越大!

      互聯網思維
      2025-12-19 23:32:33
      “矮大緊”事后補料,“牢A”理論更扎實!

      “矮大緊”事后補料,“牢A”理論更扎實!

      達文西看世界
      2026-01-22 10:52:23
      2026-01-25 05:23:00
      曾憲勇 incentive-icons
      曾憲勇
      有趣的科技互聯網原創自媒體
      666文章數 62關注度
      往期回顧 全部

      科技要聞

      黃仁勛現身上海菜市場

      頭條要聞

      U23國足獲亞洲杯亞軍 體育總局電賀創歷史最佳成績

      頭條要聞

      U23國足獲亞洲杯亞軍 體育總局電賀創歷史最佳成績

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現身馬年春晚

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態度原創

      手機
      游戲
      房產
      旅游
      公開課

      手機要聞

      追覓首款手機狂攬億元訂單:自研芯片+模塊化影像,硬剛華為小米

      夢幻西游珍寶閣拿下新出第一化生神衣,毅力帝300萬幫貢求超越?

      房產要聞

      正式官宣!三亞又一所名校要來了!

      旅游要聞

      燈火映冰湖,年味漫京城!什剎海夜滑藏著老北京的新浪漫

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久久亚洲欧洲日产国码αv| 让少妇高潮无乱码高清在线观看| 最近中文字幕免费MV在线视频| 99久久久无码国产精品免费 | 亚洲欧美成人一区二区在线电影 | 山东| 在办公室被c到呻吟的动态图| 国产精品123| 91AV天堂| 强奷乱码中文字幕| 国内综合精品午夜久久资源| 999精品视频在线| 午夜短视频日韩免费| 欧美不卡一区二区三区| 伊人免费| 日韩精品人妻中文字在线| 精品国产精品国产偷麻豆| 别揉我奶头~嗯~啊~的视频| 青青草成人免费自拍视频| 福利cosplayh裸体の福利| 亚洲成aⅴ人片精品久久久久久| 中国丰满少妇人妻xxx性董鑫洁| 福利av在线| 国产成人精品免费视频大全| 国产I熟女l国产.熟女视频| 伊人a?v| 69精品| 一二三四中文字幕日韩乱码| 亚洲人成网站在线观看播放不卡| YW尤物AV无码国产在线观看| 久久国产精品夜色| 久久亚洲精品成人综合| 亚洲男人天堂| 国产剧情麻豆一区二区三区亚洲 | 亚洲 欧美 综合 另类 中字| 西贡区| 色爱无码av综合区| 中文字幕有码无码| 丁香婷婷综合激情五月色 | 亚洲无码人妻| 欧美日韩视频无码一区二区三|