<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      國產(chǎn)醫(yī)療大模型斬獲三項SOTA!幻覺率優(yōu)于GPT-5.2,問診能力超過人類醫(yī)生

      0
      分享至


      智東西
      作者 陳駿達
      編輯 漠影

      我盯著屏幕上的AI診斷建議,反復讀了三次。AI用清晰的專業(yè)術語羅列了可能的病因,可我的焦慮卻沒有絲毫緩解。

      如果疼痛加劇該怎么辦?這些藥需要一起吃嗎?我該先去哪個科室掛號?這些真正困擾普通患者的問題,答案里只字未提。AI似乎什么都懂,可我依然不知道該怎么做。


      這也正是當前將AI大模型應用于醫(yī)療健康產(chǎn)場景的尷尬所在:它們能給出看起來專業(yè)感十足的回應,卻撐不起一個真正的醫(yī)療決策。

      作為患者,我們既不知道該怎么描述癥狀才算準確,也不清楚該提供哪些關鍵信息。最終,AI只能謹慎地給出一段涵蓋各種可能性、卻難以落地的建議。

      如果,它能更像一位真正的醫(yī)生呢?不急于拋出結論,而是先一步步引導,主動補齊醫(yī)療決策中缺失的那幾塊關鍵信息,比如疼痛的具體變化、用藥史,或是過往的檢查結果。

      這,或許才是大模型真正走入現(xiàn)實醫(yī)療場景、發(fā)揮作用的轉折點。

      一、從機械問答到主動提問,會問診的“AI醫(yī)生”什么樣?

      昨天,百川智能開源的新一代醫(yī)療大模型Baichuan-M3,正是在上述方向上做的一次革新。

      如果說傳統(tǒng)醫(yī)療大模型像是醫(yī)學知識問答機或醫(yī)生角色扮演器,那么百川的追求,是盡可能還原真實的醫(yī)療決策過程,讓模型具備主動收集關鍵信息、構建醫(yī)學推理鏈路、動態(tài)抑制內容幻覺等原生醫(yī)療增強能力。

      我們可以用下方這個案例,來感受Baichuan-M3與此前其他大模型的區(qū)別。

      比如,當我向通用大模型發(fā)送“胸口長了個痘痘,兩個月沒消”這樣的模糊消息時,沒有主動收集信息能力的大模型,往往會基于有限的信息,直奔結論,列舉出海量相關癥狀,讓人一時間不知如何是好。


      而當我與Baichuan-M3交互時,其“嚴肅問診”帶來的體驗則完全不同。發(fā)送了相同的信息后,模型會主動要求我給予更多描述,比如具體長在哪個位置,看起來是什么樣的,還貼心地給了對應的選項,供我回復。


      Baichuan-M3逐步排查了吸煙史、手術史、外傷史、感染史等關鍵要素,也問了問我的飲食習慣,家族病史,直到它認為獲取了足夠完整的信息后,才決定給出判斷。


      這種直觀的體驗提升,也在榜單上得到了充分體現(xiàn)。去年5月,OpenAI發(fā)布了Healthbench。這一基準測試由來自60個國家的262位醫(yī)生共同構建,收錄了5000組高度逼真的多輪醫(yī)療對話,是目前較為權威、且貼近真實臨床場景的醫(yī)療評測集。

      長期以來,在Healthbench和HealthBench-Hard榜單上,霸榜的一直是GPT系列模型,Baichuan-M2此前曾沖到開源第一的位置,僅次于GPT-5。

      此次發(fā)布的Baichuan-M3,則在HealthBench總分上超越OpenAI最新模型GPT-5.2,也在HealthBench Hard上登頂,成為當前全球醫(yī)療溝通和推理能力最強的醫(yī)療大模型。


      在嚴肅的醫(yī)療場景,幻覺率也是一個十分重要的指標。常常被不少患者帶著一同前往診室,尋醫(yī)問藥的DeepSeek,幻覺率大概在6.1%左右,目前業(yè)內做得最好的GPT-5.2-High,幻覺率則在3.8%左右。Baichuan-M3則做到了3.5%的幻覺率,同樣也是行業(yè)SOTA水平。


      隨著Baichuan-M3的問世,百川也同期發(fā)布了一項新的測評集——SCAN-bench。這項基準測試由150多位一線醫(yī)生聯(lián)合打造,能將診療過程拆解為更符合真實場景的病史采集、輔助檢查、精準診斷三大階段,對模型能力做出更全流程的評估。

      在SCAN-bench上,M3在四個重要維度上,均顯著高于人類醫(yī)生基線水平,還大幅領先于國內外頂尖模型。


      全新的使用體驗與亮眼的榜單成績背后,百川究竟做對了什么?

      二、SCAN原則、強化學習多管齊下,教會AI“像醫(yī)生一樣思考”

      在與百川的溝通中,我們了解到,百川內部其實有不少真正的臨床醫(yī)生,他們有的是從大醫(yī)院辭職到百川全職工作,也有的在業(yè)余時間深度參與。這些一線醫(yī)療場景的Know-how,成為指導百川提升醫(yī)療大模型表現(xiàn)的重要參考。

      比如,臨床醫(yī)生在面對患者時的行事邏輯往往是先排除危急重癥,然后進行常規(guī)診療。但基于角色扮演的醫(yī)療AI問診模式,往往無法踐行這種安全優(yōu)先級。沒有關鍵風險點的牽引,問診本身有可能失去重點,無法支撐安全可靠的臨床判斷。

      為解決上述問題,百川需要的是一種范式的革新。他們提出了“嚴肅問診范式”與“SCAN原則”,把臨床問診里的思維過程歸納為:Safety Stratification(安全分層)、Clarity Matters(信息澄清)、Association & Inquiry(關聯(lián)追問)與Normative Protocol(規(guī)范化輸出)。

      Baichuan-M3登頂?shù)腟CAN-bench,正是在這一原則的指導下打造的。這一基準測試的三大階段、多輪動態(tài)考核模式,可以更完整地模擬醫(yī)生從接診到確診的全過程。


      如果說SCAN原則、嚴肅問診范式,像是給大模型出了一套醫(yī)療AI領域的模擬題,那么百川接下來要做的,就是把這套模擬題中的解題思路與評分標準,系統(tǒng)地內化為模型的核心思維框架與行為本能。

      傳統(tǒng)的強化學習算法,往往基于最終的結果給予模型獎勵信號,但是這套模式在醫(yī)療決策場景往往會水土不服。一個醫(yī)療決策的背后,往往涉及諸多復雜的環(huán)節(jié),一個環(huán)節(jié)出錯,就有可能影響最終的結果。

      百川的解法是把醫(yī)療流程劃分為病史采集、鑒別診斷、檢驗檢查和精確診斷四個階段,這些階段相互依賴,但是目標是獨立的。這就允許百川的團隊在訓練過程中給每個環(huán)節(jié)配備獨立的獎勵機制,讓長程決策的復雜度降低。

      在強化學習中,另一個常見的問題是“獎勵破解”——模型總是能以千奇百怪的捷徑,找到拿高分的方式。比如,只要瘋狂提問,或許就能刷高分數(shù),但這往往不是我們想要看到的結果。

      為此,百川開發(fā)了SPAR(基于相對基準的分步懲罰優(yōu)勢算法)。這一算法進一步細化了步驟懲罰機制,還加入了自適應課程學習的因素,最終有效遏制了無效提問。這一算法還解決了模型出現(xiàn)單步瑕疵時的獎勵誤判,能更為準確地給模型提供指導。


      此外,百川使用的強化學習獎勵模型還融入了醫(yī)學教育中的OSCE(客觀結構化臨床考試) 理念,將可計算的動態(tài)量表作為獎勵標準,不再單純追逐結果的對錯,而是進行全維度的過程考核。

      最終效果就是,經(jīng)過訓練的“AI醫(yī)生”,整個問診過程變得流暢、清晰、有邏輯,每一步都穩(wěn)扎穩(wěn)打,像一個真正在思考的醫(yī)生,而不是一個只會背誦知識或耍小聰明騙分的機器學生。

      Baichuan-M3在醫(yī)療推理能力方面的提升,以及幻覺率的下降,則得益于他們提出的事實感知強化學習(Fact-Aware RL)訓練架構

      在這一架構中,百川沒有把幻覺約束和推理能力作為兩個單獨的目標進行優(yōu)化,而是將其結合成一套統(tǒng)一的工程化目標。這樣既能保證模型敢于給出堅定、明確的醫(yī)學判斷,也不會使其因過度追求安全而陷入“正確但無用”的沉默,或為追求流暢而滋生危險的事實性幻覺。

      簡單來說,這套方法讓模型學會了一種“負責任的自信”

      三、醫(yī)療AI奇點到來,有望緩解行業(yè)四大問題

      在Baichuan-M3發(fā)布之際,我們也來到了百川在北京的辦公室,與百川智能創(chuàng)始人兼CEO王小川面對面深度溝通。

      此前,百川已在醫(yī)療AI方面取得一系列成績。其開源模型M2發(fā)布后,月下載量超過十萬次,累計下載近百萬次,被業(yè)界視為“2025年影響力最大的開源醫(yī)療模型之一”。

      隨后的M2?Plus進一步引入“六元循證”系統(tǒng),將幻覺降至基線模型的約三分之一,技術實力已吸引同行跟進甚至“挖人”。

      對王小川而言,他認為今年是醫(yī)療AI奇點到來的一年,范式變革已經(jīng)真正開始了。以醫(yī)生為權威、為中心的模式正在逐步開始變化,AI工具提供的更多信息,讓患者開始能夠對自己健康負責任。

      其實,做醫(yī)療,一直是百川的一條主線,這源自王小川對當前醫(yī)療體系四個根本性問題的認知。

      首先,盡管如今我們已經(jīng)能治愈各種復雜的疾病,但作為一門學科,醫(yī)學本身仍是高度不發(fā)達的,仍處于“現(xiàn)象密集、理論滯后”的階段。

      這并不是百川的一家之言,此前,AI教母李飛飛也曾表達過類似的觀點,醫(yī)療其實是一個黑暗的空間。人的行為和動作在其中扮演了重要,甚至是過于重要的角色。

      同時,醫(yī)患角色也存在錯位的問題,決策權與受益權分離。患者是健康的最終受益者和責任人,但決策權和海量相關信息卻掌握在醫(yī)生手中。然而,醫(yī)生并不總是能有時間、有條件準確地傳達這些信息,可能會溝通不暢、患者體驗不佳。王小川比喻,這如同“圣經(jīng)的解釋權只在教士手中”

      此外,醫(yī)療體系還面臨優(yōu)質醫(yī)生資源不足且分布不均,就醫(yī)體系重心偏高,大醫(yī)院負荷重,基層與居家健康環(huán)節(jié)薄弱等結構性問題。

      而像Baichuan-M3這樣的醫(yī)療AI的價值,正在于能夠同時從這幾個維度尋求突破。大模型熟練掌握全科知識,能對一項具體的病癥展開跨學科、跨領域的分析,往往超越人類醫(yī)生的知識范疇。

      醫(yī)療AI也讓優(yōu)質醫(yī)療服務進一步下沉,并通過為患者提供更多看得懂、能理解的信息,推動決策權回歸患者自身。王小川相信,就像不懂法律的陪審團也能通過律師和法官的充分解釋,得出判斷一樣,患者只要掌握了足夠的信息,也能對自己的健康做出負責任的決定。

      結語:走少有人走的路

      在采訪中,王小川向我們提及了一組數(shù)據(jù):“去年行業(yè)發(fā)了500個AI醫(yī)療模型。”不過,相信對許多患者和普通用戶而言,更多與醫(yī)療相關的AI對話,可能是發(fā)生在DeepSeek、豆包這樣的通用AI助手中。

      王小川對這一現(xiàn)象并不焦慮,他認為垂直模型能在醫(yī)療上做得比通用底座更好。百川對醫(yī)療行業(yè)理解更深,選擇了一條少有人走的路,對醫(yī)療AI本身也有信仰。

      今年,百川計劃陸續(xù)推出2款面向C端的產(chǎn)品,除了全科覆蓋之外,還會在腫瘤、兒科這兩大最復雜、最能體現(xiàn)嚴肅醫(yī)療價值的領域重點發(fā)力。未來,我們或許還能看到百川在更多領域,給廣大用戶帶來的驚喜。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中戲2012級表演系名單曝光,三位新疆預科生和林傲霏均在列

      中戲2012級表演系名單曝光,三位新疆預科生和林傲霏均在列

      我就是個碼字的
      2026-01-14 18:28:55
      養(yǎng)父討飯將我養(yǎng)大,20年后我榮升上校,結婚時岳母見養(yǎng)父卻變臉

      養(yǎng)父討飯將我養(yǎng)大,20年后我榮升上校,結婚時岳母見養(yǎng)父卻變臉

      蘭姐說故事
      2025-03-11 15:00:07
      南京一飯店被曝用腳踩食材、發(fā)霉鴨頭翻新 市監(jiān)局回應:正在調查

      南京一飯店被曝用腳踩食材、發(fā)霉鴨頭翻新 市監(jiān)局回應:正在調查

      極目新聞
      2026-01-14 15:48:10
      戴旭發(fā)言不寒而栗!

      戴旭發(fā)言不寒而栗!

      安安說
      2026-01-10 10:51:32
      古代犯人發(fā)配需要衙役押送,往返幾千里路,衙役是不是也很遭罪?

      古代犯人發(fā)配需要衙役押送,往返幾千里路,衙役是不是也很遭罪?

      掠影后有感
      2026-01-10 13:57:42
      美國衰落,就是一個巨大的謊言

      美國衰落,就是一個巨大的謊言

      楓冷慕詩
      2026-01-06 12:28:30
      俄駐華大使館高調慶祝《北京條約》奪取外東北(海參崴)160周年

      俄駐華大使館高調慶祝《北京條約》奪取外東北(海參崴)160周年

      律法刑道
      2025-12-30 08:34:47
      為什么日本在短期旅行中幾乎無可挑剔,卻在長期生活中讓大量外國人逐漸感到壓抑與疏離

      為什么日本在短期旅行中幾乎無可挑剔,卻在長期生活中讓大量外國人逐漸感到壓抑與疏離

      日本物語
      2026-01-13 20:41:39
      重磅進展,東莞這條高鐵用地征拆100%!

      重磅進展,東莞這條高鐵用地征拆100%!

      東莞房視
      2026-01-14 14:23:46
      別大意!長期戴口罩,這7種不適正在悄悄傷害你

      別大意!長期戴口罩,這7種不適正在悄悄傷害你

      孟大夫之家1
      2025-12-25 11:57:04
      CBA排名一夜變:黑馬擠北京,遼寧低迷,滬粵告負

      CBA排名一夜變:黑馬擠北京,遼寧低迷,滬粵告負

      光輝與陰暗
      2026-01-14 23:31:21
      南寧已明確:身份證45開頭的人恭喜了!1月起正式開始實施!

      南寧已明確:身份證45開頭的人恭喜了!1月起正式開始實施!

      廣西氣象
      2026-01-13 19:28:16
      湖南女子模仿呆呆喊網(wǎng)友殺豬:幫殺10頭豬,網(wǎng)友反響非常熱烈,建了16個群都滿了,可能會弄一個流水席

      湖南女子模仿呆呆喊網(wǎng)友殺豬:幫殺10頭豬,網(wǎng)友反響非常熱烈,建了16個群都滿了,可能會弄一個流水席

      大風新聞
      2026-01-13 11:10:02
      人民幣升級,我們做好最壞的打算

      人民幣升級,我們做好最壞的打算

      李云飛Afey
      2026-01-15 00:44:17
      給男人一個忠告:不要輕易和這2種女人發(fā)生親密關系,切記

      給男人一個忠告:不要輕易和這2種女人發(fā)生親密關系,切記

      有故事的人
      2025-11-29 07:09:03
      天津的“大地之子”雕塑拆了

      天津的“大地之子”雕塑拆了

      天津族
      2026-01-13 17:47:41
      G7 達成一致減少中國稀土進口,北約秘書長:中國也算是北極國家

      G7 達成一致減少中國稀土進口,北約秘書長:中國也算是北極國家

      軍機Talk
      2026-01-14 13:55:56
      全世界最狠的騙局,莫過于貸款買房。

      全世界最狠的騙局,莫過于貸款買房。

      流蘇晚晴
      2026-01-08 18:18:57
      又一個巨頭崛起!年入8715億,超越華為,成第三民營企業(yè)!

      又一個巨頭崛起!年入8715億,超越華為,成第三民營企業(yè)!

      牛牛叨史
      2025-12-23 23:07:38
      國米vs萊切:圖拉姆領銜,博尼、迪烏夫、澤林斯基出戰(zhàn)

      國米vs萊切:圖拉姆領銜,博尼、迪烏夫、澤林斯基出戰(zhàn)

      懂球帝
      2026-01-15 02:54:14
      2026-01-15 04:16:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產(chǎn)業(yè)升級。
      11069文章數(shù) 116942關注度
      往期回顧 全部

      健康要聞

      血常規(guī)3項異常,是身體警報!

      頭條要聞

      外媒揭美對伊朗動手方案:派特種部隊對高層實施"斬首"

      頭條要聞

      外媒揭美對伊朗動手方案:派特種部隊對高層實施"斬首"

      體育要聞

      你是個好球員,我們就拿你交易吧

      娛樂要聞

      網(wǎng)紅彭十六偷稅被封殺 曾成功轉型明星

      財經(jīng)要聞

      攜程被立案調查,最高或被罰超50億

      科技要聞

      攜程因涉嫌壟斷被市場監(jiān)管總局調查

      汽車要聞

      曝Model Y或降到20萬以內!

      態(tài)度原創(chuàng)

      本地
      數(shù)碼
      游戲
      時尚
      手機

      本地新聞

      邵陽公益訴訟檢察主題曲:《守望星》

      數(shù)碼要聞

      存儲漲價沖擊DIY市場,DDR3主板銷量意外逆勢倍增

      重生之我在喪尸末世當檢察官

      最時髦的單品,難道不是背肌嗎?

      手機要聞

      REDMI Turbo 5 MAX現(xiàn)身跑分,天璣9500s芯片加持

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 卡一卡二卡三精品| 国产亚洲日韩欧美一区二区三区| 偃师市| 久久婷婷五月综合色和啪| 无码人妻精品一区二区三区蜜臀百度 | 亚洲永久网址在线观看| 欧美视频二区欧美影视| 久久99视频| 亚洲欧美国产精品专区久久| 91资源站| 夜夜爽夜夜叫夜夜高潮| 日韩深夜福利视频在线观看| 国产成人8X人网站视频| 久久精品国产亚洲一区二区| 国产成人综合色视频精品| 成年入口无限观看免费完整大片| 91视频你懂的| 在线a综合V久一区精中| 欧美色吊丝| 无码国产精成人午夜视频不卡| 痉挛高潮喷水av无码免费| 国产成AV人片在线观看天堂无码| 成人国内精品久久久久一区| 康定县| 亚洲精品理论电影在线观看| 无限A片| 国产精品-区区久久久狼| 国产玖玖| 天堂av在线免费观看| 久久se精品一区精品二区国产| 国产欧美精品一区二区三区-老狼| 精品无码一区二区三区爱欲| 大地资源网中文第一页| 日本最新免费二区三区| 亚洲精品乱码久久久久久中文字幕| 欧美不卡一区二区三区| 年辖:市辖区| 日本免费视频| 好吊AV| 中文字幕无码免费久久 | 亚洲国产初高中生女av|