<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      清華劉洋團隊論文:揭示為何 70B 的醫療模型,反而不如 8B 會問診丨ILCR 2026

      0
      分享至


      DOCTOR-R1:將臨床問診建模為 POMDP,用強化學習訓練會動態提問的醫療智能體。

      作者丨鄭佳美

      編輯丨岑 峰

      在醫療人工智能的發展歷程中,能力評估方式在很大程度上塑造了技術演進的方向。

      過去相當長一段時間里,醫療 AI 的進步主要圍繞醫學知識獲取與推理展開,模型是否“足夠聰明”通常通過醫學考試題、臨床問答數據集等靜態基準來衡量。在這一評價框架下,模型只需在信息完整、問題封閉的條件下給出正確答案,便被視為具備較高的醫療能力。

      隨著大語言模型的興起,這一路徑迅速取得突破性進展,多種系統在 MedQA 等測試中達到甚至超過人類專家水平,使得“醫療 AI 是否已經成熟”一度成為行業內的樂觀判斷。

      然而,隨著這些模型被逐步引入更貼近真實臨床的交互場景,一個長期被掩蓋的問題開始顯現:真實醫療實踐并非基于完整信息給出診斷,而是一種在高度不確定條件下,通過連續提問、風險識別與信息整合來逐步逼近決策的動態過程。

      模型在靜態評測中展現出的知識優勢,并未自然轉化為對真實問診場景的可靠支持,反而在多輪對話中暴露出提問策略僵化、對高風險信號反應遲鈍、過早形成結論以及缺乏基本溝通與共情能力等缺陷。

      這種“高分通過考試,卻難以勝任臨床問診”的斷層,逐漸成為醫療 AI 領域的核心瓶頸,也迫使研究者重新思考一個根本性問題:醫療智能體真正需要被訓練和評估的,究竟是什么能力。

      在這一背景下,清華大學劉洋團隊提出了題為《DOCTOR-R1: Mastering Clinical Inquiry with Experiential Agentic Reinforcement Learning》的研究工作,試圖從問題建模和訓練范式層面打破以靜態知識評測為中心的既有路徑。

      這項研究不再將模型能力簡單等同于知識覆蓋度或參數規模,而是將臨床問診本身視為一個長期、多輪、部分可觀測且高度風險敏感的決策過程,重點探索如何讓模型學會在信息不完整的條件下提出高價值問題、動態調整詢問策略,并在整個過程中保持安全意識與溝通質量。為醫療智能體從工具型問答系統邁向具備臨床推理與交互能力的決策主體提供了新的研究范式。


      論文鏈接:https://arxiv.org/pdf/2510.04284

      01


      從模板化提問到策略性問診

      這項研究的實驗結果本質上圍繞三個核心問題展開,即現有模型在真實臨床問診場景中究竟面臨哪些挑戰,DOCTOR-R1 在哪些具體能力層面彌補了這些不足,以及這些能力提升是否確實源于研究團隊提出的方法機制而非偶然因素。

      研究人員首先通過對照實驗揭示了一個關鍵事實:在靜態醫學問答任務中表現優異的模型,在需要多輪交互的動態臨床問診環境中會出現系統性失效。

      這種失效并非源于醫學知識儲備不足,而主要體現在問診策略層面,例如提問順序缺乏針對性,傾向于使用信息增益較低的標準化體檢式問題;在患者給出潛在高危信號后,仍難以及時調整提問路徑,而是沿用固定模板繼續詢問;在關鍵信息尚未充分收集的情況下過早形成判斷,甚至給出不恰當的安撫性或錯誤建議;以及整體溝通方式與真實醫療場景不匹配,表現為共情不足、語氣過于武斷或對不確定性處理不當。


      由于這些問題在 MedQA、MMLU 等靜態評測中幾乎不會暴露,研究指出傳統評測方式對模型真實臨床能力存在失真。與之相比,DOCTOR-R1 的性能提升并非體現在單一指標上,而是整體改變。DOCTOR-R1模型除了在上述傳統測試的表現優于已有模型,在 MAQuE等模擬評測數據集上,其最終表現也優于 GPT-4.1 等模型。

      這一點在對話輪次與準確率關系的分析中也得以體現,DOCTOR-R1 從首輪對話開始即占據優勢,并且隨著對話推進持續擴大領先幅度,體現出一種越問越準的策略特征。


      同時,在 HealthBench 的溝通質量、上下文理解和回答完整性等指標上,DOCTOR-R1 的提升幅度明顯高于準確率本身,表明良好的溝通與共情能力并非附帶收益,而是其問診策略的內在組成部分,即共情本身有助于提高信息獲取效率。

      進一步的消融實驗驗證了這一結論。研究團隊發現,在移除過程獎勵、僅保留最終診斷獎勵的情況下,模型雖然仍能學習到正確的診斷結果,但中間問診過程明顯退化為模板化和低風險偏好模式,在高風險場景中更容易產生安全性不足的回答,說明如果不對提問過程本身進行顯式獎勵,模型會傾向于忽略如何提問這一關鍵能力。


      而當經驗庫機制被移除時,模型在新場景中的適應能力顯著下降,在相似病例上的表現也更加不穩定,對話策略波動明顯增大,這表明僅依賴 on-policy 強化學習不足以模擬真實醫生通過長期經驗積累形成的穩定問診策略。

      因此,這些實驗結果并非對整體性能的簡單補充,而是從多個角度直接支撐了研究團隊提出的核心機制設計。


      02


      讓模型在不確定中學會決策

      在實驗設計層面,研究團隊認為必須采用強化學習而非單純的微調方法,其核心判斷在于兩者所能學習的能力本質不同。

      微調主要教會模型在獲取完整信息后如何生成回答,而臨床問診的關鍵并不在于“如何作答”,而在于模型在尚不清楚答案的情況下,如何決定下一步應該詢問什么信息。

      這一過程本質上屬于行動會改變未來可獲取信息結構的序列決策問題,因此天然更適合用強化學習來建模。進一步地,研究人員指出臨床問診并非一個完全可觀測的決策過程。在真實醫療場景中,患者自身往往也無法完整理解病情,醫生只能通過患者的回答逐步反推出潛在狀態,且大量關鍵信息只有在被主動詢問后才會顯現。

      基于這一現實,該研究將問診過程建模為部分可觀測馬爾可夫決策過程,而非簡單的馬爾可夫決策過程,其中真實病情狀態對醫生模型不可見,醫生所獲得的觀察信息具有噪聲和不完整性,而每一次提問行為都會直接影響下一步能夠獲得的信息內容。

      這一建模方式對于保留“問什么才有意義”這一核心問題至關重要。與此同時,研究團隊強調多智能體交互環境并非形式上的復雜化,而是提升泛化能力的必要條件。如果患者僅由固定腳本模擬,模型很容易學會針對腳本進行應對,從而在真實場景中表現出極差的泛化能力。

      為此,研究人員使用大語言模型扮演患者智能體,因此即便在相同疾病背景下,患者的表述方式、回答順序以及風險信號的暴露時機都具有高度多樣性,從而讓醫生智能體真正學習穩定有效的問診策略,而非記憶固定套路。


      在獎勵設計方面,研究提出的雙層獎勵機制旨在解決長期存在的兩個關鍵難題。一方面,如果僅依據最終診斷結果給予獎勵,模型往往會傾向于過早猜測并提前結束對話,導致中間問診過程不可控,高風險錯誤也難以及時被懲罰;另一方面,醫療決策中普遍存在否決型錯誤,即一次危險建議或嚴重誤判無法被多次禮貌或合理表達所抵消。

      不同于傳統的權重平均得分,研究團隊引入了分層懲罰機制,將安全性、推理合理性和醫學準確性置于最高優先級,一旦觸發底線錯誤即直接給予強負獎勵。這種在強化學習中相對激進的設計雖然約束嚴格,但能讓模型守住臨床安全的底線,且更貼近真實醫療場景的風險要求。

      最后,在經驗利用機制上,該研究并未將經驗庫視為普通的記憶模塊,而是將其定位為經過篩選的“高質量醫生經驗”。研究人員通過僅存儲高獎勵軌跡、在檢索時同時考慮語義相似度與歷史獎勵,并引入新穎性約束以避免模型反復依賴同一問診套路,使模型在面對新患者時更接近一名積累了大量臨床經驗的醫生,而非簡單依賴答案記憶的學生。


      03


      真實臨床能力導向的醫療 AI 方法論啟示

      從整體意義上看,這項研究在醫療人工智能領域具有明確而深遠的啟示作用。研究結果首先表明,當前醫療 AI 的瓶頸不僅受限于模型所具備的醫學知識規模,還在于是否采用了與真實臨床實踐相匹配的訓練范式。

      通過實驗可以看到,在參數規模僅為 8B 的條件下,結合合適的強化學習訓練框架,模型在多項動態問診指標上能夠超過參數規模達到 32B 甚至 70B 的知識型模型,這一現象對長期以來以模型規模和知識覆蓋度為中心的發展路徑形成了糾偏。

      其次,研究將以往被視為難以量化和系統訓練的軟技能問題轉化為可優化目標。研究人員通過合理的任務建模和獎勵設計,使得共情表達、溝通質量以及對不確定性的處理等能力能夠被穩定評估并持續強化,驗證了軟技能并非只能依賴隱式學習或人工規則,而是可以納入統一的訓練與評價體系之中。

      最后,從方法論層面來看,研究提出的框架為真實世界智能體的構建提供了一種具有可復制性的通用模板。其核心問題特征包括不完全信息條件下的決策、面向長期目標的序列行為、高風險情境中的安全約束以及對經驗積累機制的依賴,而這些特征正是大多數真實世界智能體任務所共有的。

      因此,這項工作的意義不僅局限于醫療領域,也為更廣泛的智能體研究提供了具有參考價值的范式思路。

      04


      構建 DOCTOR-R1 的人

      論文第一作者為黎雍卉,清華大學計算機科學與技術系碩士研究生,導師為劉洋教授。她的主要研究方向為智慧醫療與大模型智能體,特別是在醫療模型的交互、進化、推理等方面的能力優化。她已發表了ICLR等多篇成果,曾獲中國政府獎學金、北京市政府獎學金、清華計算機系 84 創新未來獎學金等多項榮譽。


      論文的共同通訊作者之一是馬為之,他是清華大學智能產業研究院副研究員,主要從事智能信息獲取與智慧醫療的研究工作。他在 SIGIR、ICLR 等國際頂級會議以及 Nature Medicine 等權威期刊上發表了100余篇論文,曾獲得SIGIR、EMNLP等會議的論文獎項,入選中國科協青年人才托舉工程、北京市科技新星。目前擔任 ACM TOIS 副主編及中國中文信息學會青工委秘書長。


      參考鏈接:https://air.tsinghua.edu.cn/info/1046/1196.htm

      論文的另一位共同通訊作者是劉洋,他是清華大學計算機科學與技術系萬國數據教授、智能產業研究院院長、人工智能醫院聯席執行院長。研究方向為自然語言處理、智慧醫療和科學智能。

      劉洋教授承擔國家自然科學基金委杰出青年項目、科技創新2030“新一代人工智能”重大項目等重要科研項目,獲得國家科技進步二等獎1項、省部級與一級學會科技獎勵5項、重要國際會議優秀論文獎4項。主要學術兼職包括中國人工智能學會組織工作委員會主任、中國中文信息學會計算語言學專業委員會主任等。


      參考鏈接:https://nlp.csai.tsinghua.edu.cn/~ly

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      手機廠商終于不卷攝像頭了!摩托羅拉7寸闊屏,這才是真創新!

      手機廠商終于不卷攝像頭了!摩托羅拉7寸闊屏,這才是真創新!

      小柱解說游戲
      2026-02-13 18:35:13
      48歲保潔阿姨睡在公司1個月,老板打開了監控,第2天送給她20萬

      48歲保潔阿姨睡在公司1個月,老板打開了監控,第2天送給她20萬

      秀秀情感課堂
      2025-12-12 14:20:05
      諾里斯正面怒懟維斯塔潘:不喜歡現款賽車可以選擇退役

      諾里斯正面怒懟維斯塔潘:不喜歡現款賽車可以選擇退役

      林子說事
      2026-02-13 16:47:06
      拉夫羅夫:若格陵蘭島軍事化 俄方將采取包括軍事技術措施在內的反制措施

      拉夫羅夫:若格陵蘭島軍事化 俄方將采取包括軍事技術措施在內的反制措施

      財聯社
      2026-02-11 20:40:04
      讓人眼紅啊!上海網友曬年終獎到賬99210元,稱比預想的要多得多

      讓人眼紅啊!上海網友曬年終獎到賬99210元,稱比預想的要多得多

      火山詩話
      2026-02-13 11:12:10
      上海某工業設計院薪資大爆發!

      上海某工業設計院薪資大爆發!

      黯泉
      2026-02-12 21:51:41
      2月13日俄烏:盟友的350億美元新援助

      2月13日俄烏:盟友的350億美元新援助

      山河路口
      2026-02-13 15:58:40
      《人民日報》:很多人的病,都是長期與不舒服的人在一起得來的

      《人民日報》:很多人的病,都是長期與不舒服的人在一起得來的

      富書
      2026-02-06 14:17:11
      中國最著名“叛國者”去世,逃亡99.9%概率死,0.1%奇跡改寫一生

      中國最著名“叛國者”去世,逃亡99.9%概率死,0.1%奇跡改寫一生

      近史談
      2026-02-11 19:15:10
      雅萬高鐵通車兩年,印尼沒錢運營了,問中國:那45億貸款能否緩緩

      雅萬高鐵通車兩年,印尼沒錢運營了,問中國:那45億貸款能否緩緩

      芳芳歷史燴
      2026-01-08 15:40:33
      幾乎所有的東西都能熔化,為什么木材不會熔化呢?

      幾乎所有的東西都能熔化,為什么木材不會熔化呢?

      半解智士
      2025-12-23 00:32:43
      中日海上交鋒,日本船只直撲釣魚島,中方4船鎮場,占據絕對優勢

      中日海上交鋒,日本船只直撲釣魚島,中方4船鎮場,占據絕對優勢

      知鑒明史
      2026-02-12 18:22:31
      柳承敏嗨翻!17歲女孩奪韓國首金:獎金3.6億韓元 美國3連冠夢碎

      柳承敏嗨翻!17歲女孩奪韓國首金:獎金3.6億韓元 美國3連冠夢碎

      風過鄉
      2026-02-13 15:59:07
      他是原副總理,1975年被永遠開除黨籍,1979年當選為副主席

      他是原副總理,1975年被永遠開除黨籍,1979年當選為副主席

      老范談史
      2026-02-13 08:38:33
      南海危機急剎車!中方專機回國,外交部通告最后關頭中菲達成一致

      南海危機急剎車!中方專機回國,外交部通告最后關頭中菲達成一致

      策前論
      2026-02-11 17:19:43
      8750萬片酬一分不讓,限薪令也不妥協,劇組直接解散血本無歸

      8750萬片酬一分不讓,限薪令也不妥協,劇組直接解散血本無歸

      老吳教育課堂
      2026-02-13 05:54:14
      劉鑾雄家族一億港元賣豪宅,前女友呂麗君是業主之一,進賬幾千萬

      劉鑾雄家族一億港元賣豪宅,前女友呂麗君是業主之一,進賬幾千萬

      八卦寶寶
      2026-02-12 19:27:24
      梅西C羅傳記作家:C羅曾在更衣室內用粗鄙詞匯罵過梅西!

      梅西C羅傳記作家:C羅曾在更衣室內用粗鄙詞匯罵過梅西!

      氧氣是個地鐵
      2026-02-13 15:49:10
      春天要使勁吃,葉酸是蘋果的38倍,1元1斤的“菜王”,低脂順腸道

      春天要使勁吃,葉酸是蘋果的38倍,1元1斤的“菜王”,低脂順腸道

      秀廚娘
      2026-02-13 18:38:07
      74歲“肥貓”鄭則仕回應加入周潤發跑團:一年前膝蓋痛,醫生建議注射藥物,師傅周潤發讓我跑步;此前暴瘦70斤,跑馬引熱議

      74歲“肥貓”鄭則仕回應加入周潤發跑團:一年前膝蓋痛,醫生建議注射藥物,師傅周潤發讓我跑步;此前暴瘦70斤,跑馬引熱議

      極目新聞
      2026-02-11 11:36:07
      2026-02-13 19:08:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7084文章數 20728關注度
      往期回顧 全部

      健康要聞

      轉頭就暈的耳石癥,能開車上班嗎?

      頭條要聞

      首次訪華前 德國總理默茨在發言中將中歐對比引發關注

      頭條要聞

      首次訪華前 德國總理默茨在發言中將中歐對比引發關注

      體育要聞

      這張照片背后,是米蘭冬奧最催淚的故事

      娛樂要聞

      米蘭冬奧摘銀 谷愛凌再遭美國網友網暴

      財經要聞

      華萊士母公司退市 瘋狂擴張下的食安隱憂

      科技要聞

      獨家探訪蔡磊:答不完的卷子 死磕最后一程

      汽車要聞

      探秘比亞迪巴西工廠 居然是這個畫風!

      態度原創

      旅游
      藝術
      本地
      公開課
      軍事航空

      旅游要聞

      龍馬精神迎新春,廣州景區百余場活動賀歲

      藝術要聞

      于右任又一真跡出土!這才是當代“真草圣”

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準備

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      多次成功應對外艦、外機挑釁 太原艦展示052D硬核實力

      無障礙瀏覽 進入關懷版