網易首頁 > 網易號 > 正文申請入駐

AI具備主任級醫師答題能力：是替代威脅還是能力放大？

2025-07-24 20:55:28　來源: 健聞咨詢

北京舉報

分享至

7月23日，夸克健康大模型通過國內12門核心學科主任醫師筆試評測，成為首個完成這一挑戰的大模型。這距離它通過副主任醫師考試僅僅過去兩個月。AI能通過這樣的測試，至少在考試場景下已具備了接近主任醫師的答題水平。

主任醫師考試難度大、要求高，不僅考查考生對海量醫學知識的掌握程度，更注重對臨床綜合能力的考量，要求考生能夠像真正的醫生一樣分析復雜病例、權衡各種診療路徑。

在醫療AI普遍停留在“臨床執業醫師”初級水平的當下，這場“兩級跳”不僅是技術突破，更意味著AI從“醫學知識記憶”向“臨床思維推理”的關鍵跨越。雖然考試和真實臨床還有距離，但這一進展讓人對醫療AI多了幾分信心。

“做題”到“看病”,AI學會了醫生的“慢思考”

據夸克健康運營負責人趙存忠透露，早在2018年，夸克就開始了在醫療領域的探索，做內容+工具平臺，除了面向普通用戶早期的健康問題，也服務醫學生關于專業學習的需求。如今有超200萬人的醫學生使用夸克搜索醫療考試題目。

隨著大模型技術能力的進步，夸克健康在持續進化。這次主任醫師考試為例，夸克健康大模型具備了“臨床綜合能力”，即不僅記得住知識，還能像醫生一樣分析病例、權衡診療路徑。對用戶來說，具備這一能力的夸克能幫他們輕松獲取深度思考后的專業醫療內容，既有專業還有溫度，體驗拉滿。

北京大學醫學部皮膚與性病學系主任、北京大學人民醫院皮膚科副主任、主任醫師李厚敏評論稱，夸克健康大模型在皮膚科案例測試中表現全面，針對“28歲女性結節囊腫型痤瘡”問題，給出的方案涵蓋治療調整，瘢痕色素管理，皮膚屏障修復及心理疏導，符合臨床路徑、用藥規范，且關注了患者長期管理與心理狀態。

武漢大學精神衛生中心主任王惠玲針對夸克健康大模型在精神科的應用評價稱，其針對“中老年男性嚴重抑郁、治療效果差”的問題，模型建議邏輯清晰，包括提升患者治療積極性、優化治療方案、指導家庭支持等，符合臨床思維，操作性強。而且模型還能糾正患者對抑郁藥物成癮性的誤區，明確常見與罕見副作用，并建議遵醫囑服藥及定期面診，解決了醫生反復告知的痛點。

據夸克健康算法負責人徐健介紹，這背后是夸克健康大模型的重要能力：首先，構建醫療推理大模型，引入慢思考能力，驅動模型在面對復雜醫療問題時，能夠分階段、層層深入地推導出最終答案，提升了模型解題的可解釋性，也有效降低了直接給出錯誤結論的風險；其次，基于高質量思考數據做強化學習，激發模型的診療推理能力，提升模型的臨床可解釋性和推理一致性；最后，多輪“邊想邊搜”式的知識增強技術，自動檢索專業文獻、教材、指南、專家答疑、醫學知識圖譜等高權威資源，確保輸出答案時所依據的內容具備及時性和權威性。

據悉，為了實現上述能力突破，夸克健康已搭建了專業醫生運營標注體系，由團隊協同400多位頂級專家、1000多位專職醫生，構建十幾萬條精標的樣本數據，成為模型專業性的有力保障。

其中“慢思考”是一個重要進化。按照徐健的說法，AI不追求“快速出答案”，而是“像醫生一樣思考”，不能光看答案，還看重推理全過程，把每一步怎么想的都說清楚。

具體來說，慢思考能力融合了鏈式推理與多階段臨床演繹路徑建模，驅動模型在面對復雜醫療問題時，能夠分階段、層層深入地推導出最終回答。核心是“雙數據產線+雙獎勵機制”體系：將醫療數據分為“可驗證”（如診斷結果）和“不可驗證”（如健康建議）兩類，分別搭建產線。對可驗證數據，用“結果獎勵模型”對標標準答案；對不可驗證數據，用“過程獎勵模型”評估推理邏輯是否符合臨床規范。這既保證了診斷準確性，也讓AI“思考過程”可追溯。

AI只是“第二大腦”而非“主治醫師”

目前整體來看，醫療大模型的價值在于：把重復性內容交給AI，把模糊的資料用AI整合，把知識繁雜的部分用AI提示，最終醫生依然拍板。行業普遍認為，AI只是“第二大腦”而非“主治醫師”。夸克健康則讓AI給普通人帶來了一份“有處可問”的踏實。

想想看，以前大家不舒服要么對著搜索引擎翻到眼花，要么在親戚群里被“過來人經驗”繞暈。現在多了個能隨時喊醒的“健康顧問”，哪怕只是告訴你“這情況先不用急著連夜掛號”，都能省下不少折騰。這種改變在醫療資源緊張的地方更顯珍貴。

不過，趙存忠指出，目前大模型思考思維與真實醫生的能力還有差距，尤其是在處理復雜和延續性病癥中，當病情發生細微變化的時候，洞察微變化的邏輯以及處理方法上。像李厚敏在評價本次測試時就指出，若能結合皮損圖像（如炎癥或結節為主），還可進一步細化治療方案，實現動態長期管理；針對患者對激素類藥物的焦慮，AI雖科學解釋了短期規范使用的安全性及替代方案，但未明確激素與維A酸類藥物的切換節點，仍有優化空間。

趙存忠反復強調，目前大模型ToC應用場景永遠在院外，給用戶最直接、最實用、最合理的健康管理流程，也符合國家分級診療政策。

通俗來講，AI現在能做的，還是幫用戶給健康問題“打個草稿”，比如判斷胃痛該不該先掛消化科，提醒高血壓患者注意藥物和柚子的沖突，而不是代替醫生開處方、做診斷。真到了要抽血化驗、拍CT，或者躺上手術臺的時刻，醫生永遠是最后的依靠。

而對醫生來說，AI則是“高效助手”。王惠玲以精神科為例指出，針對精神疾病須挖掘患者內心體驗，AI可通過捕捉面部表情、瞳孔變化、語音語調等客觀指標輔助醫生評估；而且患者常因病恥感隱瞞病情，AI可作為匿名健康指導工具，提供疾病知識、自我訓練建議及就醫指引，減少信息差和就醫彎路。李厚敏則指出了AI與皮膚科的結合潛力。“皮膚科有4000多種疾病，且多為表觀化疾病，適合AI輔助診斷；全國僅1萬多名皮膚科醫生，AI可提升全科及基層醫生的診療能力，緩解資源短缺問題。”

如夸克健康所規劃的，重點做全科健康管家Agent——無論是健康飲食、健康就醫或看病相關問題，都可以經Agent做初步判斷后，協同到上級醫院，進行服務延伸，以“服務C端用戶、成為醫生助手”的理念搭建整體產品能力。

醫療AI的“信任法則”

醫療是對“信任”要求最高的行業之一，它的每一項決策、每一個數據點、每一句話，背后都是一個人的生死、一家人的希望。所有醫療大模型都繞不開一個問題：如何讓醫生和患者相信？

夸克的實踐給出兩個答案：透明性和風險可控。徐健指出，夸克健康大模型的競爭力從不是“在考試中拿了多少分”，而是讓醫生敢用、患者敢信。

這種信任來自哪里？不是媒體宣傳，不是論文數量，而是：輸出結果是否透明（有沒有依據）；推理路徑是否可追溯（怎么得到這個結論）；使用風險是否可控（錯誤誰負責、有沒有兜底）。

徐健指出，夸克健康大模型“推理可追溯”，每個結論都標注依據（如引用某版指南或文獻），思考路徑清晰可見。風險控制則通過“作弊識別機制”，防止模型為“高分”說假話（如編造不存在的疾病），一旦發現就用人工標注的負面案例修正；是如專家評測中展現的“風險可控”，面對復雜癥狀時，會明確標注“建議面診”，而非貿然下結論；是持續做對的事。

這種“不炫技，重踏實”的思路，正契合醫療行業的本質。正如徐健所說：“讓AI持續做對的事，信任自然會來。”

“主任醫師級”AI背后是更平權的醫療未來

夸克健康大模型通過主任醫師考試的意義，遠不止技術突破。

當一個能分階段推理罕見病、動態分析復雜病例的“主任級AI”，以“慢思考”的方式將權威醫療知識拆解為可理解的健康建議，它正在悄悄改變醫療信息的流動邏輯：讓偏遠地區的用戶也能接觸到主任級的初步診療思路，讓基層醫生有了隨時可查閱的“動態指南”，讓醫學生能直觀學習臨床思維的推演過程。

這種改變的核心，不在于AI是否能替代醫生，而在于它以“透明化推理+可控風險”的模式，將專業醫療能力轉化為普惠的健康資源。醫療的進步從來不是追求速度，而是讓每一個決策都經得起推敲。醫療的終極目標是“人人可及”，而會“慢思考”的AI，正在成為這條路上的重要推手。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.