![]()
智東西
作者 三北
編輯 漠影
過去一年,醫療AI成為大模型落地中最熱鬧的賽道之一。
互聯網巨頭扎堆發布健康助手,創業公司密集上線AI問診產品,普通用戶第一次開始頻繁地與“醫療AI助手”打交道。看病前問一嘴、體檢后拍個單子、用藥前查一下,正在成為一種新的用戶習慣。
根據知名行研機構Fortune Business Insights最新數據,2025年,全球醫療保健AI市場規模達到393.4億美元(約合2717億元人民幣),預計2026年該市場的規模將同比上漲42%至560.1億美元(約合3869億元人民幣)。
但在這股熱潮之下,一個重要的問題逐漸顯現:醫療可能是所有大模型落地場景中,對專業性、準確性、可靠性要求最嚴苛的領域。做一個“能聊健康問題的AI”并不難——接入通用大模型、套一層醫療術語Prompt,幾周就能上線一個Demo;但做一個“真正具備專科級能力、能輔助臨床決策、敢對用戶健康管理的醫療大模型”,中間卻隔著難以快速跨越的專業鴻溝。
這道鴻溝究竟有多深?又是由哪些能力共同構成的?為什么有的玩家能做到專業,有的只能停留在“表面問答”?
本文嘗試以剛剛完成X2底座升級的星火醫療大模型為核心分析樣本,從技術底座、專業壁壘與真實場景實測三個層面,拆解醫療大模型這條賽道的真實門檻。
![]()
▲基于訊飛醫療大模型的訊飛曉醫界面
一、技術底座:決定醫療模型的能力上限
在醫療這樣高度專業化的垂直領域,通用能力是決定專業能力天花板的地基。
醫療問診、報告解讀、用藥審核,這些醫療AI應用實際上是高度復雜的語言理解與推理任務:癥狀往往并不完整,描述存在主觀偏差;疾病判斷依賴多輪信息補全;結論不僅要“合理”,還要符合醫學指南、風險可控。一旦通用能力不足,所謂的“醫療能力”往往只能停留在模板化問答或淺層知識檢索。
2月11日,科大訊飛發布基于全國產算力訓練的星火X2大模型,通用能力實現代際躍升,推理性能相比上一代提升50%,在數學、推理、語言理解等核心能力上對標國際頂尖水平。這一底座升級直接決定了其上生長的醫療垂類模型能走多遠。
基于真實居民健康檔案構建的MedLLM-EHR-EVAL-V2評測集顯示,星火醫療大模型在智能健康分析、報告解讀、運動飲食建議、輔助診療、智能用藥審核等關鍵任務上,得分均顯著超越國內外主流大模型。
![]()
▲星火醫療大模型X2的評測情況
這一層的核心結論是:醫療大模型的專業深度,首先建立在足夠強的通用底座之上。通用能力若在第一梯隊之外,垂類能力的上限將被牢牢鎖死。
二、醫療大模型要達到專業水平,至少要邁三道“坎”
當越來越多玩家涌入醫療大模型賽道,真正拉開差距的是做到了什么深度。這種深度,往往由長期積累、方法體系與規模化驗證共同決定。
本次,升級后的訊飛曉醫推出了全新個人數字健康空間,可系統化管理家庭成員健康資料,實現病程全周期追蹤與健康指標深度解析;但醫療AI大模型的升級絕不僅限于應用界面的更新,而是有至少以下三道更深的“坎”需要邁過。
1、第一道坎是能力和數據積累,醫療不是一個能“冷啟動”的領域
醫療并不是一個可以通過短期數據堆疊或提示詞工程快速起量的行業。
醫學知識體系高度結構化,疾病路徑具有明確的臨床邏輯,專科能力需要在真實醫療環境中反復打磨。沒有長期扎根積累的能力與數據,便無法跨過第一道專業門檻。
以訊飛醫療為例,其深耕這一領域能力已達十年。其自2016年成立起便專注這一賽道,“智醫助理”系統是全球首個且唯一通過國家執業醫師資格考試筆試的AI系統,得分456分,超越96.3%的人類考生。這一專業醫療能力里程碑,至今未被任何其他醫療AI達成。星火醫療大模型在門診場景診療能力、住院場景診療能力上實現關鍵突破,專科AI能力在業界首次達到等級醫院主任級醫師水平。
更重要的是,經年累月的醫療實踐將能力進一步固化為可復用的知識資產。訊飛曉醫現已構建起覆蓋500余種疾病管理路徑的專業知識體系,這是其將三甲醫院專家共識、學協會臨床路徑與一線診療經驗結構化沉淀的結果。
更稀缺的是診療場景中真實流轉的數據積累。訊飛醫療大模型在多年時間里持續接收真實診療場景的反饋數據,訊飛醫療累計提供的11億次AI輔診建議。比如基層醫生采納了哪些建議、忽略了哪些提醒、患者在后續診療中實際被確診為什么疾病,這類深扎場景的數據積累,是任何新入局者短期內都難以復制的。
這種十年如一日地“在場”,深扎場景、滾動積累的數據飛輪,是任何新入局者短期內無法復制的底層壁壘。
2、第二道坎是驗證,專業能力必須被“驗證”,而不是被“宣稱”
在醫療領域,“我們很專業”是一句沒有分量的陳述。真正的專業度必須經得起權威評測和真實臨床場景的雙重檢驗。
在這一方面,訊飛醫療跨越這道坎的方式,是從基層到三甲、從路徑到評測,層層遞進地完成了閉環驗證。
在基層實踐驗證方面,智醫助理已覆蓋全國31個省、801個區縣的7.7萬余家基層醫療機構,服務超過25萬名基層醫生。基層醫生在日常診療中持續調用、采納、反饋,使智醫助理在錯診漏診風險預警、用藥合理性審核等核心任務上完成了海量實戰檢驗。
在等級醫院實踐驗證方面,其智慧醫院解決方案已進入協和、華西、同濟等500余家等級醫院,其中包括40多家全國百強醫院、7家十強醫院。在頂級醫療場景中,AI不是替代者,而是臨床決策的協同者。更直觀的證據來自慢病管理:基于訊飛大模型的區域慢病管理平臺,已實現高血壓人群總住院率與心腦血管疾病住院率顯著下降——這是一個可以直接換算成醫保結余、患者生存質量的關鍵臨床指標。
在路徑驗證方面,訊飛曉醫構建的500余種疾病管理路徑,是全部經過三甲醫院及權威學協會專家評審;評審之后,又在全國500多家等級醫院完成了規模化落地驗證,構成了可量化、可追溯的專業度證據。
以上所有實踐驗證,最終匯聚成專業評測的“A”級成績單。訊飛星火醫療大模型是國內首個通過上海市醫療大模型應用檢測驗證中心權威評測的模型,在面向居民的健康分析、報告解讀、飲食建議、運動建議四項任務中,星火醫療大模型獲得全A評價——目前全國僅此一家。
這些“硬指標”構成了可量化的專業度證明,也是區分深度玩家與輕量入局者的關鍵分水嶺。
3、第三道坎是能力結構,專科深度、指南依從性與推理一致性
進一步拆解,醫療大模型的專業差距,往往集中體現在一些看似不顯眼、但極其關鍵的能力維度上:
其一,是否具備真正的專科級知識深度。 比如普通感冒和早期心衰都可能表現為“氣短”,區分兩者需要模型理解誘因、伴隨癥狀、危險分層——這是典型的專科能力。
訊飛曉醫此次升級的“智能思考引擎”,能夠根據問題復雜度自動判斷是否啟動深度推理模式,在遇到多癥狀疊加、慢性病史干擾等情形時,調用專科級知識路徑進行判別,而非停留在表層科普。
其二,是否嚴格遵循臨床指南與規范。 醫療大模型的回答不能是“參考意見”,而應當錨定權威指南。
訊飛構建的疾病管理知識體系以500余種疾病路徑為骨架,每一條路徑對應明確的指南依據,這在面對高血壓用藥調整、糖尿病飲食干預等標準治療場景時,能有效避免“自由發揮”式的風險。
其三,面對復雜病史時是否能保持判斷一致性。 患者不會按照教科書生病,多病共存、既往史干擾是常態。
評測顯示,在用戶健康檔案中疊加多種慢性病史后,部分通用模型會出現前后矛盾或偏離核心問題的傾向,而訊飛曉醫基于星火醫療大模型的“深度思考”模式,能夠始終圍繞用戶主訴與檔案數據進行遞進推理。
訊飛曉醫會結合多源報告綜合分析和歷史報告綜合分析。真實用戶往往持有來自不同醫院、不同時間段的多份檢查報告,訊飛曉醫基于個人數字健康空間,能夠對多源報告進行綜合分析,將不同時間節點的檢驗指標進行縱向對比,識別指標變化趨勢與潛在風險信號,而非孤立解讀單次結果。這是判斷一致性的重要支撐,也是區別于其他產品的關鍵能力點。
其四,醫療數據是最敏感的個人信息,用戶是否愿意把真實健康信息交給AI,取決于平臺的隱私保護能力。
訊飛曉醫支持隱私模式咨詢,無痕問答,對話不存檔、不沉淀、不用于模型訓練;其已通過國家信息系統安全等級保護三級認證、ISO 27701、ISO 27001等多項權威認證。對醫療AI來說,隱私保護不是附加功能,而是醫療AI獲得用戶長期信任的基礎設施,也是能力結構中不可缺少的一環。
三、在真實剛需場景中,專業能力最易現形
技術參數和專業認證是“后臺能力”,普通用戶無法感知。真正的專業差距,最終要回到真實使用場景中才能被看見。
從幾個應用案例中我們能有直觀的感受。
用戶提問1:“我有高血壓3年,最近一周早上起床后頭暈、后腦勺脹痛,測血壓145/95,平時吃藥是硝苯地平,需要去醫院嗎?要不要換藥?”
這是我們常見的復雜癥狀咨詢,當遇到多癥狀、慢性病史疊加的情況,一些醫療助手可能會給出“正確但無用”的籠統建議,如“血壓偏高,建議就醫”“遵醫囑調整用藥”。
而訊飛曉醫的回答路徑明顯不同,其明確告訴了用戶風險有多急、應該做什么、去哪里做,在風險分層、藥理知識和行為引導上都給出了準確建議。
![]()
▲訊飛曉醫回答的完整內容
用戶提問2:(上傳包含“輕到中度脂肪肝、尿酸偏高”的體檢報告)“這些指標有沒有關聯?我平時應酬多,是不是戒酒就行?”
這是體檢報告深度解讀的應用場景,我讓AI進行多指標異常關聯分析。一些醫療AI助手的回答可能只是會提出單項問題,讓我定期復查,停留在“報告說了什么”層面。
而訊飛曉醫完成了從“是什么”到“為什么”再到“怎么辦”的完整推理鏈,且具備風險分級和計劃生成的能力。這是通用問答與專業健康管理之間的本質差異。值得一提的是,它還能聯系本人的健康檔案提供建議,這就更體現出一個長期醫療保健伙伴的價值。
![]()
▲訊飛曉醫回答的完整內容
結語:醫療大模型,終將回歸專業能力的長期競爭
醫療大模型的競爭,從一開始就不是聲量之爭,而是長期專業能力的積累之爭。
當行業逐漸從“能不能用”走向“靠不靠譜”,真正決定勝負的,將是技術底座的上限、醫學體系的深度、以及是否經得起真實場景反復驗證。從這個角度看,醫療大模型的專業門檻,遠比外界想象得更高。
而在這條高門檻賽道上,訊飛并非唯一玩家,但無疑是目前走得最深、驗證最充分的玩家之一。
從2016年進入這個領域,到2024年成為“醫療大模型第一股”,它用十年時間完成了通用底座自研、醫學知識體系構建、臨床場景驗證、規模化數據反哺這一完整閉環。
可以預見,隨著更多玩家進入,醫療大模型的技術代差將持續拉大。醫療大模型的熱度或許會退潮,但專業能力的競爭,才剛剛進入深水區。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.