![]()
編輯|澤南、陳陳
人們獲取醫療信息的方式,正在逐漸被 AI 改變。
2026 剛一開年,OpenAI 發布了一份有關普通人與 AI 醫療的報告。
![]()
報告給出的信息令人驚訝:目前全球 ChatGPT 對話中有超過 5% 是與醫療健康有關的,每天有 4000 萬人在向 ChatGPT 尋求健康問題的答案。
在人們向 AI 問的問題中,大模型的智能與知識儲備得到了充分體現:60% 的人用 AI 探索癥狀,52% 的人用于理解醫學術語或臨床建議;越來越多的醫生也在撰寫醫療報告的時候應用了 AI。
也正是因為如此,1 月 7 日,OpenAI 正式發布了 ChatGPT 健康,通過整合人們的健康信息與大模型能力,可以幫助人們更加了解自身狀況,能輔助人們進行健康方面的決策。
![]()
大模型正在生活的很多方面給我們帶來幫助,但在面向常規任務的通用大模型上尋找醫療等專業知識的建議,很多時候還是顯得不夠靠譜。在醫療學術界,有研究就認為 AI 提供的醫療決策必須強制披露其準確性,接受監管以保護患者的安全。
近日,螞蟻集團聯合浙江省衛生健康信息中心、浙江省安診兒醫學人工智能科技有限公司開源的的螞蟻?安診兒醫療大模型(AntAngelMed),似乎為這些需求找到了最優解。
該模型總參數量達到1000 億(激活參數 61 億),是迄今為止參數量最大的開源醫療領域專業模型。
AntAngelMed 在 OpenAI 發起的 HealthBench、國家人工智能應用中試基地(醫療)的 MedAIBench 等評測基準中表現出色,其成績超過了 GPT-oss、Qwen3、DeepSeek-R1 等通用模型,也超越了目前已有的醫療增強推理模型,達到了開源模型第一的成績。
![]()
在由國家人工智能應用中試基地(醫療)?浙江、中國醫學科學院北京協和醫學院、中國信息通信研究院三方共建的權威測評體系 MedAIBench 中( https://www.medaibench.cn/ ),AntAngelMed 同樣表現突出,尤其是在醫療知識問答、醫療倫理安全等多個核心維度上優勢顯著。
![]()
此外,AntAngelMed 在MedBench 排行榜中位列第一。MedBench 是專為評估中國醫療健康領域語言大模型(LLM)而設計的權威基準。AntAngelMed 的這一成績進一步凸顯了其在專業性、安全性以及臨床應用潛力方面的領先表現。
![]()
目前 AntAngelMed 模型系列已在模型平臺開源:
- HuggingFace:https://huggingface.co/MedAIBase/AntAngelMed
- ModelScope:https://modelscope.cn/models/MedAIBase/AntAngelMed
- Github: https://github.com/MedAIBase/AntAngelMed
AntAngelMed 背后的技術
專業三階段訓練
與通用模型不同,醫療大模型面對的評價標準不僅僅是「答得多流暢」,還要強調結論的可靠性與可控性:既要在證據充分時給出嚴謹判斷,也要在信息不足或風險較高時保持克制、明確安全邊界。要滿足這種要求,模型不僅需要覆蓋系統化的醫學知識,更需要具備穩定的推理能力與風險意識。
AntAngelMed 作為一款專注醫療垂直領域的開源大模型,其訓練策略正是圍繞上述要求展開的,形成了一套以醫學能力構建為目標的三階段訓練流程
第一階段是持續預訓練,為模型注入醫學知識。
團隊在螞蟻百靈通用基座模型 Ling-flash-2.0-base 上系統性引入大規模、高質量醫學語料,比如百科全書、網絡文本、學術出版物。
通過這一過程,模型構建起了穩定而完整的醫學知識結構,為后續的醫學能力打下堅實的地基。
第二階段是面向真實醫療任務的監督微調。
AntAngelMed 引入了來自不同來源、不同形式的高質量醫療指令數據,重點微調模型如何展開和表達推理過程。這一階段不僅提升了模型在復雜問題中的思考穩定性,也使其在醫患問答、診斷分析等真實場景中,能夠更好地理解問題語境并給出符合醫療交流邏輯的回應。
這樣一來,AntAngelMed 不再僅僅停留在回答正確的表層表現上,而是在醫療語境中展現出更接近專業醫生的溝通方式與思維路徑。
第三階段是強化學習,控制 AI 醫療回答的邊界與行為方式。
AntAngelMed 采用先進的 GRPO(Group Relative Policy Optimization,組相對策略優化) 強化學習算法,并通過雙階段強化學習路徑對模型能力進一步優化提升。
首先是「推理強化學習」,確保模型面對復雜病例信息時能保持因果鏈條清晰、判斷過程可追溯。
然后是「通用強化學習」,重點關注模型的行為邊界,在面對不確定性、敏感性問題時學會提示風險、適度保留,體現出必要的責任意識和安全規范。
可以說這一階段是通用大模型最容易「踩雷」的部分,而也是醫療 AI 最重要的「合規能力」。
![]()
AntAngelMed 專業三階段訓練流程
高效 MoE 架構,高效推理能力
除了能力結構的精細建構,AntAngelMed 也在工程設計上充分考慮醫療系統的部署需求。
AntAngelMed 繼承了Ling-flash-2.0 的先進架構,是一個高效的混合專家(MoE)模型。
![]()
Ling-flash-2.0 模型架構
在 Ling Scaling Laws 的指導下,只激活 1/32 參數(61 億),并在專家粒度、共享專家比例、注意力平衡、無輔助損失函數 + Sigmoid 路由、MTP 層、QK-Norm 和 Partial-RoPE 等核心組件上進行了全面優化。
這些優化使得小激活率的 MoE 模型相比同等規模的 Dense 架構,可以實現高達7 倍的效率提升。
也就是說,AntAngelMed 僅需 6.1B 激活參數,就能實現約 40B 稠密模型的性能。這意味著模型在實際部署中對資源的占用更低、可擴展性更強,非常適合高用戶需求的醫療領域。
由于激活參數較少,AntAngelMed 具備非常高的推理效率,在 H20 硬件環境下,可實現超過200 tokens/s 的推理速度,約為 36B 稠密模型的 3 倍。
對于醫療場景而言,這樣的推理效率不僅代表響應更快,更重要的是,它提升了模型在實際系統中的可用性:在多用戶同時訪問的醫療平臺上,能夠保證穩定輸出;在需要快速輔助決策的臨床場景中,能在數秒內完成高質量回答,減少等待時間;甚至在資源受限的邊緣部署環境中,也能以較低算力負擔提供可用性能。
另外,醫療場景中常常伴隨著篇幅較長的病歷記錄和結構復雜的檢查報告,信息密度高、語義層級深,對模型的理解與處理能力提出了更高要求。
為解決這一需求,AntAngelMed 采用 YaRN 外推,將上下文長度擴展至 128K,大幅增強了模型處理病歷等長文檔的能力。
此外,為配合進一步推理加速,團隊還采用了 FP8 量化技術并結合 EAGLE3 優化方案。這種軟硬結合的設計帶來了實實在在性能提升。
在并發數為 32 的情況下,與單獨使用 FP8 相比,這種方法顯著提高了推理吞吐量,在 HumanEval 數據集上的提升幅度為 71%,在 GSM8K 數據集上的提升幅度為 45%,在 Math-500 數據集上的提升幅度更是高達 94%。
從訓練流程到模型架構,我們不難看出,AntAngelMed 的設計始終圍繞醫療場景展開。三階段訓練方式讓模型具備了專業的醫學知識,而高效的 MoE 架構,使得模型在醫療這種高頻次、高要求的場景下,在大幅降低激活成本的同時,依然保持專業推理能力與長上下文處理能力。
AntAngelMed:領先的醫學專業模型
最后,我們上手體驗了一番,看看 AntAngelMed 真實效果如何?
先來個大家都忽視但又每天經歷的事情,一個成年人一天到底要吃幾個雞蛋。
AntAngelMed 的響應速度非常快,幾乎在我們輸入問題后沒幾秒就給出了答復。
模型的建議并非簡單羅列營養標準,而是結合了膽固醇攝入上限、個體健康狀況(如有無高血脂病史)等因素,給出了一個相對靈活的建議區間:

接下來我們又問了一個問題:請為一個 55 歲有高血壓病史的上班族男性,設計一個簡潔可執行的一周飲食 + 運動建議計劃。
AntAngelMed 的回答簡直比醫生還詳細,還做了表格方便用戶查看:

結語
AntAngelMed 的開源,對于 AI 和醫療行業而言具有重要意義。
在 AntAngelMed 的基礎上,大量機構和研究者可以進行下游任務微調,極大地降低了前沿醫療 AI 技術的應用門檻。對于普通人來說,或許過不了多久,我們就可以從 AI 那里獲得安全可信的建議了。
據介紹,螞蟻集團還將依托國家平臺持續推進「AI + 醫療」的開源生態與技術創新,讓先進的技術能夠普惠更多開發者與用戶。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.