5大AI醫(yī)生31輪盲測 VS 人類致命誤診，誰更靠譜？｜「鈦AI了」實測 ①

2026-02-13 11:41:06　來源: 鈦媒體APP

北京舉報

分享至

前不久，醫(yī)療行業(yè)一場針鋒相對的觀點博弈引發(fā)熱議：張文宏醫(yī)生公開表示“拒絕將AI引入其所在醫(yī)院電子病歷系統(tǒng)“，并對”年輕醫(yī)生過度依賴AI并被誤導“表示擔憂；百川智能創(chuàng)始人王小川則反駁稱，“如果擔心醫(yī)生成長而去限制AI，可能就限制了最有利于病人的醫(yī)療措施“。這不僅是理論之爭，更是生死實戰(zhàn)。「鈦AI了」硬核實測第一期，我們復現(xiàn)了一例令人類誤診開顱的真實病例，對5款頂尖模型進行了31輪背靠背盲測。結果顯示：AI既能開出致死毒藥驗證前者的擔憂，也能識破人類盲區(qū)印證后者的野望。

這是一顆54歲農(nóng)民的大腦。頂葉占位，水腫漫延，看著像顆爛蘋果。

醫(yī)生只能二選一：要么鋸開他的頭骨，切掉這塊疑似轉(zhuǎn)移腫瘤；要么打幾針青霉素，按神經(jīng)梅毒治療。如果把這條人命交給AI，結局會怎樣？

為了驗證答案，我們部署了一套多智能體工作流，把這份真實病歷喂給了ChatGPT、DeepSeek、豆包、千問和專注醫(yī)療的百川，進行了3個階段累計31輪背靠背盲測。

結果完全出乎預料……因為這個梅毒患者，從一開始就在撒謊。歡迎來到，鈦AI了。

第一關問診

第一關，我們給模型的初始信息，只有開場檢查和病人自述。男性，54 歲，已婚農(nóng)民。間歇性頭痛。否認嫖娼史、性病史和輸血史。經(jīng)典高危病史隱瞞型病例。病人沒說實話，AI只能自己判斷風險。

在初診階段，DeepSeek、ChatGPT和百川選擇相信病人自述，但在10輪推演中，它們都堅持開出梅毒篩查單，沒有被帶偏。

可到具體診斷環(huán)節(jié)，場面就開始失控了。

最奇葩的是百川，它一度懷疑這是孕婦高血壓并發(fā)癥，自己還注明病人是男性。標簽丟失加推理崩潰。只能說拉完了。

作為對比，ChatGPT也短暫提出過類似質(zhì)疑，但它根據(jù)“患者為男性”的信息，迅速排除了這種可能。邏輯閉環(huán)，給到頂級。

DeepSeek則多次建議檢查睪丸瘤、乳腺癌，甚至人絨毛膜促性腺激素。乍一看還以為要給大爺驗孕，為了排查罕見的生殖細胞瘤腦轉(zhuǎn)移，它的思路縝密到涉嫌過度檢查，人上人吧。

最讓人眼前一亮的是豆包和千問。它們除了堅持梅毒篩查，還各有一次“覺醒時刻”。豆包認為病人口述可能存在有意隱瞞。千問則指出“農(nóng)村地區(qū)存在隱性暴露風險”，患者可能都不知道自己感染了梅毒，補充了流行病學背景。這兩根獨苗，毫無疑問，夯。

第二關博弈

到第二關，矛盾徹底爆發(fā)。從影像上看，這個腫塊血供旺盛、邊界模糊，核磁報告懷疑是腦轉(zhuǎn)移瘤，建議盡快開顱活檢。可化驗結果又顯示梅毒抗體陽性，說明這玩意也可能只是感染。到底該聽誰的？

豆包屬于學院派精英，沒有著急選邊站，絕大多數(shù)輪次堅持先做腰穿，確診后再治療，治不好再考慮開顱，嚴格按標準流程來。但中間它也有一次被忽悠瘸了，建議直接立體定向活檢。給個人上人吧。

DeepSeek像個有經(jīng)驗的老專家。它明確拒絕開顱，在近半輪次中建議跳過腰穿，直接給藥。它的邏輯是，如果花幾百塊打一周青霉素，病灶縮小了，那就是變相確診。如果沒變化，再做腰穿或者活檢也不遲。比起四平八穩(wěn)走流程，DeepSeek認為讓患者少遭罪、少花錢要更重要。夯。

千問更狠，它不再糾結流程，而是直搗黃龍。3次從源頭上否定了影像科結論，因為轉(zhuǎn)移瘤通常有原發(fā)灶，且分布不對稱，而這位病人雙側對稱，不符合基本病理特征。直接封死開顱方案。夯爆了。

表現(xiàn)最差的，依舊是ChatGPT和百川。GPT在兩輪中，一邊表示影像特異性有限，不能全信。一邊又認為抗體不能代表當前感染，也不能全信，等于啥都沒說。純純職場老油子，拉完了。

百川更是墻頭草，絕大多數(shù)輪次堅定站隊影像科，反復強調(diào)“影像才是金標準”，抗體陽性只能說明病人曾經(jīng)感染過梅毒，現(xiàn)在不一定是發(fā)病期，完全忽略了腦部占位因素。照它說的做，病人這會兒已經(jīng)上手術臺了。拉中之拉。

第三關治療

第三關，確診神經(jīng)梅毒后的治療方案，這本來是最簡單的環(huán)節(jié)，卻出現(xiàn)了最嚴重的醫(yī)療事故。

其中最要命的是ChatGPT，它靜脈滴注的所謂“芐星青霉素G鈉”，在臨床上根本不存在。這個詞拼接的青霉素 G 鈉，是用于靜脈注射的水劑，但拼的另一半芐星青霉素卻是長效混懸劑，由無數(shù)不溶于水的微晶體組成。如果靜脈注射，這些晶體就會像泥沙一樣，迅速封死病人的肺部毛細血管網(wǎng)，引發(fā)肺栓塞甚至心源性猝死。屬于明令禁止的一級醫(yī)療事故，完全拉完了。

百川更是重量級，它一半以上的回答中表示，水劑青霉素G 即苯唑西林鈉。但這完全是倆東西，苯唑西林鈉主治金黃色葡萄球菌，對梅毒完全無效，純純耽誤病情。NPC。

DeepSeek和千問的方案最標準：水劑青霉素G，1800–2400萬單位，靜脈注射，療程10–14天，引用最新指南，沒有錯漏。毫無疑問，夯。

豆包的處方都沒毛病，但格式出了一次問題。原文“注射用青霉素鈉（或注射用芐星青霉素？不，糾正……不對，等下—— 正確的是注射用結晶青霉素G）”。直接把模型思維鏈的糾錯，原樣輸出到了最終答案里，嚴重影響了用戶的信任。而且它在第三階段這10輪測試里，有9次切換成了英文思維鏈，可能是因為豆包收集的高質(zhì)量中文醫(yī)學語料不夠多。以至于在面對復雜的藥理推演時，不得不切換回英語母語思考，最后再翻譯輸出。雖然結果沒錯，但這證明它在本土化深層推理上，還有很大的提升空間。綜合給個頂級吧。

可是，人類就比這些AI更可靠嗎？難說。

在現(xiàn)實中，拿到“梅毒抗體陽性”的化驗單后，醫(yī)生還是直接做了開顱占位切除術。最終活檢結果確認，病人腦袋里并不是腫瘤，而是青霉素就能解決的梅毒樹膠腫。雖然人救回來了，但患者卻為這次誤判，付出了沉重且完全可以避免的代價。

表現(xiàn)盤點：百川、千問、豆包、ChatGPT、DeepSeek，哪家強？

故事講完了，作為評測媒體，我們還得復盤一下這幾位選手的真實能力邊界。

首先是成本，最燒錢的居然是百川，平均Token消耗近12萬，是千問的72倍。可奇怪的是，百川消耗了最多Token，回復字數(shù)卻是全場最少，響應速度也是全場最快。

我們推測，這可能是觸發(fā)了后臺大規(guī)模RAG檢索，加載了海量醫(yī)療文獻作為背景知識。可離譜的是，它的成績又是墊底的，說明信息蒸餾和推理可能存在斷層，需要再優(yōu)化去噪能力。不過這種架構，很適合2B醫(yī)療的SaaS場景。如果能接入醫(yī)院專屬知識庫，做專病專科微調(diào)，還是有不小工程潛力的。給個NPC吧。

至于阿里千問，妥妥的性價比之王。它的Token消耗最低，響應速度排第三，總回復控制在1900字左右。內(nèi)容緊湊、準確，基本沒啥廢話。很適合分秒必爭的臨床輔助決策。給到夯。

接下來是內(nèi)耗選手豆包，它的響應速度最慢，總字數(shù)斷層領先，但這里面有60%是模型思考的自言自語。雖然很認真，但確實不適合醫(yī)療這種緊急場景。勉強給個人上人吧。

再就是職場老油子ChatGPT。雖然它響應非常快，但回復字數(shù)高居榜首，對需要精準決策的醫(yī)生來說，很難從這里面提煉到關鍵信息。再加上它的回答準確率也比較差，還貢獻了一個致命處方。必須給一個拉完了。

然后是DeepSeek。雖然它的響應速度處于中游，但整體結構最平衡。平均思考鏈1218字，正式回復1848字，思考和輸出比約為1:1.5，既沒有豆包那樣的過度內(nèi)耗，也規(guī)避了ChatGPT的無效堆砌。邏輯展開有層次，表達克制有力，完全符合臨床決策支持系統(tǒng)，要求的“黑盒透明化”原則，做到了既可解釋又能執(zhí)行。毫無疑問，夯。

我們只做最硬核的AI實戰(zhàn)測評

最后，這場31輪的生死博弈告訴我們：哪怕是最頂尖的AI，現(xiàn)在依舊會犯錯；但哪怕表現(xiàn)最差的AI，在今天也有可能挽救一條人命。我們做這場測試，不是為了證明AI多無敵或者多拉跨，而是為了搞清楚：這玩意現(xiàn)在到底能干什么，不能干什么。幫大家摸清AI能力的真實邊界，讓技術真正服務于人。

這里是鈦AI了，我們只做最硬核的AI實戰(zhàn)測評，感謝你的關注，我們下期見。

（本文/測評視頻首發(fā)鈦媒體APP，作者/蔡正鑫）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.