前不久,醫(yī)療行業(yè)一場針鋒相對的觀點博弈引發(fā)熱議:張文宏醫(yī)生公開表示“拒絕將AI引入其所在醫(yī)院電子病歷系統(tǒng)“,并對”年輕醫(yī)生過度依賴AI并被誤導“表示擔憂;百川智能創(chuàng)始人王小川則反駁稱,“如果擔心醫(yī)生成長而去限制AI,可能就限制了最有利于病人的醫(yī)療措施“。 這不僅是理論之爭,更是生死實戰(zhàn)。「鈦AI了」硬核實測第一期,我們復現(xiàn)了一例令人類誤診開顱的真實病例,對5款頂尖模型進行了31輪背靠背盲測。 結果顯示:AI既能開出致死毒藥驗證前者的擔憂,也能識破人類盲區(qū)印證后者的野望。
![]()
這是一顆54歲農(nóng)民的大腦。頂葉占位,水腫漫延,看著像顆爛蘋果。
醫(yī)生只能二選一:要么鋸開他的頭骨,切掉這塊疑似轉(zhuǎn)移腫瘤;要么打幾針青霉素,按神經(jīng)梅毒治療。如果把這條人命交給AI,結局會怎樣?
![]()
為了驗證答案,我們部署了一套多智能體工作流,把這份真實病歷喂給了ChatGPT、DeepSeek、豆包、千問和專注醫(yī)療的百川,進行了3個階段累計31輪背靠背盲測。
結果完全出乎預料……因為這個梅毒患者,從一開始就在撒謊。歡迎來到,鈦AI了。
第一關問診
第一關,我們給模型的初始信息,只有開場檢查和病人自述。男性,54 歲,已婚農(nóng)民。間歇性頭痛。否認嫖娼史、性病史和輸血史。經(jīng)典高危病史隱瞞型病例。病人沒說實話,AI只能自己判斷風險。
在初診階段,DeepSeek、ChatGPT和百川選擇相信病人自述,但在10輪推演中,它們都堅持開出梅毒篩查單,沒有被帶偏。
可到具體診斷環(huán)節(jié),場面就開始失控了。
最奇葩的是百川,它一度懷疑這是孕婦高血壓并發(fā)癥,自己還注明病人是男性。標簽丟失加推理崩潰。只能說拉完了。
作為對比,ChatGPT也短暫提出過類似質(zhì)疑,但它根據(jù)“患者為男性”的信息,迅速排除了這種可能。邏輯閉環(huán),給到頂級。
DeepSeek則多次建議檢查睪丸瘤、乳腺癌,甚至人絨毛膜促性腺激素。乍一看還以為要給大爺驗孕,為了排查罕見的生殖細胞瘤腦轉(zhuǎn)移,它的思路縝密到涉嫌過度檢查,人上人吧。
最讓人眼前一亮的是豆包和千問。它們除了堅持梅毒篩查,還各有一次“覺醒時刻”。豆包認為病人口述可能存在有意隱瞞。千問則指出“農(nóng)村地區(qū)存在隱性暴露風險”,患者可能都不知道自己感染了梅毒,補充了流行病學背景。這兩根獨苗,毫無疑問,夯。
第二關博弈
到第二關,矛盾徹底爆發(fā)。從影像上看,這個腫塊血供旺盛、邊界模糊,核磁報告懷疑是腦轉(zhuǎn)移瘤,建議盡快開顱活檢。可化驗結果又顯示梅毒抗體陽性,說明這玩意也可能只是感染。到底該聽誰的?
豆包屬于學院派精英,沒有著急選邊站,絕大多數(shù)輪次堅持先做腰穿,確診后再治療,治不好再考慮開顱,嚴格按標準流程來。但中間它也有一次被忽悠瘸了,建議直接立體定向活檢。給個人上人吧。
DeepSeek像個有經(jīng)驗的老專家。它明確拒絕開顱,在近半輪次中建議跳過腰穿,直接給藥。它的邏輯是,如果花幾百塊打一周青霉素,病灶縮小了,那就是變相確診。如果沒變化,再做腰穿或者活檢也不遲。比起四平八穩(wěn)走流程,DeepSeek認為讓患者少遭罪、少花錢要更重要。夯。
千問更狠,它不再糾結流程,而是直搗黃龍。3次從源頭上否定了影像科結論,因為轉(zhuǎn)移瘤通常有原發(fā)灶,且分布不對稱,而這位病人雙側對稱,不符合基本病理特征。直接封死開顱方案。夯爆了。
表現(xiàn)最差的,依舊是ChatGPT和百川。GPT在兩輪中,一邊表示影像特異性有限,不能全信。一邊又認為抗體不能代表當前感染,也不能全信,等于啥都沒說。純純職場老油子,拉完了。
百川更是墻頭草,絕大多數(shù)輪次堅定站隊影像科,反復強調(diào)“影像才是金標準”,抗體陽性只能說明病人曾經(jīng)感染過梅毒,現(xiàn)在不一定是發(fā)病期,完全忽略了腦部占位因素。照它說的做,病人這會兒已經(jīng)上手術臺了。拉中之拉。
第三關治療
第三關,確診神經(jīng)梅毒后的治療方案,這本來是最簡單的環(huán)節(jié),卻出現(xiàn)了最嚴重的醫(yī)療事故。
其中最要命的是ChatGPT,它靜脈滴注的所謂“芐星青霉素G鈉”,在臨床上根本不存在。這個詞拼接的青霉素 G 鈉,是用于靜脈注射的水劑,但拼的另一半芐星青霉素卻是長效混懸劑,由無數(shù)不溶于水的微晶體組成。如果靜脈注射,這些晶體就會像泥沙一樣,迅速封死病人的肺部毛細血管網(wǎng),引發(fā)肺栓塞甚至心源性猝死。屬于明令禁止的一級醫(yī)療事故,完全拉完了。
百川更是重量級,它一半以上的回答中表示,水劑青霉素G 即苯唑西林鈉。但這完全是倆東西,苯唑西林鈉主治金黃色葡萄球菌,對梅毒完全無效,純純耽誤病情。NPC。
DeepSeek和千問的方案最標準:水劑青霉素G,1800–2400萬單位,靜脈注射,療程10–14天,引用最新指南,沒有錯漏。毫無疑問,夯。
豆包的處方都沒毛病,但格式出了一次問題。原文“注射用青霉素鈉(或注射用芐星青霉素?不,糾正……不對,等下—— 正確的是注射用結晶青霉素G)”。直接把模型思維鏈的糾錯,原樣輸出到了最終答案里,嚴重影響了用戶的信任。而且它在第三階段這10輪測試里,有9次切換成了英文思維鏈,可能是因為豆包收集的高質(zhì)量中文醫(yī)學語料不夠多。以至于在面對復雜的藥理推演時,不得不切換回英語母語思考,最后再翻譯輸出。雖然結果沒錯,但這證明它在本土化深層推理上,還有很大的提升空間。綜合給個頂級吧。
可是,人類就比這些AI更可靠嗎?難說。
在現(xiàn)實中,拿到“梅毒抗體陽性”的化驗單后,醫(yī)生還是直接做了開顱占位切除術。最終活檢結果確認,病人腦袋里并不是腫瘤,而是青霉素就能解決的梅毒樹膠腫。雖然人救回來了,但患者卻為這次誤判,付出了沉重且完全可以避免的代價。
表現(xiàn)盤點:百川、千問、豆包、ChatGPT、DeepSeek,哪家強?
故事講完了,作為評測媒體,我們還得復盤一下這幾位選手的真實能力邊界。
首先是成本,最燒錢的居然是百川,平均Token消耗近12萬,是千問的72倍。可奇怪的是,百川消耗了最多Token,回復字數(shù)卻是全場最少,響應速度也是全場最快。
我們推測,這可能是觸發(fā)了后臺大規(guī)模RAG檢索,加載了海量醫(yī)療文獻作為背景知識。可離譜的是,它的成績又是墊底的,說明信息蒸餾和推理可能存在斷層,需要再優(yōu)化去噪能力。不過這種架構,很適合2B醫(yī)療的SaaS場景。如果能接入醫(yī)院專屬知識庫,做專病專科微調(diào),還是有不小工程潛力的。給個NPC吧。
至于阿里千問,妥妥的性價比之王。它的Token消耗最低,響應速度排第三,總回復控制在1900字左右。內(nèi)容緊湊、準確,基本沒啥廢話。很適合分秒必爭的臨床輔助決策。給到夯。
接下來是內(nèi)耗選手豆包,它的響應速度最慢,總字數(shù)斷層領先,但這里面有60%是模型思考的自言自語。雖然很認真,但確實不適合醫(yī)療這種緊急場景。勉強給個人上人吧。
再就是職場老油子ChatGPT。雖然它響應非常快,但回復字數(shù)高居榜首,對需要精準決策的醫(yī)生來說,很難從這里面提煉到關鍵信息。再加上它的回答準確率也比較差,還貢獻了一個致命處方。必須給一個拉完了。
然后是DeepSeek。雖然它的響應速度處于中游,但整體結構最平衡。平均思考鏈1218字,正式回復1848字,思考和輸出比約為1:1.5,既沒有豆包那樣的過度內(nèi)耗,也規(guī)避了ChatGPT的無效堆砌。邏輯展開有層次,表達克制有力,完全符合臨床決策支持系統(tǒng),要求的“黑盒透明化”原則,做到了既可解釋又能執(zhí)行。毫無疑問,夯。
![]()
我們只做最硬核的AI實戰(zhàn)測評
最后,這場31輪的生死博弈告訴我們:哪怕是最頂尖的AI,現(xiàn)在依舊會犯錯;但哪怕表現(xiàn)最差的AI,在今天也有可能挽救一條人命。我們做這場測試,不是為了證明AI多無敵或者多拉跨,而是為了搞清楚:這玩意現(xiàn)在到底能干什么,不能干什么。幫大家摸清AI能力的真實邊界,讓技術真正服務于人。
這里是鈦AI了,我們只做最硬核的AI實戰(zhàn)測評,感謝你的關注,我們下期見。
(本文/測評視頻 首發(fā)鈦媒體APP,作者/蔡正鑫)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.