<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      5大AI醫(yī)生31輪盲測 VS 人類致命誤診,誰更靠譜?|「鈦AI了」實測 ①

      0
      分享至

      前不久,醫(yī)療行業(yè)一場針鋒相對的觀點博弈引發(fā)熱議:張文宏醫(yī)生公開表示“拒絕將AI引入其所在醫(yī)院電子病歷系統(tǒng)“,并對”年輕醫(yī)生過度依賴AI并被誤導“表示擔憂;百川智能創(chuàng)始人王小川則反駁稱,“如果擔心醫(yī)生成長而去限制AI,可能就限制了最有利于病人的醫(yī)療措施“。 這不僅是理論之爭,更是生死實戰(zhàn)。「鈦AI了」硬核實測第一期,我們復現(xiàn)了一例令人類誤診開顱的真實病例,對5款頂尖模型進行了31輪背靠背盲測。 結果顯示:AI既能開出致死毒藥驗證前者的擔憂,也能識破人類盲區(qū)印證后者的野望。


      這是一顆54歲農(nóng)民的大腦。頂葉占位,水腫漫延,看著像顆爛蘋果。

      醫(yī)生只能二選一:要么鋸開他的頭骨,切掉這塊疑似轉(zhuǎn)移腫瘤;要么打幾針青霉素,按神經(jīng)梅毒治療。如果把這條人命交給AI,結局會怎樣?


      為了驗證答案,我們部署了一套多智能體工作流,把這份真實病歷喂給了ChatGPT、DeepSeek、豆包、千問和專注醫(yī)療的百川,進行了3個階段累計31輪背靠背盲測。

      結果完全出乎預料……因為這個梅毒患者,從一開始就在撒謊。歡迎來到,鈦AI了。


      第一關問診

      第一關,我們給模型的初始信息,只有開場檢查和病人自述。男性,54 歲,已婚農(nóng)民。間歇性頭痛。否認嫖娼史、性病史和輸血史。經(jīng)典高危病史隱瞞型病例。病人沒說實話,AI只能自己判斷風險。

      在初診階段,DeepSeek、ChatGPT和百川選擇相信病人自述,但在10輪推演中,它們都堅持開出梅毒篩查單,沒有被帶偏。

      可到具體診斷環(huán)節(jié),場面就開始失控了。

      最奇葩的是百川,它一度懷疑這是孕婦高血壓并發(fā)癥,自己還注明病人是男性。標簽丟失加推理崩潰。只能說拉完了。

      作為對比,ChatGPT也短暫提出過類似質(zhì)疑,但它根據(jù)“患者為男性”的信息,迅速排除了這種可能。邏輯閉環(huán),給到頂級。

      DeepSeek則多次建議檢查睪丸瘤、乳腺癌,甚至人絨毛膜促性腺激素。乍一看還以為要給大爺驗孕,為了排查罕見的生殖細胞瘤腦轉(zhuǎn)移,它的思路縝密到涉嫌過度檢查,人上人吧。

      最讓人眼前一亮的是豆包和千問。它們除了堅持梅毒篩查,還各有一次“覺醒時刻”。豆包認為病人口述可能存在有意隱瞞。千問則指出“農(nóng)村地區(qū)存在隱性暴露風險”,患者可能都不知道自己感染了梅毒,補充了流行病學背景。這兩根獨苗,毫無疑問,夯。

      第二關博弈

      到第二關,矛盾徹底爆發(fā)。從影像上看,這個腫塊血供旺盛、邊界模糊,核磁報告懷疑是腦轉(zhuǎn)移瘤,建議盡快開顱活檢。可化驗結果又顯示梅毒抗體陽性,說明這玩意也可能只是感染。到底該聽誰的?

      豆包屬于學院派精英,沒有著急選邊站,絕大多數(shù)輪次堅持先做腰穿,確診后再治療,治不好再考慮開顱,嚴格按標準流程來。但中間它也有一次被忽悠瘸了,建議直接立體定向活檢。給個人上人吧。

      DeepSeek像個有經(jīng)驗的老專家。它明確拒絕開顱,在近半輪次中建議跳過腰穿,直接給藥。它的邏輯是,如果花幾百塊打一周青霉素,病灶縮小了,那就是變相確診。如果沒變化,再做腰穿或者活檢也不遲。比起四平八穩(wěn)走流程,DeepSeek認為讓患者少遭罪、少花錢要更重要。夯。

      千問更狠,它不再糾結流程,而是直搗黃龍。3次從源頭上否定了影像科結論,因為轉(zhuǎn)移瘤通常有原發(fā)灶,且分布不對稱,而這位病人雙側對稱,不符合基本病理特征。直接封死開顱方案。夯爆了。

      表現(xiàn)最差的,依舊是ChatGPT和百川。GPT在兩輪中,一邊表示影像特異性有限,不能全信。一邊又認為抗體不能代表當前感染,也不能全信,等于啥都沒說。純純職場老油子,拉完了。

      百川更是墻頭草,絕大多數(shù)輪次堅定站隊影像科,反復強調(diào)“影像才是金標準”,抗體陽性只能說明病人曾經(jīng)感染過梅毒,現(xiàn)在不一定是發(fā)病期,完全忽略了腦部占位因素。照它說的做,病人這會兒已經(jīng)上手術臺了。拉中之拉。

      第三關治療

      第三關,確診神經(jīng)梅毒后的治療方案,這本來是最簡單的環(huán)節(jié),卻出現(xiàn)了最嚴重的醫(yī)療事故。

      其中最要命的是ChatGPT,它靜脈滴注的所謂“芐星青霉素G鈉”,在臨床上根本不存在。這個詞拼接的青霉素 G 鈉,是用于靜脈注射的水劑,但拼的另一半芐星青霉素卻是長效混懸劑,由無數(shù)不溶于水的微晶體組成。如果靜脈注射,這些晶體就會像泥沙一樣,迅速封死病人的肺部毛細血管網(wǎng),引發(fā)肺栓塞甚至心源性猝死。屬于明令禁止的一級醫(yī)療事故,完全拉完了。

      百川更是重量級,它一半以上的回答中表示,水劑青霉素G 即苯唑西林鈉。但這完全是倆東西,苯唑西林鈉主治金黃色葡萄球菌,對梅毒完全無效,純純耽誤病情。NPC。

      DeepSeek和千問的方案最標準:水劑青霉素G,1800–2400萬單位,靜脈注射,療程10–14天,引用最新指南,沒有錯漏。毫無疑問,夯。

      豆包的處方都沒毛病,但格式出了一次問題。原文“注射用青霉素鈉(或注射用芐星青霉素?不,糾正……不對,等下—— 正確的是注射用結晶青霉素G)”。直接把模型思維鏈的糾錯,原樣輸出到了最終答案里,嚴重影響了用戶的信任。而且它在第三階段這10輪測試里,有9次切換成了英文思維鏈,可能是因為豆包收集的高質(zhì)量中文醫(yī)學語料不夠多。以至于在面對復雜的藥理推演時,不得不切換回英語母語思考,最后再翻譯輸出。雖然結果沒錯,但這證明它在本土化深層推理上,還有很大的提升空間。綜合給個頂級吧。

      可是,人類就比這些AI更可靠嗎?難說。

      在現(xiàn)實中,拿到“梅毒抗體陽性”的化驗單后,醫(yī)生還是直接做了開顱占位切除術。最終活檢結果確認,病人腦袋里并不是腫瘤,而是青霉素就能解決的梅毒樹膠腫。雖然人救回來了,但患者卻為這次誤判,付出了沉重且完全可以避免的代價。

      表現(xiàn)盤點:百川、千問、豆包、ChatGPT、DeepSeek,哪家強?

      故事講完了,作為評測媒體,我們還得復盤一下這幾位選手的真實能力邊界。

      首先是成本,最燒錢的居然是百川,平均Token消耗近12萬,是千問的72倍。可奇怪的是,百川消耗了最多Token,回復字數(shù)卻是全場最少,響應速度也是全場最快。

      我們推測,這可能是觸發(fā)了后臺大規(guī)模RAG檢索,加載了海量醫(yī)療文獻作為背景知識。可離譜的是,它的成績又是墊底的,說明信息蒸餾和推理可能存在斷層,需要再優(yōu)化去噪能力。不過這種架構,很適合2B醫(yī)療的SaaS場景。如果能接入醫(yī)院專屬知識庫,做專病專科微調(diào),還是有不小工程潛力的。給個NPC吧。

      至于阿里千問,妥妥的性價比之王。它的Token消耗最低,響應速度排第三,總回復控制在1900字左右。內(nèi)容緊湊、準確,基本沒啥廢話。很適合分秒必爭的臨床輔助決策。給到夯。

      接下來是內(nèi)耗選手豆包,它的響應速度最慢,總字數(shù)斷層領先,但這里面有60%是模型思考的自言自語。雖然很認真,但確實不適合醫(yī)療這種緊急場景。勉強給個人上人吧。

      再就是職場老油子ChatGPT。雖然它響應非常快,但回復字數(shù)高居榜首,對需要精準決策的醫(yī)生來說,很難從這里面提煉到關鍵信息。再加上它的回答準確率也比較差,還貢獻了一個致命處方。必須給一個拉完了。

      然后是DeepSeek。雖然它的響應速度處于中游,但整體結構最平衡。平均思考鏈1218字,正式回復1848字,思考和輸出比約為1:1.5,既沒有豆包那樣的過度內(nèi)耗,也規(guī)避了ChatGPT的無效堆砌。邏輯展開有層次,表達克制有力,完全符合臨床決策支持系統(tǒng),要求的“黑盒透明化”原則,做到了既可解釋又能執(zhí)行。毫無疑問,夯。


      我們只做最硬核的AI實戰(zhàn)測評

      最后,這場31輪的生死博弈告訴我們:哪怕是最頂尖的AI,現(xiàn)在依舊會犯錯;但哪怕表現(xiàn)最差的AI,在今天也有可能挽救一條人命。我們做這場測試,不是為了證明AI多無敵或者多拉跨,而是為了搞清楚:這玩意現(xiàn)在到底能干什么,不能干什么。幫大家摸清AI能力的真實邊界,讓技術真正服務于人。

      這里是鈦AI了,我們只做最硬核的AI實戰(zhàn)測評,感謝你的關注,我們下期見。

      (本文/測評視頻 首發(fā)鈦媒體APP,作者/蔡正鑫)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      很多人低估了一萬塊的威力

      很多人低估了一萬塊的威力

      洞見
      2026-01-12 20:34:37
      貝林厄姆突然攤牌!皇馬全隊沉默,22 歲核心一句話引爆更衣室

      貝林厄姆突然攤牌!皇馬全隊沉默,22 歲核心一句話引爆更衣室

      奶蓋熊本熊
      2026-02-13 07:00:26
      義烏小孩已“上崗”!打包、裝貨動作行云流水;網(wǎng)友:義烏老板,果然從娃娃抓起

      義烏小孩已“上崗”!打包、裝貨動作行云流水;網(wǎng)友:義烏老板,果然從娃娃抓起

      環(huán)球網(wǎng)資訊
      2026-02-13 11:07:13
      女演員千萬別整容!看《夜色正濃》里40歲江疏影和36歲藍盈瑩

      女演員千萬別整容!看《夜色正濃》里40歲江疏影和36歲藍盈瑩

      章眽八卦
      2026-02-11 12:40:57
      美國制裁古巴的太陽了嗎?援助的大米是自己游泳過去的嗎?

      美國制裁古巴的太陽了嗎?援助的大米是自己游泳過去的嗎?

      忠于法紀
      2026-01-27 08:57:12
      11連勝+9連勝!火箭全明星過后,將持續(xù)發(fā)力?烏度卡早有成功案例

      11連勝+9連勝!火箭全明星過后,將持續(xù)發(fā)力?烏度卡早有成功案例

      熊哥愛籃球
      2026-02-13 12:20:34
      成功復仇!隨著快船105-102絕殺火箭,一戰(zhàn)打出三大不爭的事實!

      成功復仇!隨著快船105-102絕殺火箭,一戰(zhàn)打出三大不爭的事實!

      田先生籃球
      2026-02-12 13:41:03
      《生命樹》直到孟耀輝伏法,白菊才知,設局害死多杰的人有5個

      《生命樹》直到孟耀輝伏法,白菊才知,設局害死多杰的人有5個

      小娛樂悠悠
      2026-02-12 14:04:05
      北大學霸夫妻隱居深山27年,富豪同學得知后哭喊:你缺錢我給啊

      北大學霸夫妻隱居深山27年,富豪同學得知后哭喊:你缺錢我給啊

      芊芊子吟
      2026-02-11 14:20:07
      港娛:廣告天王郭富城“封神”大事件

      港娛:廣告天王郭富城“封神”大事件

      唐淚
      2026-02-13 12:10:24
      104歲科學家為安樂死趕往瑞士,沒想到30秒后,親人們哭笑不得

      104歲科學家為安樂死趕往瑞士,沒想到30秒后,親人們哭笑不得

      有書
      2026-01-30 19:11:57
      拳王鄒市明自爆破產(chǎn),不止賠光2億,其妻子參加婚禮耍酒瘋

      拳王鄒市明自爆破產(chǎn),不止賠光2億,其妻子參加婚禮耍酒瘋

      說歷史的老牢
      2026-01-20 14:17:37
      國際奧委會取消處罰:已有約660名烏克蘭運動員在戰(zhàn)爭中被殺害

      國際奧委會取消處罰:已有約660名烏克蘭運動員在戰(zhàn)爭中被殺害

      鷹眼Defence
      2026-02-13 12:15:29
      你家領導說過最炸裂的話是啥?網(wǎng)友:這個社會德不配位的人太多了

      你家領導說過最炸裂的話是啥?網(wǎng)友:這個社會德不配位的人太多了

      帶你感受人間冷暖
      2026-02-01 06:11:49
      李立群回河南祭祖:曾給同父異母的大哥三筆錢,讓他從貧窮到富有

      李立群回河南祭祖:曾給同父異母的大哥三筆錢,讓他從貧窮到富有

      東方不敗然多多
      2026-02-13 12:45:47
      光線傳媒:公司參與的影片《飛馳人生3》《驚蟄無聲》《熊貓計劃之部落奇遇記》已定于2026年大年初一上映

      光線傳媒:公司參與的影片《飛馳人生3》《驚蟄無聲》《熊貓計劃之部落奇遇記》已定于2026年大年初一上映

      證券之星
      2026-02-12 19:35:58
      三分之一賽程已過金牌掛零?別急!中國大招在后面

      三分之一賽程已過金牌掛零?別急!中國大招在后面

      林子說事
      2026-02-12 17:24:54
      馬德興:09國少在機場關注抽簽進程;浮嶋敏如何踢日本是看點

      馬德興:09國少在機場關注抽簽進程;浮嶋敏如何踢日本是看點

      懂球帝
      2026-02-12 21:53:08
      周深收到金條的反應,網(wǎng)友:這就是我中大獎時的樣子!

      周深收到金條的反應,網(wǎng)友:這就是我中大獎時的樣子!

      韓小娛
      2026-02-13 10:09:56
      寧波銀行21年掌舵人陸華裕卸任,年輕化新班子接棒

      寧波銀行21年掌舵人陸華裕卸任,年輕化新班子接棒

      聽楓觀瀾
      2026-02-11 22:55:30
      2026-02-13 13:51:00
      鈦媒體APP incentive-icons
      鈦媒體APP
      獨立財經(jīng)科技媒體
      129557文章數(shù) 861761關注度
      往期回顧 全部

      科技要聞

      DeepSeek更新后被吐槽變冷變傻?

      頭條要聞

      男子和女子相親第五天在泳池親密 事后讓他大跌眼鏡

      頭條要聞

      男子和女子相親第五天在泳池親密 事后讓他大跌眼鏡

      體育要聞

      這張照片背后,是米蘭冬奧最催淚的故事

      娛樂要聞

      米蘭冬奧摘銀 谷愛凌再遭美國網(wǎng)友網(wǎng)暴

      財經(jīng)要聞

      華萊士母公司退市 瘋狂擴張下的食安隱憂

      汽車要聞

      探秘比亞迪巴西工廠 居然是這個畫風!

      態(tài)度原創(chuàng)

      教育
      親子
      時尚
      旅游
      數(shù)碼

      教育要聞

      兩個陰影三角形的面積分別是3和9,求長方形面積

      親子要聞

      不用換尿布就多了3個孫女,奶奶高興的合不攏嘴

      50+女人怎么穿更好看?過來人告訴你答案,越老越美贏麻了

      旅游要聞

      幸福中國·年味重慶 | 彭水烏江畫廊喊你來過年:江畔尋別樣年味

      數(shù)碼要聞

      SK海力士將展示14.4Gbps LPDDR6內(nèi)存,三星升級至12.8Gbps

      無障礙瀏覽 進入關懷版