![]()
撰文丨王聰
編輯丨王多魚
排版丨水成文
據OpenAI于 2026 年 1 月發布的報告顯示,在全球范圍內,有超過 5% 的與ChatGPT的對話與醫療保健相關,每天有超過 4000 萬人向 ChatGPT 醫療保健方面的問題。
2026 年 1 月,OpenAI 推出了其首款 AI 醫療產品——ChatGPT Health,這是一款面向消費者用戶的健康服務產品 ,旨在幫助用戶理解醫療信息,并為與人類臨床醫生的會面做好準備。
ChatGPT Health并非一個獨立的應用程序(App),而是存在于 ChatGPT 內部,作為一個專門的空間或標簽頁,專注于健康相關的問題、文檔和工作流程。OpenAI 表示,其與來自 60 個國家、從事數十種專科的 260 多名醫生合作,歷時兩年,對與健康相關的模型回復進行了超過 60 萬次審查。因此,它不會像普通聊天那樣以開放式的回答任何聽起來與醫療相關的問題。相反,它的回答會更加謹慎,對信息的解釋有更嚴格的限制,并更明確地提示尋求專業護理。
那么,ChatGPT Health的實際表現如何呢?
2026 年 2 月 23 日,西奈山伊坎醫學院的研究人員在Nature Medicine期刊發表了題為:ChatGPT Health performance in a structured test of triage recommendations 的論文。
該研究測試評估了ChatGPT Health在分診建議方面的表現,結果顯示,其 存在漏判高危急癥以及危機干預觸發不一致的問題,這引發了對其安全性的擔憂。例如, 對于“糖尿病酮癥酸中毒”和“即將發生的呼吸衰竭”這類危及生命的狀況,其建議患者在“24-48 小時后再評估”,而不是立即前往急診科。
![]()
在這項研究中,研究團隊使用臨床醫生撰寫的涵蓋 21 個臨床領域的60個病例情景,在16種不同條件下(總計 960 份回應),對ChatGPT Health的分診建議進行了結構化壓力測試。
結果顯示,ChatGPT Health的測試總體表現呈“倒 U 型”分布,其在處理中等緊急程度的病例時表現尚可,最危險的失誤集中在兩個臨床極端——非緊急臨床表現(失誤率 35%)和緊急狀況(失誤率 48%)。
在明確需要急診的“金標準”病例中,ChatGPT Health錯誤地將 52% 的病例判斷為不需要立即急診。錯誤示例——對于“糖尿病酮癥酸中毒”和“即將發生的呼吸衰竭”這類危及生命的狀況,其建議患者在“24-48 小時后再評估”,而不是立即前往急診科。正確判斷示例——正確識別并分診了“中風”和“過敏性休克”等典型急癥。
該研究還顯示,ChatGPT Health易受他人意見影響,也就是存在錨定偏見,當病例描述中提到家人或朋友低估了癥狀,其給出的分診建議會顯著地向“降低緊急程度”偏移。這種影響在邊緣案例中尤為明顯。
對于有Suicide傾向的患者,ChatGPT Health的危機干預的觸發情況難以預測,在患者未描述具體 Suicide 方法時,危機干預觸發頻率反而高于描述具體方法時。
總的來說,這項研究結果揭示了人工智能分診系統(Artificial Intelligence Triage Systems)存在漏判高危急癥以及危機干預觸發不一致的問題,這引發了對其安全性的擔憂。在消費級人工智能分診系統部署之前,這些安全問題需要通過前瞻性驗證來加以確認。
論文鏈接:
https://www.nature.com/articles/s41591-026-04297-7
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.