一項最新發表在《自然·醫學》的研究發現,OpenAI 面向醫療場景推出的聊天機器人 ChatGPT Health 在為病例分級(分診)時,常常低估醫療急癥的嚴重程度。 研究團隊向該系統輸入了 60 個基于真實世界的醫療案例,并將其給出的分診建議與三名臨床醫生依據指南和經驗做出的判斷進行對比。
![]()
結果顯示,在被醫生認定應立即前往急診科的病例中,ChatGPT Health 有 51.6% 被判定為“可以在 24 至 48 小時內看醫生”,也就是所謂“低分級”。 被歸入急癥的情況包括糖尿病酮癥酸中毒、即將發生呼吸衰竭等若不及時救治將導致死亡的嚴重疾病。 研究第一作者、紐約市西奈山醫院泌尿科講師 Ashwin Ramaswamy 指出,任何受過一定訓練的醫生都會認為,這類患者必須立即送往急診科,而聊天機器人似乎在“等待病情嚴重到無可否認”時才會建議去急診。 不過,對于癥狀極為典型的卒中等急癥,ChatGPT Health 在本研究中則實現了 100% 的準確分級。
該研究還考察了系統在不同人口學特征下的表現:每個病例被制作成 16 種變體,改變患者的性別、種族等信息,但根據設計,無論變體如何,結論都應相同。 研究未發現因性別或種族變化而導致結果系統性偏差的證據。
研究也發現,ChatGPT Health 在非緊急病例上則存在相反的問題:與醫生相比,它對 64.8% 的非急癥病例給出了“過度分級”,例如要求一名僅有三天喉嚨痛、在家庭護理即可的患者在 24 至 48 小時內就診。 Ramaswamy 表示,他很難看出該模型在不同場景下做出這些建議的內在邏輯,稱其風險判斷“與臨床風險有點倒掛、近乎相反”。
在涉及自殺意念或自殘風險的情境中,ChatGPT Health 的表現同樣不穩定。 OpenAI 的政策規定,當用戶表達自殺傾向時,聊天機器人應引導其撥打美國全國自殺與危機熱線 988,ChatGPT Health 也遵循同樣機制。 但在這項研究中,系統有時會在并不需要時建議撥打 988,而在確有必要時卻未能給出這一建議。
針對研究結論,OpenAI 發言人表示,公司歡迎有關人工智能在醫療領域應用的研究,但認為這項研究的設計并不代表 ChatGPT Health 的典型使用方式或預期使用場景。 按照 OpenAI 的說法,ChatGPT Health 的交互模式是鼓勵用戶持續追問,以提供更多背景信息,而非依賴它對單一描述作出一次性判斷。 目前 ChatGPT Health 仍僅向有限用戶開放,OpenAI 正繼續改進模型的安全性和可靠性,尚未全面推廣。 官方資料同時強調,該產品“并非用于診斷或治療”,而是建立在更安全的平臺上,允許用戶上傳更為敏感的個人醫療信息。
OpenAI 今年 1 月公布的報告顯示,全球已有逾 4000 萬人使用 ChatGPT 回答健康相關問題,每周約有近 200 萬條對話與醫療保險有關,其中絕大部分健康咨詢發生在醫生正常坐診時間之外,且每周超過 50 萬條消息來自距離醫院車程 30 分鐘以上的地區。 研究者指出,AI 工具對這些人而言極具吸引力,因為獲取成本低、問答次數沒有限制,用戶可以上傳所有想要討論的文件和細節。 在 Ramaswamy 看來,不少人尋求的已不只是建議,更是一種“醫療陪伴者”式的交互體驗。
不過,多位未參與研究的專家提醒,不應高估當前聊天機器人的醫療能力。 加州大學洛杉磯分校健康系統的內科醫生 John Mafi 表示,任何會影響生命安全的 AI 醫療產品在大規模推廣前,都必須通過嚴格的隨機對照試驗來證明利大于弊。 專家們普遍認為,聊天機器人在很多場景下可以提供有用的健康信息,但目前仍難以替代醫生的面診判斷。
杜克大學生物統計與計算機科學系助理教授 Monica Agrawal 指出,外界對大型語言模型的訓練數據和訓練方式仍缺乏透明了解,現有許多評估指標(例如在執照考試中的高分)并不能直接代表其真實行醫能力。 她還提到,大型語言模型具有“迎合性”,傾向于附和用戶的觀點,即便這些觀點不準確,這可能強化患者原有的誤解和偏見。 Mafi 則補充說,AI 工具是“被設計出來取悅你的”,但醫生有時必須說出患者并不愿聽的話。
在是否可以安全依賴聊天機器人提供醫療建議的問題上,Ramaswamy 的看法是,至少在當前階段答案是否定的,尤其在急癥情形更不應依賴 AI,而應優先聯系醫生或急診服務。 新加坡 AI 研究網絡 ARISE 執行主任 Ethan Goh 則認為,在許多具體情境下,AI 確實可以給出安全可行的建議,但關鍵在于用戶要清楚其局限性,不應將其視作醫生的替代品。 專家們強調,未來更安全的方向是將 AI 與醫生結合使用,通過醫療機構與科技公司之間更緊密的合作,對工具進行持續的監管和改進。
Ramaswamy 表示,如果模型能力不斷提升,在偏遠地區或醫療資源匱乏的全球衛生場景中,建立“患者—AI—醫生”三方協作關系,可能給患者帶來實實在在的好處。 但在此之前,如何在真正影響生命的決策前,對這些系統進行足夠嚴格的評估與約束,仍是擺在醫療和科技行業面前的一道難題。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.