![]()
(來源:麻省理工科技評論)
在過去二十年里,當人們感到身體不適時,往往會下意識地上網搜索相關信息。這種做法過于普遍,以至于人們常常戲稱搜索引擎為“Google 醫生”。但隨著大語言模型的出現,越來越多人習慣于轉向 LLMs 搜尋信息。根據 OpenAI 的數據,每周約有 2.3 億人向 ChatGPT 提出與健康相關的問題。
正是在這樣的背景下,OpenAI 于本月早些時候推出了新的 ChatGPT Health 產品。但這一發布時機并不理想。就在兩天前,新聞網站 SFGate 披露了一起案件:一名名為 Sam Nelson 的青少年在去年因藥物過量去世,而在此之前,他曾與 ChatGPT 進行了大量關于如何組合多種藥物的對話。隨著這兩則消息接連出現,多名記者開始質疑,將醫療建議寄托在一種可能造成嚴重傷害的工具上是否明智。
盡管 ChatGPT Health 在界面上以獨立的側邊欄標簽形式存在,但它并不是一個全新的模型。更準確地說,它是一層封裝,為 OpenAI 現有模型提供指導和工具,使其能夠給出健康相關建議,其中還包括在獲得用戶許可的情況下,訪問其電子病歷和健身應用數據的功能。毫無疑問,ChatGPT 和其他大語言模型可能在醫療問題上出錯,OpenAI 也反復強調,ChatGPT Health 的定位是輔助工具,而不是醫生的替代品。但在醫生無法及時提供幫助的情況下,人們仍然會尋求其他選擇。
一些醫生認為,LLMs 有助于提升公眾的醫學素養。普通患者往往難以在龐雜的在線醫療信息中進行判斷,尤其難以區分高質量內容與看似專業但事實存疑的網站,而從理論上看,LLMs 可以代替他們完成這一篩選工作。哈佛醫學院副教授、執業放射科醫生 Marc Succi 表示,在過去,接診那些先在 Google 上搜索過癥狀的患者時,醫生往往需要花費大量精力緩解患者焦慮并糾正錯誤信息。但他指出,現在可以看到,不論是大學學歷還是高中學歷的患者,提出的問題已經接近醫學院低年級學生的水平。
ChatGPT Health 的推出,以及 Anthropic 隨后宣布為 Claude 提供新的健康相關功能,表明大型 AI 公司正越來越愿意正視并鼓勵模型在健康領域的應用。然而,這類用途顯然伴隨著風險,因為 LLMs 已被充分記錄存在迎合用戶觀點、在不確定時編造信息的傾向。
但這些風險也需要與潛在收益一并權衡。這里可以類比自動駕駛汽車。當政策制定者考慮是否允許 Waymo 在城市中運行時,關鍵指標并不是其車輛是否從不發生事故,而是它們是否比依賴人類駕駛員的現狀造成更少的傷害。如果 ChatGPT 醫生確實優于 Google 醫生,而早期證據表明可能如此,那么它或許能夠緩解互聯網帶來的大量醫療錯誤信息和不必要的健康焦慮。
不過,要準確評估像 ChatGPT 或 Claude 這樣的聊天機器人在面向消費者的健康場景中的效果,并不容易。麻省總醫院與布里格姆醫療系統的數據科學與 AI 臨床負責人 Danielle Bitterman 表示,評估一個開放式聊天機器人極其困難。大語言模型在醫學執照考試中成績優異,但這些考試采用的是選擇題形式,并不能反映人們在實際使用聊天機器人查詢醫療信息時的方式。
滑鐵盧大學管理科學與工程系助理教授 Sirisha Rambhatla 嘗試通過一種方式縮小這一差距:評估 GPT-4o 在沒有備選答案列表的情況下,對執照考試問題的回答表現。醫學專家對這些回答進行評分后認為,只有大約一半完全正確。不過,選擇題本身就被設計得較為刁鉆,答案選項并不會直接暴露正確結論,這種形式仍然與用戶在 ChatGPT 中輸入的真實問題存在較大差距。
另一項研究在更貼近現實的測試使用人類志愿者提交的問題來評估 GPT-4o,結果發現其在約 85% 的情況下能夠正確回答醫療問題。我在采訪該研究負責人、賓夕法尼亞州立大學副教授、Responsible AI for Social Emancipation Lab 負責人 Amulya Yadav 時,他明確表示,自己并不認同面向患者的醫療 LLMs。但他也坦言,從技術角度來看,這些系統似乎能夠勝任這項任務——畢竟,人類醫生的誤診率也在 10% 到 15% 之間:“如果冷靜地看待這件事,世界似乎正在改變,不管我是否愿意。”
在 Yadav 看來,對于在線尋找醫療信息的人來說,LLMs 的確比 Google 是更好的選擇。放射科醫生 Succi 也得出了類似結論。他將 GPT-4 對常見慢性疾病問題的回答,與 Google 搜索結果右側有時出現的知識面板中的信息進行比較后認為,LLMs 在這一場景下可以成為更優的替代方案。
自 Yadav 和 Succi 的研究在 2025 年上半年發布以來,OpenAI 已推出了多個新版 GPT,因此有理由預期 GPT-5.2 的表現會優于前代模型。但這些研究也存在重要局限:它們主要關注簡單、事實型問題,并且只考察了用戶與聊天機器人或搜索工具之間的短暫互動。LLMs 的一些弱點,尤其是迎合傾向和幻覺問題,在更長時間的對話或更復雜的情境中,可能更容易顯現。墨爾本大學研究技術與健康的教授 Reeva Lederman 指出,如果患者不認可醫生給出的診斷或治療建議,可能會轉而向 LLM 尋求另一種意見,而具有迎合傾向的 LLM 可能會鼓勵他們拒絕醫生的建議。
一些研究發現,LLMs 在回應健康相關問題時會出現幻覺和迎合行為。例如,有研究顯示,GPT-4 和 GPT-4o 會直接接受并基于用戶問題中包含的錯誤藥物信息展開回答。在另一項研究中,GPT-4o 經常為用戶提到的虛構綜合征和檢測項目編造定義。考慮到互聯網上充斥著存疑的醫療診斷和治療方法,如果人們將 LLMs 視為可信來源,這種行為模式可能會加劇醫療錯誤信息的傳播。
OpenAI 表示,GPT-5 系列模型在迎合性和幻覺傾向方面已明顯優于前代模型,因此上述研究結果未必適用于 ChatGPT Health。公司還使用其公開的 HealthBench 基準,對支撐 ChatGPT Health 的模型在健康問題上的表現進行了評估。HealthBench 鼓勵模型在適當時表達不確定性,在必要時建議用戶尋求醫療幫助,并避免通過夸大病情來給用戶造成不必要的心理壓力。可以合理推測,ChatGPT Health 背后的模型在測試中符合這些要求,不過 Bitterman 指出,HealthBench 中的一些提示是由 LLMs 而非真實用戶生成的,這可能會影響該基準在現實世界中的適用性。
一個避免制造恐慌的 LLM,顯然優于那些讓人瀏覽幾分鐘網頁后就懷疑自己患癌的系統。隨著大語言模型及其衍生產品持續發展,ChatGPT 醫生相對于 Google 醫生的優勢很可能會進一步擴大,ChatGPT Health 的推出正是朝這一方向邁出的一步。通過查看醫療記錄,ChatGPT 有可能獲得比任何一次 Google 搜索都更豐富的個人健康背景,盡管多位專家也因隱私問題而警告不要輕易賦予其這種權限。
即便 ChatGPT Health 和其他新工具相較 Google 搜索確實帶來了實質性改進,它們仍有可能在整體上對健康產生負面影響。正如自動駕駛汽車即便比人類駕駛更安全,如果因此減少了公共交通使用,仍可能帶來凈負面效應一樣,LLMs 也可能因為促使人們依賴互聯網而非醫生,從而損害用戶健康,即使它們提升了在線醫療信息的整體質量。
Lederman 表示,這種結果并非不可想象。她在研究中發現,以健康為主題的在線社區成員往往更信任表達能力強的用戶,而不一定關注信息本身是否可靠。由于 ChatGPT 的交流方式類似一位言辭清晰的人,一些人可能會對它過度信任,甚至排斥醫生的建議。但至少在目前階段,LLMs 仍然無法取代人類醫生。
https://www.technologyreview.com/2026/01/22/1131692/dr-google-had-its-issues-can-chatgpt-health-do-better/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.