![]()
作者|Hayward
原創(chuàng)首發(fā)|藍(lán)字計(jì)劃
無聊的時候用AI聊聊天、要改文章風(fēng)格的時候用AI偷下懶、需要配圖的時候讓AI畫一個…
但如果我說AI能救命,閣下又該如何應(yīng)對呢?
8月2日,微博CEO @來去之間發(fā)微博昨天睡前突然感覺到強(qiáng)烈的頭暈?zāi)垦#苯訒灥阶卟粍拥溃踔炼肌罢静黄饋怼绷恕K依锶藥退苛搜獕海l(fā)現(xiàn)高壓還不到90,妥妥的低血壓。
低血壓這件事可大可小,如果發(fā)展到極端情況,會陷入休克,甚至?xí)l(fā)腦梗和心梗,是會死人的。不過能干上微博CEO的還是藝高人膽大,他沒有第一時間打車去醫(yī)院,反而選擇了先問AI。
他在把癥狀夸大之后,又把自己晚上吃喝過的東西通通發(fā)給AI,最終“診斷結(jié)果”是因?yàn)楹攘烁粢沟腣C泡騰水,得了「反射性低血壓」。
最終,在AI的建議下,他就喝了點(diǎn)可樂、蒙脫石散和補(bǔ)液鹽,一小時后還真好了。
![]()
這事一出,立馬刷新了很多人的對AI的認(rèn)知,原來AI除了幫我們偷懶和娛樂外,還能用來“問診”。
但從網(wǎng)友們的反應(yīng)來看,更多人的態(tài)度還是“不買賬”。不僅來去之間的評論區(qū)里有不少人批評這個例子會誤導(dǎo)網(wǎng)友在緊急時不去找醫(yī)生找AI,耽誤最佳治療時間,還有一些網(wǎng)友認(rèn)為來去之間這個行為,是面對生命健康的兒戲。
網(wǎng)友們的質(zhì)疑完全可以理解。如果是一個月前的我,肯定也會和大多數(shù)網(wǎng)友一樣罵一聲來去之間“不知死活”。
但恰好在兩周前,我女朋友正是用AI解決了一個困擾她二十多年的疑難雜癥,再加上來去之間這次的案例,讓我更加相信“AI問診” 這件事,可能遠(yuǎn)比大家想的靠譜。
賽博神醫(yī)
都說年紀(jì)大機(jī)器壞,隨著年齡越來越大,大家肯定多多少少都有一些存在很多年,雖不致命但又沒法完全根治的病癥。
比如我女朋友,她自七歲起就有一個怪病,發(fā)病時會先伴隨強(qiáng)烈的眼花、目眩,就像套上了萬花筒一樣,過了半小時之后就開始頭暈,一暈就得四五個小時。
這個怪病發(fā)作的時候視線模糊得什么都看不了,頭暈之后又只能躺在床上休息,二十多年都是這樣過來的。雖然說不會危及生命,但對日常的生活工作有非常大的影響。
更令人心煩的是,這二十多年里看過了無數(shù)三甲醫(yī)院、診所、偏方,有說是急性腸胃炎的、耳源性眩暈的,去看了中醫(yī)又說是肩頸部供血不足…診斷結(jié)果五花八門,但始終沒有一個醫(yī)生、一種藥能解決這個問題,甚至緩解發(fā)作的癥狀。
所以,正當(dāng)我們束手無策的時候,抱著死馬當(dāng)活馬醫(yī)的心態(tài),不如問一下ChatGPT 4o吧,或許它會知道一些什么。
不得不說,真是不試不知道,一試嚇一跳:我們輸入女朋友的過往的疾病史、生活史、過往診斷、用藥及效果之后,ChatGPT給出了一個完全意料之外的診斷結(jié)果:前驅(qū)性偏頭痛。
![]()
對于這個診斷結(jié)果,它是這樣解釋的:“視覺異常+隨后頭暈惡心嘔吐+睡眠緩解+發(fā)作性+月經(jīng)周期相關(guān)的癥狀,高度符合偏頭痛伴先兆(Migraine with aura)的臨床表現(xiàn)。”
而且ChatGPT好像猜到了我們會對“偏頭痛”這個結(jié)果感到意外,特地解釋了一番:“許多偏頭痛患者并不以“頭痛”為主,而可能以眩暈為主癥狀”,同時解釋了之前醫(yī)生會誤判的可能因素。
![]()
ChatGPT在整理出答案之后,還會給我們推薦掛號的醫(yī)院科室,強(qiáng)調(diào)了要找眩暈相關(guān)的醫(yī)生;并且在回答的最后,主動詢問我們需不需要準(zhǔn)備病情的自述提綱,或者生成病癥判斷的邏輯文檔。
![]()
可以看到,ChatGPT的整個診斷流程里,分析有理有據(jù)、引經(jīng)據(jù)典,并且回答的情商非常高,不僅有對患者的安慰、對過去醫(yī)生的找補(bǔ),還能積極引導(dǎo)我們?yōu)榭床∽龊脺?zhǔn)備。
只是,這個診斷結(jié)果是不是真的正確呢?除了GPT,我們也用同樣的提示詞問了谷歌Gemini 2.5 Pro,來交叉驗(yàn)證一下。
對于這個病癥,Gemini給出了類似的答案。雖然它稱之為“前庭性偏頭痛(Vestibular Migraine)”,但結(jié)合后續(xù)回答對癥狀、病史的分析,說的的確是同一個病。
基本可以確定,這個怪病是“偏頭痛”了。
![]()
另外在體驗(yàn)兩款A(yù)I工具的時候我們也發(fā)現(xiàn),Gemini的回答會顯得更加簡潔高效,整個文本的排版看起來更有重點(diǎn)更加舒服,只用來查詢病癥的話顯然用Gemini更加方便。
但如果想更加深入了解具體情況,ChatGPT的擬人化程度真的很高,交互起來就更加友好。比起Gemini在回答結(jié)尾的“打雞血”,好像答完這個問題就下班了,還是GPT的循循善誘,甚至主動提議幫你準(zhǔn)備一些能用得上的材料,更加溫暖貼心。
![]()
最后,為了驗(yàn)證兩個AI的診斷結(jié)果是不是準(zhǔn)確的,我們拿著GPT生成的看病材料到了廣州某個三甲醫(yī)院的神經(jīng)內(nèi)科,并根據(jù)它的推薦找了眩暈相關(guān)的醫(yī)生。
令我們十分意外的是,門診的醫(yī)生,無論是對GPT的診斷還是它制作的就診信息匯總表都高度肯定,他說GPT的診斷結(jié)果基本是準(zhǔn)確的。
不過因?yàn)榕笥寻Y狀發(fā)作的時候從來沒有出現(xiàn)過明顯的頭痛,醫(yī)生也認(rèn)為這是一個罕見病,同時的確也很容易誤診。
最終醫(yī)生給出的診斷是“基底型偏頭痛”,是對偏頭痛病癥的一種細(xì)分類型。
![]()
然而,更絕的還在后面。針對這個罕見病,醫(yī)生給女朋友開了一個還在臨床試驗(yàn)的特效藥,而這個特效藥是真的有用。
在后面女朋友這個病再次發(fā)作的時候,把這個特效藥吃下去之后,平時需要幾個小時才能緩解的眼花、頭暈,不到半個小時就能大幅度緩解,已經(jīng)不影響正常的生活工作了。
![]()
所以,在這次親身經(jīng)歷里,無論是前期的AI輔助診斷,還是后期醫(yī)生的對癥下藥,都對找到這罕見病的治療方法發(fā)揮了巨大作用。
我們不禁會想:如果早幾年就能用上現(xiàn)在這個版本的ChatGPT 4o,會不會更早幾年就能免受這個罕見病帶來的痛苦?
而且GPT在AI問診的過程中,還可以協(xié)同幫助我們梳理發(fā)病經(jīng)過、組織描述病歷的語言大綱;在我們不確定該怎么描述一些癥狀時,AI 還可以引導(dǎo)我們?nèi)?zhǔn)確地描述出來,甚至還可以幫我們自動生成一些類似自測量表的文書工具。
從靠譜程度來說,比“百度搜病癥”不知道有用到哪里去了。
另外,經(jīng)過這次事件之后,我也是查了資料才知道,原來AI在醫(yī)療領(lǐng)域回答的靠譜程度,原來是遠(yuǎn)高于其他領(lǐng)域的。
“神醫(yī)”的底氣
一向都喜歡胡編亂造的AI,怎么在問診這件事上突然就靠譜起來了?
從宏觀層面來說,醫(yī)療信息的高度結(jié)構(gòu)化、知識密度大且更新速度快,恰好正是大模型擅長處理的內(nèi)容。
響應(yīng)迅速的大模型可以7x24小時處理大規(guī)模醫(yī)學(xué)知識、精準(zhǔn)匹配用戶問題,并可以通過數(shù)據(jù)訓(xùn)練在任意時間不斷學(xué)習(xí)和更新,還可以像上面提到的在咨詢、問診的過程中輔助醫(yī)生決策與診斷。
所以,能力越強(qiáng)的大模型,越適合用來回答醫(yī)療相關(guān)的問題。除了上面提到的ChatGPT 4o和谷歌Gemini 2.5 Pro,國內(nèi)一些能力出色的大模型在醫(yī)療領(lǐng)域的表現(xiàn)也很不錯。
就在今年6月,斯坦福大學(xué)發(fā)布了一項(xiàng)有關(guān)臨床醫(yī)療AI模型的全面評測,顯示DeepSeek R1以66%的勝率和0.75的宏觀平均分,在九個前沿大模型中脫穎而出,成為全球冠軍。
另外,阿里旗下的AI產(chǎn)品最近也在高調(diào)地進(jìn)軍醫(yī)療市場。除了最近廣告打得飛起的夸克高調(diào)宣布“已經(jīng)將健康大模型集成在AI搜索框中”外,同門兄弟的“螞蟻AQ”也是一款專注C端健康管家的軟件。
但強(qiáng)大的模型能力只是一切的基礎(chǔ)。對醫(yī)療領(lǐng)域的回答來說,訓(xùn)練數(shù)據(jù)是不是足夠準(zhǔn)確、可靠,重要性遠(yuǎn)超其他領(lǐng)域。所以,使用高質(zhì)量、結(jié)構(gòu)化的醫(yī)學(xué)數(shù)據(jù)進(jìn)行訓(xùn)練是必須的。
在這方面,ChatGPT說他們微調(diào)數(shù)據(jù)來自臨床指南、UpToDate、PubMed的數(shù)據(jù),并且會專門過濾非結(jié)構(gòu)化網(wǎng)絡(luò)信息,避免患者論壇誤導(dǎo)性內(nèi)容,保證醫(yī)療回答的信息可靠、專業(yè)。
另外,Gemini這邊的數(shù)據(jù)依托Google Health的真實(shí)病例與結(jié)構(gòu)化EHR(Electronic Health Record,電子健康檔案)數(shù)據(jù),并且會有醫(yī)生團(tuán)隊(duì)篩選訓(xùn)練語料,避免AI胡編亂造。
無論是哪家的大模型,醫(yī)療相關(guān)的數(shù)據(jù)來源必須是經(jīng)過層層篩選,可不是什么“隨便網(wǎng)上找來的”就能用來喂給大模型的。
有了高質(zhì)量數(shù)據(jù)之后,要怎么用?這時就會用上訓(xùn)練大模型過程中的“知識增強(qiáng)”(Retrieval-Augmented Generation, RAG),在模型生成回答前,先進(jìn)行知識檢索,再由模型生成答案,確保輸出內(nèi)容與權(quán)威資料一致。
不同模型的具體做法可能會不太相同,比如ChatGPT會在聯(lián)網(wǎng)模式中,借助Bing +醫(yī)學(xué)數(shù)據(jù)庫內(nèi)容實(shí)時增強(qiáng);Gemini會動態(tài)連接Google Search醫(yī)療知識面板,引用臨床試驗(yàn)、指南等摘要內(nèi)容等等。
除此之外,大模型還會內(nèi)置“醫(yī)療事實(shí)校驗(yàn)?zāi)K”(Fact Consistency Checker),在回答生成后,會反向再判斷一次輸出是否與數(shù)據(jù)庫一致。
例如,輸出回答后,會抽取模型回答中的關(guān)鍵實(shí)體(如疾病名、藥品名),看這些東西是不是知識庫里存在的;又例如,會對輸出進(jìn)行“自動三段論”邏輯審查,檢查“疾病類型→感染類型→藥物適應(yīng)癥”這三者之間是否合理配套。
因?yàn)檫@一步能夠顯著減少因錯誤推理鏈導(dǎo)致的醫(yī)學(xué)性幻覺,無論是通用大模型,比如ChatGPT、Gemini、Anthropic Claude,還是醫(yī)療垂直大模型,比如夸克醫(yī)療大模型、訊飛星火醫(yī)療大模型和平安醫(yī)療認(rèn)知大模型,都已標(biāo)配。
最后部分大模型輸出的結(jié)果,還會通過專業(yè)醫(yī)生反饋標(biāo)注,并在多輪標(biāo)注之后用于強(qiáng)化學(xué)習(xí),并設(shè)計(jì)一套完善的準(zhǔn)確性獎勵機(jī)制等等…
簡而言之,AI 醫(yī)療問答場景下的回答,需要經(jīng)過一系列“防幻覺系統(tǒng)工程”的處理,相比傳統(tǒng)的問答流程更加復(fù)雜、嚴(yán)謹(jǐn)和專業(yè),所以醫(yī)療場景下的 AI 回答才會比其他情況更有可信度。
“吃錯藥會死人”的道理大家都懂,在這種嚴(yán)肅領(lǐng)域,AI大模型廠商更怕出事?lián)?zé)。
黎明前夜
財(cái)經(jīng)故事薈提供了一組數(shù)據(jù),在美國頂級醫(yī)療機(jī)構(gòu)中,高達(dá)87%的科室已實(shí)現(xiàn)AI工具的常態(tài)化使用(每周>50次),其中放射科、病理科的采納率更是達(dá)到了95%。
另外,美國、英國、法國、瑞士等國家都有在試點(diǎn),將AI工具引進(jìn)醫(yī)生的日常工作流中,為患者解答問題、分析醫(yī)學(xué)影像和自動生成臨床文書等,為探索AI工具在臨床醫(yī)學(xué)流程的實(shí)際運(yùn)用提供了寶貴數(shù)據(jù)。
AI醫(yī)療的確是一個非常有想象力的領(lǐng)域,看病難、醫(yī)療資源不均衡的問題全世界都存在,但AI的出現(xiàn),對普通人來說意味著多了一份可以隨身攜帶專業(yè)的醫(yī)療知識寶典,對醫(yī)生來說也是一個非常強(qiáng)大的減負(fù)工具。
雖然現(xiàn)在誰也不敢拍胸口保證 AI 問診的結(jié)果是百分百準(zhǔn)確,但也不妨試試使用ChatGPT、Gemini等工具幫你總結(jié)一下病情發(fā)展的經(jīng)過、描述一下癥狀和病情,并幫你將這些信息整理到表格里,至少能幫你提高看病時和醫(yī)生溝通的效率,還不怕?lián)倪z漏重要信息點(diǎn)。
這不比用AI來算命有價(jià)值多了?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.