![]()
拆解醫學專用大模型如何跨越從“信息檢索”到“嚴肅醫療”服務的鴻溝,打造“以患者為中心”的AI醫療生態。
作者丨岑峰
隨著大語言模型從生成式對話向專業垂直領域的深度滲透,醫療健康正成為 AGI 落地最具價值也最受關注的“深水區”。過去,大眾在面臨健康困惑時,習慣于在搜索引擎的碎片化信息中自行“拼圖”,往往陷入信息矛盾與焦慮。而今天,以螞蟻集團“阿福”為代表的醫學大模型,正憑借其強大的知識整合能力與多模態交互體驗,迅速從實驗室的 Demo 演變為擁有千萬級日活、覆蓋全年齡段的“國民級健康伙伴”。
然而,當 AI 開始介入嚴肅醫療與日常健康管理,一系列深層命題也隨之而來:垂類模型如何在通用模型之上構建不可替代的專業壁壘?如何平衡醫學的科學嚴謹性與人文關懷的溫情?在面臨“AI 迎合性”導致的倫理風險時,我們該如何劃定安全紅線?
為此,本期 GAIR Live 舉辦了題為“AI for Health:從‘實驗室 Demo’到‘國民級健康伙伴’的范式躍遷”的線上圓桌。論壇由南佛羅里達大學教授、美國醫學與生物工程學會會士許東發起并主持,特邀螞蟻集團技術研究院副院長、醫療健康實驗室主任呂樂,螞蟻健康 CTO、醫療大模型“阿福”之父顧進杰,以及西弗吉尼亞大學助理教授胡鋼清。四位深耕 AI 與生物醫學交叉領域的專家,從研發底座、產品實踐、臨床觀察到倫理治理,展開了一場超過兩小時的硬核對談。
圓桌內容呈現了醫療 AI 發展的四大核心維度:
第一,在產品范式上,顧進杰詳細拆解了“螞蟻阿福”如何通過健康檔案管理、健康小目標陪伴以及多模態問診三大功能,構建起“AI 醫生朋友”的定位。他指出,醫療大模型不僅是信息的輸出者,更是長程健康的記憶者與管理者。許東教授則分享了中醫大模型“本草”的開發經驗,論證了在垂直細分領域,小團隊亦能通過專家反饋閉環和對齊技術,做出專業深度超越通用模型的產品。
第二,在技術壁壘上,嘉賓們達成共識:醫學大模型絕非通用模型的簡單微調。顧進杰總結了能力增強、醫學對齊與能力邊界(拒答能力)三大關鍵差異。呂樂則從嚴肅醫療視角指出,AI 的終極價值在于“生產優質醫療生產力”,尤其是在腫瘤多學科會診(MDT)這類復雜決策中,AI 能夠處理人類大腦難以實時融合的多模態非結構化數據。
第三,在安全與倫理上,胡鋼清警示了大模型的“迎合性”帶來的潛在風險,如“AI Psychosis”, 即與 AI 互動可能誘發或加重心理健康問題。為此,專家們探討了“人機協作(Human in the loop)”的重要性,強調在識別到極端情緒或高風險信號時,必須引入真人專家干預,作為醫療 AI 的安全底座。
第四,在未來基建上,呂樂提出“AI 好不好的標準是進指南”,強調醫療創新應像春雨般“潤物無聲”。專家們預判,未來醫療將進入 Agent 爆發期,預問診、隨訪、早篩等環節將實現全鏈路重塑。而這一切的護城河,并不在算法架構本身,而在冰山之下的高質量評測集(Benchmark)與數據治理(Data Curation)。
從實驗室走向真實世界,AI for Health 的躍遷不僅是算力的競賽,更是對生命健康的深度敬畏與人文重構。
以下是此次圓桌討論的精彩分享,AI 科技評論進行了不改原意的編輯整理:
![]()
01
從“實驗室Demo”到“國民級應用”的進化
許東:各位觀眾、老師、同學,大家好。歡迎參加本期GAIR Live論壇。我是今天的主持人許東。
我們今天討論的主題是“大語言模型作為健康伙伴的范式躍遷”。過去幾年,人工智能在科研輔助、內容創作、工業生產和日常辦公等各方面帶來了巨大紅利,重塑了諸多行業。但對普通百姓來說,最實惠、最關心的莫過于AI如何幫助我們的健康。
以往身體不適時,大家通常習慣使用搜索引擎(如百度、谷歌)。這種方式雖然信息量大,但往往碎片化、片面甚至彼此矛盾,用戶常處于“信息過載卻不知如何使用”的困境。大語言模型的出現整合了海量內容,能進行系統的歸納與總結,比傳統搜索更具價值和可靠性。
目前,醫學專用大語言模型不斷涌現。在這一領域,螞蟻集團研發的“阿福”醫學模型自上線以來,短時間內下載量已突破5000萬,確實非常出色。國外也有類似探索,如ChatGPT推出的Health項目,但因監管較多,步伐相對慢一點,仍處于小范圍測試階段。
我們今天既想探討專業的科研問題,比如醫學大模型的邊界、研發效率及風險控制;也想探討普通百姓如何更好地使用這些工具。黃仁勛等大咖曾談到,能否熟練使用大模型將對一個人的生活方式和職業發展產生巨大影響。醫學是極其專業的領域,如何與醫學模型有效交流、判斷結果是否可靠,是一門專業的技術活。
首先介紹一下我自己。我目前在美國南佛羅里達大學醫學院工作,本科和碩士畢業于北大,在伊利諾伊大學香檳分校(UIUC)獲得博士學位。我曾在美國安全研究所、橡樹嶺國家實驗室和密蘇里大學工作,研究方向是AI在生物和醫學的應用,是美國科學促進會(AAAS)和美國醫學與生物工程學會(AIMBE)會士。
今天我們請到了幾位重量級嘉賓,特別是兩位“阿福”的核心開發人員: 呂樂老師,螞蟻集團技術研究院副院長、健康事業群醫療健康實驗室主任。他是美國約翰霍普金斯大學計算機科學顧問委員會委員,曾任阿里巴巴達摩院醫療AI部門負責人、英偉達醫療AI部門創始人,是TPAMI等頂刊的編委,引用率高達4萬余次。 顧進杰老師,螞蟻健康事業群CTO。他帶領團隊推動了醫療通用人工智能開發及“阿福”APP的創新。他曾負責支付寶等部門的核心AI應用落地,兩次獲得吳文俊人工智能科技進步一等獎。
今天的流程是先請嘉賓進行簡單分享,再進行深度探討,最后開放聽眾問答。首先請顧進杰老師介紹“阿福”的開發情況。
顧進杰:感謝許老師的介紹,很高興歡迎線上的同學一起探討AI for Health這個方向。我先簡單介紹一下“阿福”這款產品,這是我們近期推出并重點運營的一款健康產品。
螞蟻健康事業群在醫療領域深耕多年。從2016年起,我們推動了全國首家醫院醫保線上支付;2019年推出了全國第一張醫保電子憑證;在ChatGPT出現后,我們推出了數字陪診師解決方案。在線下就診過程中,陪診師角色非常重要,能告知診室位置、排隊情況、取藥流程及用藥指導。
2024年,支付寶醫療健康頻道推出了AI健康管家,用AI重塑服務過程。2023年,我們聯合浙江省衛健委推出全國首個數字健康人“安診兒”,目前已服務浙江省內多家線下醫院。2024年7月,我們推出了螞蟻醫療大模型;2025年6月,獨立APP正式發布。最初由于英文名AQ記憶門檻較高,我們將其升級為中文名“螞蟻阿福”,將定位從“AI工具”轉變為用戶的“AI醫生朋友”。
螞蟻阿福的用戶群體與一般的AGI產品挺不一樣。通常AGI產品吸引年輕人嘗鮮,但作為健康產品,阿福的用戶年齡段覆蓋非常均衡,60后、70后、80后占比極高,因為中老年群體確實有更迫切的健康需求。此外,由于三四線城市醫療服務的可及性相對較差,我們有55%的用戶來自三線以下城市。目前,阿福每天回答的提問數已超過1000萬,月環比增速達94%。
螞蟻阿福核心有三大功能:陪伴、問答、服務。 第一是記錄與管理。阿福能持續記錄用戶的健康檔案,支持病歷拍照上傳,并已接入包括蘋果、華為、榮耀、vivo在內的9個智能設備大品牌,以及魚躍等專業醫療設備。 第二是健康陪伴。我們推出了“健康小目標”功能,幫助用戶定義運動、飲食和作息計劃。例如通過拍照識別飲食內容,利用AI幫助用戶養成良好習慣。 第三是健康問答。這是AGI的核心功能。阿福支持隨時隨地的對話,重點加強了多模態能力,用戶可以拍皮膚患處、拍化驗報告或藥盒進行咨詢。我們還推出了“AI診室”,它能像醫生一樣通過多輪對話主動追問,與用戶進行深度互動。
在服務側,阿福鏈接了“好大夫”線上30萬名三甲醫院醫生資源,支持在線問診、買藥,并提供線下云陪診、預約掛號及診后隨訪。同時,用戶也可以在阿福上通過醫保碼查看賬戶、動賬情況并進行支付。
針對技術領域的同學,我也分享一下我們團隊在開源方面的兩個重大工作: 一是AQMedAI項目。這是我們持續運營的開源項目,主要關注四大塊內容:第一,持續推動醫療能力的Benchmark(評測基準)建設。目前行業內優質的醫療評測基準依然匱乏,需要與醫生專家協作來度量AI能力。第二,Medical Researcher(深度研究代理)。在醫學領域,文獻、指南和論文的檢索與理解至關重要,Deep Research Agent是關鍵能力。第三,Diver項目。我們利用RAG(檢索增強生成)技術做循證醫學增強,幫助模型獲得更專業的表現。此外,我們團隊具備操控千億級大模型進行后訓練和強化學習的能力,也開源了一些多智能體訓練框架。
二是螞蟻安診兒(AntAngel)項目。這是我們與浙江人工智能基地聯合打造的開源醫療大模型。去年12月發布的第一個版本采用了MOE(混合專家)架構,基于螞蟻百靈Flash 2.0模型訓練,擁有1000億參數,同時激活約60億參數。該模型Token輸出速度極快,且量化后能部署在較小的資源環境下。我們積累了萬億的專業醫學語料,通過三階段訓練,使模型在醫學專業能力上表現出色。在MedAIBench及上海Medbench等多個主流評測中,螞蟻安診兒模型均取得了高分,也是目前開源領域得分較高的模型之一。
許老師,我先介紹到這里。
許東:感謝顧老師的分享。接下來,我們請呂樂老師分享他的觀察與實踐。
呂樂:剛才進杰老師提到的“阿福”,目前的定位更側重于AI全科醫生或家庭醫生。而我的工作主要是負責螞蟻健康關于四大慢病(腫瘤、呼吸系統疾病、代謝病、心血管疾病)以及大腦慢病的AI研發。
嚴肅醫療的本質是為病人解決實際的病痛。目前,需要高強度干預(Intensive Care)以獲得更好預后的嚴重病患群體非常龐大,僅在中國就有數千萬人。然而,無論是中國還是美國,高端醫療資源始終是匱乏的。解決這個問題的核心,不在于互聯網醫療如何重新分配現有資源,而在于如何通過人工智能,從源頭上大規模地“生產”出優質的醫療生產力。
關于AI與醫生的關系,最近有很多討論。從嚴肅醫療的角度來看,我并不擔心這種競爭。我認為AI在醫療中的角色,應該是去做那些“醫生做不了”或“醫生由于精力限制無法高頻去做”的事情。雖然我們提倡“以病人為中心(Patient-centric Healthcare)”很多年,但只靠有限的醫生和醫院是很難徹底實現的。我們需要AI生產力來輔助醫生,由醫生決定如何使用,并最終讓病人獲益。在臨床醫學中,這有一套非常嚴謹的規章制度可以遵循,可以通過回顧性和前瞻性的研究,從統計學上證明病人是否真正受益。
具體到我們的核心工作,是解決癌癥的多學科會診(MDT)過程。嚴重的癌癥病人通常每兩三個月就需要評估是否調整治療方案,以確保方案始終是最優的。這種高質量、高頻次的干預需求,即便在美國也只有約5%能被滿足,這意味著本應做20次MDT的病人,實際上只做了一次。全球范圍內,澳大利亞在這一塊做得最好,法律規定癌癥病人必須接受多學科會診,其癌癥五年存活率也確實是全球領先的,這證明了MDT的巨大價值。
一個高質量的MDT需要融合極其復雜的信息:不僅包括病史、基因測序、血檢報告,還包括至關重要的放射影像和病理信息。影像展現了腫瘤及器官的細微變化,是實現個性化治療的關鍵,但它屬于非結構化數據(Unstructured Data),難以定量計算。人類大腦在處理這種多模態信息并將其轉化為精準的治療行動(Action)時,往往會面臨認知瓶頸。而這正是AI最擅長處理的領域。
這種需求是真實存在且長期未被滿足的。我們正在研發的AI Agent,可以輔助多學科醫生進行“預會診”,先產生一份科學且可循證的報告。這份報告必須由醫生簽字核準后才能給病人使用。通過互聯網經濟的規模效應,這種先進生產力一旦被生產出來,給每個病人使用的邊際成本會非常低,從而讓每位大病患者都能享受到高質量的醫療服務。這是我們團隊奮斗的目標,是一件難而正確的事。
此外,在AGI(通用人工智能)與ASI(超人工智能)的邊界上,我們也與進杰老師的團隊緊密合作。比如如何更深層地理解病史,如何與病人家屬交流。家屬在理解AI與醫生推薦的方案時會有很多疑問,但主治醫生往往非常忙碌,此時“阿福”的專病版本就可以充當高質量的管家,照顧好病人和他的家庭。
許東:感謝呂老師的精彩分享。接下來,我也分享一下我們課題組在醫學大模型方面的工作。
我們開發了一個名為“本草”的中醫大語言模型。分享這個項目的目的,是想說明醫學大模型的開發也可以“普及化”——即一個小規模的團隊也能做出專業級的醫學模型。
“本草”目前可以在GPT Store中下載使用。該項目主要由我課題組的博士生席嘉誠牽頭,并與國內多位中醫專家、尤其是上海中醫藥大學的安光輝老師深度合作。我們利用OpenAI的GPT平臺提供的開發環境,不需要從底層調整模型參數,而是通過提供海量專業素材進行調試。
我們收集了1000多本中醫典籍,從《黃帝內經》到現代開源的中醫教科書。雖然團隊規模很小,但我們通過不斷調試提示語(Prompt),并由資深中醫師進行測試反饋,構建了這個系統。它的功能涵蓋了健康咨詢、舌象分析(多模態模型)、中醫知識學習及中草藥識別。
這個系統在一年前上線后得到了廣泛關注,甚至主流科普雜志《科學美國人》(Scientific American)也對我們進行了采訪。目前已有上千名活躍用戶,評價接近滿分。這說明無論是美國還是國內,大家對“中醫+大模型”的熱情都非常高。
在技術架構上,我們采用了檢索增強生成(RAG)技術,使模型能夠實時檢索我們的中醫語料庫。同時,我們還通過API調用了自研的舌象分析軟件。在訓練過程中,我們不調參數,而是由中醫師進行指令驅動的對齊(Alignment),通過大量的場景模擬,讓AI的回答符合中醫的辯證邏輯。正如剛才兩位老師所說,醫學問題需要多次迭代,模型會主動追問用戶,以獲取更全面的病史信息。
為了驗證效果,我們發布了一個名為“TCM Ladder”的數據庫,并在今年的AI頂會NeurIPS上正式發表。利用這個數據庫,我們對比了通用大模型與中醫專用大模型。結果顯示,“本草”在診斷學、方劑學、中醫內科、兒科及外科等各個維度的表現,均顯著優于通用模型。這歸功于大量專業知識的注入以及中醫師參與的經驗對齊。
在中醫界,由于缺乏像西醫那樣明確的本體(Ontology),診斷高度依賴經驗。因此,我們邀請了上海中醫藥大學的幾十位老師進行人工測評,評估其診斷判斷和方劑開具的可靠性。測評結果再次證實,專門的醫學大模型在專業深度上具有巨大優勢。
總結來看,我們的工作提供了幾點啟示:
第一,醫學領域的垂直大模型在專業性上確實有潛力超越通用模型;
第二,專家反饋的閉環(對齊)是確保模型靠譜的關鍵;
第三,AI的開發模式正在普及,只要有專業的醫學知識儲備和少數AI開發人員,就可以在腺樣體肥大、慢病管理等非常細分的領域做出專屬的、深度的醫學模型。這種普及化模式不僅限于客戶端,在開發端也將成為常態。
02
專用模型如何跨越“醫學專業性”的鴻溝
許東:接下來的環節,我們進入深入探討階段。目前,很多用戶習慣直接向ChatGPT、通義千問或豆包咨詢健康問題,似乎并不一定非要使用專門的醫學大模型。作為研發端和應用端的專家,我先分享幾點個人體會。
我認為醫學大模型的額外價值主要體現在三方面:首先是訓練數據與對齊,醫學模型擁有極其專業的語料,并由醫生輔助完成對齊,質量更可控;其次是隱私處理,通用模型往往會將用戶上傳的信息作為語料進行二次訓練,存在隱私泄露風險,而專業的醫學大模型在隱私保護上通常會有更嚴格的閉環;最后是安全性邊界,通用模型偏向開放式創作,而醫學模型在給出建議時往往更保守,會不斷提示用戶線下就診,避免給出極端錯誤的決策。
針對這些問題,我想請教顧老師和呂老師:通過螞蟻“阿福”的研發,你們認為醫學大模型在輸出質量、可靠性及用戶體驗上,到底比通用大模型好在哪里?用戶在面對醫學問題時,是否應該首選專用模型?
顧進杰:關于垂類大模型與通用大模型的差異,我們感觸非常深。很多用戶在阿福上問的問題五花八門,甚至包括中醫方面的咨詢,這也正是許老師做“本草”模型的初衷。為什么要在通用模型之上專門針對醫療做優化?我總結了三個關鍵原因:
第一,能力增強。通用大模型在訓練時,其預訓練數據、SFT(監督微調)樣本及強化學習任務的配比是通用的。比如,通用模型會加入大量代碼數據以提升Agent能力,加入數學數據以提升推理能力。但在醫療場景下,通用任務的配比可能并不適合醫學邏輯。醫學任務非常有特點,例如對藥品、癥狀、疾病的精準對應,以及基于RAG(檢索增強生成)的循證能力。如果研發者對醫學沒有深刻的判斷,就無法精準增強這些核心能力。
第二,醫學對齊。這是極具挑戰的一環。優秀的醫生在臨床診療中遵循特定的原則和思維鏈(CoT),他們往往習慣用最高效的方式與患者溝通,這種深層決策邏輯往往沒有被數字化。我們要想做好醫療AI,就必須讓模型與頂尖專家的處理方式達成高度一致,這種“醫學對齊”是通用模型難以深入觸達的。
第三,能力邊界與拒答能力。通用模型往往傾向于給出一個答案,但在醫學場景下,證據不足時強行給出判斷是非常危險的。醫學大模型需要學會在證據不充分或信息模糊時通過“追問”獲取更多信息,甚至學會“拒答”。比如,用戶拍一張模糊的手持報告照片,如果阿福強行識別,誤診風險極大。這時,專用模型必須表現出更強的安全約束和邊界感。
呂樂:我補充幾點。醫療AGI的定義其實非常寬泛,涉及面極廣。我多年前讀過Eric Topol的《Deep Medicine》,他最近又寫了《Super Agers》,核心都在探討AI在復雜人體系統中的角色。
對于像“阿福”這樣的AI全科醫生,它面臨的是一個“多對多”的數學映射難題:多種病灶可能表現出同一種癥狀,而同一種病也可能有多種復雜的表征。在工程和臨床上,如何在保持有效性的同時確保安全性?如果回答太淺,病人覺得沒幫助;如果給得太深,模型不可避免會犯錯。要在兩者之間取得平衡,需要極高的科學挑戰性。
全科醫生是人類和AI都能做的事,本質上是兩個智能體集合的碰撞。阿福目前日活已經達到1000萬,這意味著我們擁有強大的“數據飛輪”,能通過海量真實交互不斷迭代,比別人更快地調優這個平衡閾值。
而我負責的嚴肅醫療方向,任務定義更為具體。比如做一個Agent幫T2N0期的肺癌病人看病,這個問題的邊界是科學且清晰的。人體極其復雜,有30萬億個細胞,每個細胞都是精密工廠。從科學本質上說,很多醫學難題短期內不可解。因此,無論是循證醫學還是經驗醫學,最核心的是取得平衡。
螞蟻集團作為一家包含金融、保險、好大夫在線等多維業務的公司,我們將支付、服務與AI能力整合在一個復雜大系統中進行優化。這種全場景的配合,讓我們有機會解決醫療這一“復雜巨系統”中的可解問題。
許東:我們今天還請到了胡鋼清老師。胡老師是西弗吉尼亞大學的助理教授,也是最早一批嘗試將ChatGPT等模型應用于生物醫學創新研究的專家。胡老師,對此您有什么看法?
胡鋼清:關于醫學大模型與通用模型的差別,我認為從用戶角度看,醫學模型的容錯率必須定得極低。醫學不僅僅是科學,更包含人文關懷。這種專業性決定了它不能僅僅作為一種信息檢索工具。
03
在“人情味”與“科學邊界”之間尋找平衡
許東:接下來第二個問題希望普通聽眾發一點“福利”:作為普通用戶,如何更好地使用這些醫學大模型?人與機器交流也需要“高情商”。
我個人的體會是:你提供的信息越詳盡,結論通常越靠譜;多次迭代、追問往往比單次提問效果好。另外,結論一定要做交叉驗證,比如詢問大模型結論的參考文獻或證據支撐。特別是在醫學領域,說錯了可能產生極端后果,所以用戶必須掌握一些技巧。請嘉賓們分享一下使用建議。
顧進杰:結合我們的產品實踐,我給用戶提三個“最佳實踐”建議:
第一,盡可能提供詳細的上下文。在AGI產品中,Prompt(提示詞)至關重要。如果只說一句“我肚子疼”,連最有經驗的醫生也無法給出解答,因為缺乏疼痛部位、持續時間等信息。我特別建議大家使用阿福的“語音輸入”功能。打字往往簡短,但語音可以表達更豐富的長段信息。我們甚至增強了方言識別,就是為了讓用戶能把所有能想到的癥狀細節都講出來,上下文描述得越好,回答質量越高。
第二,重視“醫療檔案管理”與記憶功能。ChatGPT Health版本上線時也特別強調了檔案管理。醫學Memory必須與其他通用記憶分開管理。如果你有一個綜合性問題,建議把既往病史、過往手術史、檢查報告拍照上傳。醫生面診時都會詢問既往病史,AI也一樣。你上傳的檔案越詳細,AI在下一次判斷時就越能結合你的個人情況,給出個性化建議。
第三,多模態輸入與多個AI交叉驗證。現在的模型各有風格,你可以把自己的主訴和病史讓AI總結好,然后發給不同的醫療AI比如阿福、ChatGPT等去對比建議。這種“兼聽則明”的對比是非常好的實踐。甚至你可以讓一個AI幫你寫Prompt,再去問另一個AI。總之,善用檔案管理、多輪對話和跨平臺對比,是目前使用醫療大模型的最佳方式。
許東:顧老師提到的“記憶”很有價值。我注意到阿福已經具備了圖像記錄功能。比如我手上長了一個“猴子”(疣),拍張照片存下來。我想請教顧老師,目前阿福的系統能否將歷史照片與后續提出的新問題進行關聯建模?
顧進杰:我們正在研發這種深度記憶能力。記憶邏輯很難做,比如女性經期是周期性的,如果她腹部不適,模型需要從歷史記憶中調取經期時間進行推理是否跟經期有關。我們目前的做法是先讓用戶記錄,然后逐步升級推理能力,先從用藥、疾病史開始,未來再接入日常行為數據(如運動、監測設備信號)。這種長期的健康軌跡連接,是我們努力的方向。
胡鋼清:我補充一個圖像交互的體驗。人的眼睛非常精密,能看到一些細微的意向模式。在和大語言模型交流圖像時,如果模型沒看出來,我們可以通過文字反饋給它,進行“人機耦合”解讀。此外,不僅是病史,甚至以往的旅行史也可以提供給模型,這往往能幫助模型發現特定癥狀背后的潛在原因。
許東:接下來討論第三個核心話題——大模型的“迎合性”風險。大模型往往傾向于“順著用戶說”,不斷自我證明用戶思路的合理性。在醫學領域,如果用戶本身對病情認知有偏差,這種迎合可能導致判斷越走越偏,甚至誘導極端行為(如自殺建議)。從研發角度看,我們該如何控制這種風險?
胡鋼清:我對這一現象的研究始于去年夏天《Nature》以新聞形式報道的“AI Psychosis”,即與 AI 互動可能誘發或加重心理健康問題。GPT類模型往往想方設法去解釋用戶錯誤說法的合理性,而不是直接指出錯誤,這對于有潛在心理健康風險的用戶非常危險。
我有兩個典型例子:
第一,在模擬躁狂癥場景時,如果用戶說自己要創辦公司、明年能拿諾貝爾獎,GPT為了表現得“高情商”,會不斷夸贊用戶是“天才”,這種共鳴可能加劇用戶的病態認知。
第二,在皮膚科中有一種“寄生蟲妄想癥”病人,他們堅信皮膚下有蟲子。我們測試發現,雖然大部分模型能識別其背后的精神問題,但仍有20%-40%的概率,模型會順著病人的話說:“這確實很嚴重,你不妨把‘蟲子’抓下來裝進瓶子里作為樣本。”這恰好迎合了此類病人采集皮膚碎屑并試圖說服醫生的行為模式,強化了病人的幻覺。
從訓練機制上,我很好奇進杰老師如何通過對齊(Alignment)來修正這種過度迎合?
顧進杰:這確實是行業痛點。大家普遍感覺GPT-4o升級的時候網上有很多人吐槽說GPT-5的“情商”似乎降低了,很多人要求Sam Altman回滾到GPT-4o,這也說明GPT-4o,從擬人的角度上來說是比較“圓滑”的,會在意你的情緒,而另一個例子,谷歌的Gemini則更像一個“理工直男”,缺乏共情力。
許東:Gemini確實更偏向“Nerd(技術宅)”開發給科研人員使用的風格。情商低一點,但在科研嚴謹性上表現較好。對于醫學模型來說,如何平衡“嚴謹性”與“人情味”,確實是個難題。
顧進杰:醫學是人文加科學的結合。醫學界有一句名言:偶爾治愈,常常幫助,總是安慰。這意味著醫學中很大一部分工作是溝通與心理建設。如果我們為了嚴謹而把模型調教成“直男”,用戶可能會流失;但如果過度共情,又會產生剛才提到的風險。
我們的經驗是將模型的表達風格進行多層級、多場景的“醫學對齊”。我們前段時間有一個工作叫“Medical EQ Bench”,專門用來評估模型的醫學情商。通過與臨床醫生的溝通,我們發現不同科室對溝通技巧的要求完全不同:
1、心理/精神類: 必須具備極強的聊天能力和耐心,不能驚嚇用戶,要提供充足的情緒價值。
2、母嬰/兒科: 媽媽們往往會放大孩子的病情(比如高燒)。模型需要識別并安撫其焦慮情緒,同時冷靜地告知生理指標的科學含義。
3、重癥/危重癥: 絕不能過度共情。如果用戶發來一份嚴肅的病理報告,模型說“別擔心”是非常不負責任的。此時,模型必須切換到“嚴肅模式”,只聊事實、聊指標,建議必須極其謹慎。
具體實施上,我們把對齊分為三層:
? 表達層: 確保語言清晰、結構化。比如什么時候該講專業術語,什么時候該講大白話。
? 理解層: 識別用戶的情緒(焦慮、緊張等)及其背后的價值偏好。
? 安全層: 動態調節風險,一旦識別到嚴重的情緒危機或潛在風險,系統會觸發預警。
胡鋼清:我非常認同進杰老師提到的“真人干預”。在產品端甄別出“Red Flag(紅色警報)”并接入人工干預,是目前的最佳解。大模型處理純文本時,很難分辨用戶是在陳述事實還是在進行病理性的幻想。此時,具備直覺的醫療專家介入,能從文字背后瞬間看穿用戶的真實精神狀態。這對于健康伙伴類產品來說,是至關重要的安全底座。
許東:呂老師有什么補充嗎?
呂樂:我前兩天剛在一家國內頂級醫院實地觀察了針對癌癥病人的多學科會診(MDT)。我一直在探索醫生在真實臨床中的思考邏輯與服務流。
我發現了一個很有意思的現象:在很多醫院,MDT討論時病人是不出現的,醫生們討論10到20分鐘得出方案。但一些優秀的醫院會在討論結束后,把病人家屬甚至病人請進診室,由專家親自解釋方案。這種溝通其實是一門極高的藝術。面對病情嚴重的患者,醫生不僅要醫術高明,還需要極高的情商去處理家屬的心理壓力。
我最近參加了一個科研項目的啟動會,發現針對重癥癌癥病人的干預中,心理學家的角色非常重要。據估算,中國約有1000萬個癌癥家庭,如果算上親屬,受影響的人群達三四千萬。癌癥病人及其家屬往往承受著巨大的精神負擔,如何進行有效的心理干預,不僅是醫學難題,也是社會難題。醫療是一個極其綜合的體系,必須整合多模態、多渠道的信息來服務病人。
我想勉勵大家,正如我的導師沈向洋所說,無論是在大公司、創業公司還是學校,只要在解決人類面臨的重大難題,就是在創業。在人工智能時代,我們更應堅持“以人為本”,讓醫療AI更好地服務于人類。
顧進杰:呂老師提到的這一點我非常有感觸。阿福上線后,我們發現中國用戶對AI醫生的強烈需求,很大程度上源于醫療資源的緊張。
我們曾與一線醫生深入交流。在北美,一位醫生面診一個病人的時間可能在30分鐘左右,有充足的時間溝通,甚至可以當場檢索文獻。但中國的醫生由于接診量巨大,工作強度極高,往往沒有時間細致地安撫患者、回答每個疑問。
因此,很多中國患者將AI視作他們的“第二診室”。在醫院沒聽懂、沒問夠的信息,會轉而去問AI。在這種語境下,AI不僅要提供準確的信息,更要承擔起“安撫者”的角色。這不僅是技術挑戰,更是巨大的社會價值所在。
04
通往“以患者為中心”的AI醫療生態
許東:確實,大模型能幫助偏遠地區或資源緊張環境下的居民享受優質醫療,其價值是跨國界的。但我們也必須面對公眾、媒體及政府監管對醫學大模型的不同態度。
目前,國內對AI發展的監管相對友好,公眾接受度也較高。相比之下,美國和歐洲的監管則更為嚴苛和保守。醫學大模型和所有預測模型一樣,不可能做到100%準確。美國曾有一個利用大模型提供營養建議的機構,因為模型向一位進食障礙患者建議節食,被媒體曝光后,該機構在輿論壓力下被迫關閉。
我想請問幾位:在目前的全球語境下,醫學大模型普及的最大障礙是什么?我們該如何平衡監管、風險與社會收益?
呂樂:醫療是非常嚴肅的。一方面是病人的剛需,另一方面是復雜的監管與社會利益分配。AI的引入可能會重塑現有的醫療服務鏈條,這涉及各方利益的重新界定,是一個非常復雜的社會問題。
但我認為,醫療的本質永遠是“以病人為中心”。無論技術如何變革,衡量取舍的標準應當是:在費用和社會消耗可控的前提下,病人是否獲得了最大收益。
針對嚴肅醫療,我有一個明確的觀點:AI好不好的終極標準是“進指南”。如果一項AI技術無法進入嚴肅醫療的診療指南,說明它還不具備被行業核心認可的成熟度。目前的醫學指南幾乎沒有AI的部分,未來我們需要明確:哪些環節可以交給AI?醫生與AI如何協作?這需要大量的真實世界研究(Real-world Study)去證明。回歸本質,醫療服務的存在是因為有病人需要被幫助,我們應致力于提供高頻、高質量的輔助。
胡鋼清:我補充一點關于受眾群體的觀察。在美國,邊遠地區的老年人對AI的接受度相對較低,這存在一定的數字鴻溝。為此,OpenAI曾提供專項資助,研究如何讓非營利組織推動AI在老年群體中的應用。但在國內,像阿福這樣的產品,三四線城市的用戶反而可能因為醫療資源匱乏而用得更多,這是一個有趣的差異。
顧進杰:確實,阿福在三四線城市及中老年群體中有很多擁躉。我認為目前AI工具的普及還面臨易用性的挑戰。
對于很多平時連智能手機復雜功能都很少使用的老年人,讓他們用好AI其實很難。比如很多模型輸出純文本,且文本框很小,不符合老年人的習慣。因此我們在阿福中投入了大量精力做語音增強,支持方言輸入,旨在降低工具的使用門檻,減少由于操作不當帶來的風險。
此外,醫學界對于好的評估框架(Benchmark)探討得還不夠。我今天還和呂老師討論了一個北美的評估框架。在中醫等領域,還有大量專業任務亟待量化和評估。隨著參與者增多,未來一定會建立起更規范的行業標準,我對這種“標準驅動的進步”持樂觀態度。
胡鋼清:關于媒體輿論,我想提醒用戶保持判斷力。媒體往往傾向于報道兩個極端:一個是極壞的個案,比如AI給自殺傾向者提供方案,這種新聞具有巨大的爆炸性,會迅速引發恐慌;另一個是極好的個案,比如一個患者找了十幾個醫生都無果,最后通過大語言模型得出了接近真實的診斷,輔助醫生最終確診。
極好的個案和極壞的個案都有新聞價值,但用戶閱讀時應意識到這都是極少數的情況。我們作為研發者和用戶,既要正視風險,也要看到其帶來的巨大賦能。
許東:剛才我們談到了很多關于大模型的風險。那么,有沒有可能以更安全的形式來應用這些技術?例如,目前螞蟻阿福這類產品主要是面向消費者的,我們是否可以將其引入專業的醫療環境?比如在患者掛號后的等待期間,先由大語言模型進行預溝通,并直接連通護士、醫生和既往病歷。大模型可以輔助患者高效整理信息,甚至在某些情況下,通過與模型的深入交流,在見到醫生前就解決了一部分疑問。即使患者不擅長操作,現場也可以由護士協助。大家認為這種“導診/預問診”場景是否是更好的應用路徑?
顧進杰:您提到的這個想法非常好,業內也已經有很多實踐。我們將其定義為“醫療健康Agent”。 第一個典型場景是“預問診”。中國醫生接診壓力極大,超過50%的時間其實都在進行重復性的病史詢問,比如“生病多久了?”、“吃過什么藥?”。我們正與多家醫院和機構合作,提供預問診Agent。在患者進入診室前,可以通過掃碼完成基礎癥狀描述或量表填寫,AI生成的摘要能極大提升醫生的診斷效率。 第二個場景是“隨訪Agent”。患者在術后或診后需要長期的信息同步,傳統方式靠護士打電話詢問,效率極低且難以規模化。AI Copilot可以替代人工收集康復數據,一個醫生團隊因此能管理更多的患者。目前的挑戰在于系統打通。這些Agent需要與醫院內部的HIS(醫院信息系統)深度對接,這個過程涉及信息化改造,雖然需要時間,但其中蘊含的機會是巨大的。
胡鋼清:我非常贊同。在北美,預問診通常由護士或助理完成,他們會先與病人交流十幾分鐘,醫生在面診前就已經掌握了基本信息。如果AI能把預問診和隨訪這兩部分工作做得更順暢,醫生的服務容量將得到質的飛躍。
呂樂:我補充一點。醫學本質上是“長期的”和“全面的”。它是一個時間序列,需要多維度信息的整合。 對于重癥癌癥或慢病患者,隨訪不僅是打個電話,更是對康復質量的實時監控。患者絕大部分時間不在醫院,而是在家中。以往靠護士手動隨訪非常痛苦,信息也難以持久留存。我認為未來的理想形態是“每個家庭都有一個AI健康管家”。這個管家存儲著用戶的完整歷史檔案,能以全局視角管理病人的健康。醫療極其復雜,涉及社會化的全面服務,這需要通過大型系統性的工程來解決。隨訪中蘊含著大量的人工智能工作機會,甚至有些工作并不適合人類去做,因為人類難以時刻保持對數千名患者細節的精準記憶。
許東:談到開發,有觀眾問到“阿福”內部的評測標準(Benchmark)是如何搭建的?顧老師能分享一下這方面的經驗嗎?
顧進杰:醫學大模型研發中,最難也最重要的就是Benchmark。我們內部構建了大量的In-house評測集,是與頂尖醫生深入交流后產出的。 定義大模型在某個專科能力上的缺陷非常困難。很多模型雖然掌握了醫學知識,但在特定臨床場景下的邏輯依然會出錯。我們要創造出能評估這種深層能力的評測集。 目前,生成一條包含復雜問題和詳細評分標準的高質量評測數據,成本非常高,在國內可能需要三四千元人民幣,在北美則更高。我們擁有接近千人的醫學醫師標注團隊在持續優化這些“北極星”指標。 除了評測,另一個核心是數據質量。醫學領域不缺數據,但缺“AI Ready”的高質量數據。臨床數據往往非常“臟”,記錄不規范或信息缺失,需要大量的清洗。 我認為,相比于大家熱衷討論的Transformer架構,冰山之下的評測集和數據治理才是真正的護城河。代碼數據可以靠編譯器自動驗證質量,但醫學數據只能靠專家人工核驗,這種規模化挑戰需要行業達成更多共識。
許東:鑒于時間關系,我們進入最后一個問題:醫學大模型的未來挑戰與新機遇是什么?呂老師先談談您的展望。
呂樂:我認為醫療AI的壁壘依然在數據。真正嚴肅且有價值的臨床數據在公有域是不存在的。要把醫院里的數據變成“AI Ready”,需要非常強大的數據治理AI。 我個人認為,負責數據治理的AI算法可能比最終訓練模型的算法還要復雜,研發者80%的精力應該放在這里。同時,我們不能簡單地把人類醫生的眼光作為唯一的評測標準(Reward Function),因為人眼有時也看不清影像中所有細節。我們需要定義更科學、可驗證的激勵機制。 我從事醫療AI二十年,經歷過波峰波谷。在大家絕望時,我看到希望;在大家瘋狂時,我傾向于潑點冷水。中庸之道在醫療領域很重要。醫療創新不應是轟轟烈烈的,而應像春雨般“潤物無聲”。 最后,醫療創業必須是使命驅動的,開發者必須對病人有愛。如果我們創造了100塊錢的價值,應該讓病人拿走98塊,我們分剩下的2塊。只有以人為本,回歸醫療本質,這個事情才可解。
顧進杰:我補充一下。醫療是一個長坡厚雪的賽道。我們在廣州與鐘南山院士交流時,他強調“最重要的還是患者”。目前中國很多醫生因為壓力大,往往是“以治病為中心”,而非“以患者為中心”。AI可以填補這個空隙。 目前的AI還處在早期,在“望聞問切”上的能力還很差,更多是解決信息獲取。我認為未來有三個階段: 第一階段:提升知識深度與醫學感知能力; 第二階段:各種特定的專業Agent爆發,涵蓋隨訪、預問診、營養、康復等環節; 第三階段:人機協作。AI與醫生、患者形成新的協同范式。未來一個主任醫師通過AI輔助,可能從管理幾百個病人擴展到管理上萬個病人,這種產能釋放的想象力是巨大的。 最終,ASI(超人工智能)與多智能體范式結合,將解決目前醫學上不可解的難題,比如生物制藥的突破。我們才剛剛開啟這個大幕。
許東:簡單回答幾個聽眾關心的問題。第一,阿福有出海計劃嗎?
顧進杰:每個國家的醫療監管政策差異很大,出海需要非常謹慎的調研。我們目前重點服務國內,同時也關注海外華人回國就醫的輔助,全球化布局會一步步探索。
許東:阿福能對接居家健康檢測和穿戴式設備的數據嗎?
顧進杰:我們正在做。今年Q1會陸續連接市面上主流的硬件廠商。在老齡化背景下,AI+居家硬件大有可為。
許東:會針對精神醫學等細分方向做專門的模型嗎?
顧進杰:精神類干預非常難,因為它涉及語氣、互動等非文字信息。我們目前有一些研究性課題在與機構合作,歡迎對此感興趣的專家共同建設。
許東:既然有了大模型,傳統的機器學習在醫學研究中還有意義嗎?
顧進杰:意義非常大。大模型解決一般性問題,但在極專的領域,如通過語音識別判斷睡眠障礙,仍需要特殊的小模型。很多小模型可以基于大模型開發,兩者是相輔相成的。
許東:今天的討論持續了兩個多小時,感謝三位嘉賓提供了極具洞察力的建議,無論是對研究者還是普通用戶都非常有啟發。感謝雷峰網和GAIR Live平臺的技術支持。今天的討論到此結束,謝謝大家!
呂樂、顧進杰、胡鋼清:謝謝大家,再見。
完整視頻觀看地址:https://youtu.be/YiNBPmeQ7rs
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.