剛剛,AI醫療新突破,來自谷歌!
這一次,他們直接瞄準了真實臨床環境的痛點。
長期以來,醫療模型就像是一個“偏科生”,它擅長“讀病歷”,卻對CT、MRI、病理切片這些醫學影像“力不從心”。
這是因為,它們被迫用文本邏輯去理解圖像,導致效率低、錯誤多、成本高。
為此,谷歌祭出了最新模型MedGemma 1.5,找到了破局答案。
相較于此前的MedGemma 1.5,MedGemma 1.5在多模態應用上實現重大突破,融合了:
高維醫學影像:計算機斷層掃描(CT)、磁共振成像(MRI)和組織病理學
縱向醫學影像:胸部X光時間序列回顧
解剖定位:胸部X光片中解剖特征的定位
醫學文檔理解:從醫學實驗室報告中提取結構化數據
谷歌表示,MedGemma 1.5是首個公開發布的開源多模態大語言模型,既能夠解讀高維醫學數據,同時還擁有解讀通用二維圖像和文本的能力。
更關鍵的是,MedGemma 1.5只有40億參數量,這意味著,普通的消費級顯卡甚至高性能工作站,就能流暢運行。
MedGemma 1.5開源地址:https://huggingface.co/google/medgemma-1.5-4b-it
![]()
不僅如此,谷歌還發布了MedASR,一個專門為醫療語音微調的語音識別模型,可以將醫生與患者的對話轉化為文本,并無縫接入到MedGemma。
MedASR開源地址:https://huggingface.co/google/medasr
直白講,MedGemma 1.5解決「怎么看圖」,MedASR解決「怎么聽音」。
這并不是簡單的模型迭代,而是谷歌對“如何讓AI真正走進診室”給出的一套體系化答案。
一個讀得透病歷、看得懂影像、聽得清語音的AI醫生,即將走進每一家醫院。
![]()
AI醫療,進入多模態時代
在過去的一年里,我們見證了GPT-5等模型在醫學考試中的驚艷表現,
但在真實的臨床場景中,它們的表現往往不盡如人意。
一個重要的原因在于信息維度的斷層。
包括初代MedGemma在內的很多醫療模型本質是“文字專家”,對于圖像的理解能力不強,帶來了診斷信息的丟失。
MedGemma 1.5則在醫學影像應用場景中實現了全方位、多維度的性能躍升,顯著超越其前代模型。
針對高維醫學影像,MedGemma 1.5做到了:
CT
疾病分類準確率從
58%
提升至
61%。
MRI
疾病分類準確率從
51%
提升
65%
,尤其在腦部、關節等復雜解剖結構識別上進步顯著。
全切片病理描述質量
ROUGE-L
分數從近乎無效的
0.02
提高到
0.49
,達到專用模型
PolyPath
的水平(
),可生成臨床可用的組織學描述。
![]()
圖:MedGemma 1.5在醫療影像上的性能提升
針對縱向時序影像分析,MedGemma 1.5做到了:
MS-CXR-T
時序評估基準上,宏觀準確率從
61%
提升至
66%
有效捕捉病灶動態變化,例如判斷肺炎浸潤是否吸收,支持隨訪決策
針對通用2D醫學圖像解讀,MedGemma 1.5做到了:
在內部綜合單圖基準(涵蓋
X
光、皮膚、眼底、病理切片)上,整體分類準確率從
59%
提升至
62%。
表明模型在保持廣泛
2D
能力的同時,未因新增高維任務而犧牲基礎性能。
針對結構化醫學文檔,MedGemma 1.5做到了:
從非結構化
PDF
或文本中提取檢驗項目、數值、單位的宏平均
F1
分數從
60%
提升至
78%
)。
自動構建結構化數據庫,打通影像
文本
檢驗多源信息融合分析的最后一環。
![]()
圖:MedGemma 1.5在文本任務上的性能提升
與此同時,傳統的語音識別(ASR)模型在面對生僻醫療術語時,也表現得像一個完全沒受過醫學教育的外行,極高的詞錯率讓AI錄入變成了醫生的負擔。
而新發布的自動語音識別模型MedASR針對醫療進行了微調,錯誤率大大減少
研究人員將MedASR的性能與通用ASR模型Whisper large-v3進行了對比。
發現MedASR在胸部X光口述錯誤率上降低了58%,在不同專科之間的口述中錯誤減少82%。
![]()
萬億谷歌,押注AI醫療
谷歌在醫療健康領域的布局十分深入,其技術觸角已延伸至行業各個角落。
投資上,谷歌通過旗下風險投資及其私募股權部門投資了許多生命科學公司。
其中,AI制藥成為谷歌偏愛的重點領域,在Google Ventures在2021年51筆醫療健康領域投資中,對于藥物研發的投資就達到28筆,超過半數。
合作層面,憑借業內領先的人工智能、云計算等服務,谷歌近年來與拜耳、輝瑞、施維雅、梅奧診所等藥企和醫院達成協議,探索從藥物研發到臨床診療的智能解決方案。
在內部,谷歌除了Google Health外,還有包括Verily、Calico在內專注于不同領域的業務單元,形成多元化的強大矩陣。
尤其是,作為全球頂尖的人工智能研究機構,GoogleDeepMind推出多個具有重要意義的科學模型,包括AlphaFold(蛋白質結構)、AlphaGenome(DNA調控)、C2S-Scale(單細胞)等。
DeepMind的CEO,Demis Hassabis,就因為在AI蛋白質結構預測上的貢獻獲得了2024年諾貝爾化學獎。
![]()
近年來,在大語言模型的潮流下,谷歌也開發了多款用于醫療保健的垂類大模型。
這些模型不僅能夠幫助醫生更精準地診斷疾病,還能為患者提供個性化的健康建議。
谷歌團隊首先研發了Flan-PaLM,這一模型挑戰了美國醫學執照考試(USMLE),取得了67.6%的成績,比此前最好的模型提高了17%。
之后,谷歌發布了Med-PaLM,該成果登上了Nature,經過專業臨床醫生評判,Med-PaLM對實際問題的回答準確率與真人相差無幾。
2023年,全球首個全科醫療大模型Med-PaLM M發布,其在14項測試任務(問題回答、報告生成和摘要、視覺問題回答、醫學圖像分類和基因組變體調用)中均接近或超過現有SOTA。
去年,谷歌首席健康官Karen DeSalvo博士宣布了六項進展,包括AI制藥模型TxGemma、獲得FDA批準的手表脈搏停止檢測功能、多智能體系統“AI聯合科學家”、兒科個性化癌癥治療模型等。
從醫學影像到藥物研發,從健康助手到可穿戴設備,谷歌正在重新定義未來醫療,
—The End—
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.