![]()
作者丨項(xiàng)目團(tuán)隊(duì)
編輯丨ScienceAI
過去幾年,通用領(lǐng)域的基礎(chǔ)模型(Foundation Models)在大規(guī)模、異質(zhì)、高質(zhì)量數(shù)據(jù)的推動(dòng)下快速演進(jìn)。在醫(yī)學(xué)影像場(chǎng)景中,基礎(chǔ)模型同樣被寄予厚望:期望以一次預(yù)訓(xùn)練,支持多模態(tài)(CT/MR/PET/內(nèi)鏡等)、多任務(wù)(分割/檢測(cè)/配準(zhǔn)/追蹤等)與多解剖部位的統(tǒng)一處理,成為從研究到臨床的“通用底座”。
然而,醫(yī)學(xué)影像數(shù)據(jù)的獲取與標(biāo)注高度依賴醫(yī)學(xué)專業(yè)知識(shí),并受倫理與隱私的嚴(yán)格約束,現(xiàn)有公開數(shù)據(jù)長期呈現(xiàn)“小而散、偏科嚴(yán)重”的格局:與通用視覺領(lǐng)域的數(shù)十億圖像相比,目前公開的醫(yī)學(xué)影像數(shù)據(jù)集的規(guī)模普遍較小,通常只有數(shù)千張圖像,與通用視覺領(lǐng)域的數(shù)據(jù)集相差數(shù)個(gè)數(shù)量級(jí)。
此外,數(shù)據(jù)分布也嚴(yán)重不均:從類型上看,2D 數(shù)據(jù)占主導(dǎo),病理、X 射線和 CT 數(shù)據(jù)較為常見,而 PET 和內(nèi)鏡數(shù)據(jù)則相對(duì)稀缺;從任務(wù)上看,主要集中在分類和分割任務(wù),檢測(cè)、配準(zhǔn)和追蹤等任務(wù)的數(shù)據(jù)供給不足;從部位上看,數(shù)據(jù)大多覆蓋腦、肺、肝和乳腺等,心血管和肌骨等部位的相關(guān)資源則比較薄弱。由于缺乏對(duì)現(xiàn)有數(shù)據(jù)的全面系統(tǒng)性梳理和一套行之有效的數(shù)據(jù)融合方法,醫(yī)學(xué)基礎(chǔ)模型的發(fā)展正面臨著關(guān)鍵瓶頸。
Project Imaging-X 由上海人工智能實(shí)驗(yàn)室、上海創(chuàng)智學(xué)院、劍橋大學(xué)、中國科學(xué)院大學(xué)、上海交通大學(xué)、蒙納士大學(xué)、上海科學(xué)智能研究院、復(fù)旦大學(xué)等多家國內(nèi)外頂尖高校與研究機(jī)構(gòu)聯(lián)合發(fā)起。項(xiàng)目匯聚了人工智能、醫(yī)學(xué)影像、數(shù)據(jù)科學(xué)與臨床醫(yī)學(xué)等領(lǐng)域的專家學(xué)者,構(gòu)建跨地域、跨學(xué)科的協(xié)作網(wǎng)絡(luò)。
為填補(bǔ)相關(guān)方法的空白,通過產(chǎn)學(xué)研一體化的深度合作,Project Imaging-X 系統(tǒng)性梳理了過去二十余年(2000–2025)間的 1000+ 開放醫(yī)學(xué)影像數(shù)據(jù)集,并提出了“元數(shù)據(jù)驅(qū)動(dòng)融合范式(MDFP)”,給出從元數(shù)據(jù)統(tǒng)一→語義對(duì)齊→融合藍(lán)圖→索引共享的可執(zhí)行流程,并配套交互式數(shù)據(jù)發(fā)現(xiàn)與自動(dòng)化融合門戶,為社區(qū)提供可搜索、可復(fù)用、可擴(kuò)展的公共資源與路線圖,助力醫(yī)學(xué)基礎(chǔ)模型更大規(guī)模、更高質(zhì)量、更加合規(guī)地發(fā)展。
- 論文標(biāo)題:Project Imaging-X: A Survey of 1000+ Open-Access Medical Imaging Datasets for Foundation Model Development
- 論文鏈接:https://github.com/uni-medical/Project-Imaging-X/blob/main/project-imaging-x_dataset-survey.pdf
- Github 鏈接:https://github.com/uni-medical/Project-Imaging-X
![]()
醫(yī)學(xué)基礎(chǔ)模型的“數(shù)據(jù)缺口時(shí)刻”:規(guī)模與增速的錯(cuò)位
過去幾年,AI 在通用領(lǐng)域迎來“曲線陡升”的爆炸時(shí)刻:GPT-4 訓(xùn)練使用了約 13 萬億 tokens,CLIP 在 4 億圖像-文本對(duì)上預(yù)訓(xùn)練,SAM 在 11 億掩碼上訓(xùn)練。然而放到醫(yī)學(xué)影像,這條曲線卻明顯“掉速”——數(shù)據(jù)采集依賴專業(yè)設(shè)備與臨床流程,標(biāo)注需要專家投入,還必須兼顧倫理與隱私合規(guī),導(dǎo)致可公開、可訓(xùn)練的大規(guī)模統(tǒng)一語料長期稀缺。
項(xiàng)目研究團(tuán)隊(duì)對(duì) 2000-2025 年醫(yī)學(xué)影像數(shù)據(jù)的全景分析顯示,雖然數(shù)據(jù)集數(shù)量持續(xù)增長,但與通用 AI 領(lǐng)域存在巨大差距。最大的醫(yī)學(xué)數(shù)據(jù)集如 AbdomenAtlas 僅有 150 萬張圖像,而通用視覺模型動(dòng)輒訓(xùn)練于數(shù)十億圖像,差距達(dá)數(shù)個(gè)數(shù)量級(jí)。
![]()
圖 1:醫(yī)學(xué)基礎(chǔ)模型與通用領(lǐng)域基礎(chǔ)模型的演進(jìn)。
這種錯(cuò)位直接體現(xiàn)在模型側(cè):訓(xùn)練語料“吃不飽、吃不均”,常被迫集中在少數(shù)模態(tài)(CT/MR/X-ray)、任務(wù)(分割/分類)與解剖部位(腦、胸腹等熱點(diǎn))上,難以形成"多模態(tài)×多任務(wù)×多解剖”的一體化能力版圖。
因此,團(tuán)隊(duì)提出將“規(guī)模差距”界定為通才型醫(yī)學(xué)基礎(chǔ)模型的第一約束:不是單一數(shù)據(jù)集的不足,而是結(jié)構(gòu)性的數(shù)據(jù)生態(tài)失衡——增長在發(fā)生,但增得不均、增得不對(duì)齊。
![]()
圖 2:2000 年至 2025 年發(fā)布的醫(yī)學(xué)影像數(shù)據(jù)集中病例數(shù)的概覽。(a) 總影像數(shù);以及按不同 (b) 維度、(c) 模態(tài)、(d) 任務(wù)和 (e) 前五大器官劃分的影像數(shù)。
數(shù)據(jù)分布圖譜:長尾效應(yīng)與碎片化特征
![]()
圖 3:醫(yī)學(xué)影像數(shù)據(jù)集概覽:按解剖區(qū)域劃分的代表性模態(tài)(左圖),數(shù)據(jù)集在不同模態(tài)、器官和任務(wù)上的分布(右上),以及數(shù)據(jù)集數(shù)量的時(shí)間趨勢(shì)(右下)。
團(tuán)隊(duì)對(duì) 2000–2025 年間超過 1000 個(gè)公開醫(yī)學(xué)影像數(shù)據(jù)集進(jìn)行了全景式分析,采用了一個(gè)包含數(shù)據(jù)維度、成像模態(tài)、分析任務(wù)和解剖部位的“四維框架”進(jìn)行系統(tǒng)性量化。分析結(jié)果揭示,這些數(shù)據(jù)集在規(guī)模、增長趨勢(shì)及分布上呈現(xiàn)出顯著的不均衡性和長尾效應(yīng)。
- 數(shù)據(jù)維度:2D 圖像在絕對(duì)數(shù)量上占據(jù)壓倒性優(yōu)勢(shì),尤其在 2023 年后增速迅猛。這主要得益于其存儲(chǔ)共享的便捷性、通過病理全切片圖像(WSI)切片技術(shù)能極大擴(kuò)充樣本規(guī)模,以及現(xiàn)有主流基準(zhǔn)測(cè)試多聚焦于 2D 任務(wù)。相比之下,3D 與視頻數(shù)據(jù)因采集成本高昂、存儲(chǔ)和標(biāo)注復(fù)雜,規(guī)模和增速均顯滯后。
- 成像模態(tài):病理數(shù)據(jù)集的圖像數(shù)量遠(yuǎn)超其他類型,這源于千兆像素級(jí)的 WSI 可被分割成海量圖塊(Patch)進(jìn)行分析,且其固有的多尺度特性也促進(jìn)了數(shù)據(jù)擴(kuò)增。其后是臨床普及度高、通量大的 X 射線和 CT。然而,盡管 MRI 在軟組織成像中效果顯著,其數(shù)據(jù)量占比僅約 10.4%,而 PET、乳腺 X 線攝影和內(nèi)鏡等模態(tài)的數(shù)據(jù)則相對(duì)匱乏。
- 任務(wù)類型:分類與分割任務(wù)歷來占據(jù)主導(dǎo),因其與臨床診斷流程緊密相關(guān)。2023 年后,生成式任務(wù)的關(guān)注度與數(shù)據(jù)量激增。相比之下,面向配準(zhǔn)、檢測(cè)和追蹤等任務(wù)的數(shù)據(jù)集則供給不足。
- 解剖部位:數(shù)據(jù)分布同樣高度集中。腦、肺、乳腺和肝臟的影像數(shù)量遙遙領(lǐng)先,這反映出學(xué)術(shù)界與臨床對(duì)腦部疾病(如阿爾茨海默病)以及乳腺癌、肺癌等重大疾病的高度關(guān)注。而心臟、腸道、四肢等其他部位的代表性則嚴(yán)重不足。
![]()
圖 4:(a) 數(shù)據(jù)維度、(b) 模態(tài)、(c) 任務(wù)以及 (d) 器官/身體部位的分布情況。
2D 數(shù)據(jù):規(guī)模優(yōu)勢(shì)與“任務(wù)/器官偏科”
2D 數(shù)據(jù)量級(jí)與可獲取性遠(yuǎn)超 3D 與視頻,已成為醫(yī)學(xué)基礎(chǔ)模型預(yù)訓(xùn)練的主要基礎(chǔ)。在模態(tài)上,病理與 X-ray 占據(jù)主導(dǎo),其次是 CT、MR 與眼底彩照;解剖聚焦于“有成熟篩查流程”的部位(如視網(wǎng)膜、乳腺、腦),而子結(jié)構(gòu)與不常見部位明顯稀缺;任務(wù)側(cè)以分類/分割為主,配準(zhǔn)、跟蹤、重建等供給不足,整體呈現(xiàn)顯著長尾與不均衡格局。
2D 數(shù)據(jù)的豐富性也帶來了顯著的碎片化與異質(zhì)性問題。首先,數(shù)據(jù)來源多樣(例如來自不同的數(shù)據(jù)庫、機(jī)構(gòu)和競(jìng)賽),導(dǎo)致其成像協(xié)議、分辨率和元數(shù)據(jù)標(biāo)準(zhǔn)不一,帶來了嚴(yán)重的域偏移問題。其次,數(shù)據(jù)標(biāo)注的質(zhì)量也參差不齊,從粗略的弱標(biāo)簽到精確的像素級(jí)真值差異巨大,且缺乏統(tǒng)一的標(biāo)注體系(本體)。
此外,數(shù)據(jù)在模態(tài)、解剖部位和任務(wù)類型上的分布嚴(yán)重失衡,這會(huì)加劇預(yù)訓(xùn)練模型中的偏見。最后,二維圖像天生缺少三維空間上下文,這也限制了模型對(duì)復(fù)雜形態(tài)結(jié)構(gòu)的理解與分析能力。
![]()
圖 5:二維數(shù)據(jù)集中不同 (a) 模態(tài)、(b) 解剖結(jié)構(gòu)和 (c) 任務(wù)的分布。
3D 數(shù)據(jù):信息密度高,標(biāo)準(zhǔn)化是勝負(fù)手
3D 醫(yī)學(xué)影像( 如CT、MR、PET)為臨床決策提供了關(guān)鍵的三維空間信息。然而,由于采集、存儲(chǔ)、標(biāo)注及算力成本高昂,其整體數(shù)據(jù)規(guī)模和增長速度均落后于 2D 影像。
同時(shí),3D 數(shù)據(jù)也存在著嚴(yán)重的分布不均衡問題:在模態(tài)上,CT 和 MRI 占據(jù)主導(dǎo)地位,而 PET、超聲等數(shù)據(jù)相對(duì)不足;在解剖部位上,數(shù)據(jù)高度集中于腦部與腹部,心血管、肌骨等領(lǐng)域的資源則相對(duì)薄弱;在任務(wù)類型上,研究長期由分割任務(wù)主導(dǎo),配準(zhǔn)、重建等任務(wù)的數(shù)據(jù)集明顯短缺。
3D 影像的“高信息密度”也伴隨著“高成本”與“高異質(zhì)性”的挑戰(zhàn)。一方面,高成本與高難度體現(xiàn)在:?jiǎn)螐堄跋耋w積大、信噪比較低,使得微小病灶的檢測(cè)變得困難;昂貴的硬件、較長的掃描時(shí)間以及對(duì)患者配合度的高要求,共同限制了數(shù)據(jù)采集的規(guī)模;體素級(jí)的精細(xì)標(biāo)注需要專家進(jìn)行逐個(gè)切片的精細(xì)描畫,耗時(shí)耗力。
另一方面,高異質(zhì)性源于:不同設(shè)備和掃描協(xié)議會(huì)導(dǎo)致體素間距、圖像方向、強(qiáng)度標(biāo)定及序列參數(shù)存在差異。如果沒有經(jīng)過高保真的預(yù)處理和元數(shù)據(jù)對(duì)齊,直接進(jìn)行跨庫聯(lián)合訓(xùn)練很容易導(dǎo)致模型性能下降或結(jié)果失真。
![]()
圖 6:三維數(shù)據(jù)集中不同 (a) 模態(tài)、(b) 解剖結(jié)構(gòu)和 (c) 任務(wù)的分布。
視頻數(shù)據(jù):通往“流程級(jí)智能”的鑰匙
醫(yī)學(xué)視頻數(shù)據(jù)因其承載了豐富的時(shí)序信息和操作語義,是實(shí)現(xiàn)手術(shù)、內(nèi)鏡分析等“流程級(jí)智能”的關(guān)鍵。然而,目前公開的數(shù)據(jù)集以內(nèi)鏡視頻為主,且高度集中于腹部(特別是膽囊、結(jié)腸)和眼科等領(lǐng)域,而超聲心動(dòng)圖(cine)、顯微手術(shù)視頻以及用于醫(yī)學(xué)教育的 RGB 視頻等則相對(duì)稀缺。盡管 EndoVis 等學(xué)術(shù)社區(qū)的基準(zhǔn)數(shù)據(jù)集在一定程度上推動(dòng)了該領(lǐng)域的標(biāo)準(zhǔn)化和技術(shù)發(fā)展,但目前仍普遍缺乏跨模態(tài)的覆蓋范圍和統(tǒng)一的評(píng)測(cè)標(biāo)準(zhǔn)。
當(dāng)前,醫(yī)學(xué)視頻數(shù)據(jù)的發(fā)展主要受限于三大瓶頸:昂貴的標(biāo)注成本、嚴(yán)格的隱私安全限制以及設(shè)備的技術(shù)異質(zhì)性。 首先,無論是像素級(jí)還是幀級(jí)的精細(xì)標(biāo)注,都需要投入巨大的專家資源,并且對(duì)操作步驟的定義和標(biāo)注一致性有著極高的要求。
其次,醫(yī)療視頻天然包含患者的敏感信息。特別是在內(nèi)鏡和手術(shù)場(chǎng)景中,獨(dú)特的解蒙結(jié)構(gòu)本身就可能被用于患者的“反向識(shí)別”,這極大地限制了數(shù)據(jù)集的開放規(guī)模與共享范圍。最后,來源于不同記錄系統(tǒng)和攝像鏡頭的視頻,在光照條件、畫面抖動(dòng)和拍攝視角上存在顯著差異,導(dǎo)致模型難以在不同來源的數(shù)據(jù)集之間進(jìn)行有效的泛化。
![]()
圖 7:視頻數(shù)據(jù)集中不同 (a) 模態(tài)、(b) 解剖結(jié)構(gòu)和 (c) 任務(wù)的分布。
元數(shù)據(jù)驅(qū)動(dòng)融合范式(MDFP):從碎片化到統(tǒng)一化
通過上述分析,可以清楚地看到醫(yī)學(xué)影像數(shù)據(jù)在 2D、3D 和視頻三個(gè)維度上都存在顯著的碎片化和不均衡問題。為解決這些挑戰(zhàn),團(tuán)隊(duì)提出了元數(shù)據(jù)驅(qū)動(dòng)融合范式(MDFP),提供了一種高效、可擴(kuò)展、以元數(shù)據(jù)為中心的策略,用于系統(tǒng)化發(fā)現(xiàn)、審計(jì)和組合多個(gè)數(shù)據(jù)集。
MDFP 的核心創(chuàng)新主要在于在元數(shù)據(jù)而非原始像素上操作,這帶來了多重優(yōu)勢(shì):減少處理開銷和隱私風(fēng)險(xiǎn),提高可重現(xiàn)性和可審計(jì)性,并支持快速的目標(biāo)導(dǎo)向數(shù)據(jù)集組裝。通過這種元數(shù)據(jù)驅(qū)動(dòng)的方法,團(tuán)隊(duì)能夠在不直接處理敏感醫(yī)學(xué)圖像的情況下,實(shí)現(xiàn)大規(guī)模數(shù)據(jù)集的智能整合。
![]()
圖 8:數(shù)據(jù)集收集、處理、融合和總結(jié)系統(tǒng)的流程圖。
MDFP四階段系統(tǒng)化流程:
階段 1:元數(shù)據(jù)統(tǒng)一化- 通過強(qiáng)制執(zhí)行嚴(yán)格定義的元數(shù)據(jù)模式解決語義異質(zhì)性,基于權(quán)威醫(yī)學(xué)術(shù)語(如 UMLS 和 MeSH)進(jìn)行半自動(dòng)化處理。具體包括:標(biāo)準(zhǔn)化主要模態(tài)(映射到 CT、MR、PET、US、X-ray 等枚舉集)、規(guī)范化數(shù)據(jù)維度(解析為 2D、3D 或視頻)、建立基于標(biāo)準(zhǔn)醫(yī)學(xué)本體的多級(jí)分類系統(tǒng)、分配質(zhì)量等級(jí)(基于機(jī)構(gòu)來源、文獻(xiàn)計(jì)量影響、成像分辨率和注釋粒度)、量化數(shù)據(jù)集影響(基于引用頻率、基準(zhǔn)采用和下游重用)。
階段 2:語義對(duì)齊- 通過將抽象機(jī)器學(xué)習(xí)任務(wù)映射到其具體臨床意義來緩解不一致性,系統(tǒng)審查數(shù)據(jù)集文檔、源出版物和官方指南。這包括定義下游任務(wù)(將 ML 任務(wù)標(biāo)準(zhǔn)化并明確映射到臨床應(yīng)用)、指定次要成像模態(tài)(捕獲每個(gè)主要模態(tài)下的細(xì)粒度協(xié)議級(jí)區(qū)別)、指示標(biāo)簽可用性(標(biāo)注是否提供真實(shí)注釋)、記錄特殊考慮事項(xiàng)(捕獲數(shù)據(jù)集特定的細(xì)微差別、假設(shè)或已知限制)。
階段 3:融合藍(lán)圖- 利用統(tǒng)一元數(shù)據(jù)設(shè)計(jì)戰(zhàn)略性數(shù)據(jù)集集成計(jì)劃,基于主要和次要成像模態(tài)、臨床任務(wù)和解剖覆蓋進(jìn)行聚類。定量評(píng)估包括數(shù)據(jù)量(評(píng)估可用圖像總數(shù),以及明確的訓(xùn)練、驗(yàn)證和測(cè)試分割)、有效圖像計(jì)數(shù)(確定有多少圖像具有可靠和驗(yàn)證的注釋)、存儲(chǔ)估計(jì)(評(píng)估實(shí)際存儲(chǔ)需求)、解剖和任務(wù)多樣性(量化每個(gè)融合集群內(nèi)的解剖廣度和任務(wù)多樣性)。
階段 4:數(shù)據(jù)集索引和社區(qū)共享- 將統(tǒng)一元數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化、公開可訪問的數(shù)據(jù)集索引,支持社區(qū)規(guī)模的發(fā)現(xiàn)和重用。這包括數(shù)據(jù)集名稱(用于標(biāo)準(zhǔn)化引用的規(guī)范名稱)、發(fā)布日期(官方發(fā)布或發(fā)布時(shí)間戳)、主頁 URL(直接訪問數(shù)據(jù)集文檔或托管平臺(tái)的鏈接)、許可證(明確定義的使用權(quán)限)。
![]()
圖 9:團(tuán)隊(duì)所提出的元數(shù)據(jù)驅(qū)動(dòng)融合范式(MDFP)的詳細(xì)流程。
交互式發(fā)現(xiàn)門戶與案例研究:
團(tuán)隊(duì)構(gòu)建了輕量級(jí)交互式發(fā)現(xiàn)門戶“醫(yī)學(xué)數(shù)據(jù)集瀏覽器”,部署為 GitHub Pages 上的單頁靜態(tài)應(yīng)用程序,完全在客戶端執(zhí)行,并在運(yùn)行時(shí)消費(fèi)標(biāo)準(zhǔn)化 JSON 工件。門戶提供兩種互補(bǔ)的數(shù)據(jù)集過濾模式:基于規(guī)則的過濾(實(shí)現(xiàn)MDFP)和直接分面搜索,支持實(shí)時(shí)可視化摘要和統(tǒng)計(jì)導(dǎo)出。
作為 MDFP 有效性的證明,團(tuán)隊(duì)展示了一個(gè)具體案例:構(gòu)建一個(gè)針對(duì)模態(tài){CT, MR, Fundus}和任務(wù){(diào)分類、分割、檢測(cè)、回歸}的 2D 模型。通過 MDFP 組合,研究獲得了 57 個(gè)數(shù)據(jù)集和 2,135,301 張可用圖像,跨三個(gè)模態(tài),標(biāo)簽可用性接近完整。CT 和 MR 在體積上占主導(dǎo)地位(合計(jì)約 185 萬張圖像),提供了來自多個(gè)組織的實(shí)質(zhì)性解剖和采集多樣性,而 Fundus 貢獻(xiàn)了最多的數(shù)據(jù)集數(shù)量。
MDFP 的成功實(shí)施為醫(yī)學(xué)基礎(chǔ)模型的發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。然而,要真正實(shí)現(xiàn)醫(yī)學(xué) AI 的變革性突破,還需要深入思考當(dāng)前數(shù)據(jù)生態(tài)的根本性挑戰(zhàn)和未來發(fā)展方向。
討論:從數(shù)據(jù)碎片化到智能體生態(tài)的演進(jìn)路徑
任務(wù)定義局限性與數(shù)據(jù)工程范式的演進(jìn)
當(dāng)前開放訪問醫(yī)學(xué)影像數(shù)據(jù)集在任務(wù)定義方面普遍存在局限性,這與早期深度學(xué)習(xí)實(shí)踐的任務(wù)導(dǎo)向性質(zhì)密切相關(guān)。隨著 LLM 和基礎(chǔ)模型的進(jìn)步,數(shù)據(jù)收集原則正逐漸從單一任務(wù)導(dǎo)向轉(zhuǎn)向更全面的科學(xué)數(shù)據(jù)工程范式。現(xiàn)有數(shù)據(jù)集大多針對(duì)單一目標(biāo)(如分割、分類或檢測(cè)),對(duì)多任務(wù)或跨任務(wù)學(xué)習(xí)場(chǎng)景考慮甚少,這種單一性限制了 AI 模型開發(fā)和泛化。這種范式轉(zhuǎn)變需要數(shù)據(jù)工程的根本性變革。傳統(tǒng)任務(wù)特定的注釋協(xié)議必須演變?yōu)殪`活的框架,能夠適應(yīng)新興用例和新型 AI 架構(gòu)。從任務(wù)導(dǎo)向到基礎(chǔ)導(dǎo)向的數(shù)據(jù)工程轉(zhuǎn)變需要重新思考注釋策略、元數(shù)據(jù)結(jié)構(gòu)以及質(zhì)量保證流程。
多模態(tài)醫(yī)學(xué)數(shù)據(jù)集稀缺性與發(fā)展約束
多模態(tài)醫(yī)學(xué)數(shù)據(jù)結(jié)合成像模態(tài)(如 CT、MRI、2D 和 3D 圖像)與臨床報(bào)告、病理學(xué)甚至視頻,在臨床診斷中具有特殊價(jià)值,但在公共領(lǐng)域極其罕見。大多數(shù)開放訪問醫(yī)學(xué)數(shù)據(jù)集僅限于單模態(tài)結(jié)構(gòu),往往缺乏多模態(tài)數(shù)據(jù)收集和注釋的標(biāo)準(zhǔn)化框架。這種稀缺性嚴(yán)重限制了高級(jí)研究方向的探索,如跨模態(tài)推理和聯(lián)合表示學(xué)習(xí)。挑戰(zhàn)不僅限于數(shù)據(jù)可用性,還涵蓋模態(tài)對(duì)齊和語義一致性的基本問題。不同模態(tài)通常在不同的時(shí)間和空間尺度上運(yùn)行——病理切片提供微觀細(xì)胞細(xì)節(jié),而放射學(xué)捕獲器官級(jí)結(jié)構(gòu),臨床記錄記錄時(shí)間疾病進(jìn)展。協(xié)調(diào)這些異構(gòu)數(shù)據(jù)流需要復(fù)雜的對(duì)齊協(xié)議和跨模態(tài)驗(yàn)證標(biāo)準(zhǔn),而當(dāng)前數(shù)據(jù)集很少提供這些。
醫(yī)學(xué)基礎(chǔ)模型的挑戰(zhàn)與機(jī)遇
醫(yī)學(xué)基礎(chǔ)模型需要前所未有的訓(xùn)練數(shù)據(jù)規(guī)模和多樣性,但當(dāng)前資源仍不足以開發(fā)真正可泛化的系統(tǒng)。基礎(chǔ)模型需要跨成像模態(tài)、臨床專業(yè)和患者人群的全面覆蓋,以在醫(yī)學(xué)環(huán)境中實(shí)現(xiàn)穩(wěn)健性能。三個(gè)相互關(guān)聯(lián)的挑戰(zhàn)從根本上制約了醫(yī)學(xué)基礎(chǔ)模型的發(fā)展:
1.規(guī)模挑戰(zhàn):擴(kuò)展不僅涉及數(shù)量,還涵蓋表示多樣性。基礎(chǔ)模型必須遇到疾病表現(xiàn)、成像協(xié)議和人群特征的足夠變化,以開發(fā)強(qiáng)大的內(nèi)部表示。當(dāng)前醫(yī)學(xué)數(shù)據(jù)集通常捕獲臨床現(xiàn)實(shí)的狹窄切片,錯(cuò)過了罕見疾病和非典型表現(xiàn)的長尾分布。
2.許可限制和隱私法規(guī):與通用領(lǐng)域 AI 不同,醫(yī)學(xué)數(shù)據(jù)面臨患者隱私要求和機(jī)構(gòu)知識(shí)產(chǎn)權(quán)政策的雙重約束。即使基礎(chǔ)模型能夠生成高質(zhì)量合成數(shù)據(jù)用于訓(xùn)練增強(qiáng),限制性許可也阻止這些增強(qiáng)的醫(yī)學(xué)數(shù)據(jù)集惠及更廣泛的醫(yī)學(xué)研究社區(qū)。
3.上下文智能需求:有效的醫(yī)學(xué) AI 必須理解緊急協(xié)議與常規(guī)篩查的區(qū)別,資源約束如何影響診斷路徑,以及患者歷史如何影響治療選擇。這些能力超越了模式識(shí)別,涵蓋工作流集成、臨床推理和自適應(yīng)決策支持。
邁向科學(xué)智能體的未來愿景
正如科學(xué)大語言模型(Sci-LLMs)正從單純的“知識(shí)模型”向“推理引擎”和“科研伙伴”演進(jìn),醫(yī)學(xué)基礎(chǔ)模型也正朝著科學(xué)智能體的方向發(fā)展。未來的醫(yī)學(xué) AI 系統(tǒng)將不再僅僅是被動(dòng)回答問題的模型,而是能夠被賦予高級(jí)目標(biāo)(如“為某疾病尋找候選藥物”或“制定個(gè)性化治療方案”)后,自主進(jìn)行任務(wù)分解、規(guī)劃、工具調(diào)用、虛擬實(shí)驗(yàn)和結(jié)果分析的自治系統(tǒng)。實(shí)現(xiàn)這一目標(biāo)的核心在于構(gòu)建一個(gè)閉環(huán)的“智能體-數(shù)據(jù)”生態(tài)系統(tǒng)。在這個(gè)系統(tǒng)中,智能體通過與外部工具(數(shù)據(jù)庫、模擬器、甚至自動(dòng)化實(shí)驗(yàn)室)交互來主動(dòng)獲取和生成新的實(shí)驗(yàn)數(shù)據(jù);這些“AI-ready”的數(shù)據(jù)再反哺數(shù)據(jù)生態(tài),用于迭代和優(yōu)化智能體自身,形成一個(gè)能夠自我進(jìn)化的良性循環(huán)。
總結(jié)
Project Imaging-X 作為迄今為止最全面的醫(yī)學(xué)影像開源數(shù)據(jù)集調(diào)研,系統(tǒng)梳理了 2000-2025 年間 1000+ 數(shù)據(jù)集,覆蓋 2D、3D、視頻等不同維度,涉及 CT、MRI、X-ray、病理、超聲等多模態(tài)影像,全面分析了分類、分割、檢測(cè)、生成等任務(wù)類型與解剖部位分布。調(diào)研揭示了醫(yī)學(xué)影像數(shù)據(jù)生態(tài)的關(guān)鍵特征:數(shù)據(jù)規(guī)模與通用領(lǐng)域存在數(shù)量級(jí)差距,模態(tài)和任務(wù)分布嚴(yán)重失衡,碎片化程度高。
針對(duì)這一現(xiàn)狀,研究提出了元數(shù)據(jù)驅(qū)動(dòng)融合范式(MDFP),通過四階段系統(tǒng)化流程實(shí)現(xiàn)數(shù)據(jù)集的有效整合,并構(gòu)建了交互式數(shù)據(jù)發(fā)現(xiàn)門戶。通過具體案例驗(yàn)證,MDFP 能夠?qū)?57 個(gè)數(shù)據(jù)集整合為包含 213 萬張圖像的統(tǒng)一訓(xùn)練資源,為醫(yī)學(xué)基礎(chǔ)模型的大規(guī)模預(yù)訓(xùn)練提供了可行路徑。
正如科學(xué)大語言模型正從“知識(shí)模型”向“推理引擎”和“科研伙伴”演進(jìn),醫(yī)學(xué)基礎(chǔ)模型也將朝著能夠自主進(jìn)行臨床推理、實(shí)驗(yàn)設(shè)計(jì)和治療規(guī)劃的科學(xué)智能體方向發(fā)展。通過 MDFP 的戰(zhàn)略數(shù)據(jù)集整合,結(jié)合隱私保護(hù)技術(shù)與智能體生態(tài)的構(gòu)建,醫(yī)學(xué) AI 將迎來從數(shù)據(jù)驅(qū)動(dòng)到智能體驅(qū)動(dòng)的范式躍遷,最終實(shí)現(xiàn) AI 與臨床實(shí)踐的深度融合。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.