<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Project Imaging-X發(fā)布:1000+開放醫(yī)學(xué)影像數(shù)據(jù)集全景式綜述

      0
      分享至



      作者丨項(xiàng)目團(tuán)隊(duì)

      編輯丨ScienceAI

      過去幾年,通用領(lǐng)域的基礎(chǔ)模型(Foundation Models)在大規(guī)模、異質(zhì)、高質(zhì)量數(shù)據(jù)的推動(dòng)下快速演進(jìn)。在醫(yī)學(xué)影像場(chǎng)景中,基礎(chǔ)模型同樣被寄予厚望:期望以一次預(yù)訓(xùn)練,支持多模態(tài)(CT/MR/PET/內(nèi)鏡等)、多任務(wù)(分割/檢測(cè)/配準(zhǔn)/追蹤等)與多解剖部位的統(tǒng)一處理,成為從研究到臨床的“通用底座”。

      然而,醫(yī)學(xué)影像數(shù)據(jù)的獲取與標(biāo)注高度依賴醫(yī)學(xué)專業(yè)知識(shí),并受倫理與隱私的嚴(yán)格約束,現(xiàn)有公開數(shù)據(jù)長期呈現(xiàn)“小而散、偏科嚴(yán)重”的格局:與通用視覺領(lǐng)域的數(shù)十億圖像相比,目前公開的醫(yī)學(xué)影像數(shù)據(jù)集的規(guī)模普遍較小,通常只有數(shù)千張圖像,與通用視覺領(lǐng)域的數(shù)據(jù)集相差數(shù)個(gè)數(shù)量級(jí)。

      此外,數(shù)據(jù)分布也嚴(yán)重不均:從類型上看,2D 數(shù)據(jù)占主導(dǎo),病理、X 射線和 CT 數(shù)據(jù)較為常見,而 PET 和內(nèi)鏡數(shù)據(jù)則相對(duì)稀缺;從任務(wù)上看,主要集中在分類和分割任務(wù),檢測(cè)、配準(zhǔn)和追蹤等任務(wù)的數(shù)據(jù)供給不足;從部位上看,數(shù)據(jù)大多覆蓋腦、肺、肝和乳腺等,心血管和肌骨等部位的相關(guān)資源則比較薄弱。由于缺乏對(duì)現(xiàn)有數(shù)據(jù)的全面系統(tǒng)性梳理和一套行之有效的數(shù)據(jù)融合方法,醫(yī)學(xué)基礎(chǔ)模型的發(fā)展正面臨著關(guān)鍵瓶頸。

      Project Imaging-X 由上海人工智能實(shí)驗(yàn)室、上海創(chuàng)智學(xué)院、劍橋大學(xué)、中國科學(xué)院大學(xué)、上海交通大學(xué)、蒙納士大學(xué)、上海科學(xué)智能研究院、復(fù)旦大學(xué)等多家國內(nèi)外頂尖高校與研究機(jī)構(gòu)聯(lián)合發(fā)起。項(xiàng)目匯聚了人工智能、醫(yī)學(xué)影像、數(shù)據(jù)科學(xué)與臨床醫(yī)學(xué)等領(lǐng)域的專家學(xué)者,構(gòu)建跨地域、跨學(xué)科的協(xié)作網(wǎng)絡(luò)。

      為填補(bǔ)相關(guān)方法的空白,通過產(chǎn)學(xué)研一體化的深度合作,Project Imaging-X 系統(tǒng)性梳理了過去二十余年(2000–2025)間的 1000+ 開放醫(yī)學(xué)影像數(shù)據(jù)集,并提出了“元數(shù)據(jù)驅(qū)動(dòng)融合范式(MDFP)”,給出從元數(shù)據(jù)統(tǒng)一→語義對(duì)齊→融合藍(lán)圖→索引共享的可執(zhí)行流程,并配套交互式數(shù)據(jù)發(fā)現(xiàn)與自動(dòng)化融合門戶,為社區(qū)提供可搜索、可復(fù)用、可擴(kuò)展的公共資源與路線圖,助力醫(yī)學(xué)基礎(chǔ)模型更大規(guī)模、更高質(zhì)量、更加合規(guī)地發(fā)展。

      • 論文標(biāo)題:Project Imaging-X: A Survey of 1000+ Open-Access Medical Imaging Datasets for Foundation Model Development
      • 論文鏈接:https://github.com/uni-medical/Project-Imaging-X/blob/main/project-imaging-x_dataset-survey.pdf
      • Github 鏈接:https://github.com/uni-medical/Project-Imaging-X



      醫(yī)學(xué)基礎(chǔ)模型的“數(shù)據(jù)缺口時(shí)刻”:規(guī)模與增速的錯(cuò)位

      過去幾年,AI 在通用領(lǐng)域迎來“曲線陡升”的爆炸時(shí)刻:GPT-4 訓(xùn)練使用了約 13 萬億 tokens,CLIP 在 4 億圖像-文本對(duì)上預(yù)訓(xùn)練,SAM 在 11 億掩碼上訓(xùn)練。然而放到醫(yī)學(xué)影像,這條曲線卻明顯“掉速”——數(shù)據(jù)采集依賴專業(yè)設(shè)備與臨床流程,標(biāo)注需要專家投入,還必須兼顧倫理與隱私合規(guī),導(dǎo)致可公開、可訓(xùn)練的大規(guī)模統(tǒng)一語料長期稀缺。

      項(xiàng)目研究團(tuán)隊(duì)對(duì) 2000-2025 年醫(yī)學(xué)影像數(shù)據(jù)的全景分析顯示,雖然數(shù)據(jù)集數(shù)量持續(xù)增長,但與通用 AI 領(lǐng)域存在巨大差距。最大的醫(yī)學(xué)數(shù)據(jù)集如 AbdomenAtlas 僅有 150 萬張圖像,而通用視覺模型動(dòng)輒訓(xùn)練于數(shù)十億圖像,差距達(dá)數(shù)個(gè)數(shù)量級(jí)。



      圖 1:醫(yī)學(xué)基礎(chǔ)模型與通用領(lǐng)域基礎(chǔ)模型的演進(jìn)。

      這種錯(cuò)位直接體現(xiàn)在模型側(cè):訓(xùn)練語料“吃不飽、吃不均”,常被迫集中在少數(shù)模態(tài)(CT/MR/X-ray)、任務(wù)(分割/分類)與解剖部位(腦、胸腹等熱點(diǎn))上,難以形成"多模態(tài)×多任務(wù)×多解剖”的一體化能力版圖。

      因此,團(tuán)隊(duì)提出將“規(guī)模差距”界定為通才型醫(yī)學(xué)基礎(chǔ)模型的第一約束:不是單一數(shù)據(jù)集的不足,而是結(jié)構(gòu)性的數(shù)據(jù)生態(tài)失衡——增長在發(fā)生,但增得不均、增得不對(duì)齊。



      圖 2:2000 年至 2025 年發(fā)布的醫(yī)學(xué)影像數(shù)據(jù)集中病例數(shù)的概覽。(a) 總影像數(shù);以及按不同 (b) 維度、(c) 模態(tài)、(d) 任務(wù)和 (e) 前五大器官劃分的影像數(shù)。

      數(shù)據(jù)分布圖譜:長尾效應(yīng)與碎片化特征



      圖 3:醫(yī)學(xué)影像數(shù)據(jù)集概覽:按解剖區(qū)域劃分的代表性模態(tài)(左圖),數(shù)據(jù)集在不同模態(tài)、器官和任務(wù)上的分布(右上),以及數(shù)據(jù)集數(shù)量的時(shí)間趨勢(shì)(右下)。

      團(tuán)隊(duì)對(duì) 2000–2025 年間超過 1000 個(gè)公開醫(yī)學(xué)影像數(shù)據(jù)集進(jìn)行了全景式分析,采用了一個(gè)包含數(shù)據(jù)維度、成像模態(tài)、分析任務(wù)和解剖部位的“四維框架”進(jìn)行系統(tǒng)性量化。分析結(jié)果揭示,這些數(shù)據(jù)集在規(guī)模、增長趨勢(shì)及分布上呈現(xiàn)出顯著的不均衡性和長尾效應(yīng)。

      • 數(shù)據(jù)維度:2D 圖像在絕對(duì)數(shù)量上占據(jù)壓倒性優(yōu)勢(shì),尤其在 2023 年后增速迅猛。這主要得益于其存儲(chǔ)共享的便捷性、通過病理全切片圖像(WSI)切片技術(shù)能極大擴(kuò)充樣本規(guī)模,以及現(xiàn)有主流基準(zhǔn)測(cè)試多聚焦于 2D 任務(wù)。相比之下,3D 與視頻數(shù)據(jù)因采集成本高昂、存儲(chǔ)和標(biāo)注復(fù)雜,規(guī)模和增速均顯滯后。
      • 成像模態(tài):病理數(shù)據(jù)集的圖像數(shù)量遠(yuǎn)超其他類型,這源于千兆像素級(jí)的 WSI 可被分割成海量圖塊(Patch)進(jìn)行分析,且其固有的多尺度特性也促進(jìn)了數(shù)據(jù)擴(kuò)增。其后是臨床普及度高、通量大的 X 射線和 CT。然而,盡管 MRI 在軟組織成像中效果顯著,其數(shù)據(jù)量占比僅約 10.4%,而 PET、乳腺 X 線攝影和內(nèi)鏡等模態(tài)的數(shù)據(jù)則相對(duì)匱乏。
      • 任務(wù)類型:分類與分割任務(wù)歷來占據(jù)主導(dǎo),因其與臨床診斷流程緊密相關(guān)。2023 年后,生成式任務(wù)的關(guān)注度與數(shù)據(jù)量激增。相比之下,面向配準(zhǔn)、檢測(cè)和追蹤等任務(wù)的數(shù)據(jù)集則供給不足。
      • 解剖部位:數(shù)據(jù)分布同樣高度集中。腦、肺、乳腺和肝臟的影像數(shù)量遙遙領(lǐng)先,這反映出學(xué)術(shù)界與臨床對(duì)腦部疾病(如阿爾茨海默病)以及乳腺癌、肺癌等重大疾病的高度關(guān)注。而心臟、腸道、四肢等其他部位的代表性則嚴(yán)重不足。



      圖 4:(a) 數(shù)據(jù)維度、(b) 模態(tài)、(c) 任務(wù)以及 (d) 器官/身體部位的分布情況。

      2D 數(shù)據(jù):規(guī)模優(yōu)勢(shì)與“任務(wù)/器官偏科”

      2D 數(shù)據(jù)量級(jí)與可獲取性遠(yuǎn)超 3D 與視頻,已成為醫(yī)學(xué)基礎(chǔ)模型預(yù)訓(xùn)練的主要基礎(chǔ)。在模態(tài)上,病理與 X-ray 占據(jù)主導(dǎo),其次是 CT、MR 與眼底彩照;解剖聚焦于“有成熟篩查流程”的部位(如視網(wǎng)膜、乳腺、腦),而子結(jié)構(gòu)與不常見部位明顯稀缺;任務(wù)側(cè)以分類/分割為主,配準(zhǔn)、跟蹤、重建等供給不足,整體呈現(xiàn)顯著長尾與不均衡格局。

      2D 數(shù)據(jù)的豐富性也帶來了顯著的碎片化與異質(zhì)性問題。首先,數(shù)據(jù)來源多樣(例如來自不同的數(shù)據(jù)庫、機(jī)構(gòu)和競(jìng)賽),導(dǎo)致其成像協(xié)議、分辨率和元數(shù)據(jù)標(biāo)準(zhǔn)不一,帶來了嚴(yán)重的域偏移問題。其次,數(shù)據(jù)標(biāo)注的質(zhì)量也參差不齊,從粗略的弱標(biāo)簽到精確的像素級(jí)真值差異巨大,且缺乏統(tǒng)一的標(biāo)注體系(本體)。

      此外,數(shù)據(jù)在模態(tài)、解剖部位和任務(wù)類型上的分布嚴(yán)重失衡,這會(huì)加劇預(yù)訓(xùn)練模型中的偏見。最后,二維圖像天生缺少三維空間上下文,這也限制了模型對(duì)復(fù)雜形態(tài)結(jié)構(gòu)的理解與分析能力。



      圖 5:二維數(shù)據(jù)集中不同 (a) 模態(tài)、(b) 解剖結(jié)構(gòu)和 (c) 任務(wù)的分布。

      3D 數(shù)據(jù):信息密度高,標(biāo)準(zhǔn)化是勝負(fù)手

      3D 醫(yī)學(xué)影像( 如CT、MR、PET)為臨床決策提供了關(guān)鍵的三維空間信息。然而,由于采集、存儲(chǔ)、標(biāo)注及算力成本高昂,其整體數(shù)據(jù)規(guī)模和增長速度均落后于 2D 影像。

      同時(shí),3D 數(shù)據(jù)也存在著嚴(yán)重的分布不均衡問題:在模態(tài)上,CT 和 MRI 占據(jù)主導(dǎo)地位,而 PET、超聲等數(shù)據(jù)相對(duì)不足;在解剖部位上,數(shù)據(jù)高度集中于腦部與腹部,心血管、肌骨等領(lǐng)域的資源則相對(duì)薄弱;在任務(wù)類型上,研究長期由分割任務(wù)主導(dǎo),配準(zhǔn)、重建等任務(wù)的數(shù)據(jù)集明顯短缺。

      3D 影像的“高信息密度”也伴隨著“高成本”與“高異質(zhì)性”的挑戰(zhàn)。一方面,高成本與高難度體現(xiàn)在:?jiǎn)螐堄跋耋w積大、信噪比較低,使得微小病灶的檢測(cè)變得困難;昂貴的硬件、較長的掃描時(shí)間以及對(duì)患者配合度的高要求,共同限制了數(shù)據(jù)采集的規(guī)模;體素級(jí)的精細(xì)標(biāo)注需要專家進(jìn)行逐個(gè)切片的精細(xì)描畫,耗時(shí)耗力。

      另一方面,高異質(zhì)性源于:不同設(shè)備和掃描協(xié)議會(huì)導(dǎo)致體素間距、圖像方向、強(qiáng)度標(biāo)定及序列參數(shù)存在差異。如果沒有經(jīng)過高保真的預(yù)處理和元數(shù)據(jù)對(duì)齊,直接進(jìn)行跨庫聯(lián)合訓(xùn)練很容易導(dǎo)致模型性能下降或結(jié)果失真。



      圖 6:三維數(shù)據(jù)集中不同 (a) 模態(tài)、(b) 解剖結(jié)構(gòu)和 (c) 任務(wù)的分布。

      視頻數(shù)據(jù):通往“流程級(jí)智能”的鑰匙

      醫(yī)學(xué)視頻數(shù)據(jù)因其承載了豐富的時(shí)序信息和操作語義,是實(shí)現(xiàn)手術(shù)、內(nèi)鏡分析等“流程級(jí)智能”的關(guān)鍵。然而,目前公開的數(shù)據(jù)集以內(nèi)鏡視頻為主,且高度集中于腹部(特別是膽囊、結(jié)腸)和眼科等領(lǐng)域,而超聲心動(dòng)圖(cine)、顯微手術(shù)視頻以及用于醫(yī)學(xué)教育的 RGB 視頻等則相對(duì)稀缺。盡管 EndoVis 等學(xué)術(shù)社區(qū)的基準(zhǔn)數(shù)據(jù)集在一定程度上推動(dòng)了該領(lǐng)域的標(biāo)準(zhǔn)化和技術(shù)發(fā)展,但目前仍普遍缺乏跨模態(tài)的覆蓋范圍和統(tǒng)一的評(píng)測(cè)標(biāo)準(zhǔn)。

      當(dāng)前,醫(yī)學(xué)視頻數(shù)據(jù)的發(fā)展主要受限于三大瓶頸:昂貴的標(biāo)注成本、嚴(yán)格的隱私安全限制以及設(shè)備的技術(shù)異質(zhì)性。 首先,無論是像素級(jí)還是幀級(jí)的精細(xì)標(biāo)注,都需要投入巨大的專家資源,并且對(duì)操作步驟的定義和標(biāo)注一致性有著極高的要求。

      其次,醫(yī)療視頻天然包含患者的敏感信息。特別是在內(nèi)鏡和手術(shù)場(chǎng)景中,獨(dú)特的解蒙結(jié)構(gòu)本身就可能被用于患者的“反向識(shí)別”,這極大地限制了數(shù)據(jù)集的開放規(guī)模與共享范圍。最后,來源于不同記錄系統(tǒng)和攝像鏡頭的視頻,在光照條件、畫面抖動(dòng)和拍攝視角上存在顯著差異,導(dǎo)致模型難以在不同來源的數(shù)據(jù)集之間進(jìn)行有效的泛化。



      圖 7:視頻數(shù)據(jù)集中不同 (a) 模態(tài)、(b) 解剖結(jié)構(gòu)和 (c) 任務(wù)的分布。

      元數(shù)據(jù)驅(qū)動(dòng)融合范式(MDFP):從碎片化到統(tǒng)一化

      通過上述分析,可以清楚地看到醫(yī)學(xué)影像數(shù)據(jù)在 2D、3D 和視頻三個(gè)維度上都存在顯著的碎片化和不均衡問題。為解決這些挑戰(zhàn),團(tuán)隊(duì)提出了元數(shù)據(jù)驅(qū)動(dòng)融合范式(MDFP),提供了一種高效、可擴(kuò)展、以元數(shù)據(jù)為中心的策略,用于系統(tǒng)化發(fā)現(xiàn)、審計(jì)和組合多個(gè)數(shù)據(jù)集。

      MDFP 的核心創(chuàng)新主要在于在元數(shù)據(jù)而非原始像素上操作,這帶來了多重優(yōu)勢(shì):減少處理開銷和隱私風(fēng)險(xiǎn),提高可重現(xiàn)性和可審計(jì)性,并支持快速的目標(biāo)導(dǎo)向數(shù)據(jù)集組裝。通過這種元數(shù)據(jù)驅(qū)動(dòng)的方法,團(tuán)隊(duì)能夠在不直接處理敏感醫(yī)學(xué)圖像的情況下,實(shí)現(xiàn)大規(guī)模數(shù)據(jù)集的智能整合。



      圖 8:數(shù)據(jù)集收集、處理、融合和總結(jié)系統(tǒng)的流程圖。

      MDFP四階段系統(tǒng)化流程:

      階段 1:元數(shù)據(jù)統(tǒng)一化- 通過強(qiáng)制執(zhí)行嚴(yán)格定義的元數(shù)據(jù)模式解決語義異質(zhì)性,基于權(quán)威醫(yī)學(xué)術(shù)語(如 UMLS 和 MeSH)進(jìn)行半自動(dòng)化處理。具體包括:標(biāo)準(zhǔn)化主要模態(tài)(映射到 CT、MR、PET、US、X-ray 等枚舉集)、規(guī)范化數(shù)據(jù)維度(解析為 2D、3D 或視頻)、建立基于標(biāo)準(zhǔn)醫(yī)學(xué)本體的多級(jí)分類系統(tǒng)、分配質(zhì)量等級(jí)(基于機(jī)構(gòu)來源、文獻(xiàn)計(jì)量影響、成像分辨率和注釋粒度)、量化數(shù)據(jù)集影響(基于引用頻率、基準(zhǔn)采用和下游重用)。

      階段 2:語義對(duì)齊- 通過將抽象機(jī)器學(xué)習(xí)任務(wù)映射到其具體臨床意義來緩解不一致性,系統(tǒng)審查數(shù)據(jù)集文檔、源出版物和官方指南。這包括定義下游任務(wù)(將 ML 任務(wù)標(biāo)準(zhǔn)化并明確映射到臨床應(yīng)用)、指定次要成像模態(tài)(捕獲每個(gè)主要模態(tài)下的細(xì)粒度協(xié)議級(jí)區(qū)別)、指示標(biāo)簽可用性(標(biāo)注是否提供真實(shí)注釋)、記錄特殊考慮事項(xiàng)(捕獲數(shù)據(jù)集特定的細(xì)微差別、假設(shè)或已知限制)。

      階段 3:融合藍(lán)圖- 利用統(tǒng)一元數(shù)據(jù)設(shè)計(jì)戰(zhàn)略性數(shù)據(jù)集集成計(jì)劃,基于主要和次要成像模態(tài)、臨床任務(wù)和解剖覆蓋進(jìn)行聚類。定量評(píng)估包括數(shù)據(jù)量(評(píng)估可用圖像總數(shù),以及明確的訓(xùn)練、驗(yàn)證和測(cè)試分割)、有效圖像計(jì)數(shù)(確定有多少圖像具有可靠和驗(yàn)證的注釋)、存儲(chǔ)估計(jì)(評(píng)估實(shí)際存儲(chǔ)需求)、解剖和任務(wù)多樣性(量化每個(gè)融合集群內(nèi)的解剖廣度和任務(wù)多樣性)。

      階段 4:數(shù)據(jù)集索引和社區(qū)共享- 將統(tǒng)一元數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化、公開可訪問的數(shù)據(jù)集索引,支持社區(qū)規(guī)模的發(fā)現(xiàn)和重用。這包括數(shù)據(jù)集名稱(用于標(biāo)準(zhǔn)化引用的規(guī)范名稱)、發(fā)布日期(官方發(fā)布或發(fā)布時(shí)間戳)、主頁 URL(直接訪問數(shù)據(jù)集文檔或托管平臺(tái)的鏈接)、許可證(明確定義的使用權(quán)限)。



      圖 9:團(tuán)隊(duì)所提出的元數(shù)據(jù)驅(qū)動(dòng)融合范式(MDFP)的詳細(xì)流程。

      交互式發(fā)現(xiàn)門戶與案例研究:

      團(tuán)隊(duì)構(gòu)建了輕量級(jí)交互式發(fā)現(xiàn)門戶“醫(yī)學(xué)數(shù)據(jù)集瀏覽器”,部署為 GitHub Pages 上的單頁靜態(tài)應(yīng)用程序,完全在客戶端執(zhí)行,并在運(yùn)行時(shí)消費(fèi)標(biāo)準(zhǔn)化 JSON 工件。門戶提供兩種互補(bǔ)的數(shù)據(jù)集過濾模式:基于規(guī)則的過濾(實(shí)現(xiàn)MDFP)和直接分面搜索,支持實(shí)時(shí)可視化摘要和統(tǒng)計(jì)導(dǎo)出。

      作為 MDFP 有效性的證明,團(tuán)隊(duì)展示了一個(gè)具體案例:構(gòu)建一個(gè)針對(duì)模態(tài){CT, MR, Fundus}和任務(wù){(diào)分類、分割、檢測(cè)、回歸}的 2D 模型。通過 MDFP 組合,研究獲得了 57 個(gè)數(shù)據(jù)集和 2,135,301 張可用圖像,跨三個(gè)模態(tài),標(biāo)簽可用性接近完整。CT 和 MR 在體積上占主導(dǎo)地位(合計(jì)約 185 萬張圖像),提供了來自多個(gè)組織的實(shí)質(zhì)性解剖和采集多樣性,而 Fundus 貢獻(xiàn)了最多的數(shù)據(jù)集數(shù)量。

      MDFP 的成功實(shí)施為醫(yī)學(xué)基礎(chǔ)模型的發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。然而,要真正實(shí)現(xiàn)醫(yī)學(xué) AI 的變革性突破,還需要深入思考當(dāng)前數(shù)據(jù)生態(tài)的根本性挑戰(zhàn)和未來發(fā)展方向。

      討論:從數(shù)據(jù)碎片化到智能體生態(tài)的演進(jìn)路徑

      任務(wù)定義局限性與數(shù)據(jù)工程范式的演進(jìn)

      當(dāng)前開放訪問醫(yī)學(xué)影像數(shù)據(jù)集在任務(wù)定義方面普遍存在局限性,這與早期深度學(xué)習(xí)實(shí)踐的任務(wù)導(dǎo)向性質(zhì)密切相關(guān)。隨著 LLM 和基礎(chǔ)模型的進(jìn)步,數(shù)據(jù)收集原則正逐漸從單一任務(wù)導(dǎo)向轉(zhuǎn)向更全面的科學(xué)數(shù)據(jù)工程范式。現(xiàn)有數(shù)據(jù)集大多針對(duì)單一目標(biāo)(如分割、分類或檢測(cè)),對(duì)多任務(wù)或跨任務(wù)學(xué)習(xí)場(chǎng)景考慮甚少,這種單一性限制了 AI 模型開發(fā)和泛化。這種范式轉(zhuǎn)變需要數(shù)據(jù)工程的根本性變革。傳統(tǒng)任務(wù)特定的注釋協(xié)議必須演變?yōu)殪`活的框架,能夠適應(yīng)新興用例和新型 AI 架構(gòu)。從任務(wù)導(dǎo)向到基礎(chǔ)導(dǎo)向的數(shù)據(jù)工程轉(zhuǎn)變需要重新思考注釋策略、元數(shù)據(jù)結(jié)構(gòu)以及質(zhì)量保證流程。

      多模態(tài)醫(yī)學(xué)數(shù)據(jù)集稀缺性與發(fā)展約束

      多模態(tài)醫(yī)學(xué)數(shù)據(jù)結(jié)合成像模態(tài)(如 CT、MRI、2D 和 3D 圖像)與臨床報(bào)告、病理學(xué)甚至視頻,在臨床診斷中具有特殊價(jià)值,但在公共領(lǐng)域極其罕見。大多數(shù)開放訪問醫(yī)學(xué)數(shù)據(jù)集僅限于單模態(tài)結(jié)構(gòu),往往缺乏多模態(tài)數(shù)據(jù)收集和注釋的標(biāo)準(zhǔn)化框架。這種稀缺性嚴(yán)重限制了高級(jí)研究方向的探索,如跨模態(tài)推理和聯(lián)合表示學(xué)習(xí)。挑戰(zhàn)不僅限于數(shù)據(jù)可用性,還涵蓋模態(tài)對(duì)齊和語義一致性的基本問題。不同模態(tài)通常在不同的時(shí)間和空間尺度上運(yùn)行——病理切片提供微觀細(xì)胞細(xì)節(jié),而放射學(xué)捕獲器官級(jí)結(jié)構(gòu),臨床記錄記錄時(shí)間疾病進(jìn)展。協(xié)調(diào)這些異構(gòu)數(shù)據(jù)流需要復(fù)雜的對(duì)齊協(xié)議和跨模態(tài)驗(yàn)證標(biāo)準(zhǔn),而當(dāng)前數(shù)據(jù)集很少提供這些。

      醫(yī)學(xué)基礎(chǔ)模型的挑戰(zhàn)與機(jī)遇

      醫(yī)學(xué)基礎(chǔ)模型需要前所未有的訓(xùn)練數(shù)據(jù)規(guī)模和多樣性,但當(dāng)前資源仍不足以開發(fā)真正可泛化的系統(tǒng)。基礎(chǔ)模型需要跨成像模態(tài)、臨床專業(yè)和患者人群的全面覆蓋,以在醫(yī)學(xué)環(huán)境中實(shí)現(xiàn)穩(wěn)健性能。三個(gè)相互關(guān)聯(lián)的挑戰(zhàn)從根本上制約了醫(yī)學(xué)基礎(chǔ)模型的發(fā)展:

      1.規(guī)模挑戰(zhàn):擴(kuò)展不僅涉及數(shù)量,還涵蓋表示多樣性。基礎(chǔ)模型必須遇到疾病表現(xiàn)、成像協(xié)議和人群特征的足夠變化,以開發(fā)強(qiáng)大的內(nèi)部表示。當(dāng)前醫(yī)學(xué)數(shù)據(jù)集通常捕獲臨床現(xiàn)實(shí)的狹窄切片,錯(cuò)過了罕見疾病和非典型表現(xiàn)的長尾分布。

      2.許可限制和隱私法規(guī):與通用領(lǐng)域 AI 不同,醫(yī)學(xué)數(shù)據(jù)面臨患者隱私要求和機(jī)構(gòu)知識(shí)產(chǎn)權(quán)政策的雙重約束。即使基礎(chǔ)模型能夠生成高質(zhì)量合成數(shù)據(jù)用于訓(xùn)練增強(qiáng),限制性許可也阻止這些增強(qiáng)的醫(yī)學(xué)數(shù)據(jù)集惠及更廣泛的醫(yī)學(xué)研究社區(qū)。

      3.上下文智能需求:有效的醫(yī)學(xué) AI 必須理解緊急協(xié)議與常規(guī)篩查的區(qū)別,資源約束如何影響診斷路徑,以及患者歷史如何影響治療選擇。這些能力超越了模式識(shí)別,涵蓋工作流集成、臨床推理和自適應(yīng)決策支持。

      邁向科學(xué)智能體的未來愿景

      正如科學(xué)大語言模型(Sci-LLMs)正從單純的“知識(shí)模型”向“推理引擎”和“科研伙伴”演進(jìn),醫(yī)學(xué)基礎(chǔ)模型也正朝著科學(xué)智能體的方向發(fā)展。未來的醫(yī)學(xué) AI 系統(tǒng)將不再僅僅是被動(dòng)回答問題的模型,而是能夠被賦予高級(jí)目標(biāo)(如“為某疾病尋找候選藥物”或“制定個(gè)性化治療方案”)后,自主進(jìn)行任務(wù)分解、規(guī)劃、工具調(diào)用、虛擬實(shí)驗(yàn)和結(jié)果分析的自治系統(tǒng)。實(shí)現(xiàn)這一目標(biāo)的核心在于構(gòu)建一個(gè)閉環(huán)的“智能體-數(shù)據(jù)”生態(tài)系統(tǒng)。在這個(gè)系統(tǒng)中,智能體通過與外部工具(數(shù)據(jù)庫、模擬器、甚至自動(dòng)化實(shí)驗(yàn)室)交互來主動(dòng)獲取和生成新的實(shí)驗(yàn)數(shù)據(jù);這些“AI-ready”的數(shù)據(jù)再反哺數(shù)據(jù)生態(tài),用于迭代和優(yōu)化智能體自身,形成一個(gè)能夠自我進(jìn)化的良性循環(huán)。

      總結(jié)

      Project Imaging-X 作為迄今為止最全面的醫(yī)學(xué)影像開源數(shù)據(jù)集調(diào)研,系統(tǒng)梳理了 2000-2025 年間 1000+ 數(shù)據(jù)集,覆蓋 2D、3D、視頻等不同維度,涉及 CT、MRI、X-ray、病理、超聲等多模態(tài)影像,全面分析了分類、分割、檢測(cè)、生成等任務(wù)類型與解剖部位分布。調(diào)研揭示了醫(yī)學(xué)影像數(shù)據(jù)生態(tài)的關(guān)鍵特征:數(shù)據(jù)規(guī)模與通用領(lǐng)域存在數(shù)量級(jí)差距,模態(tài)和任務(wù)分布嚴(yán)重失衡,碎片化程度高。

      針對(duì)這一現(xiàn)狀,研究提出了元數(shù)據(jù)驅(qū)動(dòng)融合范式(MDFP),通過四階段系統(tǒng)化流程實(shí)現(xiàn)數(shù)據(jù)集的有效整合,并構(gòu)建了交互式數(shù)據(jù)發(fā)現(xiàn)門戶。通過具體案例驗(yàn)證,MDFP 能夠?qū)?57 個(gè)數(shù)據(jù)集整合為包含 213 萬張圖像的統(tǒng)一訓(xùn)練資源,為醫(yī)學(xué)基礎(chǔ)模型的大規(guī)模預(yù)訓(xùn)練提供了可行路徑。

      正如科學(xué)大語言模型正從“知識(shí)模型”向“推理引擎”和“科研伙伴”演進(jìn),醫(yī)學(xué)基礎(chǔ)模型也將朝著能夠自主進(jìn)行臨床推理、實(shí)驗(yàn)設(shè)計(jì)和治療規(guī)劃的科學(xué)智能體方向發(fā)展。通過 MDFP 的戰(zhàn)略數(shù)據(jù)集整合,結(jié)合隱私保護(hù)技術(shù)與智能體生態(tài)的構(gòu)建,醫(yī)學(xué) AI 將迎來從數(shù)據(jù)驅(qū)動(dòng)到智能體驅(qū)動(dòng)的范式躍遷,最終實(shí)現(xiàn) AI 與臨床實(shí)踐的深度融合。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      唯一自救機(jī)會(huì),媒體模擬快船三方交易,告別柯林斯重獲第三核心

      唯一自救機(jī)會(huì),媒體模擬快船三方交易,告別柯林斯重獲第三核心

      拾叁懂球
      2025-12-12 03:28:56
      人老了,不管子女孝順與否,都難避開8個(gè)養(yǎng)老真相,看到就是賺到

      人老了,不管子女孝順與否,都難避開8個(gè)養(yǎng)老真相,看到就是賺到

      情感大使館
      2025-11-27 10:33:06
      山東的含金量還在上升!北冥有魚在此刻具像化了!

      山東的含金量還在上升!北冥有魚在此刻具像化了!

      閃電新聞
      2025-12-11 10:40:30
      40萬人連夜逃亡,洪森拿出了坑佩通坦的招數(shù),但泰國不會(huì)再上當(dāng)

      40萬人連夜逃亡,洪森拿出了坑佩通坦的招數(shù),但泰國不會(huì)再上當(dāng)

      呂璐說
      2025-12-10 19:04:39
      內(nèi)幕消息預(yù)警!日本央行計(jì)劃“四次加息”,日元或迎十年巨變!

      內(nèi)幕消息預(yù)警!日本央行計(jì)劃“四次加息”,日元或迎十年巨變!

      新浪財(cái)經(jīng)
      2025-12-11 15:28:29
      火箭拒不承認(rèn)控衛(wèi)位置存在問題!輪休亞當(dāng)斯是球隊(duì)?wèi)峙率?yōu)勢(shì)點(diǎn)

      火箭拒不承認(rèn)控衛(wèi)位置存在問題!輪休亞當(dāng)斯是球隊(duì)?wèi)峙率?yōu)勢(shì)點(diǎn)

      張辱鹵說體育
      2025-12-12 05:07:07
      國企暴雷,西安這家房企被30.71億債務(wù)拖垮

      國企暴雷,西安這家房企被30.71億債務(wù)拖垮

      地產(chǎn)新視線
      2025-12-10 19:25:56
      解疑:注射死刑方式是11億巨貪白天輝本人選擇的?

      解疑:注射死刑方式是11億巨貪白天輝本人選擇的?

      石辰搞笑日常
      2025-12-12 00:06:09
      糖尿病與喝水有關(guān)?醫(yī)生再三強(qiáng)調(diào):過了60歲,喝水牢記“4不要”

      糖尿病與喝水有關(guān)?醫(yī)生再三強(qiáng)調(diào):過了60歲,喝水牢記“4不要”

      看世界的人
      2025-12-11 20:58:59
      多特蒙德這兩分,丟的實(shí)在是太窩囊

      多特蒙德這兩分,丟的實(shí)在是太窩囊

      體壇周報(bào)
      2025-12-11 22:17:40
      金融大佬出事!過億的利益鏈曝光

      金融大佬出事!過億的利益鏈曝光

      大貓財(cái)經(jīng)Pro
      2025-12-11 18:02:12
      美媒:中國的殲36可能顛覆一切

      美媒:中國的殲36可能顛覆一切

      安安說
      2025-12-11 10:26:49
      突然發(fā)現(xiàn)孩子真的很平庸,接受不了怎么辦?網(wǎng)友:惟愿孩兒愚且魯

      突然發(fā)現(xiàn)孩子真的很平庸,接受不了怎么辦?網(wǎng)友:惟愿孩兒愚且魯

      另子維愛讀史
      2025-12-11 20:34:45
      小人物故事,馬修斯終得步行者保障合同,生涯巔峰與火箭風(fēng)雨同舟

      小人物故事,馬修斯終得步行者保障合同,生涯巔峰與火箭風(fēng)雨同舟

      拾叁懂球
      2025-12-12 01:52:58
      二婚現(xiàn)場(chǎng)新娘長筒靴小皮裙,與新郎互動(dòng)韻味十足,網(wǎng)友:少婦頂配

      二婚現(xiàn)場(chǎng)新娘長筒靴小皮裙,與新郎互動(dòng)韻味十足,網(wǎng)友:少婦頂配

      梅子的小情緒
      2025-12-11 18:49:36
      意外!謝文能本賽季剛結(jié)束就離開魯能,現(xiàn)身新去處贏得球迷追捧

      意外!謝文能本賽季剛結(jié)束就離開魯能,現(xiàn)身新去處贏得球迷追捧

      振剛說足球
      2025-12-11 09:28:59
      老婆長得太漂亮丈夫不放心,稍微一打扮就緊張,網(wǎng)友:是得看著點(diǎn)

      老婆長得太漂亮丈夫不放心,稍微一打扮就緊張,網(wǎng)友:是得看著點(diǎn)

      梅子的小情緒
      2025-12-10 14:28:04
      中國一級(jí)戰(zhàn)備多可怕?千萬預(yù)備役被召回,14億人立即切換戰(zhàn)爭(zhēng)模式

      中國一級(jí)戰(zhàn)備多可怕?千萬預(yù)備役被召回,14億人立即切換戰(zhàn)爭(zhēng)模式

      諦聽骨語本尊
      2025-11-20 16:06:12
      牛掰!聯(lián)盟第三人啊!楊瀚森再戰(zhàn)首輪13號(hào)秀

      牛掰!聯(lián)盟第三人啊!楊瀚森再戰(zhàn)首輪13號(hào)秀

      籃球?qū)崙?zhàn)寶典
      2025-12-11 22:46:50
      日本為什么挑釁中國,西班牙專家:中國錯(cuò)就錯(cuò)在沒跟日本徹底清算

      日本為什么挑釁中國,西班牙專家:中國錯(cuò)就錯(cuò)在沒跟日本徹底清算

      我心縱橫天地間
      2025-12-08 18:32:33
      2025-12-12 06:08:49
      ScienceAI incentive-icons
      ScienceAI
      關(guān)注人工智能與其他前沿技術(shù)
      1177文章數(shù) 220關(guān)注度
      往期回顧 全部

      科技要聞

      豆包剛被微信淘寶們"群毆" ,又有人來搶位

      頭條要聞

      村支書賣小米被小米法務(wù)投訴下架:希望給我們條活路

      頭條要聞

      村支書賣小米被小米法務(wù)投訴下架:希望給我們條活路

      體育要聞

      你最看不上的人,關(guān)鍵時(shí)刻卻最想救你...

      娛樂要聞

      黃慧頤曝保劍鋒出軌細(xì)節(jié)!

      財(cái)經(jīng)要聞

      明年經(jīng)濟(jì)工作怎么干 中央經(jīng)濟(jì)工作會(huì)議定調(diào)

      汽車要聞

      長途穿越更輕松 二代哈弗H9穿越版限時(shí)售23.29萬

      態(tài)度原創(chuàng)

      旅游
      家居
      手機(jī)
      健康
      教育

      旅游要聞

      1 次漫步 = 看盡千年文脈!甘棠公園的冬日,藏著九江的靈魂

      家居要聞

      歐式風(fēng)格 純粹優(yōu)雅氣質(zhì)

      手機(jī)要聞

      OPPO Reno15c現(xiàn)身,有望本月發(fā)布

      甲狀腺結(jié)節(jié)到這個(gè)程度,該穿刺了!

      教育要聞

      烏蘭察布體校竟培養(yǎng)奧運(yùn)選手!實(shí)力揭秘

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 黄色免费在线网址| 校园春色?武侠古典?都市亚洲| www色色色com| 精品九九在线| 性欧美大战久久久久久久| 国产精品无码翘臀在线观看 | 久久国产精品萌白酱免费 | 欧美激情精品久久久久久| 欧美最猛性xxxxx免费| 亚洲熟妇无码一区二区三区| 蜜臀av一区二区| 久久综合综合久久综合| 3751色视频| 精久视频| 亚洲熟女視頻| 内射极品少妇xxxxxhd| 丰满少妇人妻无码| 成人性做爰片免费视频| 国产精品久久久久久久久齐齐| 97人人模人人爽人人少妇| 独山县| 色午夜| 亚洲av永久无码天堂影院| 91综合网| 中文字幕aav| 中文字幕无码免费久久9一区9| 91露脸熟女对白不带套| 内射人妻无码色| 日韩成人无码中文字幕| 成人午夜免费无码视频在线观看| 日韩无码系列| 小婕子伦流澡到高潮h| 丰满人妻妇伦又伦精品国产 | 欧美一二三区| 337p日本欧洲亚洲大胆色噜噜| 高潮添下面视频免费看| 国产xxxx| 成人AV在线资源| 内射少妇一区27p| brazzers欧美巨大| 51国产|