網易首頁 > 網易號 > 正文申請入駐

Cell Metab?|?韓敬東團隊開發生成式 AI ，統一人類多模態數據，構建衰老與疾病健康的“數字孿生”

2026-04-22 08:09:21　來源: BioArt

上海舉報

分享至

全面解析人類個體衰老和復雜疾病的動態軌跡，需要跨維度、多模態生物數據的支撐。然而，目前缺乏整合跨維度數據的算法工具，且同時獲取從分子組學到面部圖像的多模態數據極其困難。如何將碎片化的數據，統一到一個健康基準表征，為個體（ N=1 ）精準繪制健康軌跡并推薦抗衰老和疾病干預方案，一直是重大挑戰。

2026年4月21日，北京大學韓敬東課題組在Cell Metabolism發表了文章A generative AI framework unifies human multiomics to model aging, metabolic health, and intervention response，開發了一個面向人類衰老和健康的生成式深度學習框架 AURORA（AI Unification and Reconstruction of Omics Reassembly Atlas），利用單一的常規體檢數據或面部圖像，即可跨模態生成涵蓋轉錄組、代謝組、微生物組等7種模態的全景虛擬圖譜。經部分配對的少量數據訓練和在超42萬人的真實世界多隊列中驗證，A URORA 不僅構建了高精度的多模態衰老時鐘與疾病預測模型，更實現了個性化藥物與生活方式的“數基擾動”，為精準醫療和抗衰老干預提供了革命性的“數字孿生”方案。

一、數據集成：從碎片的單模態數據到統一的全模態生成

模型架構： AURORA將多模態數據拆解為特征本體（Key）與特征數值（Value），使用多頭自注意力模塊獲得特征本體的語義表示，使用模態特異性編碼器將模態數據映射為低維流形。 AURORA 解碼器使用低維流形作為輸入，語義表示作為第一層網絡權重，進而生成對應特征的后驗分布。 AURORA 的訓練過程使用K L 散度約束，對抗損失，配對樣本交叉生成等手段實現多模態數據的低維流形對齊。 AURORA 使用流形空間的特定維度擬合樣本年齡，將年齡信息從混雜因素中獨立解耦。

跨尺度對齊： A URORA 通過生成式建模，將 7 種跨尺度的生物學模態統一到一個共享的低維流形空間（universal representation）中，包括：分子尺度的血漿轉錄組，血漿代謝組，通路尺度的口腔菌群代謝通路活性，系統尺度的口腔微生物組，血生化檢測指標，以及個體尺度的3D 面部圖像，紅外面部熱圖像。

多模態生成： A URORA 模型在課題組自建的多中心、多批次、部分配對的隊列數據中訓練，并拓展應用在跨中心、跨批次、跨人種的外部驗證數據中，包括G TE x數據集（血漿轉錄組）和U K B iobank（U KB ）數據集（血漿代謝組，血生化檢測指標），實現多模態對齊和全模態生成，得到 407 萬個高度仿真，完全配對的多模態數據點。

二、衰老時鐘：從片面的單一模態到系統的嵌入時鐘

衰老圖譜：基于A URORA 生成的海量配對數據，研究團隊構建了涵蓋4 2 萬參與者的跨尺度多模態衰老圖譜，為每種模態和低維流形嵌入構建了模態特異性和全局系統性衰老時鐘，以年齡差（cAgeDiff，即生物學年齡與同齡人群平均值之差）量化個體衰老速率。

性能突出： A URORA 衰老時鐘集在預測年齡準確度（PCC，M AD ，R 2 ）上顯著優于基于真實數據構建的時鐘。此外，AURORA具有極強的泛化性，能夠校正批次與平臺效應。真實轉錄組數據構建的時鐘在 GTEx 外部驗證中表現不佳，而基于AURORA生成數據的時鐘則在 GTEx 上表現優異。將預訓練的AURORA衰老時鐘在 UK B （僅利用 18 項生理指標生成的多模態數據）中進行外部驗證，其預測性能甚至明顯優于直接使用真實生理數據訓練模型的交叉驗證。

機制解析：貝葉斯網絡與結構方程模型分析表明，生理組和代謝組的衰老速率對其他模態衰老速率有潛在因果驅動作用。基因功能富集分析揭示免疫炎癥等模態共享的衰老速率相關通路，以及模態特異的衰老速率相關通路：氨基酸代謝（生理組），脂代謝（代謝組），端粒維持（系統衰老）等。

三、疾病預測：從混雜的真實數據到年齡解耦的嵌入

年齡解耦：在疾病預測方面，研究利用 AURORA 生成的多模態數據和年齡解耦嵌入（age -decoupling embedding），構建了六種慢性疾病（脂肪肝、肝囊腫、高血壓、高脂血癥、2 型糖尿病、心血管疾病）的預測模型。結果表明，基于去除年齡混淆因素的年齡解耦嵌入 MLP 分類器表現最佳，優于真實數據構建的模型。

預測擴容：在 UK B 中，AURORA 僅憑18 項常規生理指標將可預測（AUC>0.7）非癌疾病數量從 29 種擴展到 96 種，癌癥從 3 種擴展到 17 種。對于心衰、TIA、卒中、心梗、腎癌和肝癌等疾病，AUC 提升幅度尤為顯著。

未來風險：預測的疾病概率不僅與診斷標準高度相關，還能指示疾病嚴重程度分級與未來的新發疾病風險。將疾病概率與衰老速率聯合分析發現，二者之間存在顯著相關性，暗示衰老加速與慢性疾病風險共享生物學基礎。生存分析顯示，加速衰老亞群的未來多種疾病累積發生率顯著增加。

四、干預方案：從群體的經驗觀測到個體的虛擬擾動

虛擬擾動：得益于對多模態數據的統一低維流形空間的建模，AURORA不僅是一個“仿真預測”工具，更是一個“干預模擬”平臺。在連續的 AURORA 流形空間中對個體數據點施加條件因子（conditional factor）方向的移動，模擬生活方式或藥物條件的改變，生成個體在多模態層面上的響應變化，并通過衰老時鐘和疾病預測器定量評估擾動對衰老與疾病的整體影響。

縱向驗證：在生活方式分析中，AURORA精準復現了已知有害習慣（吸煙、含糖飲料、酗酒、過飽飲食、加工肉類、熬夜等）的促衰效應，以及植物性飲食、運動的抗衰效應。在藥物擾動分析中，研究利用 UK Biobank 縱向用藥記錄，對于在基線無用藥、回訪前開始服藥的個體，在其基線狀態上施加藥物虛擬擾動預測，結果顯示疾病概率的預測變化與真實臨床變化的中位相關性達到 0.45。

個體響應：研究篩選出一系列具有潛在“抗衰”效應的藥物，包括二甲雙胍、阿司匹林、葉黃素、多種維生素（B1、D）和礦物質（鈣）等。個體化分析發現，盡管二甲雙胍在大多數個體中表現出抗衰老作用，仍有1 5% 個體在虛擬擾動中出現衰老加速，提示藥物效應存在顯著個體差異。通過對比生成轉錄組，研究鑒定出 IGFBP3、TRPC3、CDKN2B 和 FUS 等關鍵基因作為二甲雙胍抗衰的生物標志物。這些結果提示，AURORA 可幫助識別不同治療方案的潛在生物標志物。

五、健康代理：從專業性數據表格到交互性健康報告

為了將 AURORA 的能力轉化為可交互工具，研究構建了一個 AURORA Agent 原型。該系統結合了 AURORA 的多模態集成與虛擬擾動的能力和大語言模型（LLM）的推理和對話的能力，能夠接受任意單模態輸入（如一張面部照片，血生化檢測報告單，或生化指標文本），自動調用 AURORA 分析模塊，引導用戶完成健康管理，生成多模態健康評估報告。

六、討論與展望

AURORA 的核心價值在于，它將碎片化的多組學和表型數據統一到一個可模擬、可預測、可控制的“數字孿生”框架中，實現了跨模態統一與缺失模態高保真生成。這項研究向我們展示了一個極具想象力的未來：在生成式 AI 的賦能下，一張普通的自拍或一次常規抽血，就有望成為洞悉全身多組學狀態與長期健康風險的“超級鑰匙”。未來，隨著更多平衡多模態數據的積累，AURORA可以不斷迭代，為構建人群規模“虛擬人圖譜”提供基礎，推動從“觀測醫學”向“數基醫學”的轉變。

北京大學定量生物學中心/生命科學聯合中心韓敬東教授為本文的通訊作者。北京大學博士后陳嘉偉，PTN項目博士研究生任雅，上海交通大學周永教授，生命科學聯合中心畢業博士王子陽，為本文的共同第一作者。

https://doi.org/10.1016/j.cmet.2026.03.014

制版人：十一

參考文獻

1. Chen, J., R en , Y., Zhou, Y., Wang, Z., et al. A generative AI framework unifies human multiomics to model aging, metabolic health, and intervention response.Cell Meta. (2026). https://doi.org/10.1016/j.cmet.2026.03.014

學術合作組織

（*排名不分先后）

戰略合作伙伴

（*排名不分先后）

轉載須知

【非原創文章】本文著作權歸文章作者所有，歡迎個人轉發分享，未經作者的允許禁止轉載，作者擁有所有法定權利，違者必究。

BioArt

Med

Plants

人才招聘

點擊主頁推薦活動

關注更多最新活動！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.