![]()
過去兩年,世界模型(World Model)正在成為大模型演進的重要方向。
從具身智能到自動駕駛,研究者希望 AI 不再只是理解數據,而是能夠在內部構建一個可預測、可推演的 “世界”。模型學會物體如何運動、環境如何變化,甚至能夠在行動發生之前完成模擬。
但一個關鍵盲區始終存在:今天幾乎所有世界模型,理解的都是 “人類肉眼可見的世界”。
街道、人物、機械運動可以被成功建模,而一旦尺度縮小到細胞、組織乃至分子層級,現有模型往往只是在生成視覺紋理,而非真實過程本身。
- 細胞分裂為何發生?
- 蛋白結構如何變化?
- 微觀系統中的動態規律如何長期演化?
- 這些問題背后需要的,不只是生成能力,而是機制級模擬能力。
然而,微觀世界建模面臨著截然不同的挑戰:尺度跨度巨大、動態過程高度復雜、真實數據稀缺,同時還必須滿足物理與生物約束。
在這樣的背景下,本文提出MicroVerse— 一個面向微觀世界(Micro-World)的模擬框架,嘗試讓生成模型首次從 “宏觀場景建模” 走向微尺度科學過程模擬。
與傳統視頻生成不同,MicroVerse 的目標并非生成更逼真的畫面,而是回答一個更根本的問題:AI 能否像科學模擬系統一樣,理解并重建微觀世界的運行機制?
這一工作將世界模型的研究邊界,從可見世界進一步推進到了不可見尺度。
![]()
- 論文標題:MicroVerse: A Preliminary Exploration Toward a Micro-World Simulation
- 論文鏈接:https://arxiv.org/abs/2603.00585
- Github:https://github.com/FreedomIntelligence/MicroVerse
現狀:為何我們需要微觀世界的 “模擬器”?
在宏觀世界,我們可以通過攝像頭記錄一切。但在微觀尺度,生命活動的本質 — 從血液流動的物質交換到 DNA 的精密復制 — 都發生在肉眼不可見的方寸之間。
![]()
微觀模擬的意義遠非 “視覺奇觀”,它是理解生命運作的鑰匙:
- 加速科學洞察:如果能精準模擬免疫細胞如何識別并攻擊癌細胞的過程,研究人員就能更直觀地觀察復雜的細胞交互,輔助驗證生物學假設。
- 降低實驗成本:傳統的顯微實驗成本高昂且變量難以控制,通過 AI 生成具有物理保真度的視頻,可以預先篩選出有研究價值的動態場景。
- 教育與科普:手工動畫高度依賴藝術表達,難以做到科學動態的實時交互。AI 模擬器能讓學生在虛擬實驗室里 “親眼” 看見生命過程的每一個細節。
盡管學術界近期涌現出諸如MedOS [1](聚焦手術機器人的臨床感知與動作決策)、CLARITY [2](側重腫瘤演化軌跡的抽象潛空間建模)以及MeWM [3](致力于術后 CT 影像的視覺預測)等優秀的醫學世界模型,但其核心大多錨定于宏觀層面的臨床決策支持或醫療影像模擬,本質上是服務于診療邏輯的 “預言機”。與之不同的是,我們關注的是分子與細胞層面的微觀世界模型,而這一領域目前的視頻生成范式正面臨嚴重的效能危機。研究團隊對比發現,當要求生成 “細胞分裂” 或 “DNA 復制” 時,SOTA 模型雖然畫面精美,卻存在三大致命硬傷:
1.違反物理結構:血管紋理反自然,細胞器排布雜亂。
2.生物形態錯誤:模擬 RNA 時產生錯誤的形變,DNA 鏈條隨意斷裂。
3.時間動態不一致:例如在模擬細胞有絲分裂時,細胞核會憑空消失,過程完全不符合生物學邏輯。
一句話總結:AI 生成的微觀視頻 “像真的”,但機制全錯了。它們只學習了宏觀視覺統計,未學習微觀物理規律。
MicroWorldBench:給微觀視頻立下 “科學規矩”
為了糾正視頻生成模型在微觀世界的 “信口開河”,研究團隊提出了 MicroWorldBench — 這是全球首個針對微觀生物模擬的量表化評測基準。
![]()
如果說以前的視頻評測是看 “電影感”,那么 MicroWorldBench 就是一場嚴苛的“生物奧林匹克競賽”。它不再滿足于畫面是否高清,而是要給每一幀畫面進行 “切片檢查”。
層次分明的 “考題” 設計
研究團隊從數萬個候選任務中,精選出459 項核心模擬任務,構建了一個跨越尺度的三層模擬體系:
- 器官級(Organ-level):生理功能的 “動力學”
- 考題示例:模擬心臟瓣膜在不同壓力下的啟閉,或者肺泡內壁紅細胞的氧氣交換。
- 核心難度:要求 AI 理解流體力學與組織形變的配合,不能只是 “亂顫”,必須有規律。
- 細胞級(Cell-level):生命律動的 “社交學”
- 考題示例:模擬白細胞如何在復雜的趨化因子引導下,穿過血管壁抵達炎癥現場(跨內皮遷移)。
- 核心難度:AI 需要模擬出細胞偽足的延伸、細胞體的擠壓形變,這考驗的是模型對生物柔性體動力學的理解。
- 亞細胞級(Subcellular-level):生命底層的 “精密機械”
- 考題示例:DNA 復制叉的推進、線粒體的融合與分裂、細胞凋亡時的膜泡化(Blebbing)。
- 核心難度:這是最精微的視角,要求極高的保真度。AI 必須準確還原分子層面的信號級聯,稍有差錯,在生物學上就是 “物種變異”。
專家級 “監考官”:拒絕視覺欺騙
為了確保評分的權威性,MicroWorldBench 引入了LLM + 領域專家的聯合評審機制:
1.科學真實性(Scientific Fidelity):這是 “一票否決權”。專家制定了極細的加權規則,比如:模擬有絲分裂時,如果中期染色體沒有在赤道板對齊,畫質再好也要打低分。
2.視覺質量(Visual Quality):評估視頻是否存在閃爍、噪點,是否達到了實驗室級的顯微成像質感。
3.指令一致性(Instruction Following):測試 AI 能否精準響應復雜指令,如 “生成一段受損肝細胞自我修復的微觀過程”。
扎心的真相:視覺巨人,科學矮子
![]()
在 MicroWorldBench 的嚴苛審視下,一個殘酷的現狀浮出水面:當前最頂尖的視頻生成模型,正陷入一種“像素級真實,機制級崩塌”的尷尬境地。
視覺高分,科學低分:它們能生成令人驚嘆的景深效果、細膩的細胞質感和真實的顯微光影。在涉及因果律和生物邏輯的環節,這些模型表現得像個 “只會臨摹的畫家,卻不懂解剖學的醫生”;
宏觀統計規律無法推導微觀物理約束:當前模型本質上是在學習像素流的統計關聯。在宏觀世界,人類活動的數據量極其龐大,AI 能夠通過 “暴力學習” 摸清重力和慣性的規律。但在微觀世界,由于缺乏龐大的數據,AI 只能用宏觀的 “視覺經驗” 去強行解釋微觀的 “生物邏輯”,導致了嚴重的科學偏差。
MicroVerse:從 “像素畫師” 向 “微觀世界模型” 的進化
MicroWorldBench 的意義在于確立了一個科學的秩序:視頻生成的下一場革命,不再是分辨率的競賽,而是世界知識嵌入的競賽。研究者指出,如果不能在模型底層引入物理約束與領域知識監督,AI 將永遠停留在 “特效模擬” 階段,而無法成為真正的 “科學模擬器”。
如果說此前的視頻模型只是在 “畫出” 生命的形狀,那么 MicroVerse 則是試圖在比特世界里 “重建” 生命的算法。
MicroSim-10K:為 AI 補齊缺失的 “微觀常識”
任何世界模型的預測能力都受限于其 “認知邊際”。MicroVerse 的核心基石是MicroSim-10K— 這是全球首個專注于微觀機制的大規模專家級數據集。
- 從像素統計轉向機制對齊:9,601 段視頻均經專家驗證。它強制 AI 過濾掉宏觀世界的重力、慣性等常識,轉而學習微觀尺度的流體動力學、細胞膜張力以及分子擴散規律。
- 高密度的語義監督:每段視頻配備了“機制級標注”的描述并非簡單的視覺標簽。例如,它不再簡單標注 “一些顆粒在移動”,而是會明確告訴模型:“當偵測到病原體入侵,免疫細胞會迅速極化并延伸出偽足,像‘獵人’一樣追蹤并精準包裹住游走的細菌。” 這種精準的語義引導,讓模型在生成的瞬間,就完成了從視覺信號到生物邏輯的映射。
架構演進:從 “視覺模仿” 到 “動力學推演”
在模型層面,MicroVerse 通過引入初級的物理約束與領域知識監督,實現了生成表現的跨越:
![]()
- 科學保真度的定向演化:在最復雜的細胞級模擬中,MicroVerse 取得了 53.3 的高分。這意味著模型不再是胡亂拼湊像素塊,而是開始呈現出具有生物學意義的動態機制,如細胞在遷移過程中的自適應形變邏輯。
![]()
- Scaling Law 驗證:實驗證明,隨著模型參數擴展至14B,模型對信號級聯反應等極高復雜過程的理解出現了明顯的 “性能涌現”。這種擴展性意味著 MicroVerse 有潛力成為一個可無限加載科學知識的數字生命底座。
突破:從 “特效” 到 “科學模擬” 的 POC
通過對比可以直白地看到 MicroVerse 帶來的改變,它將視頻生成從 “視覺游戲” 變成了真正的概念驗證(POC):
- DNA 復制:通用模型生成的往往只是無規則旋轉的絲帶,而 MicroVerse 能夠精準還原解旋酶推進、引物結合以及新鏈合成的動態秩序。
- 細胞凋亡:在模擬這一程序化死亡過程時,它不再是模糊的淡出,而是能細膩呈現出細胞膜起泡(Blebbing)、染色質固縮等一系列具有病理學意義的特征。
這些突破證明:生成模型可以被引導去學習生命過程的底層物理與生物規律。
結論:從可見的 “物理世界” 邁向不可見的 “生命引擎”
視頻生成技術已經能夠逼真地重現人類社會的街景與繁華,但生命最核心的奧秘,始終隱藏在那些肉眼不可見、規律極其復雜的微尺度動態之中。
MicroVerse 的意義,絕不僅僅在于它生成了幾段高清的生物視頻,而在于它在生成式 AI 與嚴謹科學模擬之間,強行破開了一道通往未來的裂縫:
- 確立了科學模擬的新秩序:通過MicroWorldBench,研究團隊第一次為 AI 定義了何為 “微觀世界的科學正確”;
- 構建了生命知識的數字基底:MicroSim-10K證明了,只要喂給模型正確的 “真理”,AI 就能從像素的泥淖中掙脫,建立起對底層機制的直覺;
- 完成了范式轉移的 POC:MicroVerse的成功,標志著生成大模型正在從 “宏觀視覺統計” 向 “微觀機制模擬” 完成驚險的一跳。
這本質上是一條從 “世界模型” 通往 “生命模型” 的必經之路。當 AI 能夠精準模擬細胞的律動與分子的呼吸,它就不再僅僅是作畫的工具,而是一個運行在硅基芯片上的虛擬生命實驗場。
從觀察生命,到模擬生命,再到最終理解生命。微觀世界的生成時代,才剛剛開始。
作者介紹
本文的共同第一作者為王榮勝與吳銘昊,均來自香港中文大學(深圳)。兩位作者均在王本友教授的指導下進行研究,王教授及其團隊長期致力于語音與醫療大模型、自然語言處理和多模態學習等前沿領域的探索。
王榮勝,香港中文大學(深圳)一年級博士生,研究方向為可信醫療大模型與多模態生成。
吳銘昊,香港中文大學(深圳)數據科學學院一年級博士,研究方向為 LLM Agent 與視頻生成。曾在 NeurIPS, ICLR 發表論文。
相關工作
[1] Yang Y, Wang Z Y, Liu Q, et al. Medical world model: Generative simulation of tumor evolution for treatment planning [J]. arXiv preprint arXiv:2506.02327, 2025.
[2] Ding T, Zou Y, Chen C, et al. CLARITY: Medical World Model for Guiding Treatment Decisions by Modeling Context-Aware Disease Trajectories in Latent Space [J]. arXiv preprint arXiv:2512.08029, 2025.
[3] Wu Y C, Yin M, Shi B, et al. MedOS: AI-XR-Cobot World Model for Clinical Perception and Action [J]. medRxiv, 2026: 2026.02. 18.26345936.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.