網易首頁 > 網易號 > 正文申請入駐

首個微觀世界模型MicroVerse來了，AI開始模擬看不見的世界

2026-03-18 19:11:25　來源: 機器之心Pro

河北舉報

分享至

過去兩年，世界模型（World Model）正在成為大模型演進的重要方向。

從具身智能到自動駕駛，研究者希望 AI 不再只是理解數據，而是能夠在內部構建一個可預測、可推演的 “世界”。模型學會物體如何運動、環境如何變化，甚至能夠在行動發生之前完成模擬。

但一個關鍵盲區始終存在：今天幾乎所有世界模型，理解的都是 “人類肉眼可見的世界”。

街道、人物、機械運動可以被成功建模，而一旦尺度縮小到細胞、組織乃至分子層級，現有模型往往只是在生成視覺紋理，而非真實過程本身。

細胞分裂為何發生？
蛋白結構如何變化？
微觀系統中的動態規律如何長期演化？
這些問題背后需要的，不只是生成能力，而是機制級模擬能力。

然而，微觀世界建模面臨著截然不同的挑戰：尺度跨度巨大、動態過程高度復雜、真實數據稀缺，同時還必須滿足物理與生物約束。

在這樣的背景下，本文提出MicroVerse— 一個面向微觀世界（Micro-World）的模擬框架，嘗試讓生成模型首次從 “宏觀場景建模” 走向微尺度科學過程模擬。

與傳統視頻生成不同，MicroVerse 的目標并非生成更逼真的畫面，而是回答一個更根本的問題：AI 能否像科學模擬系統一樣，理解并重建微觀世界的運行機制？

這一工作將世界模型的研究邊界，從可見世界進一步推進到了不可見尺度。

論文標題：MicroVerse: A Preliminary Exploration Toward a Micro-World Simulation
論文鏈接：https://arxiv.org/abs/2603.00585
Github：https://github.com/FreedomIntelligence/MicroVerse

現狀：為何我們需要微觀世界的 “模擬器”？

在宏觀世界，我們可以通過攝像頭記錄一切。但在微觀尺度，生命活動的本質 — 從血液流動的物質交換到 DNA 的精密復制 — 都發生在肉眼不可見的方寸之間。

微觀模擬的意義遠非 “視覺奇觀”，它是理解生命運作的鑰匙：

加速科學洞察：如果能精準模擬免疫細胞如何識別并攻擊癌細胞的過程，研究人員就能更直觀地觀察復雜的細胞交互，輔助驗證生物學假設。
降低實驗成本：傳統的顯微實驗成本高昂且變量難以控制，通過 AI 生成具有物理保真度的視頻，可以預先篩選出有研究價值的動態場景。
教育與科普：手工動畫高度依賴藝術表達，難以做到科學動態的實時交互。AI 模擬器能讓學生在虛擬實驗室里 “親眼” 看見生命過程的每一個細節。

盡管學術界近期涌現出諸如MedOS [1]（聚焦手術機器人的臨床感知與動作決策）、CLARITY [2]（側重腫瘤演化軌跡的抽象潛空間建模）以及MeWM [3]（致力于術后 CT 影像的視覺預測）等優秀的醫學世界模型，但其核心大多錨定于宏觀層面的臨床決策支持或醫療影像模擬，本質上是服務于診療邏輯的 “預言機”。與之不同的是，我們關注的是分子與細胞層面的微觀世界模型，而這一領域目前的視頻生成范式正面臨嚴重的效能危機。研究團隊對比發現，當要求生成 “細胞分裂” 或 “DNA 復制” 時，SOTA 模型雖然畫面精美，卻存在三大致命硬傷：

1.違反物理結構：血管紋理反自然，細胞器排布雜亂。

2.生物形態錯誤：模擬 RNA 時產生錯誤的形變，DNA 鏈條隨意斷裂。

3.時間動態不一致：例如在模擬細胞有絲分裂時，細胞核會憑空消失，過程完全不符合生物學邏輯。

一句話總結：AI 生成的微觀視頻 “像真的”，但機制全錯了。它們只學習了宏觀視覺統計，未學習微觀物理規律。

MicroWorldBench：給微觀視頻立下 “科學規矩”

為了糾正視頻生成模型在微觀世界的 “信口開河”，研究團隊提出了 MicroWorldBench — 這是全球首個針對微觀生物模擬的量表化評測基準。

如果說以前的視頻評測是看 “電影感”，那么 MicroWorldBench 就是一場嚴苛的“生物奧林匹克競賽”。它不再滿足于畫面是否高清，而是要給每一幀畫面進行 “切片檢查”。

層次分明的 “考題” 設計

研究團隊從數萬個候選任務中，精選出459 項核心模擬任務，構建了一個跨越尺度的三層模擬體系：

器官級（Organ-level）：生理功能的 “動力學”
考題示例：模擬心臟瓣膜在不同壓力下的啟閉，或者肺泡內壁紅細胞的氧氣交換。
核心難度：要求 AI 理解流體力學與組織形變的配合，不能只是 “亂顫”，必須有規律。
細胞級（Cell-level）：生命律動的 “社交學”
考題示例：模擬白細胞如何在復雜的趨化因子引導下，穿過血管壁抵達炎癥現場（跨內皮遷移）。
核心難度：AI 需要模擬出細胞偽足的延伸、細胞體的擠壓形變，這考驗的是模型對生物柔性體動力學的理解。
亞細胞級（Subcellular-level）：生命底層的 “精密機械”
考題示例：DNA 復制叉的推進、線粒體的融合與分裂、細胞凋亡時的膜泡化（Blebbing）。
核心難度：這是最精微的視角，要求極高的保真度。AI 必須準確還原分子層面的信號級聯，稍有差錯，在生物學上就是 “物種變異”。

專家級 “監考官”：拒絕視覺欺騙

為了確保評分的權威性，MicroWorldBench 引入了LLM + 領域專家的聯合評審機制：

1.科學真實性（Scientific Fidelity）：這是 “一票否決權”。專家制定了極細的加權規則，比如：模擬有絲分裂時，如果中期染色體沒有在赤道板對齊，畫質再好也要打低分。

2.視覺質量（Visual Quality）：評估視頻是否存在閃爍、噪點，是否達到了實驗室級的顯微成像質感。

3.指令一致性（Instruction Following）：測試 AI 能否精準響應復雜指令，如 “生成一段受損肝細胞自我修復的微觀過程”。

扎心的真相：視覺巨人，科學矮子

在 MicroWorldBench 的嚴苛審視下，一個殘酷的現狀浮出水面：當前最頂尖的視頻生成模型，正陷入一種“像素級真實，機制級崩塌”的尷尬境地。

視覺高分，科學低分：它們能生成令人驚嘆的景深效果、細膩的細胞質感和真實的顯微光影。在涉及因果律和生物邏輯的環節，這些模型表現得像個 “只會臨摹的畫家，卻不懂解剖學的醫生”；

宏觀統計規律無法推導微觀物理約束：當前模型本質上是在學習像素流的統計關聯。在宏觀世界，人類活動的數據量極其龐大，AI 能夠通過 “暴力學習” 摸清重力和慣性的規律。但在微觀世界，由于缺乏龐大的數據，AI 只能用宏觀的 “視覺經驗” 去強行解釋微觀的 “生物邏輯”，導致了嚴重的科學偏差。

MicroVerse：從 “像素畫師” 向 “微觀世界模型” 的進化

MicroWorldBench 的意義在于確立了一個科學的秩序：視頻生成的下一場革命，不再是分辨率的競賽，而是世界知識嵌入的競賽。研究者指出，如果不能在模型底層引入物理約束與領域知識監督，AI 將永遠停留在 “特效模擬” 階段，而無法成為真正的 “科學模擬器”。

如果說此前的視頻模型只是在 “畫出” 生命的形狀，那么 MicroVerse 則是試圖在比特世界里 “重建” 生命的算法。

MicroSim-10K：為 AI 補齊缺失的 “微觀常識”

任何世界模型的預測能力都受限于其 “認知邊際”。MicroVerse 的核心基石是MicroSim-10K— 這是全球首個專注于微觀機制的大規模專家級數據集。

從像素統計轉向機制對齊：9,601 段視頻均經專家驗證。它強制 AI 過濾掉宏觀世界的重力、慣性等常識，轉而學習微觀尺度的流體動力學、細胞膜張力以及分子擴散規律。
高密度的語義監督：每段視頻配備了“機制級標注”的描述并非簡單的視覺標簽。例如，它不再簡單標注 “一些顆粒在移動”，而是會明確告訴模型：“當偵測到病原體入侵，免疫細胞會迅速極化并延伸出偽足，像‘獵人’一樣追蹤并精準包裹住游走的細菌。” 這種精準的語義引導，讓模型在生成的瞬間，就完成了從視覺信號到生物邏輯的映射。

架構演進：從 “視覺模仿” 到 “動力學推演”

在模型層面，MicroVerse 通過引入初級的物理約束與領域知識監督，實現了生成表現的跨越：

科學保真度的定向演化：在最復雜的細胞級模擬中，MicroVerse 取得了 53.3 的高分。這意味著模型不再是胡亂拼湊像素塊，而是開始呈現出具有生物學意義的動態機制，如細胞在遷移過程中的自適應形變邏輯。

Scaling Law 驗證：實驗證明，隨著模型參數擴展至14B，模型對信號級聯反應等極高復雜過程的理解出現了明顯的 “性能涌現”。這種擴展性意味著 MicroVerse 有潛力成為一個可無限加載科學知識的數字生命底座。

突破：從 “特效” 到 “科學模擬” 的 POC

通過對比可以直白地看到 MicroVerse 帶來的改變，它將視頻生成從 “視覺游戲” 變成了真正的概念驗證（POC）：

DNA 復制：通用模型生成的往往只是無規則旋轉的絲帶，而 MicroVerse 能夠精準還原解旋酶推進、引物結合以及新鏈合成的動態秩序。
細胞凋亡：在模擬這一程序化死亡過程時，它不再是模糊的淡出，而是能細膩呈現出細胞膜起泡（Blebbing）、染色質固縮等一系列具有病理學意義的特征。

這些突破證明：生成模型可以被引導去學習生命過程的底層物理與生物規律。

結論：從可見的 “物理世界” 邁向不可見的 “生命引擎”

視頻生成技術已經能夠逼真地重現人類社會的街景與繁華，但生命最核心的奧秘，始終隱藏在那些肉眼不可見、規律極其復雜的微尺度動態之中。

MicroVerse 的意義，絕不僅僅在于它生成了幾段高清的生物視頻，而在于它在生成式 AI 與嚴謹科學模擬之間，強行破開了一道通往未來的裂縫：

確立了科學模擬的新秩序：通過MicroWorldBench，研究團隊第一次為 AI 定義了何為 “微觀世界的科學正確”；
構建了生命知識的數字基底：MicroSim-10K證明了，只要喂給模型正確的 “真理”，AI 就能從像素的泥淖中掙脫，建立起對底層機制的直覺；
完成了范式轉移的 POC：MicroVerse的成功，標志著生成大模型正在從 “宏觀視覺統計” 向 “微觀機制模擬” 完成驚險的一跳。

這本質上是一條從 “世界模型” 通往 “生命模型” 的必經之路。當 AI 能夠精準模擬細胞的律動與分子的呼吸，它就不再僅僅是作畫的工具，而是一個運行在硅基芯片上的虛擬生命實驗場。

從觀察生命，到模擬生命，再到最終理解生命。微觀世界的生成時代，才剛剛開始。

作者介紹

本文的共同第一作者為王榮勝與吳銘昊，均來自香港中文大學（深圳）。兩位作者均在王本友教授的指導下進行研究，王教授及其團隊長期致力于語音與醫療大模型、自然語言處理和多模態學習等前沿領域的探索。

王榮勝，香港中文大學（深圳）一年級博士生，研究方向為可信醫療大模型與多模態生成。

吳銘昊，香港中文大學（深圳）數據科學學院一年級博士，研究方向為 LLM Agent 與視頻生成。曾在 NeurIPS, ICLR 發表論文。

相關工作

[1] Yang Y, Wang Z Y, Liu Q, et al. Medical world model: Generative simulation of tumor evolution for treatment planning [J]. arXiv preprint arXiv:2506.02327, 2025.

[2] Ding T, Zou Y, Chen C, et al. CLARITY: Medical World Model for Guiding Treatment Decisions by Modeling Context-Aware Disease Trajectories in Latent Space [J]. arXiv preprint arXiv:2512.08029, 2025.

[3] Wu Y C, Yin M, Shi B, et al. MedOS: AI-XR-Cobot World Model for Clinical Perception and Action [J]. medRxiv, 2026: 2026.02. 18.26345936.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.