網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI“世界模型”離真實(shí)手術(shù)還有多遠(yuǎn)？首個(gè)外科視頻生成基準(zhǔn)SurgVeo揭示“合理性差距”

2025-11-10 21:23:03　來源: 算法與數(shù)學(xué)之美

北京舉報(bào)

分享至

文章來源：我愛計(jì)算機(jī)視覺（ID：aicvml）

最近，視頻生成領(lǐng)域的基石模型正展現(xiàn)出作為潛在“世界模型”模擬物理世界的驚人能力。然而，當(dāng)這些技術(shù)被應(yīng)用于像外科手術(shù)這樣高風(fēng)險(xiǎn)、需要深度專業(yè)因果知識(shí)而非普適物理規(guī)則的領(lǐng)域時(shí)，其表現(xiàn)如何？這是一個(gè)至關(guān)重要但尚未被探索的領(lǐng)域。

為了系統(tǒng)地應(yīng)對(duì)這一挑戰(zhàn)，來自耶魯大學(xué)、諾丁漢大學(xué)等機(jī)構(gòu)的研究者們進(jìn)行了一項(xiàng)開創(chuàng)性的研究。他們提出了 SurgVeo，這是首個(gè)由專家策劃的、用于評(píng)估手術(shù)視頻生成模型的基準(zhǔn)；同時(shí)，他們還設(shè)計(jì)了一個(gè)新穎的四層評(píng)估框架——手術(shù)合理性金字塔（Surgical Plausibility Pyramid, SPP），旨在從基本外觀到復(fù)雜手術(shù)策略等多個(gè)層面評(píng)估模型生成內(nèi)容的質(zhì)量。

論文標(biāo)題 : How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment
中文標(biāo)題 :：外科醫(yī)生離手術(shù)世界模型還有多遠(yuǎn)？基于專家評(píng)估的零樣本手術(shù)視頻生成研究
作者 : Zhen Chen, Qing Xu, Jinlin Wu, Biao Yang, Yuhao Zhai, Geng Guo, Jing Zhang, Yinlu Ding,Nassir Navab, Jiebo Luo
機(jī)構(gòu) : 耶魯大學(xué)，諾丁漢大學(xué)，中國(guó)科學(xué)院，山西醫(yī)科大學(xué)，山東大學(xué)，慕尼黑工業(yè)大學(xué)，羅切斯特大學(xué)
論文地址 : https://arxiv.org/pdf/2511.01775
Benchmark （待開源）: https://github.com/franciszchen/SurgVeo

當(dāng)前挑戰(zhàn)：通用世界模型難以駕馭專業(yè)領(lǐng)域

“世界模型”的核心思想是讓機(jī)器建立一個(gè)關(guān)于世界如何運(yùn)作的內(nèi)部表征，理解環(huán)境如何演變、行為如何導(dǎo)致后果。近期的視頻生成模型，如谷歌的Veo，已經(jīng)能夠生成非常逼真的通用場(chǎng)景視頻，似乎讓我們離通用物理世界的模擬器越來越近。

然而，外科手術(shù)領(lǐng)域與日常物理世界有著本質(zhì)的不同。它不僅僅是關(guān)于物體如何移動(dòng)或碰撞，而是充滿了需要“專家直覺”的知識(shí)，比如解剖學(xué)、生理學(xué)和生物力學(xué)。一個(gè)成功的“手術(shù)世界模型”必須理解手術(shù)刀切開不同組織時(shí)會(huì)發(fā)生什么，理解特定操作背后的戰(zhàn)略意圖。將為模擬“常識(shí)物理”而生的模型直接應(yīng)用于手術(shù)這樣需要“專家知識(shí)”的領(lǐng)域，其能力邊界在哪里？這正是本研究試圖回答的核心問題。

研究方法：SurgVeo基準(zhǔn)與SPP評(píng)估框架

為了科學(xué)地衡量現(xiàn)有視頻生成模型在手術(shù)領(lǐng)域的真實(shí)能力，研究者構(gòu)建了一套完整的評(píng)測(cè)流程。

首先，他們創(chuàng)建了 SurgVeo 基準(zhǔn)。該基準(zhǔn)包含了兩種具有代表性但風(fēng)格迥異的手術(shù)視頻：腹腔鏡子宮切除術(shù)和內(nèi)窺鏡垂體手術(shù)。前者代表了在密閉空間內(nèi)的軟組織操作，后者則要求在關(guān)鍵神經(jīng)血管結(jié)構(gòu)附近進(jìn)行極其精細(xì)的操作。研究者從這些真實(shí)手術(shù)錄像中提取視頻片段，形成“起始幀-后續(xù)真實(shí)視頻”的數(shù)據(jù)對(duì)。

接著，他們讓先進(jìn)的 Veo-3 模型執(zhí)行一項(xiàng)零樣本（zero-shot）預(yù)測(cè)任務(wù)：給定手術(shù)場(chǎng)景的起始幀和一段文本提示（prompt），模型需要生成接下來8秒的手術(shù)視頻。

最關(guān)鍵的一步，是由四位具有執(zhí)業(yè)資格的外科醫(yī)生組成的專家小組，使用研究者提出的 手術(shù)合理性金字塔（SPP） 框架來對(duì)生成的視頻進(jìn)行打分。SPP框架將評(píng)估分為四個(gè)層級(jí)，從下到上，要求越來越高：

視覺感知合理性 (Visual Perceptual Plausibility) ：評(píng)估視頻最基本的外觀質(zhì)量，如清晰度、光照、組織紋理和視頻流暢度。
器械操作合理性 (Instrument Operation Plausibility) ：評(píng)估手術(shù)器械的運(yùn)動(dòng)軌跡、操作技術(shù)是否符合物理規(guī)律和手術(shù)規(guī)范。
環(huán)境反饋合理性 (Environment Feedback Plausibility) ：評(píng)估手術(shù)場(chǎng)景（如組織、器官）對(duì)器械操作的反應(yīng)是否真實(shí)，例如，組織被牽拉后的變形、切割后的出血模式是否符合生物力學(xué)和解剖學(xué)原理。
手術(shù)意圖合理性 (Surgical Intent Plausibility) ：評(píng)估預(yù)測(cè)的系列動(dòng)作是否展現(xiàn)出清晰、邏輯自洽且符合當(dāng)前手術(shù)階段的戰(zhàn)略目標(biāo)。這是最高層次的評(píng)估，考驗(yàn)?zāi)Ｐ褪欠窭斫狻盀槭裁础币@么做。

專家們會(huì)在生成的視頻播放到第1秒、第3秒和第8秒時(shí)，參照真實(shí)視頻，對(duì)這四個(gè)維度進(jìn)行1-5分的打分。

實(shí)驗(yàn)結(jié)果：驚人的“合理性差距”

研究結(jié)果揭示了一個(gè)深刻的斷層，研究者稱之為“合理性差距”（plausibility gap）：盡管Veo-3在生成視覺上令人信服的手術(shù)場(chǎng)景方面表現(xiàn)出色，但在SPP框架的更高層級(jí)上卻嚴(yán)重失敗。

量化數(shù)據(jù)分析

下方的兩個(gè)表格分別展示了在腹腔鏡手術(shù)和神經(jīng)外科手術(shù)中，不同提示策略下，模型在三個(gè)時(shí)間點(diǎn)的得分情況。

腹腔鏡手術(shù)評(píng)估分?jǐn)?shù)

神經(jīng)外科手術(shù)評(píng)估分?jǐn)?shù)

我們可以清晰地看到：

視覺質(zhì)量高 ：在兩個(gè)手術(shù)類別中，“視覺感知合理性”的初始得分都很高（例如，基線提示下腹腔鏡手術(shù)為3.72分，神經(jīng)外科為3.88分）。外科醫(yī)生評(píng)價(jià)生成的圖像“清晰得驚人”。
高層邏輯差 ：然而，分?jǐn)?shù)在SPP金字塔的更高層級(jí)急劇下降。器械操作、環(huán)境反饋和手術(shù)意圖的得分要低得多，并且隨著時(shí)間的推移（從1秒到8秒）迅速惡化。例如，在腹腔鏡手術(shù)中，環(huán)境反饋合理性得分從1秒時(shí)的3.06分驟降至8秒時(shí)的1.64分。

腹腔鏡手術(shù)評(píng)估分?jǐn)?shù)的小提琴圖

神經(jīng)外科手術(shù)評(píng)估分?jǐn)?shù)的小提琴圖

小提琴圖更直觀地展示了這種差異。視覺感知的得分（最左側(cè)）密集分布在高分區(qū)域，而其他三個(gè)維度的得分則大量堆積在低分區(qū)域，且隨著時(shí)間推移（顏色由淺到深）不斷下移。

有趣的是，研究還發(fā)現(xiàn)，為模型提供更明確的“階段感知”提示（例如，明確告知當(dāng)前是“血管結(jié)扎”階段）并不能顯著改善其表現(xiàn)。這有力地證明，模型的問題不在于缺少上下文信息，而在于根本無法理解和運(yùn)用這些專業(yè)的領(lǐng)域知識(shí)。

典型失敗案例

定性的案例分析讓這些冰冷的數(shù)字變得更加觸目驚心。

上圖展示了一些典型的失敗案例：

(a) 視覺質(zhì)量失真 ：生成的視頻畫面亮度發(fā)生突兀且不自然的變化，與穩(wěn)定的手術(shù)照明條件不符。

(b) 器械錯(cuò)誤 ：模型“幻覺”出了一種現(xiàn)實(shí)中不存在的手術(shù)器械。
(c) 操作不當(dāng) ：真實(shí)操作需要向左移動(dòng)，模型卻生成了向右的錯(cuò)誤動(dòng)作。模型展示的器械在處理黏液，而正確的手術(shù)操作應(yīng)是在另一目標(biāo)部位上進(jìn)行沖洗與吸引的協(xié)同動(dòng)作。

(d) 不當(dāng)手術(shù)目標(biāo) ：模型展示的器械在處理黏液，而正確的手術(shù)操作應(yīng)是在另一目標(biāo)部位上進(jìn)行沖洗與吸引的協(xié)同動(dòng)作。

(e) 環(huán)境反饋錯(cuò)誤 ：模型違反物理定律，讓吸引器像提拉固體一樣將一整塊明膠海綿吸走，而不是吸走表面的液體。
(f) 意圖錯(cuò)誤 ：真實(shí)意圖是在硬腦膜上注射生物膠水，模型卻錯(cuò)誤地預(yù)測(cè)了一個(gè)完全不相關(guān)的動(dòng)作——用棉片擦拭。

錯(cuò)誤類型的量化分布（上圖）進(jìn)一步證實(shí)了“合理性差距”。在兩種手術(shù)中，與高層手術(shù)邏輯相關(guān)的錯(cuò)誤（如手術(shù)意圖、器械操作錯(cuò)誤）占了絕大多數(shù)，而底層的視覺質(zhì)量問題僅占一小部分（腹腔鏡6.2%，神外2.8%）。

當(dāng)然，模型偶爾也能生成一些高分案例，但這些通常是手術(shù)動(dòng)作簡(jiǎn)單、甚至是暫停的場(chǎng)景。

高分案例：(a)中生成了自然的解剖動(dòng)作，(b)中則幾乎完美復(fù)刻了手術(shù)暫停的場(chǎng)景。

災(zāi)難性失敗案例：(a)中需要縫合，模型卻幻覺出器械并執(zhí)行無法識(shí)別的操作；(b)中需要涂膠水，模型完全搞錯(cuò)了意圖。

研究意義與未來展望

這項(xiàng)研究首次提供了量化證據(jù)，揭示了當(dāng)前最先進(jìn)的視頻生成模型在手術(shù)AI領(lǐng)域中，令人信服的視覺模仿與真正的因果理解之間存在巨大鴻溝。

CV君認(rèn)為，這項(xiàng)工作意義重大。它告訴我們，僅僅依靠在通用數(shù)據(jù)上進(jìn)行大規(guī)模訓(xùn)練，可能不足以讓模型掌握專家領(lǐng)域的復(fù)雜規(guī)則。未來的“手術(shù)世界模型”可能需要新的架構(gòu)范式，能夠整合結(jié)構(gòu)化的領(lǐng)域知識(shí)，并在生成過程中強(qiáng)制執(zhí)行嚴(yán)格的物理和邏輯約束。

SurgVeo基準(zhǔn)和SPP評(píng)估框架為未來的研究奠定了一個(gè)至關(guān)重要的基礎(chǔ)和路線圖，指引著我們?nèi)绾伍_發(fā)能夠駕馭真實(shí)世界醫(yī)療領(lǐng)域復(fù)雜性的下一代模型。雖然通往真正的手術(shù)世界模型道阻且長(zhǎng)，但這項(xiàng)研究無疑是邁出的清醒而關(guān)鍵的一步。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.