文章來源:我愛計(jì)算機(jī)視覺(ID:aicvml)
最近,視頻生成領(lǐng)域的基石模型正展現(xiàn)出作為潛在“世界模型”模擬物理世界的驚人能力。然而,當(dāng)這些技術(shù)被應(yīng)用于像外科手術(shù)這樣高風(fēng)險(xiǎn)、需要深度專業(yè)因果知識(shí)而非普適物理規(guī)則的領(lǐng)域時(shí),其表現(xiàn)如何?這是一個(gè)至關(guān)重要但尚未被探索的領(lǐng)域。
為了系統(tǒng)地應(yīng)對(duì)這一挑戰(zhàn),來自耶魯大學(xué)、諾丁漢大學(xué)等機(jī)構(gòu)的研究者們進(jìn)行了一項(xiàng)開創(chuàng)性的研究。他們提出了 SurgVeo,這是首個(gè)由專家策劃的、用于評(píng)估手術(shù)視頻生成模型的基準(zhǔn);同時(shí),他們還設(shè)計(jì)了一個(gè)新穎的四層評(píng)估框架——手術(shù)合理性金字塔(Surgical Plausibility Pyramid, SPP),旨在從基本外觀到復(fù)雜手術(shù)策略等多個(gè)層面評(píng)估模型生成內(nèi)容的質(zhì)量。
![]()
論文標(biāo)題 : How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment
中文標(biāo)題 ::外科醫(yī)生離手術(shù)世界模型還有多遠(yuǎn)?基于專家評(píng)估的零樣本手術(shù)視頻生成研究
作者 : Zhen Chen, Qing Xu, Jinlin Wu, Biao Yang, Yuhao Zhai, Geng Guo, Jing Zhang, Yinlu Ding,Nassir Navab, Jiebo Luo
機(jī)構(gòu) : 耶魯大學(xué),諾丁漢大學(xué),中國(guó)科學(xué)院,山西醫(yī)科大學(xué),山東大學(xué),慕尼黑工業(yè)大學(xué),羅切斯特大學(xué)
論文地址 : https://arxiv.org/pdf/2511.01775
Benchmark (待開源): https://github.com/franciszchen/SurgVeo
“世界模型”的核心思想是讓機(jī)器建立一個(gè)關(guān)于世界如何運(yùn)作的內(nèi)部表征,理解環(huán)境如何演變、行為如何導(dǎo)致后果。近期的視頻生成模型,如谷歌的Veo,已經(jīng)能夠生成非常逼真的通用場(chǎng)景視頻,似乎讓我們離通用物理世界的模擬器越來越近。
然而,外科手術(shù)領(lǐng)域與日常物理世界有著本質(zhì)的不同。它不僅僅是關(guān)于物體如何移動(dòng)或碰撞,而是充滿了需要“專家直覺”的知識(shí),比如解剖學(xué)、生理學(xué)和生物力學(xué)。一個(gè)成功的“手術(shù)世界模型”必須理解手術(shù)刀切開不同組織時(shí)會(huì)發(fā)生什么,理解特定操作背后的戰(zhàn)略意圖。將為模擬“常識(shí)物理”而生的模型直接應(yīng)用于手術(shù)這樣需要“專家知識(shí)”的領(lǐng)域,其能力邊界在哪里?這正是本研究試圖回答的核心問題。
研究方法:SurgVeo基準(zhǔn)與SPP評(píng)估框架
為了科學(xué)地衡量現(xiàn)有視頻生成模型在手術(shù)領(lǐng)域的真實(shí)能力,研究者構(gòu)建了一套完整的評(píng)測(cè)流程。
![]()
首先,他們創(chuàng)建了 SurgVeo 基準(zhǔn)。該基準(zhǔn)包含了兩種具有代表性但風(fēng)格迥異的手術(shù)視頻:腹腔鏡子宮切除術(shù)和內(nèi)窺鏡垂體手術(shù)。前者代表了在密閉空間內(nèi)的軟組織操作,后者則要求在關(guān)鍵神經(jīng)血管結(jié)構(gòu)附近進(jìn)行極其精細(xì)的操作。研究者從這些真實(shí)手術(shù)錄像中提取視頻片段,形成“起始幀-后續(xù)真實(shí)視頻”的數(shù)據(jù)對(duì)。
接著,他們讓先進(jìn)的 Veo-3 模型執(zhí)行一項(xiàng)零樣本(zero-shot)預(yù)測(cè)任務(wù):給定手術(shù)場(chǎng)景的起始幀和一段文本提示(prompt),模型需要生成接下來8秒的手術(shù)視頻。
![]()
最關(guān)鍵的一步,是由四位具有執(zhí)業(yè)資格的外科醫(yī)生組成的專家小組,使用研究者提出的 手術(shù)合理性金字塔(SPP) 框架來對(duì)生成的視頻進(jìn)行打分。SPP框架將評(píng)估分為四個(gè)層級(jí),從下到上,要求越來越高:
視覺感知合理性 (Visual Perceptual Plausibility) :評(píng)估視頻最基本的外觀質(zhì)量,如清晰度、光照、組織紋理和視頻流暢度。
器械操作合理性 (Instrument Operation Plausibility) :評(píng)估手術(shù)器械的運(yùn)動(dòng)軌跡、操作技術(shù)是否符合物理規(guī)律和手術(shù)規(guī)范。
環(huán)境反饋合理性 (Environment Feedback Plausibility) :評(píng)估手術(shù)場(chǎng)景(如組織、器官)對(duì)器械操作的反應(yīng)是否真實(shí),例如,組織被牽拉后的變形、切割后的出血模式是否符合生物力學(xué)和解剖學(xué)原理。
手術(shù)意圖合理性 (Surgical Intent Plausibility) :評(píng)估預(yù)測(cè)的系列動(dòng)作是否展現(xiàn)出清晰、邏輯自洽且符合當(dāng)前手術(shù)階段的戰(zhàn)略目標(biāo)。這是最高層次的評(píng)估,考驗(yàn)?zāi)P褪欠窭斫狻盀槭裁础币@么做。
專家們會(huì)在生成的視頻播放到第1秒、第3秒和第8秒時(shí),參照真實(shí)視頻,對(duì)這四個(gè)維度進(jìn)行1-5分的打分。
實(shí)驗(yàn)結(jié)果:驚人的“合理性差距”
研究結(jié)果揭示了一個(gè)深刻的斷層,研究者稱之為“合理性差距”(plausibility gap):盡管Veo-3在生成視覺上令人信服的手術(shù)場(chǎng)景方面表現(xiàn)出色,但在SPP框架的更高層級(jí)上卻嚴(yán)重失敗。
量化數(shù)據(jù)分析
下方的兩個(gè)表格分別展示了在腹腔鏡手術(shù)和神經(jīng)外科手術(shù)中,不同提示策略下,模型在三個(gè)時(shí)間點(diǎn)的得分情況。
![]()
腹腔鏡手術(shù)評(píng)估分?jǐn)?shù)
![]()
神經(jīng)外科手術(shù)評(píng)估分?jǐn)?shù)
我們可以清晰地看到:
視覺質(zhì)量高 :在兩個(gè)手術(shù)類別中,“視覺感知合理性”的初始得分都很高(例如,基線提示下腹腔鏡手術(shù)為3.72分,神經(jīng)外科為3.88分)。外科醫(yī)生評(píng)價(jià)生成的圖像“清晰得驚人”。
高層邏輯差 :然而,分?jǐn)?shù)在SPP金字塔的更高層級(jí)急劇下降。器械操作、環(huán)境反饋和手術(shù)意圖的得分要低得多,并且隨著時(shí)間的推移(從1秒到8秒)迅速惡化。例如,在腹腔鏡手術(shù)中,環(huán)境反饋合理性得分從1秒時(shí)的3.06分驟降至8秒時(shí)的1.64分。
![]()
腹腔鏡手術(shù)評(píng)估分?jǐn)?shù)的小提琴圖
![]()
神經(jīng)外科手術(shù)評(píng)估分?jǐn)?shù)的小提琴圖
小提琴圖更直觀地展示了這種差異。視覺感知的得分(最左側(cè))密集分布在高分區(qū)域,而其他三個(gè)維度的得分則大量堆積在低分區(qū)域,且隨著時(shí)間推移(顏色由淺到深)不斷下移。
有趣的是,研究還發(fā)現(xiàn),為模型提供更明確的“階段感知”提示(例如,明確告知當(dāng)前是“血管結(jié)扎”階段)并不能顯著改善其表現(xiàn)。這有力地證明,模型的問題不在于缺少上下文信息,而在于根本無法理解和運(yùn)用這些專業(yè)的領(lǐng)域知識(shí)。
典型失敗案例
定性的案例分析讓這些冰冷的數(shù)字變得更加觸目驚心。
![]()
上圖展示了一些典型的失敗案例:
(a) 視覺質(zhì)量失真 :生成的視頻畫面亮度發(fā)生突兀且不自然的變化,與穩(wěn)定的手術(shù)照明條件不符。
(b) 器械錯(cuò)誤 :模型“幻覺”出了一種現(xiàn)實(shí)中不存在的手術(shù)器械。
(c) 操作不當(dāng) :真實(shí)操作需要向左移動(dòng),模型卻生成了向右的錯(cuò)誤動(dòng)作。模型展示的器械在處理黏液,而正確的手術(shù)操作應(yīng)是在另一目標(biāo)部位上進(jìn)行沖洗與吸引的協(xié)同動(dòng)作。
(d) 不當(dāng)手術(shù)目標(biāo) :模型展示的器械在處理黏液,而正確的手術(shù)操作應(yīng)是在另一目標(biāo)部位上進(jìn)行沖洗與吸引的協(xié)同動(dòng)作。
(e) 環(huán)境反饋錯(cuò)誤 :模型違反物理定律,讓吸引器像提拉固體一樣將一整塊明膠海綿吸走,而不是吸走表面的液體。
(f) 意圖錯(cuò)誤 :真實(shí)意圖是在硬腦膜上注射生物膠水,模型卻錯(cuò)誤地預(yù)測(cè)了一個(gè)完全不相關(guān)的動(dòng)作——用棉片擦拭。
錯(cuò)誤類型的量化分布(上圖)進(jìn)一步證實(shí)了“合理性差距”。在兩種手術(shù)中,與高層手術(shù)邏輯相關(guān)的錯(cuò)誤(如手術(shù)意圖、器械操作錯(cuò)誤)占了絕大多數(shù),而底層的視覺質(zhì)量問題僅占一小部分(腹腔鏡6.2%,神外2.8%)。
當(dāng)然,模型偶爾也能生成一些高分案例,但這些通常是手術(shù)動(dòng)作簡(jiǎn)單、甚至是暫停的場(chǎng)景。
![]()
高分案例:(a)中生成了自然的解剖動(dòng)作,(b)中則幾乎完美復(fù)刻了手術(shù)暫停的場(chǎng)景。
![]()
災(zāi)難性失敗案例:(a)中需要縫合,模型卻幻覺出器械并執(zhí)行無法識(shí)別的操作;(b)中需要涂膠水,模型完全搞錯(cuò)了意圖。
研究意義與未來展望
這項(xiàng)研究首次提供了量化證據(jù),揭示了當(dāng)前最先進(jìn)的視頻生成模型在手術(shù)AI領(lǐng)域中,令人信服的視覺模仿與真正的因果理解之間存在巨大鴻溝。
CV君認(rèn)為,這項(xiàng)工作意義重大。它告訴我們,僅僅依靠在通用數(shù)據(jù)上進(jìn)行大規(guī)模訓(xùn)練,可能不足以讓模型掌握專家領(lǐng)域的復(fù)雜規(guī)則。未來的“手術(shù)世界模型”可能需要新的架構(gòu)范式,能夠整合結(jié)構(gòu)化的領(lǐng)域知識(shí),并在生成過程中強(qiáng)制執(zhí)行嚴(yán)格的物理和邏輯約束。
SurgVeo基準(zhǔn)和SPP評(píng)估框架為未來的研究奠定了一個(gè)至關(guān)重要的基礎(chǔ)和路線圖,指引著我們?nèi)绾伍_發(fā)能夠駕馭真實(shí)世界醫(yī)療領(lǐng)域復(fù)雜性的下一代模型。雖然通往真正的手術(shù)世界模型道阻且長(zhǎng),但這項(xiàng)研究無疑是邁出的清醒而關(guān)鍵的一步。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.