網易首頁 > 網易號 > 正文申請入駐

讓 AI 學會“靈魂拷問”：我們如何教機器評判生成視頻 | ICCV 2025

2025-10-17 20:11:43　來源: AI科技評論

廣東舉報

分享至

ETVA的核心思想是：像人一樣，通過“提問-回答”來深入理解和評估視頻內容。

作者丨關開思、宋睿華

（作者介紹）本文第一作者是中國人民大學高瓴人工智能學院2024 級碩士生關開思（導師宋睿華），他的主要研究興趣方向是多模態學習。本文通訊作者是宋睿華長聘副教授，她的 AIMind 團隊主要研究方向是多模態感知、交互與生成。

當你輸入一句指令——“水在空間站中從玻璃杯慢慢倒出”——視頻模型立刻生成了一段流暢的動畫。看上去不錯：水從杯中傾瀉而出，畫面清晰，動作逼真。

但仔細一想，哪里不對？在空間站里，水并不會向下流，而是會在失重中漂浮成一顆顆液滴。

在AI視頻生成技術井噴的今天，我們驚嘆于 Sora、Kling、Vidu 等模型創造出的越來越逼真、富有想象力的視頻。然而，一個核心問題也隨之而來：除了肉眼觀看，我們如何精確、客觀地判斷，一個AI生成的視頻是否真的“聽懂”了我們的指令？

論文地址：

https://arxiv.org/abs/2503.16867

代碼地址：

https://github.com/guankaisi/ETVA

項目地址：

https://eftv-eval.github.io/etva-eval/

背景

長久以來，學術界與工業界主要依賴BLIP-BLEU、CLIPScore、VideoScore等自動化指標以評估生成視頻是否符合文本指令。然而，這類指標通常只能給出一個“大差不差”的總體分數，難以細致判斷視頻內容是否在細節上與指令精準對齊，甚至在某些情況下會得出與人類判斷相悖的結果。

以“水在空間站中從玻璃杯慢慢倒出”這一場景為例（見下圖），傳統評價指標往往只能輸出一個模糊的分數，無法有效區分視頻在物理合理性上的差異，有時甚至會將明顯違背常識的結果評為高分。而人類觀察者卻能輕易識別出第二個視頻更為優秀——因為它準確捕捉到了微重力環境下水珠漂浮的真實狀態，更符合我們對“空間站”這一場景的物理認知。

為了解決這一“霧里看花”式的評估困境，來自中國人民大學的宋睿華帶領的AIMind團隊提出了一種全新的文本到視頻（T2V）指令遵循的評估方法——ETVA。相關論文已被 ICCV 2025錄用。

ETVA的核心思想是：像人一樣，通過“提問-回答”來深入理解和評估視頻內容。它不再滿足于一個模糊的總分，而是將復雜的文本指令拆解成一系列原子化的、可被明確回答的“是/非”問題，從而對視頻進行細致入微的“靈魂拷問”。

ETVA 如何實現“靈魂拷問”？

ETVA的評估流程模擬了人類的認知過程，主要分為兩個關鍵階段：

第一步：多智能體協作，生成精準“問題列表”

面對一句文本指令，比如“水在空間站里從一個玻璃杯中慢慢倒出”，ETVA首先會啟動一個由三個智能體組成的“問題生成團隊”：

1.元素提取器 (Element Extractor)：首先識別出文本中的核心元素，如實體（杯子、水、空間站）、屬性（玻璃材質）和關系（從...倒出）。

2.圖構建器 (Graph Builder)：將這些離散的元素組織成一個結構化的“場景圖”，清晰地描繪出它們之間的邏輯關系。

3.圖遍歷器 (Graph Traverser)：最后，系統性地遍歷這張圖，將每個節點和連接都轉換成一個簡單的是非題。

例如，針對上述指令，它會生成如下問題列表：

視頻里有杯子嗎？[是/否]
視頻里有水嗎？[是/否]
水是從杯子里倒出來的嗎？[是/否]
水是在空間站里倒出來的嗎？[是/否]

第二步：知識增強+多階段推理，給出“有理有據”的答案

生成問題后，ETVA會利用先進的視頻大語言模型（Video LLM）來自動回答。為了避免模型產生“幻覺”，ETVA設計了一個嚴謹的回答框架：

1.知識增強 (Knowledge Augmentation)：在回答之前，一個輔助大語言模型會首先“回憶”與指令相關的常識知識。例如，提到“空間站”，它會補充“液體在微重力環境下會呈球狀漂浮，而不是向下流動”這一物理學常識。

2.多階段推理 (Multi-Stage Reasoning)：隨后，Video LLM會進行“三步走”式思考：首先，逐幀理解視頻的客觀內容；接著，結合文本指令、常識知識和視頻畫面進行綜合分析與反思；最后，給出“是”或“否”的結論，并附上推理依據。

最終，視頻的指令遵循度得分，即為其正確回答問題的百分比。這種方法不僅使評估結果更為精準可靠，其清晰的決策過程也賦予了模型出色的可解釋性。

ETVA-Bench：一把衡量T2V模型的“新標尺”

基于ETVA框架，研究團隊構建了一個全面的文生視頻對齊度評估基準——ETVABench，它包含從10個不同維度（如物體存在、動作、物理、相機運鏡等）精選的2000條指令及衍生的12000個原子問題。并分別提供了面向開源模型的ETVABench-2000與面向閉源模型的ETVABench-105兩個評測集合。

上圖是ETVABench 每個類別的問題示例和 Prompt 示例。

上圖是ETVABench-2K 以及 ETVABench-105 在各個類別上的數量分布。

在與人類偏好一致性上，實驗結果令人振奮：ETVA與人類裁判的判斷相關性達到了58.47，遠超以往最優方法（僅為31.0），證明了其作為新一代評估工具的卓越性能。

以下表格展示了15個不同的文生視頻（T2V）模型在ETVABench-105基準測試上的詳細評估結果。這些模型被分為兩組：10個開源模型和5個閉源模型。

評估維度涵蓋了10個細分領域，包括物體的存在性（Existence）、動作（Action）、材質（Material）、空間關系（Spatial）、數量（Number）、形狀（Shape）、顏色（Color）、相機運鏡（Camera）、物理規律（Physics）和其他（Other），并計算了每個模型的平均分（Avg）。

從最終的平均分來看：

在所有參與評測的模型中，閉源模型Vidu-1.5的綜合表現最好，平均分達到了0.761。
在開源模型中，Hunyuan-Video表現最佳，平均分為0.686。

總體而言，閉源模型的平均分普遍高于開源模型，尤其在空間關系（Sora得分0.870）和材質（Vidu-1.5得分0.854）等維度上展現出顯著優勢。

通過對15個主流T2V模型（包括Sora、Kling等5個閉源模型和Hunyuan-Video等10個開源模型）的系統性評測，ETVA揭示了當前模型普遍存在的短板，尤其是在物理規律模擬和相機運動控制方面能力不足，以下是四個例子。

物理現象：在“空間站倒水”測試中，Sora準確還原了微重力，得分100；而Kling則表現為普通重力，得分僅37.5 。
顏色變化：在“葉子由綠變紅”測試中，Pika 沒有表現出葉子顏色變化的過程得分 50，而 Vidu 準確的表現了出來，得分 100。
數量準確性：在生成“三只貓頭鷹”時，Kling精準無誤（100分），Sora卻多畫了一只（88.3分）。
手勢語義：Hunyuan準確執行了“拇指向下”的指令（100分），而Kling則將其誤解為“豎起大拇指”，語義錯誤（40分）。

未來展望

ETVA不僅為我們提供了一個更可靠、更精細的T2V模型評估工具，更重要的是，它通過精準定位現有模型的弱點，為下一代文生視頻技術的發展指明了方向。未來，研究團隊將把ETVA框架拓展至更復雜、多元的視頻場景中，為構建真正“理解”用戶意圖的智能生成模型鋪平道路。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.