![]()
ETVA的核心思想是:像人一樣,通過“提問-回答”來深入理解和評估視頻內容。
作者丨關開思、宋睿華
![]()
(作者介紹)本文第一作者是中國人民大學高瓴人工智能學院2024 級碩士生關開思(導師宋睿華),他的主要研究興趣方向是多模態學習。本文通訊作者是宋睿華長聘副教授,她的 AIMind 團隊主要研究方向是多模態感知、交互與生成。
當你輸入一句指令——“水在空間站中從玻璃杯慢慢倒出”——視頻模型立刻生成了一段流暢的動畫。看上去不錯:水從杯中傾瀉而出,畫面清晰,動作逼真。
但仔細一想,哪里不對?在空間站里,水并不會向下流,而是會在失重中漂浮成一顆顆液滴。
在AI視頻生成技術井噴的今天,我們驚嘆于 Sora、Kling、Vidu 等模型創造出的越來越逼真、富有想象力的視頻。然而,一個核心問題也隨之而來:除了肉眼觀看,我們如何精確、客觀地判斷,一個AI生成的視頻是否真的“聽懂”了我們的指令?
![]()
論文地址:
https://arxiv.org/abs/2503.16867
代碼地址:
https://github.com/guankaisi/ETVA
項目地址:
https://eftv-eval.github.io/etva-eval/
01
背景
長久以來,學術界與工業界主要依賴BLIP-BLEU、CLIPScore、VideoScore等自動化指標以評估生成視頻是否符合文本指令。然而,這類指標通常只能給出一個“大差不差”的總體分數,難以細致判斷視頻內容是否在細節上與指令精準對齊,甚至在某些情況下會得出與人類判斷相悖的結果。
以“水在空間站中從玻璃杯慢慢倒出”這一場景為例(見下圖),傳統評價指標往往只能輸出一個模糊的分數,無法有效區分視頻在物理合理性上的差異,有時甚至會將明顯違背常識的結果評為高分。而人類觀察者卻能輕易識別出第二個視頻更為優秀——因為它準確捕捉到了微重力環境下水珠漂浮的真實狀態,更符合我們對“空間站”這一場景的物理認知。
![]()
為了解決這一“霧里看花”式的評估困境,來自中國人民大學的宋睿華帶領的AIMind團隊提出了一種全新的文本到視頻(T2V)指令遵循的評估方法——ETVA。相關論文已被 ICCV 2025錄用。
ETVA的核心思想是:像人一樣,通過“提問-回答”來深入理解和評估視頻內容。它不再滿足于一個模糊的總分,而是將復雜的文本指令拆解成一系列原子化的、可被明確回答的“是/非”問題,從而對視頻進行細致入微的“靈魂拷問”。
02
ETVA 如何實現“靈魂拷問”?
![]()
ETVA的評估流程模擬了人類的認知過程,主要分為兩個關鍵階段:
第一步:多智能體協作,生成精準“問題列表”
面對一句文本指令,比如“水在空間站里從一個玻璃杯中慢慢倒出”,ETVA首先會啟動一個由三個智能體組成的“問題生成團隊”:
1.元素提取器 (Element Extractor):首先識別出文本中的核心元素,如實體(杯子、水、空間站)、屬性(玻璃材質)和關系(從...倒出)。
2.圖構建器 (Graph Builder):將這些離散的元素組織成一個結構化的“場景圖”,清晰地描繪出它們之間的邏輯關系。
3.圖遍歷器 (Graph Traverser):最后,系統性地遍歷這張圖,將每個節點和連接都轉換成一個簡單的是非題。
例如,針對上述指令,它會生成如下問題列表:
視頻里有杯子嗎?[是/否]
視頻里有水嗎?[是/否]
水是從杯子里倒出來的嗎?[是/否]
水是在空間站里倒出來的嗎?[是/否]
第二步:知識增強+多階段推理,給出“有理有據”的答案
生成問題后,ETVA會利用先進的視頻大語言模型(Video LLM)來自動回答。為了避免模型產生“幻覺”,ETVA設計了一個嚴謹的回答框架:
1.知識增強 (Knowledge Augmentation):在回答之前,一個輔助大語言模型會首先“回憶”與指令相關的常識知識。例如,提到“空間站”,它會補充“液體在微重力環境下會呈球狀漂浮,而不是向下流動”這一物理學常識。
2.多階段推理 (Multi-Stage Reasoning):隨后,Video LLM會進行“三步走”式思考:首先,逐幀理解視頻的客觀內容;接著,結合文本指令、常識知識和視頻畫面進行綜合分析與反思;最后,給出“是”或“否”的結論,并附上推理依據。
最終,視頻的指令遵循度得分,即為其正確回答問題的百分比。這種方法不僅使評估結果更為精準可靠,其清晰的決策過程也賦予了模型出色的可解釋性。
03
ETVA-Bench:一把衡量T2V模型的“新標尺”
基于ETVA框架,研究團隊構建了一個全面的文生視頻對齊度評估基準——ETVABench,它包含從10個不同維度(如物體存在、動作、物理、相機運鏡等)精選的2000條指令及衍生的12000個原子問題。并分別提供了面向開源模型的ETVABench-2000與面向閉源模型的ETVABench-105兩個評測集合。
![]()
上圖是ETVABench 每個類別的問題示例和 Prompt 示例。
![]()
上圖是ETVABench-2K 以及 ETVABench-105 在各個類別上的數量分布。
在與人類偏好一致性上,實驗結果令人振奮:ETVA與人類裁判的判斷相關性達到了58.47,遠超以往最優方法(僅為31.0),證明了其作為新一代評估工具的卓越性能 。
![]()
以下表格展示了15個不同的文生視頻(T2V)模型在ETVABench-105基準測試上的詳細評估結果。這些模型被分為兩組:10個開源模型和5個閉源模型。
評估維度涵蓋了10個細分領域,包括物體的存在性(Existence)、動作(Action)、材質(Material)、空間關系(Spatial)、數量(Number)、形狀(Shape)、顏色(Color)、相機運鏡(Camera)、物理規律(Physics)和其他(Other),并計算了每個模型的平均分(Avg)。
從最終的平均分來看:
在所有參與評測的模型中,閉源模型Vidu-1.5的綜合表現最好,平均分達到了0.761。
在開源模型中,Hunyuan-Video表現最佳,平均分為0.686。
總體而言,閉源模型的平均分普遍高于開源模型,尤其在空間關系(Sora得分0.870)和材質(Vidu-1.5得分0.854)等維度上展現出顯著優勢。
![]()
通過對15個主流T2V模型(包括Sora、Kling等5個閉源模型和Hunyuan-Video等10個開源模型)的系統性評測,ETVA揭示了當前模型普遍存在的短板,尤其是在物理規律模擬和相機運動控制方面能力不足,以下是四個例子。
物理現象:在“空間站倒水”測試中,Sora準確還原了微重力,得分100;而Kling則表現為普通重力,得分僅37.5 。
顏色變化:在“葉子由綠變紅”測試中,Pika 沒有表現出葉子顏色變化的過程得分 50,而 Vidu 準確的表現了出來,得分 100。
數量準確性:在生成“三只貓頭鷹”時,Kling精準無誤(100分),Sora卻多畫了一只(88.3分)。
手勢語義:Hunyuan準確執行了“拇指向下”的指令(100分),而Kling則將其誤解為“豎起大拇指”,語義錯誤(40分)。
![]()
04
未來展望
ETVA不僅為我們提供了一個更可靠、更精細的T2V模型評估工具,更重要的是,它通過精準定位現有模型的弱點,為下一代文生視頻技術的發展指明了方向。未來,研究團隊將把ETVA框架拓展至更復雜、多元的視頻場景中,為構建真正“理解”用戶意圖的智能生成模型鋪平道路。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.