<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      讓 AI 學會“靈魂拷問”:我們如何教機器評判生成視頻 | ICCV 2025

      0
      分享至


      ETVA的核心思想是:像人一樣,通過“提問-回答”來深入理解和評估視頻內容

      作者丨關開思、宋睿華

      (作者介紹)本文第一作者是中國人民大學高瓴人工智能學院2024 級碩士生關開思(導師宋睿華),他的主要研究興趣方向是多模態學習。本文通訊作者是宋睿華長聘副教授,她的 AIMind 團隊主要研究方向是多模態感知、交互與生成。

      當你輸入一句指令——“水在空間站中從玻璃杯慢慢倒出”——視頻模型立刻生成了一段流暢的動畫。看上去不錯:水從杯中傾瀉而出,畫面清晰,動作逼真。

      但仔細一想,哪里不對?在空間站里,水并不會向下流,而是會在失重中漂浮成一顆顆液滴。

      在AI視頻生成技術井噴的今天,我們驚嘆于 Sora、Kling、Vidu 等模型創造出的越來越逼真、富有想象力的視頻。然而,一個核心問題也隨之而來:除了肉眼觀看,我們如何精確、客觀地判斷,一個AI生成的視頻是否真的“聽懂”了我們的指令?



      論文地址:
      https://arxiv.org/abs/2503.16867

      代碼地址:
      https://github.com/guankaisi/ETVA

      項目地址:
      https://eftv-eval.github.io/etva-eval/

      01

      背景

      長久以來,學術界與工業界主要依賴BLIP-BLEU、CLIPScore、VideoScore等自動化指標以評估生成視頻是否符合文本指令。然而,這類指標通常只能給出一個“大差不差”的總體分數,難以細致判斷視頻內容是否在細節上與指令精準對齊,甚至在某些情況下會得出與人類判斷相悖的結果。

      以“水在空間站中從玻璃杯慢慢倒出”這一場景為例(見下圖),傳統評價指標往往只能輸出一個模糊的分數,無法有效區分視頻在物理合理性上的差異,有時甚至會將明顯違背常識的結果評為高分。而人類觀察者卻能輕易識別出第二個視頻更為優秀——因為它準確捕捉到了微重力環境下水珠漂浮的真實狀態,更符合我們對“空間站”這一場景的物理認知。


      為了解決這一“霧里看花”式的評估困境,來自中國人民大學的宋睿華帶領的AIMind團隊提出了一種全新的文本到視頻(T2V)指令遵循的評估方法——ETVA。相關論文已被 ICCV 2025錄用。

      ETVA的核心思想是:像人一樣,通過“提問-回答”來深入理解和評估視頻內容。它不再滿足于一個模糊的總分,而是將復雜的文本指令拆解成一系列原子化的、可被明確回答的“是/非”問題,從而對視頻進行細致入微的“靈魂拷問”。

      02

      ETVA 如何實現“靈魂拷問”?


      ETVA的評估流程模擬了人類的認知過程,主要分為兩個關鍵階段:

      第一步:多智能體協作,生成精準“問題列表”

      面對一句文本指令,比如“水在空間站里從一個玻璃杯中慢慢倒出”,ETVA首先會啟動一個由三個智能體組成的“問題生成團隊”:

      1.元素提取器 (Element Extractor):首先識別出文本中的核心元素,如實體(杯子、水、空間站)、屬性(玻璃材質)和關系(從...倒出)。

      2.圖構建器 (Graph Builder):將這些離散的元素組織成一個結構化的“場景圖”,清晰地描繪出它們之間的邏輯關系。

      3.圖遍歷器 (Graph Traverser):最后,系統性地遍歷這張圖,將每個節點和連接都轉換成一個簡單的是非題。

      例如,針對上述指令,它會生成如下問題列表:

      • 視頻里有杯子嗎?[是/否]

      • 視頻里有水嗎?[是/否]

      • 水是從杯子里倒出來的嗎?[是/否]

      • 水是在空間站里倒出來的嗎?[是/否]

      第二步:知識增強+多階段推理,給出“有理有據”的答案

      生成問題后,ETVA會利用先進的視頻大語言模型(Video LLM)來自動回答。為了避免模型產生“幻覺”,ETVA設計了一個嚴謹的回答框架:

      1.知識增強 (Knowledge Augmentation):在回答之前,一個輔助大語言模型會首先“回憶”與指令相關的常識知識。例如,提到“空間站”,它會補充“液體在微重力環境下會呈球狀漂浮,而不是向下流動”這一物理學常識。

      2.多階段推理 (Multi-Stage Reasoning):隨后,Video LLM會進行“三步走”式思考:首先,逐幀理解視頻的客觀內容;接著,結合文本指令、常識知識和視頻畫面進行綜合分析與反思;最后,給出“是”或“否”的結論,并附上推理依據。

      最終,視頻的指令遵循度得分,即為其正確回答問題的百分比。這種方法不僅使評估結果更為精準可靠,其清晰的決策過程也賦予了模型出色的可解釋性。

      03

      ETVA-Bench:一把衡量T2V模型的“新標尺”

      基于ETVA框架,研究團隊構建了一個全面的文生視頻對齊度評估基準——ETVABench,它包含從10個不同維度(如物體存在、動作、物理、相機運鏡等)精選的2000條指令及衍生的12000個原子問題。并分別提供了面向開源模型的ETVABench-2000與面向閉源模型的ETVABench-105兩個評測集合。


      上圖是ETVABench 每個類別的問題示例和 Prompt 示例。


      上圖是ETVABench-2K 以及 ETVABench-105 在各個類別上的數量分布。

      在與人類偏好一致性上,實驗結果令人振奮:ETVA與人類裁判的判斷相關性達到了58.47,遠超以往最優方法(僅為31.0),證明了其作為新一代評估工具的卓越性能 。


      以下表格展示了15個不同的文生視頻(T2V)模型在ETVABench-105基準測試上的詳細評估結果。這些模型被分為兩組:10個開源模型和5個閉源模型。

      評估維度涵蓋了10個細分領域,包括物體的存在性(Existence)、動作(Action)、材質(Material)、空間關系(Spatial)、數量(Number)、形狀(Shape)、顏色(Color)、相機運鏡(Camera)、物理規律(Physics)和其他(Other),并計算了每個模型的平均分(Avg)。

      從最終的平均分來看:

      • 在所有參與評測的模型中,閉源模型Vidu-1.5的綜合表現最好,平均分達到了0.761。

      • 在開源模型中,Hunyuan-Video表現最佳,平均分為0.686。

      總體而言,閉源模型的平均分普遍高于開源模型,尤其在空間關系(Sora得分0.870)和材質(Vidu-1.5得分0.854)等維度上展現出顯著優勢。


      通過對15個主流T2V模型(包括Sora、Kling等5個閉源模型和Hunyuan-Video等10個開源模型)的系統性評測,ETVA揭示了當前模型普遍存在的短板,尤其是在物理規律模擬相機運動控制方面能力不足,以下是四個例子。

      • 物理現象:在“空間站倒水”測試中,Sora準確還原了微重力,得分100;而Kling則表現為普通重力,得分僅37.5 。

      • 顏色變化:在“葉子由綠變紅”測試中,Pika 沒有表現出葉子顏色變化的過程得分 50,而 Vidu 準確的表現了出來,得分 100。

      • 數量準確性:在生成“三只貓頭鷹”時,Kling精準無誤(100分),Sora卻多畫了一只(88.3分)。

      • 手勢語義:Hunyuan準確執行了“拇指向下”的指令(100分),而Kling則將其誤解為“豎起大拇指”,語義錯誤(40分)。


      04

      未來展望

      ETVA不僅為我們提供了一個更可靠、更精細的T2V模型評估工具,更重要的是,它通過精準定位現有模型的弱點,為下一代文生視頻技術的發展指明了方向。未來,研究團隊將把ETVA框架拓展至更復雜、多元的視頻場景中,為構建真正“理解”用戶意圖的智能生成模型鋪平道路。

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      南京博物院盜賣文物,捐贈后人追查十年遭打碼“證據”糊弄,失蹤五件國寶還有多少黑幕

      南京博物院盜賣文物,捐贈后人追查十年遭打碼“證據”糊弄,失蹤五件國寶還有多少黑幕

      爆角追蹤
      2025-12-18 15:36:33
      杭州剛提新車就撞人后續:疑似被撞銷售不幸身亡,涉事司機麻煩了

      杭州剛提新車就撞人后續:疑似被撞銷售不幸身亡,涉事司機麻煩了

      漢史趣聞
      2025-12-18 11:38:12
      確認:涉刑案!上海市中心,一西裝男子突然當街下跪:“對不起,我給你跪下了……”

      確認:涉刑案!上海市中心,一西裝男子突然當街下跪:“對不起,我給你跪下了……”

      環球網資訊
      2025-12-18 19:49:16
      21號就是冬至了!為什么說今年的冬至可不一般,60年一遇?

      21號就是冬至了!為什么說今年的冬至可不一般,60年一遇?

      阿天愛旅行
      2025-12-17 00:16:32
      鴻蒙系統居然不讓買甲流用藥!用戶憤怒吐槽后,華為客服光速道歉

      鴻蒙系統居然不讓買甲流用藥!用戶憤怒吐槽后,華為客服光速道歉

      回旋鏢
      2025-12-18 19:18:42
      偽史論該歇歇了!浙江宣傳發文:警惕“1644史觀”帶亂了節奏!

      偽史論該歇歇了!浙江宣傳發文:警惕“1644史觀”帶亂了節奏!

      翻開歷史和現實
      2025-12-17 22:28:42
      張小泉名下浙A邁巴赫被拍賣,已被強制執行超31億元

      張小泉名下浙A邁巴赫被拍賣,已被強制執行超31億元

      21世紀經濟報道
      2025-12-18 13:24:14
      珠海一小區業主放火燒自家房子,事前疑在群里發預告,物業:火已撲滅無傷亡,警方介入

      珠海一小區業主放火燒自家房子,事前疑在群里發預告,物業:火已撲滅無傷亡,警方介入

      極目新聞
      2025-12-18 17:10:51
      長城魏建軍炮轟兩項熱門技術!撕開“創新”遮羞布,有人坐不住了

      長城魏建軍炮轟兩項熱門技術!撕開“創新”遮羞布,有人坐不住了

      火山詩話
      2025-12-18 06:10:56
      俄軍騎兵重現戰場,烏軍單日殲敵1730人

      俄軍騎兵重現戰場,烏軍單日殲敵1730人

      史政先鋒
      2025-12-17 21:01:32
      國羽傳捷報!王祉怡2-0橫掃世界冠軍,小組第1出線,圣壇組合接場

      國羽傳捷報!王祉怡2-0橫掃世界冠軍,小組第1出線,圣壇組合接場

      劉姚堯的文字城堡
      2025-12-18 18:29:37
      泰軍炸掉詐騙園區、器官移植中心,洪森為何氣急敗壞?

      泰軍炸掉詐騙園區、器官移植中心,洪森為何氣急敗壞?

      胡嚴亂語
      2025-12-16 20:33:51
      香港中環發生巨額劫案 4持刀男劫走10億日元

      香港中環發生巨額劫案 4持刀男劫走10億日元

      看看新聞Knews
      2025-12-18 14:16:03
      國務院安委會辦公室對21個市級政府開展安全生產約談

      國務院安委會辦公室對21個市級政府開展安全生產約談

      界面新聞
      2025-12-18 14:41:59
      江蘇文旅廳調查南博藏品現身拍賣事件,龐萊臣后人不認可偽作說法

      江蘇文旅廳調查南博藏品現身拍賣事件,龐萊臣后人不認可偽作說法

      極目新聞
      2025-12-18 14:34:14
      8換1?再見字母哥!湖人掏空所有,豪賭3巨頭,為詹姆斯力拼第5冠

      8換1?再見字母哥!湖人掏空所有,豪賭3巨頭,為詹姆斯力拼第5冠

      毒舌NBA
      2025-12-18 08:49:06
      美啟動111億對臺軍售,不到24小時收到報告:中方取消13萬噸訂單

      美啟動111億對臺軍售,不到24小時收到報告:中方取消13萬噸訂單

      南宮一二
      2025-12-18 13:22:12
      我替首長擋了5槍,他連電話都沒打,我退伍后,剛到火車站就被人攔住

      我替首長擋了5槍,他連電話都沒打,我退伍后,剛到火車站就被人攔住

      張道陵秘話
      2025-12-17 10:20:09
      重情重義!曝許亞軍為何晴付10年醫藥費,延長生命偷偷打生活費

      重情重義!曝許亞軍為何晴付10年醫藥費,延長生命偷偷打生活費

      查爾菲的筆記
      2025-12-17 20:23:54
      廣州一公司突發公告:董事長逝世

      廣州一公司突發公告:董事長逝世

      南方都市報
      2025-12-18 14:20:30
      2025-12-18 21:43:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7012文章數 20715關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽

      頭條要聞

      “法國政變”視頻在臉書瘋傳 馬克龍想刪卻刪不掉

      頭條要聞

      “法國政變”視頻在臉書瘋傳 馬克龍想刪卻刪不掉

      體育要聞

      巴黎首奪世界級冠軍 加冕6冠王比肩巴薩拜仁

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      游戲
      家居
      數碼
      公開課
      軍事航空

      TS剛官宣休息又有頂級韓援回歸,曾幫LPL拿S冠,中文比左手還好!

      家居要聞

      高端私宅 理想隱居圣地

      數碼要聞

      豪威集團發布超低功耗單芯片全彩場序微顯示器賦能新一代智能眼鏡

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      福建艦入列后首過臺海 臺方談為何"甲板上沒有艦載機"

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品国产va久久久久久久| 老司机性色福利精品视频| 一道本AV免费不卡播放| 91在线播| 色五月人妻| 免费看美女被靠到爽的视频| 日本丶国产丶欧美色综合| 久久亚洲国产成人亚| 人人超碰在线| 和政县| 九一九色国产| 影音先锋久久久久av综合网成人| 亚洲精品97久久中文字幕无码| 曰批永久免费40分钟免费观看软件| 国产97在线?|?日韩| 威宁| 久久国产精品电影| 亚洲精品mv免费网站| 亚洲熟妇无码一区二区三区 | 国产日韩久久免费影院| 欧美日视频| 惠东县| 全黄h全肉边做边吃奶视频| 欧美超级乱婬视频播放| 午夜福利日本一区二区无码| 国模天堂| 久激情内射婷内射蜜桃| 一本之道高清无码视频| 国产成人精品18| 涩涩97| av一本久道久久波多野结衣| 一本大道东京热无码aⅴ| 久久久久人妻精品一区三寸| 亚洲第一网站| 国产精品免费看久久久无码 | 欧美肥妇毛多水多bbxx| 乱精品一区字幕二区| 亚洲AV无码一二区三区在线播放| 茶陵县| 亚洲精品久久久久国产| 免费人欧美成又黄又爽的视频|