<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI能否「圣地巡禮」?多模態大模型全新評估基準VIR-Bench來了

      0
      分享至



      大家或許都有過這樣的體驗:

      看完一部喜歡的動漫,總會心血來潮地想去 “圣地巡禮”;刷到別人剪輯精美的旅行 vlog,也會忍不住收藏起來,想著哪天親自走一遍同樣的路線。旅行與影像的結合,總是能勾起人們的探索欲望。那么,如果 AI 能自動看懂這些旅行視頻,幫你解析出 “去了哪些地方”“順序是怎樣的”,甚至還能一鍵生成屬于你的旅行計劃,會不會很有趣?這不僅僅是阿宅的想象,更是多模態大模型在真實世界應用中的一個重要場景。



      正是在這樣的啟發下,來自日本早稻田大學,CyberAgent 和奈良先端科學技術大學院大學的團隊提出了一個全新的多模態大模型評估基準 VIR-Bench ,旨在評測 AI 是否真的能理解旅行視頻中的地理位置與時間順序,從而支撐更復雜、更實用的應用。用一句話來概括,這項研究就是在追問:“我從哪里來?我要到哪里去?”



      • 論文地址:https://www.arxiv.org/abs/2509.19002
      • GitHub:https://github.com/nlp-waseda/VIR-Bench

      VIR-Bench 是什么?任務設計與數據集構建

      任務目標:行程還原(Itinerary Reconstruction)

      在 VIR-Bench 中,給定一個旅行 vlog(在日本拍攝),模型要輸出訪問順序圖(visiting order graph),也就是 “我去了哪些地點、按什么順序、地點之間有哪些包含關系” 的結構化表示。

      更具體地,這個訪問順序圖是一個有向圖,其中:

      • 節點表示被訪問的地點,按層次分為 Prefecture,City,和 POI(Point of Interest)三層級。
      • 包含邊(Inclusion edge) 表示層次上的 “大地理單元包含小地理單元” 關系(例如某 POI 在某個 City 里,某個 City 在某個 Prefecture 里)。
      • 轉移邊(Transition edge) 表示時間順序上的移動:從一個節點移動到下一個節點(同層級)表示旅行順序。



      這意味著模型不僅要識別出 “我去過的地點”,還要判斷這些地點之間的時間順序,地理空間關系,進而構建出整個旅行路徑的結構。此外,由于旅行視頻往往是自拍視角 / 行進視角 / 風光視角等交錯出現,模型需要在多樣視角、非連續畫面中“拼圖式” 理解,這進一步提升了任務難度。

      為便于模型訓練與評測,作者將這一復雜任務拆解為兩個子任務:

      1. 節點預測:給定視頻,模型列出所有被訪問的 Prefecture、City、POI。

      2. 邊緣預測:給定視頻 + 節點集合(節點標簽順序被打亂),模型要判斷哪些節點之間存在包含邊,哪些節點之間存在轉移邊。即預測邊的集合。

      通過這種分解方式,我們可以分別評估模型的地理識別能力與時序推理能力,以及它們在實際組合時的協同性。

      數據集構建:200 個旅行視頻 + 訪問順序圖

      為了支撐上述任務,作者構建了一個規模適中的專用數據集:

      • 視頻數量:200 個旅行 vlog(都在日本拍攝) 。
      • 地點覆蓋:共標注出 3,689 個 POI,分布在日本 43 個都道府縣(幾乎覆蓋全日本) 。
      • 標注方式:每個視頻由人工注釋者識別每個 POI 的起止時間、Google Maps 鏈接,并通過雙人校驗后自動構建最終的訪問順序圖。

      作者在論文中還附上了詳細注釋指南、數據分布統計等信息(可見 Appendix 部分)。

      實驗結果與洞察:當前模型面臨的挑戰



      在實驗中,作者發現開源模型整體上仍然落后于商用模型,尤其是在 POI 節點識別 和 轉移邊預測 這兩個子任務上差距尤為明顯。進一步的分析顯示,轉移邊預測幾乎是所有模型的 “最難關”:不少模型要么直接誤解了任務要求,要么忽視了層級結構的約束(只有同層級節點之間可以有轉移邊),結果往往接近隨機水平。

      另一方面,模型規模的擴展對性能提升具有顯著作用,尤其體現在邊緣預測上;而是否具備地理相關的預訓練,則成為 POI 節點預測精度差異的關鍵因素。值得注意的是,思維鏈推理(Chain-of-Thought) 的效果在不同子任務中差別很大:在節點預測中提升有限,但在邊緣預測中卻能帶來顯著的改善。如果再進一步結合音頻信息(例如 Gemini-2.5-Pro 的多模態輸入),效果提升尤為突出。

      Ablation 實驗也為我們揭示了模型性能提升的幾個關鍵方向:增加輸入幀數可以讓模型捕捉更完整的旅行線索,更長的推理過程能幫助模型逐步還原旅行順序,而音頻的利用則能提供額外的語義提示。三者結合,共同推動了模型在復雜時空理解任務上的進步。

      然而,即便有這些改進,整體性能仍遠未達到可用水平。即使是當前得分最高的 Gemini-2.5-Pro,在預測結果中依然存在大量錯誤,這進一步凸顯了多模態大模型在長程地理與時間理解上的巨大挑戰。



      表1: 節點預測的評估結果



      表2: 邊緣預測的評估結果

      總而言之,VIR-Bench 不僅是一個新的評測基準,更是為未來諸多應用打開了一扇窗口。通過在旅行視頻中重建行程順序,它逼迫模型同時理解 “地理位置 + 時間順序”,這與機器人如何理解世界、規劃路徑,以及自動駕駛系統如何在動態環境中進行決策高度契合。

      這一研究讓我們看清:當前的大模型在長程推理和時空理解上仍有明顯不足,但也指明了進化的方向 —— 更強的地理空間感知、更可靠的時間推理,以及多模態信息的深度融合。當這些能力逐漸成熟,AI 將不再只是 “看視頻”,而是真正具備 “在世界中行動” 的潛力。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      蔣介石日記幾乎罵遍了所有人,包括宋美齡,唯獨對一個人保持風度

      蔣介石日記幾乎罵遍了所有人,包括宋美齡,唯獨對一個人保持風度

      觀史搜尋著
      2026-03-08 13:29:30
      外媒:以軍對黎居民區非法使用白磷彈

      外媒:以軍對黎居民區非法使用白磷彈

      參考消息
      2026-03-09 21:19:12
      廣東再添一條高速,計劃2026年開工,雙向4車道,完善粵東

      廣東再添一條高速,計劃2026年開工,雙向4車道,完善粵東

      天氣觀察站
      2026-03-10 13:28:14
      林青霞親口爆料:當年我全裸給他看,他卻嚇得扭頭就跑!

      林青霞親口爆料:當年我全裸給他看,他卻嚇得扭頭就跑!

      達文西看世界
      2026-03-04 15:07:30
      不管白痰黃痰黏痰,陳皮這樣搭配,連咳帶痰一掃光

      不管白痰黃痰黏痰,陳皮這樣搭配,連咳帶痰一掃光

      江江食研社
      2026-01-02 07:30:12
      美國三大股指期貨全部轉跌,道瓊斯指數期貨跌0.12%

      美國三大股指期貨全部轉跌,道瓊斯指數期貨跌0.12%

      每日經濟新聞
      2026-03-10 20:01:08
      永遠不要向任何人,包括你的親戚和好友,透露你真實的財務狀況

      永遠不要向任何人,包括你的親戚和好友,透露你真實的財務狀況

      木言觀
      2026-03-10 20:25:53
      鄭欽文未來3個月保分壓力巨大,世界排名甚至可能掉到200名開外!

      鄭欽文未來3個月保分壓力巨大,世界排名甚至可能掉到200名開外!

      田先生籃球
      2026-03-10 17:46:43
      伊朗這回真不給面子!美國想求和?直接打臉還捏蛋!

      伊朗這回真不給面子!美國想求和?直接打臉還捏蛋!

      紀史行者
      2026-03-10 08:04:41
      美媒公布美軍戰損,美國8年心血構建的防線,只撐了不到一個星期

      美媒公布美軍戰損,美國8年心血構建的防線,只撐了不到一個星期

      安珈使者啊
      2026-03-10 10:30:40
      善意有了回響!網友捐款99元 意外收到嫣然天使兒童醫院充滿愛意的回禮

      善意有了回響!網友捐款99元 意外收到嫣然天使兒童醫院充滿愛意的回禮

      閃電新聞
      2026-03-10 17:15:22
      清算終于開始了!一個要求,震動東京:中國要求日本限期內歸還

      清算終于開始了!一個要求,震動東京:中國要求日本限期內歸還

      壹知眠羊
      2026-01-28 22:03:28
      馬化騰開大!微信能養“龍蝦”了

      馬化騰開大!微信能養“龍蝦”了

      科技每日推送
      2026-03-10 18:12:49
      我的4個小龍蝦AI員工,1個月幫我多賺10萬!

      我的4個小龍蝦AI員工,1個月幫我多賺10萬!

      毯叔盤錢
      2026-03-09 19:50:15
      中東最后一套薩德系統被伊朗摧毀,現在最后悔的,估計是韓國!

      中東最后一套薩德系統被伊朗摧毀,現在最后悔的,估計是韓國!

      青青子衿
      2026-03-09 19:47:45
      OpenClaw,又失業一批中產階級

      OpenClaw,又失業一批中產階級

      動察Beating
      2026-03-05 11:55:52
      中紀委新規來了!公職人員犯罪,這些情形不再“一刀切”開除

      中紀委新規來了!公職人員犯罪,這些情形不再“一刀切”開除

      慧眼看世界哈哈
      2026-03-10 15:15:05
      完犢子!ACL撕裂+5天后裁員,手術剛做完啊,NBA,太殘酷了

      完犢子!ACL撕裂+5天后裁員,手術剛做完啊,NBA,太殘酷了

      球童無忌
      2026-03-10 19:34:41
      特朗普稱伊朗也有戰斧導彈

      特朗普稱伊朗也有戰斧導彈

      界面新聞
      2026-03-10 08:51:57
      波克羅夫斯克(紅軍城)和米爾諾赫拉德失守很久了,再復盤說幾句

      波克羅夫斯克(紅軍城)和米爾諾赫拉德失守很久了,再復盤說幾句

      山河路口
      2026-03-10 19:26:51
      2026-03-10 21:11:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12467文章數 142580關注度
      往期回顧 全部

      科技要聞

      全民"養蝦"背后:大廠集體下場瘋狂賣Token

      頭條要聞

      特朗普開始找接班人 當眾問捐款人怎么看萬斯和魯比奧

      頭條要聞

      特朗普開始找接班人 當眾問捐款人怎么看萬斯和魯比奧

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      肖戰首奪SMG視帝,孫儷四封視后創歷史

      財經要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規劃曝光

      態度原創

      健康
      家居
      旅游
      房產
      軍事航空

      轉頭就暈的耳石癥,能開車上班嗎?

      家居要聞

      自然肌理 溫度質感婚房

      旅游要聞

      意外邂逅金甲財神殿的人間煙火,這里可不只一年兩度的“財神會”

      房產要聞

      信號!千億巨頭入局,三亞開啟新一輪大征拆!

      軍事要聞

      剛說完戰爭很快結束 特朗普改口

      無障礙瀏覽 進入關懷版