<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI能否「圣地巡禮」?多模態大模型全新評估基準VIR-Bench來了

      0
      分享至



      大家或許都有過這樣的體驗:

      看完一部喜歡的動漫,總會心血來潮地想去 “圣地巡禮”;刷到別人剪輯精美的旅行 vlog,也會忍不住收藏起來,想著哪天親自走一遍同樣的路線。旅行與影像的結合,總是能勾起人們的探索欲望。那么,如果 AI 能自動看懂這些旅行視頻,幫你解析出 “去了哪些地方”“順序是怎樣的”,甚至還能一鍵生成屬于你的旅行計劃,會不會很有趣?這不僅僅是阿宅的想象,更是多模態大模型在真實世界應用中的一個重要場景。



      正是在這樣的啟發下,來自日本早稻田大學,CyberAgent 和奈良先端科學技術大學院大學的團隊提出了一個全新的多模態大模型評估基準 VIR-Bench ,旨在評測 AI 是否真的能理解旅行視頻中的地理位置與時間順序,從而支撐更復雜、更實用的應用。用一句話來概括,這項研究就是在追問:“我從哪里來?我要到哪里去?”



      • 論文地址:https://www.arxiv.org/abs/2509.19002
      • GitHub:https://github.com/nlp-waseda/VIR-Bench

      VIR-Bench 是什么?任務設計與數據集構建

      任務目標:行程還原(Itinerary Reconstruction)

      在 VIR-Bench 中,給定一個旅行 vlog(在日本拍攝),模型要輸出訪問順序圖(visiting order graph),也就是 “我去了哪些地點、按什么順序、地點之間有哪些包含關系” 的結構化表示。

      更具體地,這個訪問順序圖是一個有向圖,其中:

      • 節點表示被訪問的地點,按層次分為 Prefecture,City,和 POI(Point of Interest)三層級。
      • 包含邊(Inclusion edge) 表示層次上的 “大地理單元包含小地理單元” 關系(例如某 POI 在某個 City 里,某個 City 在某個 Prefecture 里)。
      • 轉移邊(Transition edge) 表示時間順序上的移動:從一個節點移動到下一個節點(同層級)表示旅行順序。



      這意味著模型不僅要識別出 “我去過的地點”,還要判斷這些地點之間的時間順序,地理空間關系,進而構建出整個旅行路徑的結構。此外,由于旅行視頻往往是自拍視角 / 行進視角 / 風光視角等交錯出現,模型需要在多樣視角、非連續畫面中“拼圖式” 理解,這進一步提升了任務難度。

      為便于模型訓練與評測,作者將這一復雜任務拆解為兩個子任務:

      1. 節點預測:給定視頻,模型列出所有被訪問的 Prefecture、City、POI。

      2. 邊緣預測:給定視頻 + 節點集合(節點標簽順序被打亂),模型要判斷哪些節點之間存在包含邊,哪些節點之間存在轉移邊。即預測邊的集合。

      通過這種分解方式,我們可以分別評估模型的地理識別能力與時序推理能力,以及它們在實際組合時的協同性。

      數據集構建:200 個旅行視頻 + 訪問順序圖

      為了支撐上述任務,作者構建了一個規模適中的專用數據集:

      • 視頻數量:200 個旅行 vlog(都在日本拍攝) 。
      • 地點覆蓋:共標注出 3,689 個 POI,分布在日本 43 個都道府縣(幾乎覆蓋全日本) 。
      • 標注方式:每個視頻由人工注釋者識別每個 POI 的起止時間、Google Maps 鏈接,并通過雙人校驗后自動構建最終的訪問順序圖。

      作者在論文中還附上了詳細注釋指南、數據分布統計等信息(可見 Appendix 部分)。

      實驗結果與洞察:當前模型面臨的挑戰



      在實驗中,作者發現開源模型整體上仍然落后于商用模型,尤其是在 POI 節點識別 和 轉移邊預測 這兩個子任務上差距尤為明顯。進一步的分析顯示,轉移邊預測幾乎是所有模型的 “最難關”:不少模型要么直接誤解了任務要求,要么忽視了層級結構的約束(只有同層級節點之間可以有轉移邊),結果往往接近隨機水平。

      另一方面,模型規模的擴展對性能提升具有顯著作用,尤其體現在邊緣預測上;而是否具備地理相關的預訓練,則成為 POI 節點預測精度差異的關鍵因素。值得注意的是,思維鏈推理(Chain-of-Thought) 的效果在不同子任務中差別很大:在節點預測中提升有限,但在邊緣預測中卻能帶來顯著的改善。如果再進一步結合音頻信息(例如 Gemini-2.5-Pro 的多模態輸入),效果提升尤為突出。

      Ablation 實驗也為我們揭示了模型性能提升的幾個關鍵方向:增加輸入幀數可以讓模型捕捉更完整的旅行線索,更長的推理過程能幫助模型逐步還原旅行順序,而音頻的利用則能提供額外的語義提示。三者結合,共同推動了模型在復雜時空理解任務上的進步。

      然而,即便有這些改進,整體性能仍遠未達到可用水平。即使是當前得分最高的 Gemini-2.5-Pro,在預測結果中依然存在大量錯誤,這進一步凸顯了多模態大模型在長程地理與時間理解上的巨大挑戰。



      表1: 節點預測的評估結果



      表2: 邊緣預測的評估結果

      總而言之,VIR-Bench 不僅是一個新的評測基準,更是為未來諸多應用打開了一扇窗口。通過在旅行視頻中重建行程順序,它逼迫模型同時理解 “地理位置 + 時間順序”,這與機器人如何理解世界、規劃路徑,以及自動駕駛系統如何在動態環境中進行決策高度契合。

      這一研究讓我們看清:當前的大模型在長程推理和時空理解上仍有明顯不足,但也指明了進化的方向 —— 更強的地理空間感知、更可靠的時間推理,以及多模態信息的深度融合。當這些能力逐漸成熟,AI 將不再只是 “看視頻”,而是真正具備 “在世界中行動” 的潛力。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      活著的一等功臣!為國守邊27年,祁發寶榮升副司令戴“六排勛表”

      活著的一等功臣!為國守邊27年,祁發寶榮升副司令戴“六排勛表”

      牛牛叨史
      2025-11-29 02:30:36
      防止規模性返鄉滯鄉,能采取哪些手段?

      防止規模性返鄉滯鄉,能采取哪些手段?

      基本常識
      2025-11-18 23:54:24
      平價煙擺滿貨架!3 億煙民不用再買貴煙,這波民生轉向太實在

      平價煙擺滿貨架!3 億煙民不用再買貴煙,這波民生轉向太實在

      老特有話說
      2025-12-08 00:16:34
      馬斯克被干懵了:特斯拉全球第4,前3全是中國車,小米都排第7了

      馬斯克被干懵了:特斯拉全球第4,前3全是中國車,小米都排第7了

      互聯網.亂侃秀
      2025-12-07 11:37:05
      一部分已婚女性,開始盼著丈夫出軌

      一部分已婚女性,開始盼著丈夫出軌

      細語
      2025-12-08 11:53:49
      中國004核航母亮相!美印海軍雙雙陷入焦慮,海上格局即將洗牌?

      中國004核航母亮相!美印海軍雙雙陷入焦慮,海上格局即將洗牌?

      科學知識點秀
      2025-12-06 08:00:13
      白巖松:若有余錢,不要不舍得,給自己添置這3樣東西“養老”...

      白巖松:若有余錢,不要不舍得,給自己添置這3樣東西“養老”...

      詩詞中國
      2025-12-07 19:56:43
      中日戰機對峙,不到12小時中俄官宣大行動,特朗普把高市當冤大頭

      中日戰機對峙,不到12小時中俄官宣大行動,特朗普把高市當冤大頭

      時時有聊
      2025-12-07 17:59:43
      記者:雄鹿已告知各隊他們不會交易字母哥,但其他球隊均無視

      記者:雄鹿已告知各隊他們不會交易字母哥,但其他球隊均無視

      懂球帝
      2025-12-08 14:18:46
      新加坡,怕是真的坐不住了!中國人正在砸掉他們金飯碗!

      新加坡,怕是真的坐不住了!中國人正在砸掉他們金飯碗!

      貍花小咪
      2025-11-28 18:12:07
      “中國一直在遵守承諾”

      “中國一直在遵守承諾”

      觀察者網
      2025-12-08 15:02:04
      韓媒:一旦開戰,將對北京發起“致命打擊”,大連、青島都在列

      韓媒:一旦開戰,將對北京發起“致命打擊”,大連、青島都在列

      老赳說歷史
      2025-12-08 14:44:54
      證券時報社黨委書記、社長兼總編輯程國慧:多層次資本市場體系的完善,為經濟高質量發展注入了澎湃動能

      證券時報社黨委書記、社長兼總編輯程國慧:多層次資本市場體系的完善,為經濟高質量發展注入了澎湃動能

      證券時報
      2025-12-08 15:03:01
      欠債166億,頂流顧不得體面了

      欠債166億,頂流顧不得體面了

      陳天宇
      2025-12-02 00:10:05
      程莉莎趕山東大集,穿3萬大衣買3元糖葫蘆,像沒見過世面的城巴佬

      程莉莎趕山東大集,穿3萬大衣買3元糖葫蘆,像沒見過世面的城巴佬

      觀察鑒娛
      2025-12-08 09:41:02
      19年前,那個美國預言會消失的西部小縣城,如今怎么樣了?

      19年前,那個美國預言會消失的西部小縣城,如今怎么樣了?

      毒sir財經
      2025-12-07 16:57:35
      丁元英:性格太軟的人要明白,反擊最好的方式不是翻臉,而是....

      丁元英:性格太軟的人要明白,反擊最好的方式不是翻臉,而是....

      詩詞中國
      2025-10-13 19:06:18
      當年網文大神,怎么不寫了

      當年網文大神,怎么不寫了

      投稿指南
      2025-12-08 11:34:53
      一場大洪水,他信家族起死回生了!

      一場大洪水,他信家族起死回生了!

      天真無牙
      2025-12-07 08:00:17
      風向變了,特朗普通告全球,承認中美平起平坐,要跟中國公平競爭

      風向變了,特朗普通告全球,承認中美平起平坐,要跟中國公平競爭

      時時有聊
      2025-12-07 06:42:33
      2025-12-08 18:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11869文章數 142510關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      泰柬邊境近日再起爭端 阿努廷、洪森分別發聲

      頭條要聞

      泰柬邊境近日再起爭端 阿努廷、洪森分別發聲

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經要聞

      重磅!政治局會議定調明年經濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      教育
      時尚
      旅游
      本地
      房產

      教育要聞

      是不是只有我在內耗?補習班,到底該不該跟別人分享?

      除了大衣,今年最火的外套一定就是它了!

      旅游要聞

      崇明前衛村村史館建成對外開放

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      房產要聞

      碧桂園,開始甩賣??诩业?!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲色另类| 日韩欧美一中文字暮专区| 午夜亚洲| 久久人人妻人人爽人人爽| 成人欧美一区二区三区1314| 末发育娇小性色xxxxx视频| 亚洲日韩日本中文在线| 亚洲最大国产成人综合网站 | 亚洲综合av在线在线播放| 人妻内射一区二区在线视频| 亚洲国产成人av毛片大全| 男人扒女人添高潮视频| 江永县| 探花av| 一本一道久久综合狠狠躁牛牛影视| 国产在线观看免费观看| 成人AV无码一区二区三区| 国产精品成人无码久久久| 伊伊色妹子在线视频| 无码人妻aⅴ一区二区三区用会员| 亚洲无码五区| 涪陵区| av一区二区三区| 国产免费午夜福利在线播放| 高潮添下面视频免费看| 无码人妻精品一区二区三区66| 人妻综合在线| 武功县| 久久伊人五月天| 亚洲AV无码破坏版在线观看| 国产 另类 在线 欧美日韩| 成年午夜无码av片在线观看| 欧美激情a∨在线视频播放| 精品人妻中文字幕专区| 青青草乱人| jizzjizz欧美| 国产一区二区亚洲一区二区三区| 99久久国产综合精品女同| 国产后入又长又硬| 国产精品美女一区二区三区 | 日韩肏屄|