<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      景不動人動,OST-Bench揭示多模態大模型在線時空理解短板

      0
      分享至



      多模態大語言模型(MLLMs)已在視覺與語言模態融合的感知與推理任務中展現出強大能力。而上海人工智能實驗室、上海交通大學、香港大學、香港中文大學的研究者們提出的的 OST-Bench, 則是從智能體探索場景的動態在線視角出發,為大模型的能力提出了新的挑戰。

      對比離線 / 靜態的空間智能基準,OST-Bench 更精準地反映了具身感知在真實世界中的核心挑戰。代碼和數據均已開源。



      • 論文鏈接:https://arxiv.org/abs/2507.07984
      • 項目主頁:https://rbler1234.github.io/OSTBench.github.io/
      • Hugging Face 數據集:https://huggingface.co/datasets/rbler/OST-Bench
      • GitHub 代碼庫:https://github.com/InternRobotics/OST-Bench

      離線鳥瞰全景 VS 在線移步換景

      在現實世界中,我們的視野范圍是有限的,我們的眼睛在某一時刻只能聚焦于一個局部的場景。隨著不斷的探索,移步換景,我們對于全局場景逐步地形成一個更為清晰的認識;與此同時,基于當前以及歷史的觀測,我們也能感知自身的位置變化以及與之前見過的物體的位置關系 (「我離那把椅子越來越遠」「棕色的枕頭現在在我的右后方」)。

      和現實中的人類一樣,在真實世界部署的智能體通常無法一次性獲取全局環境,而是依賴連續輸入的局部觀測,需要在不斷「移步換景」中完成在線感知、記憶維護與時空推理。這對導航、移動操控等具身任務尤為關鍵:比如在導航中,模型需要在當前時刻判斷「剛才見到的目標現在在我左后方」,并據此決定行動。

      隨著多模態大模型在各類基準上不斷刷新紀錄,人們開始關注它們在真實世界設定下的表現。在時間維度,希望模型具備在線理解能力;在空間維度,希望模型能夠基于 2d 觀測構建 3d 空間布局認知。

      然而,以往的空間智能評測多為離線、固定輸入長度,而涌現的一些在線視頻評測基準往往只考察局部或語義層面的空間感知。OST-Bench 則更貼近真實世界場景,相比以往基準具有兩大核心特點:

      1. 在線設定:模型必須在不斷增長的觀測中進行實時感知、記憶與推理;
      2. 跨時空理解:需要同時結合當前畫面與歷史信息,完成面向時間跨度的復雜空間推理

      視頻演示

      正如下圖所示,與傳統離線空間基準相比,在線設定對模型提出了更高、更接近真實世界的要求。



      基準介紹:「移步換景」為大模型帶來了哪些新難題?

      傳統的靜態場景理解主要關注物體屬性及其靜態關系。而探索的智能體中不斷改變自身位置和視角,帶來持續更新的信息類型與更豐富的問題形態。研究團隊據此將動態場景理解劃分為三大信息類別:智能體空間狀態、智能體可見信息、智能體 - 物體空間關系。基于這三類信息,研究團隊進一步設計了15 個子任務,覆蓋判斷(JUD)、估算(EST)、計數(CNT)、時間定位(TEMP)四類題型。基于規則生成 + 人工篩選,生成了基準的 10k 條測試集數據 (1.4k 個場景) 以及用于微調的 50k 條訓練集數據 (7k 個場景)。



      實驗結果:大模型的在線場景時空理解答卷







      1. 主流大模型陷入困境:當前主流多模態大模型與人類存在顯著性能差距,暴露出跨時空信息推理的能力短板 (上面表 1 / 表 2)。模型的準確率隨著探索步數的持續下降說明現有范式難以適應長時序的在線設定。
      2. 空間增強模型能做好嗎?結果可能沒那么樂觀。「空間建模」機制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D),與其基座模型相比沒有預期的顯著提升,反而在部分任務上明顯退步,并伴隨指令遵循能力的下降。總體來看,空間增強模型雖然在特定數據分布中表現良好,但在更開放、更復雜的在線場景中仍難以穩健發揮。這也進一步體現體現了 OST-Bench 在揭示模型真實能力邊界方面的價值。



      深入分析:大模型的表現診斷書

      1.共性問題聚焦——大模型遇到難題更喜歡走捷徑?

      通過錯誤統計我們發現模型的犯錯集中在推理步驟,而在對錯誤案例的深入分析中,研究團隊發現一個十分典型的共性現象:在面對復雜時空推理問題時,對比主動回溯歷史信息或檢索關鍵線索,模型更傾向于「就地猜測」—— 僅依據當前片段中的有限信息做出草率推斷,而非進行真正的時空整合推理。

      研究團隊將這種現象稱為「時空推理捷徑(Spatio-temporal Reasoning Shortcut)」:模型看似給出了合理答案,但推理過程并無充分依據,往往只是 「表面合理」。





      綠 / 紅色代表模型推理正確 / 錯誤的地方

      2.跨視角推理測評子集——對于 MLLM 的專項補考

      為了更精確地定位模型的能力邊界,研究團隊設計了一個針對性子集。和之前的測評不同,這次 (1) 按難度分級:研究團隊按是否需要多步的復雜推理 (如下圖) 以及是否提前提出關鍵幀,將問題劃分為四個難度等級。對比單步關聯,多步空間關聯任務要求更強的推理能力;對比只有關鍵幀輸入,全視頻輸入則需在冗長觀察中識別用于解答的關鍵幀。

      (2) 補考的結果表明:復雜線索條件下的空間推理能力不足與長期記憶檢索機制薄弱是當前模型在在線時空理解任務中準確率受限的兩大關鍵因素。



      3.微調實驗——提前「預習」在 OST-Bench 的幫助有多大?

      為了評估模型能力的上限,研究團隊基于來自 7000 個場景的 5 萬條問答數據對多種模型進行了微調實驗。所有模型的分數均提升了超過 10%,證明「提前預習突擊」確實有效。然而,團隊也發現真正涉及復雜時空推理的任務仍難以突破 50% 的準確率,說明單純微調并不能觸及問題本質;此外,模型在部分題型上呈現出明顯的「背答案」傾向而非真正理解。微調后的模型還容易「變得不聽話」,無法穩定遵守格式對自己的答案進行解釋。

      現象表明:微調可以帶來提升,但這種提升更像是「題海戰術式的熟練」,而非 「機制上的理解進步」。在這門課上,沒有結構和范式的突破,僅靠刷數據是無法真正拿高分的。要攻克 OST-Bench,必須依賴更強的模型設計或訓練策略。

      總結

      OST-Bench 提出了一個在線的時空場景理解基準,通過對于多個多模態大模型的評估,揭示了當前模型在面對「在線時空理解」任務時的深層短板,也為未來模型的發展指明了方向:突破復雜空間推理能力與長期記憶機制,將是下一代多模態模型邁向真實智能世界的關鍵一步。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      佛山跌出幸福感!曾經300萬的房子,我100萬抄底!

      佛山跌出幸福感!曾經300萬的房子,我100萬抄底!

      樓市滅霸
      2025-12-07 16:05:43
      央視女外賣員短片被罵,駱駝祥子拉黃包車,不是為了欣賞沿途風景

      央視女外賣員短片被罵,駱駝祥子拉黃包車,不是為了欣賞沿途風景

      壹月情感
      2025-12-02 16:42:19
      正式換帥,女籃名帥上任,42歲,曾執教豪門,上任引入多名國手

      正式換帥,女籃名帥上任,42歲,曾執教豪門,上任引入多名國手

      樂聊球
      2025-12-07 13:46:44
      高市早苗天塌了,美國宣布退守美洲,李在明提前在臺海問題上站隊

      高市早苗天塌了,美國宣布退守美洲,李在明提前在臺海問題上站隊

      策略述
      2025-12-07 15:17:06
      超強mini!新機官宣:12月15日,正式發布亮相!

      超強mini!新機官宣:12月15日,正式發布亮相!

      Q科技基地
      2025-12-07 12:17:33
      血型決定壽命長短?60萬人研究發現:A型血或“天生”更易中風

      血型決定壽命長短?60萬人研究發現:A型血或“天生”更易中風

      小舟談歷史
      2025-10-11 09:13:30
      昆明市委書記在騰沖召開懇談會,與6位院士和7位企業家面對面

      昆明市委書記在騰沖召開懇談會,與6位院士和7位企業家面對面

      政知新媒體
      2025-12-07 09:33:21
      動真格了!遼寧艦靠近琉球,殲15導彈兩次鎖定F15,日本連夜抗議

      動真格了!遼寧艦靠近琉球,殲15導彈兩次鎖定F15,日本連夜抗議

      時時有聊
      2025-12-07 15:16:43
      維拉絕殺又添堵,阿森納的疏漏不只是傷缺

      維拉絕殺又添堵,阿森納的疏漏不只是傷缺

      足球周刊
      2025-12-07 11:56:59
      建議中老年人:若不差錢,少吃雞肉多吃這8樣,高蛋白低脂又美味

      建議中老年人:若不差錢,少吃雞肉多吃這8樣,高蛋白低脂又美味

      美食店主
      2025-11-18 00:31:56
      學歷開始崩盤了

      學歷開始崩盤了

      微微熱評
      2025-12-07 00:30:02
      《大生意人》古平原認出李萬堂!李欽與父決裂,蘇紫軒成最大贏家

      《大生意人》古平原認出李萬堂!李欽與父決裂,蘇紫軒成最大贏家

      小丸子的娛樂圈
      2025-12-07 22:49:53
      北大校長這會兒估計得有點尷尬吧

      北大校長這會兒估計得有點尷尬吧

      小光侃娛樂
      2025-11-28 08:30:03
      離譜!一男子存500萬一年定期,利息151000。到期取錢,工作人員卻說,存單是假的!男子怒了直接告上法院!

      離譜!一男子存500萬一年定期,利息151000。到期取錢,工作人員卻說,存單是假的!男子怒了直接告上法院!

      上海約飯局
      2025-12-02 18:47:01
      壞消息,雷霆隊亞歷山大因肘傷缺席對陣爵士隊的比賽

      壞消息,雷霆隊亞歷山大因肘傷缺席對陣爵士隊的比賽

      好火子
      2025-12-07 23:36:53
      史上最荒唐政變!他偽造圣旨殺光領導,回老家祭祖5天竟無人懷疑

      史上最荒唐政變!他偽造圣旨殺光領導,回老家祭祖5天竟無人懷疑

      銘記歷史呀
      2025-12-06 19:49:08
      廣東3消息!杜鋒終于認清事實,徐杰打臉郭士強,薩姆納最新傷情

      廣東3消息!杜鋒終于認清事實,徐杰打臉郭士強,薩姆納最新傷情

      多特體育說
      2025-12-07 22:22:54
      國乒大合影:王主席C位,王楚欽王曼昱挨著,孫穎莎靠邊引爭議

      國乒大合影:王主席C位,王楚欽王曼昱挨著,孫穎莎靠邊引爭議

      劉笤說體壇
      2025-12-08 01:49:48
      廣州大廠金發科技真的值得去嗎?老員工曝薪資、加班與酒桌文化

      廣州大廠金發科技真的值得去嗎?老員工曝薪資、加班與酒桌文化

      生活新鮮市
      2025-12-07 16:52:11
      只要你做了這兩件事,負債都會走向崩盤(建議所有負債人都看完)

      只要你做了這兩件事,負債都會走向崩盤(建議所有負債人都看完)

      今日美食分享
      2025-12-08 06:13:46
      2025-12-08 07:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11862文章數 142510關注度
      往期回顧 全部

      科技要聞

      獨家|李笛再創業,炮轟大模型,再戰AI

      頭條要聞

      馬斯克一句話說到梅德韋杰夫心里 卻引發歐洲政治風暴

      頭條要聞

      馬斯克一句話說到梅德韋杰夫心里 卻引發歐洲政治風暴

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經要聞

      五糧液降價?回應來了

      汽車要聞

      傳奇超跑電動形態重生 雷克薩斯LFA純電概念車

      態度原創

      本地
      健康
      家居
      數碼
      時尚

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      甲狀腺結節"排雷"指南

      家居要聞

      白味湯館 當代宴飲儀式

      數碼要聞

      致敬起點,雷蛇預告Boomslang布斯朗悍蛇20周年紀念版鼠標

      遼京:當一個媽媽開始寫作

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 高中女无套中出17p| 成人精品一区二区三区在线观看| 91看片免费| 精品少妇爆乳无码aⅴ区| 亚洲熟女综合一区二区三区| 午夜天堂一区人妻| 亚洲韩欧美第25集完整版| 99国产三级| 国产99久久精品一区二区| 精品无码国产av一区二区三区| 极品少妇被后入内射视| 日韩精品人妻中文字幕不卡乱码| 永济市| 欧美一区内射最近更新| 国产999精品成人网站| 九九国产视频| 高唐县| 日韩精品毛片无码一区到三区| 亚洲视屏| 精品人妻一区介绍| 亚洲成AV人片一区二区| 日本丰满熟妇hd| 91视频入口| 69精品人人人| 亚洲第一成人在线| 中文字幕欧美人妻精品一区| 91久久偷偷做嫩草影院免费看| 最近日本免费观看高清视频| 浓毛老太交欧美老妇热爱乱| 亚洲中文字幕在线精品一区| 醴www,亚洲熟女,Com| 欧美88888| 欧美日韩无套内射另类| 亚洲日韩一区二区| 99精品久久久久久无码| 好吊视频一区二区三区| 国产一区二区三区不卡av| 99国产欧美另类久久久精品| 1024视频在线| 真人作爱免费视频| 天天夜碰日日摸日日澡性色av|