<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      景不動人動,OST-Bench揭示多模態大模型在線時空理解短板

      0
      分享至



      多模態大語言模型(MLLMs)已在視覺與語言模態融合的感知與推理任務中展現出強大能力。而上海人工智能實驗室、上海交通大學、香港大學、香港中文大學的研究者們提出的的 OST-Bench, 則是從智能體探索場景的動態在線視角出發,為大模型的能力提出了新的挑戰。

      對比離線 / 靜態的空間智能基準,OST-Bench 更精準地反映了具身感知在真實世界中的核心挑戰。代碼和數據均已開源。



      • 論文鏈接:https://arxiv.org/abs/2507.07984
      • 項目主頁:https://rbler1234.github.io/OSTBench.github.io/
      • Hugging Face 數據集:https://huggingface.co/datasets/rbler/OST-Bench
      • GitHub 代碼庫:https://github.com/InternRobotics/OST-Bench

      離線鳥瞰全景 VS 在線移步換景

      在現實世界中,我們的視野范圍是有限的,我們的眼睛在某一時刻只能聚焦于一個局部的場景。隨著不斷的探索,移步換景,我們對于全局場景逐步地形成一個更為清晰的認識;與此同時,基于當前以及歷史的觀測,我們也能感知自身的位置變化以及與之前見過的物體的位置關系 (「我離那把椅子越來越遠」「棕色的枕頭現在在我的右后方」)。

      和現實中的人類一樣,在真實世界部署的智能體通常無法一次性獲取全局環境,而是依賴連續輸入的局部觀測,需要在不斷「移步換景」中完成在線感知、記憶維護與時空推理。這對導航、移動操控等具身任務尤為關鍵:比如在導航中,模型需要在當前時刻判斷「剛才見到的目標現在在我左后方」,并據此決定行動。

      隨著多模態大模型在各類基準上不斷刷新紀錄,人們開始關注它們在真實世界設定下的表現。在時間維度,希望模型具備在線理解能力;在空間維度,希望模型能夠基于 2d 觀測構建 3d 空間布局認知。

      然而,以往的空間智能評測多為離線、固定輸入長度,而涌現的一些在線視頻評測基準往往只考察局部或語義層面的空間感知。OST-Bench 則更貼近真實世界場景,相比以往基準具有兩大核心特點:

      1. 在線設定:模型必須在不斷增長的觀測中進行實時感知、記憶與推理;
      2. 跨時空理解:需要同時結合當前畫面與歷史信息,完成面向時間跨度的復雜空間推理

      視頻演示

      正如下圖所示,與傳統離線空間基準相比,在線設定對模型提出了更高、更接近真實世界的要求。



      基準介紹:「移步換景」為大模型帶來了哪些新難題?

      傳統的靜態場景理解主要關注物體屬性及其靜態關系。而探索的智能體中不斷改變自身位置和視角,帶來持續更新的信息類型與更豐富的問題形態。研究團隊據此將動態場景理解劃分為三大信息類別:智能體空間狀態、智能體可見信息、智能體 - 物體空間關系。基于這三類信息,研究團隊進一步設計了15 個子任務,覆蓋判斷(JUD)、估算(EST)、計數(CNT)、時間定位(TEMP)四類題型。基于規則生成 + 人工篩選,生成了基準的 10k 條測試集數據 (1.4k 個場景) 以及用于微調的 50k 條訓練集數據 (7k 個場景)。



      實驗結果:大模型的在線場景時空理解答卷







      1. 主流大模型陷入困境:當前主流多模態大模型與人類存在顯著性能差距,暴露出跨時空信息推理的能力短板 (上面表 1 / 表 2)。模型的準確率隨著探索步數的持續下降說明現有范式難以適應長時序的在線設定。
      2. 空間增強模型能做好嗎?結果可能沒那么樂觀。「空間建模」機制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D),與其基座模型相比沒有預期的顯著提升,反而在部分任務上明顯退步,并伴隨指令遵循能力的下降。總體來看,空間增強模型雖然在特定數據分布中表現良好,但在更開放、更復雜的在線場景中仍難以穩健發揮。這也進一步體現體現了 OST-Bench 在揭示模型真實能力邊界方面的價值。



      深入分析:大模型的表現診斷書

      1.共性問題聚焦——大模型遇到難題更喜歡走捷徑?

      通過錯誤統計我們發現模型的犯錯集中在推理步驟,而在對錯誤案例的深入分析中,研究團隊發現一個十分典型的共性現象:在面對復雜時空推理問題時,對比主動回溯歷史信息或檢索關鍵線索,模型更傾向于「就地猜測」—— 僅依據當前片段中的有限信息做出草率推斷,而非進行真正的時空整合推理。

      研究團隊將這種現象稱為「時空推理捷徑(Spatio-temporal Reasoning Shortcut)」:模型看似給出了合理答案,但推理過程并無充分依據,往往只是 「表面合理」。





      綠 / 紅色代表模型推理正確 / 錯誤的地方

      2.跨視角推理測評子集——對于 MLLM 的專項補考

      為了更精確地定位模型的能力邊界,研究團隊設計了一個針對性子集。和之前的測評不同,這次 (1) 按難度分級:研究團隊按是否需要多步的復雜推理 (如下圖) 以及是否提前提出關鍵幀,將問題劃分為四個難度等級。對比單步關聯,多步空間關聯任務要求更強的推理能力;對比只有關鍵幀輸入,全視頻輸入則需在冗長觀察中識別用于解答的關鍵幀。

      (2) 補考的結果表明:復雜線索條件下的空間推理能力不足與長期記憶檢索機制薄弱是當前模型在在線時空理解任務中準確率受限的兩大關鍵因素。



      3.微調實驗——提前「預習」在 OST-Bench 的幫助有多大?

      為了評估模型能力的上限,研究團隊基于來自 7000 個場景的 5 萬條問答數據對多種模型進行了微調實驗。所有模型的分數均提升了超過 10%,證明「提前預習突擊」確實有效。然而,團隊也發現真正涉及復雜時空推理的任務仍難以突破 50% 的準確率,說明單純微調并不能觸及問題本質;此外,模型在部分題型上呈現出明顯的「背答案」傾向而非真正理解。微調后的模型還容易「變得不聽話」,無法穩定遵守格式對自己的答案進行解釋。

      現象表明:微調可以帶來提升,但這種提升更像是「題海戰術式的熟練」,而非 「機制上的理解進步」。在這門課上,沒有結構和范式的突破,僅靠刷數據是無法真正拿高分的。要攻克 OST-Bench,必須依賴更強的模型設計或訓練策略。

      總結

      OST-Bench 提出了一個在線的時空場景理解基準,通過對于多個多模態大模型的評估,揭示了當前模型在面對「在線時空理解」任務時的深層短板,也為未來模型的發展指明了方向:突破復雜空間推理能力與長期記憶機制,將是下一代多模態模型邁向真實智能世界的關鍵一步。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      人的基因有多強大?網友:今年剪了個短發,我爸一看就害怕!

      人的基因有多強大?網友:今年剪了個短發,我爸一看就害怕!

      另子維愛讀史
      2026-02-27 21:05:30
      特朗普傻眼,難怪伊朗導彈百發百中,原來有人偷偷給美軍定位

      特朗普傻眼,難怪伊朗導彈百發百中,原來有人偷偷給美軍定位

      策前論
      2026-03-09 23:05:04
      史詩狂怒行動第二階段:地下戰爭

      史詩狂怒行動第二階段:地下戰爭

      南文視界
      2026-03-08 22:59:27
      厲害!京媒:北京國安打法已從曼城式控球,轉為利物浦式高壓沖擊

      厲害!京媒:北京國安打法已從曼城式控球,轉為利物浦式高壓沖擊

      足球大腕
      2026-03-10 20:03:45
      敞開天窗說亮話!對于特朗普月底訪華,中方終于回應了!

      敞開天窗說亮話!對于特朗普月底訪華,中方終于回應了!

      現代小青青慕慕
      2026-03-10 09:39:02
      這么快!龍蝦卸載指南來了,限時特惠299元上門卸載

      這么快!龍蝦卸載指南來了,限時特惠299元上門卸載

      財聯社
      2026-03-10 20:46:08
      中央5臺直播女籃時間表:3月11日世預賽首戰PK馬里女籃,韓旭領銜

      中央5臺直播女籃時間表:3月11日世預賽首戰PK馬里女籃,韓旭領銜

      薇說體育
      2026-03-10 15:14:59
      易夢玲一雙金燦燦的大燈,明艷晃眼

      易夢玲一雙金燦燦的大燈,明艷晃眼

      吃瓜黨二號頭目
      2026-02-13 08:13:30
      20cm漲停!激光巨頭營收激增72%

      20cm漲停!激光巨頭營收激增72%

      新浪財經
      2026-03-10 21:52:29
      王毅同科威特外交大臣杰拉赫通電話

      王毅同科威特外交大臣杰拉赫通電話

      澎湃新聞
      2026-03-09 23:01:20
      74比95慘敗丟冠!女籃霸主狂輸21分被掀翻:1年連丟三冠太慘了

      74比95慘敗丟冠!女籃霸主狂輸21分被掀翻:1年連丟三冠太慘了

      籃球快餐車
      2026-03-10 05:40:05
      再無瓜葛!梅西表態:絕不介入巴薩選舉!只留傳奇不涉權力紛爭

      再無瓜葛!梅西表態:絕不介入巴薩選舉!只留傳奇不涉權力紛爭

      體育閑話說
      2026-03-10 14:29:32
      WTT重慶冠軍賽:國乒男單1-3迎來首場失利,張本智和成最大贏家

      WTT重慶冠軍賽:國乒男單1-3迎來首場失利,張本智和成最大贏家

      云舟史策
      2026-03-10 17:09:51
      浴缸陪睡只是冰山一角,多位助理伺候明星方式曝光,個個荒唐離譜

      浴缸陪睡只是冰山一角,多位助理伺候明星方式曝光,個個荒唐離譜

      鄉野小珥
      2026-03-09 20:41:21
      是以色列干的!沒想到美國開始甩鍋了。

      是以色列干的!沒想到美國開始甩鍋了。

      荊楚寰宇文樞
      2026-03-10 22:57:20
      1949年,蔣介石離開大陸前,在成都裝假牙的留影,儀器看著很先進

      1949年,蔣介石離開大陸前,在成都裝假牙的留影,儀器看著很先進

      比利
      2026-02-28 13:55:53
      又一白酒在廣西“一炮打響”,0添加、0香精,不是三花酒、丹泉酒

      又一白酒在廣西“一炮打響”,0添加、0香精,不是三花酒、丹泉酒

      影像渭南
      2026-03-10 13:30:05
      內塔尼亞胡稱對伊朗行動“尚未結束”;此前伊朗議長稱“決不尋求停火,必須給侵略者以迎頭痛擊”

      內塔尼亞胡稱對伊朗行動“尚未結束”;此前伊朗議長稱“決不尋求停火,必須給侵略者以迎頭痛擊”

      大象新聞
      2026-03-10 19:45:06
      澳門070今晚精準確生肖六合寶典內幕資料。今晚澳門開獎號碼澳門

      澳門070今晚精準確生肖六合寶典內幕資料。今晚澳門開獎號碼澳門

      重慶花島小鎮旅游有限公司
      2026-03-10 22:07:11
      微信員工辟謠“OpenClaw自動發紅包”:QClaw暫無移動端部署方案,PC微信也不支持發紅包

      微信員工辟謠“OpenClaw自動發紅包”:QClaw暫無移動端部署方案,PC微信也不支持發紅包

      環球網資訊
      2026-03-10 18:20:15
      2026-03-11 00:48:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12467文章數 142581關注度
      往期回顧 全部

      科技要聞

      全民"養蝦"背后:大廠集體下場瘋狂賣Token

      頭條要聞

      伊朗新最高領袖在襲擊中受傷未公開發表講話 官方回應

      頭條要聞

      伊朗新最高領袖在襲擊中受傷未公開發表講話 官方回應

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      《逐玉》注水風波升級!315評論區淪陷

      財經要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規劃曝光

      態度原創

      藝術
      家居
      本地
      數碼
      公開課

      藝術要聞

      震撼!美國油畫家約書亞·拉洛克的作品讓人驚嘆不已!

      家居要聞

      自然肌理 溫度質感婚房

      本地新聞

      云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

      數碼要聞

      3月31日!RTX 50系玩家可體驗英偉達DLSS 4.5新特性

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版