<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      景不動人動,OST-Bench揭示多模態(tài)大模型在線時空理解短板

      0
      分享至



      多模態(tài)大語言模型(MLLMs)已在視覺與語言模態(tài)融合的感知與推理任務中展現(xiàn)出強大能力。而上海人工智能實驗室、上海交通大學、香港大學、香港中文大學的研究者們提出的的 OST-Bench, 則是從智能體探索場景的動態(tài)在線視角出發(fā),為大模型的能力提出了新的挑戰(zhàn)。

      對比離線 / 靜態(tài)的空間智能基準,OST-Bench 更精準地反映了具身感知在真實世界中的核心挑戰(zhàn)。代碼和數(shù)據(jù)均已開源。



      • 論文鏈接:https://arxiv.org/abs/2507.07984
      • 項目主頁:https://rbler1234.github.io/OSTBench.github.io/
      • Hugging Face 數(shù)據(jù)集:https://huggingface.co/datasets/rbler/OST-Bench
      • GitHub 代碼庫:https://github.com/InternRobotics/OST-Bench

      離線鳥瞰全景 VS 在線移步換景

      在現(xiàn)實世界中,我們的視野范圍是有限的,我們的眼睛在某一時刻只能聚焦于一個局部的場景。隨著不斷的探索,移步換景,我們對于全局場景逐步地形成一個更為清晰的認識;與此同時,基于當前以及歷史的觀測,我們也能感知自身的位置變化以及與之前見過的物體的位置關系 (「我離那把椅子越來越遠」「棕色的枕頭現(xiàn)在在我的右后方」)。

      和現(xiàn)實中的人類一樣,在真實世界部署的智能體通常無法一次性獲取全局環(huán)境,而是依賴連續(xù)輸入的局部觀測,需要在不斷「移步換景」中完成在線感知、記憶維護與時空推理。這對導航、移動操控等具身任務尤為關鍵:比如在導航中,模型需要在當前時刻判斷「剛才見到的目標現(xiàn)在在我左后方」,并據(jù)此決定行動。

      隨著多模態(tài)大模型在各類基準上不斷刷新紀錄,人們開始關注它們在真實世界設定下的表現(xiàn)。在時間維度,希望模型具備在線理解能力;在空間維度,希望模型能夠基于 2d 觀測構建 3d 空間布局認知。

      然而,以往的空間智能評測多為離線、固定輸入長度,而涌現(xiàn)的一些在線視頻評測基準往往只考察局部或語義層面的空間感知。OST-Bench 則更貼近真實世界場景,相比以往基準具有兩大核心特點:

      1. 在線設定:模型必須在不斷增長的觀測中進行實時感知、記憶與推理;
      2. 跨時空理解:需要同時結合當前畫面與歷史信息,完成面向時間跨度的復雜空間推理

      視頻演示

      正如下圖所示,與傳統(tǒng)離線空間基準相比,在線設定對模型提出了更高、更接近真實世界的要求。



      基準介紹:「移步換景」為大模型帶來了哪些新難題?

      傳統(tǒng)的靜態(tài)場景理解主要關注物體屬性及其靜態(tài)關系。而探索的智能體中不斷改變自身位置和視角,帶來持續(xù)更新的信息類型與更豐富的問題形態(tài)。研究團隊據(jù)此將動態(tài)場景理解劃分為三大信息類別:智能體空間狀態(tài)、智能體可見信息、智能體 - 物體空間關系。基于這三類信息,研究團隊進一步設計了15 個子任務,覆蓋判斷(JUD)、估算(EST)、計數(shù)(CNT)、時間定位(TEMP)四類題型。基于規(guī)則生成 + 人工篩選,生成了基準的 10k 條測試集數(shù)據(jù) (1.4k 個場景) 以及用于微調的 50k 條訓練集數(shù)據(jù) (7k 個場景)。



      實驗結果:大模型的在線場景時空理解答卷







      1. 主流大模型陷入困境:當前主流多模態(tài)大模型與人類存在顯著性能差距,暴露出跨時空信息推理的能力短板 (上面表 1 / 表 2)。模型的準確率隨著探索步數(shù)的持續(xù)下降說明現(xiàn)有范式難以適應長時序的在線設定。
      2. 空間增強模型能做好嗎?結果可能沒那么樂觀。「空間建模」機制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D),與其基座模型相比沒有預期的顯著提升,反而在部分任務上明顯退步,并伴隨指令遵循能力的下降。總體來看,空間增強模型雖然在特定數(shù)據(jù)分布中表現(xiàn)良好,但在更開放、更復雜的在線場景中仍難以穩(wěn)健發(fā)揮。這也進一步體現(xiàn)體現(xiàn)了 OST-Bench 在揭示模型真實能力邊界方面的價值。



      深入分析:大模型的表現(xiàn)診斷書

      1.共性問題聚焦——大模型遇到難題更喜歡走捷徑?

      通過錯誤統(tǒng)計我們發(fā)現(xiàn)模型的犯錯集中在推理步驟,而在對錯誤案例的深入分析中,研究團隊發(fā)現(xiàn)一個十分典型的共性現(xiàn)象:在面對復雜時空推理問題時,對比主動回溯歷史信息或檢索關鍵線索,模型更傾向于「就地猜測」—— 僅依據(jù)當前片段中的有限信息做出草率推斷,而非進行真正的時空整合推理。

      研究團隊將這種現(xiàn)象稱為「時空推理捷徑(Spatio-temporal Reasoning Shortcut)」:模型看似給出了合理答案,但推理過程并無充分依據(jù),往往只是 「表面合理」。





      綠 / 紅色代表模型推理正確 / 錯誤的地方

      2.跨視角推理測評子集——對于 MLLM 的專項補考

      為了更精確地定位模型的能力邊界,研究團隊設計了一個針對性子集。和之前的測評不同,這次 (1) 按難度分級:研究團隊按是否需要多步的復雜推理 (如下圖) 以及是否提前提出關鍵幀,將問題劃分為四個難度等級。對比單步關聯(lián),多步空間關聯(lián)任務要求更強的推理能力;對比只有關鍵幀輸入,全視頻輸入則需在冗長觀察中識別用于解答的關鍵幀。

      (2) 補考的結果表明:復雜線索條件下的空間推理能力不足與長期記憶檢索機制薄弱是當前模型在在線時空理解任務中準確率受限的兩大關鍵因素。



      3.微調實驗——提前「預習」在 OST-Bench 的幫助有多大?

      為了評估模型能力的上限,研究團隊基于來自 7000 個場景的 5 萬條問答數(shù)據(jù)對多種模型進行了微調實驗。所有模型的分數(shù)均提升了超過 10%,證明「提前預習突擊」確實有效。然而,團隊也發(fā)現(xiàn)真正涉及復雜時空推理的任務仍難以突破 50% 的準確率,說明單純微調并不能觸及問題本質;此外,模型在部分題型上呈現(xiàn)出明顯的「背答案」傾向而非真正理解。微調后的模型還容易「變得不聽話」,無法穩(wěn)定遵守格式對自己的答案進行解釋。

      現(xiàn)象表明:微調可以帶來提升,但這種提升更像是「題海戰(zhàn)術式的熟練」,而非 「機制上的理解進步」。在這門課上,沒有結構和范式的突破,僅靠刷數(shù)據(jù)是無法真正拿高分的。要攻克 OST-Bench,必須依賴更強的模型設計或訓練策略。

      總結

      OST-Bench 提出了一個在線的時空場景理解基準,通過對于多個多模態(tài)大模型的評估,揭示了當前模型在面對「在線時空理解」任務時的深層短板,也為未來模型的發(fā)展指明了方向:突破復雜空間推理能力與長期記憶機制,將是下一代多模態(tài)模型邁向真實智能世界的關鍵一步。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      蒙古國最大銅礦賣給澳洲,放話不準賣給中國礦石,16年后卻成這樣

      蒙古國最大銅礦賣給澳洲,放話不準賣給中國礦石,16年后卻成這樣

      毒sir財經(jīng)
      2025-08-08 16:26:44
      秋后算賬?所有豪門非婚生子女,這下都睡不著了,宗馥莉手段驚人

      秋后算賬?所有豪門非婚生子女,這下都睡不著了,宗馥莉手段驚人

      寒士之言本尊
      2025-07-15 19:10:18
      俄專家:就算美國將中國在美的全部資產凍結,也無法產生什么影響

      俄專家:就算美國將中國在美的全部資產凍結,也無法產生什么影響

      扶蘇聊歷史
      2026-01-23 17:31:02
      火烈鳥廣東低溫天抖腿,動物園回應:火烈鳥狀態(tài)良好,抖腿不一定是寒冷所致,低溫天有保暖措施

      火烈鳥廣東低溫天抖腿,動物園回應:火烈鳥狀態(tài)良好,抖腿不一定是寒冷所致,低溫天有保暖措施

      極目新聞
      2026-01-23 15:58:03
      排水量10噸,帶6個垂發(fā)!國產“微型小航母”亮相,我軍急需裝備

      排水量10噸,帶6個垂發(fā)!國產“微型小航母”亮相,我軍急需裝備

      科普100克克
      2026-01-23 17:53:49
      小楊哥停播一年多,小楊嫂大變樣,從清純臉變歐美臉,差點認不出

      小楊哥停播一年多,小楊嫂大變樣,從清純臉變歐美臉,差點認不出

      不寫散文詩
      2025-12-15 14:38:27
      黃健翔前瞻U23決賽:希望中國隊輕裝上陣,在場上做正確選擇

      黃健翔前瞻U23決賽:希望中國隊輕裝上陣,在場上做正確選擇

      懂球帝
      2026-01-24 10:40:07
      日媒:訪日外國人數(shù)量突破4000萬!6000萬是下個目標

      日媒:訪日外國人數(shù)量突破4000萬!6000萬是下個目標

      隨波蕩漾的漂流瓶
      2026-01-20 11:20:20
      比恒大還狠!千億房企爆雷,老板套現(xiàn)60億后,把1470億債留給股民

      比恒大還狠!千億房企爆雷,老板套現(xiàn)60億后,把1470億債留給股民

      牛牛叨史
      2026-01-22 22:54:17
      嫣然醫(yī)院房東確為醫(yī)美機構思妍麗創(chuàng)始人張毅;李亞鵬時隔一周開播,直播間瞬間擁入超10萬人,多款產品剛上線就被秒光,銷售額超1683萬

      嫣然醫(yī)院房東確為醫(yī)美機構思妍麗創(chuàng)始人張毅;李亞鵬時隔一周開播,直播間瞬間擁入超10萬人,多款產品剛上線就被秒光,銷售額超1683萬

      極目新聞
      2026-01-23 21:08:36
      拒掛國旗、訂單全給日韓,被停止合作封鎖航線的長榮,今咎由自取

      拒掛國旗、訂單全給日韓,被停止合作封鎖航線的長榮,今咎由自取

      現(xiàn)代小青青慕慕
      2026-01-21 08:06:47
      川島芳子被拿下后,寧死不招,戴笠上前說了2句話,她立馬招供

      川島芳子被拿下后,寧死不招,戴笠上前說了2句話,她立馬招供

      嘆為觀止易
      2026-01-24 11:05:02
      撕破臉!普京喊話特朗普:拿下格陵蘭,我?guī)湍悖W洲盟友集體破防

      撕破臉!普京喊話特朗普:拿下格陵蘭,我?guī)湍悖W洲盟友集體破防

      興史興談
      2026-01-23 14:02:48
      被拐30年兒子認親14小時就走,全程冷臉,網(wǎng)友:窮家標簽太刺眼

      被拐30年兒子認親14小時就走,全程冷臉,網(wǎng)友:窮家標簽太刺眼

      老特有話說
      2025-12-06 17:31:27
      2025年中國商人年度人物出爐:雷軍劉強東未上榜,于東來出乎意料

      2025年中國商人年度人物出爐:雷軍劉強東未上榜,于東來出乎意料

      不寫散文詩
      2026-01-24 13:28:32
      特大冬季風暴逼近 預計美國1.7億人受影響

      特大冬季風暴逼近 預計美國1.7億人受影響

      環(huán)球網(wǎng)資訊
      2026-01-24 19:27:29
      馬斯克一語成真 全球搶購的不是芯片 而是中國20萬一臺變壓器

      馬斯克一語成真 全球搶購的不是芯片 而是中國20萬一臺變壓器

      閱識
      2026-01-21 16:58:32
      金華最新選舉結果公布!市人大常委會副主任、法院院長確定

      金華最新選舉結果公布!市人大常委會副主任、法院院長確定

      浙中在線
      2026-01-24 19:23:20
      德媒:樊振東返回中國將缺席德甲比賽,仍有50張門票可售

      德媒:樊振東返回中國將缺席德甲比賽,仍有50張門票可售

      懂球帝
      2026-01-24 01:03:23
      兩部委定調,2026年或調整養(yǎng)老金,獨生子女父母能多漲150元嗎?

      兩部委定調,2026年或調整養(yǎng)老金,獨生子女父母能多漲150元嗎?

      墨蘭史書
      2026-01-23 16:25:03
      2026-01-24 19:56:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12179文章數(shù) 142549關注度
      往期回顧 全部

      科技要聞

      特斯拉Cybercrab即將落地 每公里不到1塊錢

      頭條要聞

      胖東來金飾每克便宜200元被搶爆 有人拖著行李箱去買

      頭條要聞

      胖東來金飾每克便宜200元被搶爆 有人拖著行李箱去買

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      李微漪更新:狼王格林去世,3字淚目

      財經(jīng)要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態(tài)度原創(chuàng)

      游戲
      家居
      藝術
      教育
      本地

      《光環(huán)2》重制版?zhèn)髀勂毓猓簾o多人模式 新增沖刺機制

      家居要聞

      在家度假 160平南洋混搭宅

      藝術要聞

      最偉大的照片:《入侵布拉格1968》

      教育要聞

      父母越嘮叨 家里就越旺

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 三级色网| 长宁县| 午夜精品一区二区三区免费视频| 国产精品AV在线观看| 午夜dj在线观看免费高清在线 | 国产精品成人免费视频网站京东| 欧美寡妇xxxx黑人猛交| 日本熟妇色xxxxx欧美老妇| 精品久久久久久无码免费| 77777亚洲午夜久久多人| A在线视频| 国产精品久久无码一区| 波多野结衣无码视频一区二区三区| 色噜噜AV亚洲色一区二区| 国产播放91色在线观看| 亚洲午夜久久久久久久久久| 国产精品理论片| 成人做爰高潮尖叫声免费观看| 全部孕妇毛片| 精品国产av无码一道| av无码免费一区二区三区| 亚洲无码激情| 亚洲电影在线观看| 久草精品视频在线观看| 99热这里有精品| 制服中文字幕在线| 日韩精品人妻在线| 亚洲中文天堂| 好男人社区影视在线WWW| 亚洲综合一区二区三区| 亚洲中文制服丝袜欧美精品| 亚洲欧美人成人让影院| 亚洲综合色AAA成人无码| 无码精品视频一区二区三区| 亚洲另类专区中文字幕| 精品av综合导航| 罗田县| 97久久精品无码一区二区天美| 91综合色| 精精国产xxxx视频在线| 伊人久久五月|