<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Gemini 3僅得33.6分!清華發(fā)布首個(gè)「約束流形」空間智能基準(zhǔn)

      0
      分享至


      新智元報(bào)道

      編輯:LRST

      【新智元導(dǎo)讀】SSI-Bench是首個(gè)在約束流形中評(píng)估模型空間推理能力的基準(zhǔn),強(qiáng)調(diào)真實(shí)結(jié)構(gòu)與約束條件,通過(guò)排序任務(wù)考察模型是否能準(zhǔn)確理解三維結(jié)構(gòu)的幾何與拓?fù)潢P(guān)系,揭示當(dāng)前大模型在空間智能上嚴(yán)重依賴2D信息,實(shí)際表現(xiàn)遠(yuǎn)低于人類。研究指出,模型需提升三維構(gòu)型識(shí)別和約束推理能力,才能真正理解空間問(wèn)題。

      如果你把一個(gè)在空間理解榜單上刷分很高的多模態(tài)大模型,直接丟進(jìn)真實(shí)世界,它很可能會(huì)在看起來(lái)很簡(jiǎn)單的問(wèn)題上翻車。

      不是因?yàn)樗粫?huì)「看」,而是因?yàn)樗鼜膩?lái)沒(méi)有被迫真正尊重三維結(jié)構(gòu)的可行性——它可以靠2D相關(guān)性、外觀先驗(yàn)、數(shù)據(jù)集套路,走捷徑拿分。

      而現(xiàn)實(shí)世界里,很多空間問(wèn)題的本質(zhì)恰恰相反:能怎么擺、怎么連、怎么受力,不是隨意的;可行解往往只存在于一個(gè)被幾何、拓?fù)?、物理?qiáng)約束「壓扁」的空間里。

      為此,清華大學(xué)的研究團(tuán)隊(duì)推出SSI-Bench,從AI與結(jié)構(gòu)工程的交叉視角出發(fā),為空間智能評(píng)估提供了一種新的場(chǎng)景化思路——將評(píng)測(cè)置于復(fù)雜三維結(jié)構(gòu)的約束流形中,系統(tǒng)檢驗(yàn)多模態(tài)大模型的空間智能表現(xiàn)。


      項(xiàng)目主頁(yè):https://ssi-bench.github.io/

      Arxiv論文:https://arxiv.org/abs/2602.07864

      Hugging Face數(shù)據(jù)集:https://huggingface.co/datasets/cyang203912/SSI-Bench

      Github代碼庫(kù):https://github.com/ccyydd/SSI-Bench

      論文將這種能力明確界定為Constrained-Manifold Spatial Reasoning(CMSR,約束流形空間推理):

      在此類任務(wù)中,潛在三維狀態(tài)并非可被任意「臆測(cè)」,而是受到顯式約束的限定,僅能落在一個(gè)可行解集合內(nèi)——既需要滿足等式約束(如幾何一致性、連接關(guān)系等),也需要滿足不等式約束(如非相交條件、支撐條件與物理可行性等)。

      更重要的是,強(qiáng)約束會(huì)顯著收縮可行三維配置空間,使「高度、距離、最短路徑」等空間關(guān)系在不同合理解釋下更具穩(wěn)定性,從而使評(píng)測(cè)結(jié)果具備更好的可量化性與可比性。

      SSI-Bench正是在這一背景下提出:它不再將模型置于約束較弱、可自由組合的日常場(chǎng)景中,而是面向復(fù)雜真實(shí)工程結(jié)構(gòu)構(gòu)建評(píng)測(cè)環(huán)境,要求模型形成約束一致的三維結(jié)構(gòu)假設(shè),并在此基礎(chǔ)上完成空間推理。


      聚焦復(fù)雜三維結(jié)構(gòu)

      純?nèi)斯び埠舜蛟?/strong>

      任務(wù)形式:用排序題「逼出」真3D

      SSI-Bench不再讓模型做選擇題,而是統(tǒng)一成排序任務(wù):每題給出3或4個(gè)候選「構(gòu)件/構(gòu)件組」,要求在指定幾何/拓?fù)錅?zhǔn)則下輸出正確的全排列順序。

      覆蓋能力:幾何+拓?fù)?多視角一致性

      全基準(zhǔn)共1,000道排序題,任務(wù)分兩大類:

      • 幾何類(Geometric):Ground Height / Ground Angle / Dimension / Relative Distance / Area / Volume;

      • 拓?fù)漕悾═opological):Hop Distance / Cycle Length等圖結(jié)構(gòu)關(guān)系;

      并額外引入多視角題目:以兩張圖配合,一張?zhí)峁﹨⒖紭?gòu)件,一張給出待比較目標(biāo),重點(diǎn)考察跨視角構(gòu)件對(duì)應(yīng)與整體結(jié)構(gòu)一致性。


      構(gòu)建過(guò)程:十位研究者耗費(fèi)400+小時(shí)純?nèi)斯ご蚰?/strong>

      為了保證數(shù)據(jù)集的質(zhì)量與多樣性,同時(shí)也由于缺乏真實(shí)結(jié)構(gòu)構(gòu)件的標(biāo)注數(shù)據(jù),SSI-Bench的構(gòu)建流程非?!赣埠恕埂?0位研究者投入超過(guò)400小時(shí),從大量真實(shí)結(jié)構(gòu)圖片中進(jìn)行人工篩選與題目設(shè)計(jì):

      • 數(shù)據(jù)收集:研究中共計(jì)審閱約20,000張結(jié)構(gòu)相關(guān)圖片,結(jié)構(gòu)形式包括空間網(wǎng)架、鐵塔、斜拉橋、木竹結(jié)構(gòu)、鋼筋籠、管道等,最終保留2,000+候選;主要來(lái)自免版稅來(lái)源(Unsplash / Pexels / Pixabay),多視角部分還補(bǔ)充了自采圖像。

      • 任務(wù)設(shè)計(jì):結(jié)合空間智能需求與結(jié)構(gòu)工程專業(yè)知識(shí),共精心設(shè)計(jì)2大類、10小類任務(wù)。

      • 元數(shù)據(jù)標(biāo)注:判斷每張圖片適用的任務(wù)類型,使用Label Studio提供構(gòu)件定位標(biāo)注;

      • 問(wèn)題生成:依據(jù)圖片色彩自動(dòng)選取標(biāo)注顏色,并按構(gòu)件位置自動(dòng)布局標(biāo)注文本;問(wèn)題生成后,由人工復(fù)核清晰度與遮擋情況。

      • 質(zhì)量檢驗(yàn):每題均由獨(dú)立檢查者復(fù)核,若存在分歧則交由第三人裁決。最終共獲得1,000道有效題目。


      模型仍在起跑線

      人類領(lǐng)先近六成

      SSI-Bench系統(tǒng)評(píng)測(cè)了31個(gè)主流VLM,結(jié)論非常直接:人類幾乎「碾壓式領(lǐng)先」。

      人類平均91.6%,最強(qiáng)閉源33.6%(Gemini-3-Flash),最強(qiáng)開源22.2%(GLM-4.6V),隨機(jī)猜測(cè)基線12.85%

      也就是說(shuō),哪怕拿到當(dāng)下最強(qiáng)大模型,人類仍然領(lǐng)先58個(gè)百分點(diǎn)(91.6 ? 33.6)。


      更為關(guān)鍵的是,即使鼓勵(lì)模型生成更長(zhǎng)的推理過(guò)程,整體提升也多停留在邊際層面,難以觸及問(wèn)題的核心瓶頸。并且在部分高度依賴全局三維一致性的任務(wù)(如Multi-View、Volume)中,過(guò)度推理反而可能在錯(cuò)誤的結(jié)構(gòu)假設(shè)上持續(xù)累積偏差,使結(jié)果進(jìn)一步偏離正確答案。


      從結(jié)果到機(jī)制

      關(guān)鍵瓶頸在哪里?

      論文對(duì)代表模型做了人工復(fù)盤,歸納出四類高頻錯(cuò)誤:

      • 構(gòu)件范圍誤判:僅觀察到局部便誤認(rèn)為整體,或?qū)Χ它c(diǎn)位置產(chǎn)生錯(cuò)誤「補(bǔ)全」;遮擋越多,問(wèn)題越突出。

      • 構(gòu)件/節(jié)點(diǎn)識(shí)別錯(cuò)誤:混淆不同部件,方向判斷失準(zhǔn)(例如將傾斜構(gòu)件誤判為水平或垂直)。

      • 計(jì)算與比較邏輯錯(cuò)誤:在Area/Volume等任務(wù)中計(jì)算方式錯(cuò)誤(例如以2D投影替代3D體積),或采用不成立的簡(jiǎn)化假設(shè)。

      • 3D空間邏輯錯(cuò)誤:深度關(guān)系混亂、跨視角對(duì)應(yīng)失敗、關(guān)系組合不穩(wěn)定,進(jìn)而導(dǎo)致整體結(jié)構(gòu)假設(shè)不一致。

      這也解釋了SSI-Bench的「硬核」并不在于題目刻意刁鉆,而在于它迫使模型直面并補(bǔ)齊兩項(xiàng)關(guān)鍵短板:三維結(jié)構(gòu)構(gòu)型識(shí)別約束一致的空間推理。


      結(jié)語(yǔ)

      SSI-Bench的價(jià)值,并不是再造一個(gè)「更難的VQA」,而是把空間智能評(píng)估拉回一個(gè)更接近現(xiàn)實(shí)的坐標(biāo)系:

      當(dāng)場(chǎng)景是復(fù)雜真實(shí)結(jié)構(gòu)、當(dāng)可行解被強(qiáng)約束收縮、當(dāng)2D捷徑不再可靠——模型是否還能穩(wěn)定地構(gòu)建約束一致的3D結(jié)構(gòu)假設(shè)并完成推理?

      從目前結(jié)果看,答案仍然很殘酷:模型還在起跑線,人類已在終點(diǎn)線附近。

      但也正因如此,SSI-Bench給出了一個(gè)非常明確的研究方向:

      讓空間智能體從「會(huì)看圖說(shuō)話」,走向「會(huì)在結(jié)構(gòu)里思考」。

      參考資料:

      https://ssi-bench.github.io/

      Yang, C. (楊晨), Lin, G., He, Y., Chen, P., Liu, G., Mo, Y., Xu, Z., Wang, L., Zhang, G., Zhang, Z., Zeng, S., Wang, C. (王琛), & Fan, J. (樊健生) (2026). Thinking in structures: Evaluating spatial intelligence through reasoning on constrained manifolds. arXiv. https://arxiv.org/abs/2602.07864.

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      伊朗伊斯蘭革命衛(wèi)隊(duì)稱其導(dǎo)彈擊中了科威特美軍基地

      伊朗伊斯蘭革命衛(wèi)隊(duì)稱其導(dǎo)彈擊中了科威特美軍基地

      極目新聞
      2026-03-08 10:58:27
      OpenClaw大熱,但不是每個(gè)人都適合養(yǎng)“龍蝦”

      OpenClaw大熱,但不是每個(gè)人都適合養(yǎng)“龍蝦”

      經(jīng)濟(jì)觀察報(bào)
      2026-03-08 12:17:03
      楊冪素顏趕路被拍,瘦得讓人認(rèn)不出,她卻早把身體當(dāng)工具用了

      楊冪素顏趕路被拍,瘦得讓人認(rèn)不出,她卻早把身體當(dāng)工具用了

      老吳教育課堂
      2026-03-08 09:48:53
      古特雷斯譴責(zé)聯(lián)黎部隊(duì)遭襲事件

      古特雷斯譴責(zé)聯(lián)黎部隊(duì)遭襲事件

      環(huán)球網(wǎng)資訊
      2026-03-07 13:29:30
      內(nèi)娛很久沒(méi)有出現(xiàn)這么“不可控”的男藝人了

      內(nèi)娛很久沒(méi)有出現(xiàn)這么“不可控”的男藝人了

      仙女事件簿
      2026-03-06 23:18:27
      伊朗外長(zhǎng)宣布革命衛(wèi)隊(duì)已經(jīng)事實(shí)獨(dú)立

      伊朗外長(zhǎng)宣布革命衛(wèi)隊(duì)已經(jīng)事實(shí)獨(dú)立

      遠(yuǎn)方青木
      2026-03-04 00:29:55
      這跟不穿有啥區(qū)別??jī)?nèi)褲外露、開叉開到腰,有錢人的時(shí)尚真看不懂

      這跟不穿有啥區(qū)別??jī)?nèi)褲外露、開叉開到腰,有錢人的時(shí)尚真看不懂

      潮鹿逐夢(mèng)
      2026-03-02 17:19:02
      中國(guó)被騙了!美國(guó)隱瞞造假長(zhǎng)達(dá)30年,航母核潛艇用的全是殘次品

      中國(guó)被騙了!美國(guó)隱瞞造假長(zhǎng)達(dá)30年,航母核潛艇用的全是殘次品

      安珈使者啊
      2026-03-08 14:17:59
      油價(jià)一夜大變天!3月7日92、95號(hào)汽油和柴油價(jià)格實(shí)時(shí)更新,油價(jià)上漲不停歇

      油價(jià)一夜大變天!3月7日92、95號(hào)汽油和柴油價(jià)格實(shí)時(shí)更新,油價(jià)上漲不停歇

      沙雕小琳琳
      2026-03-07 15:53:20
      臺(tái)灣油價(jià)調(diào)升民怨高漲,民眾黨民代:賴當(dāng)局腦袋是不是太小?

      臺(tái)灣油價(jià)調(diào)升民怨高漲,民眾黨民代:賴當(dāng)局腦袋是不是太小?

      海峽導(dǎo)報(bào)社
      2026-03-08 11:46:13
      山姆1.38公斤冰塊賣37.9元,消費(fèi)者稱比冰塊融化速度慢,而且顏值高,門店工作人員:銷量不錯(cuò),現(xiàn)貨極少

      山姆1.38公斤冰塊賣37.9元,消費(fèi)者稱比冰塊融化速度慢,而且顏值高,門店工作人員:銷量不錯(cuò),現(xiàn)貨極少

      觀威海
      2026-03-04 10:39:05
      小汪總直播認(rèn)錯(cuò):蘭姐辛苦,多陪家人是正經(jīng)事!

      小汪總直播認(rèn)錯(cuò):蘭姐辛苦,多陪家人是正經(jīng)事!

      手工制作阿殲
      2026-03-08 09:08:30
      斷交7年后,美國(guó)和委內(nèi)瑞拉突然復(fù)交,第二天就發(fā)一張“黃金證”

      斷交7年后,美國(guó)和委內(nèi)瑞拉突然復(fù)交,第二天就發(fā)一張“黃金證”

      最美的巧合
      2026-03-08 14:21:13
      蔣介石做夢(mèng)也沒(méi)想到!自己的曾孫脫離臺(tái)灣后,竟跑到大陸創(chuàng)業(yè)定居

      蔣介石做夢(mèng)也沒(méi)想到!自己的曾孫脫離臺(tái)灣后,竟跑到大陸創(chuàng)業(yè)定居

      攬星河的筆記
      2026-02-23 22:23:05
      特朗普大禍臨頭!伊朗已公開放話,全球?qū)⒆兊酶靵y?

      特朗普大禍臨頭!伊朗已公開放話,全球?qū)⒆兊酶靵y?

      毛豆論道
      2026-03-06 18:26:34
      未來(lái)數(shù)日,美以或全面掌控波斯天空,海灣國(guó)家參戰(zhàn)可能性增加

      未來(lái)數(shù)日,美以或全面掌控波斯天空,海灣國(guó)家參戰(zhàn)可能性增加

      高博新視野
      2026-03-05 17:51:14
      最高人民檢察院檢察長(zhǎng) 應(yīng)勇:公共利根本上是人民利益

      最高人民檢察院檢察長(zhǎng) 應(yīng)勇:公共利根本上是人民利益

      中國(guó)日?qǐng)?bào)網(wǎng)
      2026-03-08 14:18:05
      特朗普宣稱伊朗小學(xué)遭襲致至少165人遇難事件“是伊朗所為” 稱伊朗的彈藥襲擊“毫無(wú)精準(zhǔn)度可言”

      特朗普宣稱伊朗小學(xué)遭襲致至少165人遇難事件“是伊朗所為” 稱伊朗的彈藥襲擊“毫無(wú)精準(zhǔn)度可言”

      閃電新聞
      2026-03-08 13:11:39
      何潔月耗40萬(wàn)直播哭窮賣慘,年入兩千萬(wàn)養(yǎng)6口人?每天醒了就是干

      何潔月耗40萬(wàn)直播哭窮賣慘,年入兩千萬(wàn)養(yǎng)6口人?每天醒了就是干

      觀察鑒娛
      2026-03-07 10:28:58
      美伊開戰(zhàn),越南和菲律賓被打醒!特朗普沒(méi)想到:亞太盟友變天了

      美伊開戰(zhàn),越南和菲律賓被打醒!特朗普沒(méi)想到:亞太盟友變天了

      阿芒娛樂(lè)說(shuō)
      2026-03-08 04:32:59
      2026-03-08 15:23:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      14669文章數(shù) 66667關(guān)注度
      往期回顧 全部

      數(shù)碼要聞

      英偉達(dá)吃下獨(dú)顯市場(chǎng)94%,AMD怎么了?

      頭條要聞

      伊朗小學(xué)遭襲致超165人遇難 特朗普:是伊朗干的

      頭條要聞

      伊朗小學(xué)遭襲致超165人遇難 特朗普:是伊朗干的

      體育要聞

      大傷后被交易,他說(shuō):22歲的我已經(jīng)死了

      娛樂(lè)要聞

      周迅新戀情曝光,李亞鵬等人已成過(guò)去

      財(cái)經(jīng)要聞

      油價(jià)要失控?

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      汽車要聞

      9分鐘充飽 全新騰勢(shì)Z9GT首搭閃充技術(shù)26.98萬(wàn)起

      態(tài)度原創(chuàng)

      數(shù)碼
      本地
      手機(jī)
      公開課
      軍事航空

      數(shù)碼要聞

      技嘉發(fā)布Z890 Plus主板,為英特爾Arrow Lake Refresh處理器鋪路

      本地新聞

      食味印象|一口入魂!康樂(lè)烤肉串起千年絲路香

      手機(jī)要聞

      紅魔手機(jī)風(fēng)冷散熱逆襲!曾被嘲,友商現(xiàn)跟風(fēng)

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      王毅:解決臺(tái)灣問(wèn)題 實(shí)現(xiàn)祖國(guó)完全統(tǒng)一不可阻擋

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版