![]()
新智元報(bào)道
編輯:LRST
【新智元導(dǎo)讀】中山大學(xué)等機(jī)構(gòu)推出SpatialDreamer,通過主動心理想象和空間推理,顯著提升了復(fù)雜空間任務(wù)的性能。模擬人類主動探索、想象和推理的過程,解決了現(xiàn)有模型在視角變換等任務(wù)中的局限,為人工智能的空間智能發(fā)展開辟了新路徑。
盡管多模態(tài)大語言模型(MLLMs)在場景理解方面取得了顯著進(jìn)展,但在需要心理模擬的復(fù)雜空間推理任務(wù)上表現(xiàn)仍然有限。
現(xiàn)有方法多依賴于對空間數(shù)據(jù)的被動觀察,缺乏人類在空間認(rèn)知中特有的主動想象與動態(tài)更新內(nèi)部表征的能力。
例如,在需要變換視角以判斷遮擋物體位置的任務(wù)中,現(xiàn)有模型往往因視角單一而推理失敗。
為此,來自MBZUAI與中山大學(xué)的研究團(tuán)隊(duì)提出了SpatialDreamer,一個基于強(qiáng)化學(xué)習(xí)的框架,旨在通過主動探索、視覺想象與證據(jù)融合的閉環(huán)過程,賦予MLLMs類人的空間心理模擬能力。
![]()
論文鏈接: https://arxiv.org/pdf/2512.07733
![]()
SpatialDreamer模擬人類的空間認(rèn)知過程,構(gòu)建了一個包含以下三個步驟的閉環(huán)推理流程:
1) 探索:模型根據(jù)當(dāng)前場景推理出最優(yōu)的自我中心動作(如「前進(jìn)0.75米」或「左轉(zhuǎn)45度」);
2) 想象:調(diào)用世界模型(如SVC)生成執(zhí)行動作后的新視角圖像;
3) 推理:整合所有累積的視覺證據(jù),生成最終答案。
該過程使模型從「被動觀察」轉(zhuǎn)向「主動目標(biāo)導(dǎo)向的想象」,實(shí)現(xiàn)了在內(nèi)部三維環(huán)境中自主決定「去哪看、看什么、如何推理」。
為解決長序列推理任務(wù)中獎勵稀疏的問題,研究團(tuán)隊(duì)提出了GeoPO,一種結(jié)合樹狀采樣結(jié)構(gòu)與幾何一致性約束的策略優(yōu)化方法:
1) 樹狀采樣:每步采樣多個動作分支,支持回溯與多路徑探索;
2) 多級獎勵設(shè)計(jì):融合任務(wù)級獎勵與步級獎勵,提供細(xì)粒度反饋;
3) 幾何懲罰機(jī)制:對冗余或沖突動作(如連續(xù)同向或反向移動)施加懲罰系數(shù)(如0.9),鼓勵高效軌跡生成。
GeoPO在提升模型性能的同時,也顯著加快了訓(xùn)練收斂速度。
![]()
為進(jìn)一步引導(dǎo)模型學(xué)習(xí)「思考-想象-回答」的模式,構(gòu)建了SpatialDreamer-SFT數(shù)據(jù)集包括單輪推理數(shù)據(jù)(single-pass) 以及反思式推理數(shù)據(jù)(reflective reasoning),其中反思式推理通過「錯誤注入 → 自我糾正 → 重建推理鏈」構(gòu)建。
實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)在多個空間推理基準(zhǔn)上驗(yàn)證了SpatialDreamer的有效性:
1) SAT:在真實(shí)與合成圖像中均達(dá)到SOTA,平均準(zhǔn)確率分別達(dá)93.9%與92.5%;
2) MindCube-Tiny:整體準(zhǔn)確率84.9%,較基線Qwen2.5-VL-7B提升超過55%;
3) VSI-Bench:在物體計(jì)數(shù)、相對方向、路徑規(guī)劃等任務(wù)中全面領(lǐng)先,平均準(zhǔn)確率62.2%
總結(jié)
邁向具備空間想象能力的通用智能
SpatialDreamer的意義不僅在于提升空間推理準(zhǔn)確率,更關(guān)鍵的是:它證明MLLMs可以通過「想象力」增強(qiáng)推理能力,向人類般的空間智能邁出重要一步。
參考資料:
https://arxiv.org/pdf/2512.07733
秒追ASI
?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點(diǎn)亮星標(biāo),鎖定新智元極速推送!
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.