商湯科技正式開源空間智能模型日日新SenseNova-SI-1.3,在空間測量、視角轉換、綜合推理等核心任務中展現出顯著提升,另外對比之前的版本增強了回答簡答題的能力。在集成多項權威空間智能榜單的綜合評測平臺EASI上,SenseNova-SI-1.3綜合性能超越Gemini-3-Pro,均分斬獲EASI-8(八個權威空間智能榜單的混合評測)標準第一,在多個高難度空間任務(尤其是視角轉換)中表現優異。
![]()
刁鉆考題驗證:SenseNova-SI-1.3精準突破空間智能核心難點
EASI-8包含一系列專門考察空間理解能力的高難度測試題,讓Gemini-3-Pro等模型都頻頻踩坑。那么SenseNova-SI-1.3表現如何呢?(下列問題在測試模型時使用的原題為英文,為便于讀者理解翻譯為中文)。
![]()
題目要求統計兩張照片中建筑模型的總數量,核心難點是理解兩張圖的對應關系,以此避免遮擋漏數和重復多數。圖2視角下顯現出圖 1 中被遮擋的深灰色建筑,且部分模型在兩圖中重復出現。Gemini-3-Pro未完全去重,誤數為 6 個;SenseNova-SI-1.3則給出 “4 個”的準確答案。
![]()
題目給出兩張書房局部照片,已知 iMac 位于房間北部,詢問學生寫作業區域的方位。需先理解兩張圖片屬于同一空間,再通過視覺線索拼接場景。Gemini-3-Pro誤判學習區在西側;SenseNova-SI-1.3精準定位 “西北角”,完全符合空間邏輯。
![]()
題目要求以 “未戴眼鏡男士的自身視角” 判斷身旁戴眼鏡男士的方位,考察 “參照系轉換” 能力,模型很容易以“觀察者視角”來判斷方向。Gemini-3-Pro就誤選了 “右邊”;SenseNova-SI-1.3則能正確給出 “左邊” 的正確答案。
![]()
題目給出粉色瓶子前、后、左、右 4 張照片,詢問圖 4 角度下瓶子左邊物體。這道題需整合多視角線索重構房間全局布局,再切換至目標視角判斷方位 —— 第 4 張照片中瓶子左側完全處于視覺盲區,僅能通過前 3 張圖中的窗戶、床、衣柜等線索還原空間關系。Gemini-3-Pro誤選 “窗戶和藍色窗簾”,SenseNova-SI-1.3精準鎖定正確答案 “衣柜和門”。
![]()
以雙層巴士與公交站的場景為題,需避免陷入“英國巴士靠左行駛,因此靠站的是左側”的常識陷阱,而是通過實際的視覺畫面判斷方位。Gemini-3-Pro誤判 “左側” 為答案;而 SenseNova-SI-1.3 則準確理解 “右側” 為正確答案。
空間智能是極其獨特的多模態能力
![]()
Core Knowledge Deficits in Multi-Modal Language Models (2025)發現視角轉換任務與其它多模態任務的相關性(紅框內)呈藍色,即代表相關性較低
一篇2025年發表于機器學習頂會ICML的論文《Core Knowledge Deficits in Multi-Modal Language Models》揭示了一個有趣的發現:視角轉換(Perspective)和所有傳統多模態模型的能力的相關性均異常得低,這代表主流算法路徑可能不是空間智能的形成的有效路徑,這也解釋了為什么領先的多模態大模型在空間智能相關的任務上表現不佳。
![]()
Core Knowledge Deficits in Multi-Modal Language Models (2025)發現增大模型尺寸對提升視角轉換任務效果不佳
這篇論文也發現,空間智能似乎存在反尺度效應的現象:更大的模型并不能更好地解決空間智能任務。另外,在EASI的官方報告中也可以找到相似的描述,指出視角轉換任務(Perspective-taking)依然是最具挑戰的基礎能力之一。
空間智能需要全新的學習范式。
從3D世界數據匱乏到空間智能的尺度效應
![]()
空間智能的核心——視角轉換任務被拆解成了三個關鍵步驟:建立跨視角關聯、理解視角移動、想象視角變換,并圍繞著解決這三個基礎能力構造大量訓練數據
學術界現有數據集多著重于目標識別與場景理解,模型往往停留在圖像模式匹配階段,難以形成穩定的空間理解能力。基于這一洞察,想要解決空間智能尤其是視角轉換任務,簡單擴充相關數據規模是不夠的。為了解決這一根本問題,我們將視角轉換看作從二維視覺信息邁向三維空間關系理解的關鍵橋梁,并將其拆解為遞進的能力階段,由易到難、難度遞增的三個任務層級(建立跨視角關聯、理解視角移動、想象視角變換),并構造大量且層次分明的訓練數據,使模型建立完備的空間理解能力。
同時,在數據規模持續擴大的過程中,SenseNova-SI團隊挖掘并重組多視角學術數據資源,將許多過去未被充分利用的標注轉化為視角轉換訓練數據。例如,多目關聯數據集MessyTable提供了高物體復雜度場景,其中跨視角物體一致性信息與精確的相機位姿標注,可用于訓練物體對應與相機運動推理能力;而部分室內場景掃描數據如CA-1M中包含物體自身朝向標注的樣本,則被用于補充模型進行視角轉換與想象所需的稀缺數據。這種跨數據源的重組與再利用,使積累大量豐富而系統的空間理解數據成為可能。
轉載來源:商湯科技
本文為量子位獲授權轉載,觀點僅為原作者所有。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.