最近一篇論文讓我反復觀看,那就是李飛飛聯合西北大學教授做了一個測試,將ChatGPT、Claude、DEEPSEEK等主流一線模型做了一個基線測試。
” “Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces”
研究團隊設計了一個 空間推理測試集 VSI-Bench ,包含:
5000+ 視頻空間問答任務
需要模型理解:
物體位置
空間移動
距離關系
環境結構
測試模型
論文測試了多種大模型,例如:
GPT 系列
多模態模型
視覺語言模型
從而得出結論
LLM的空間理解能力遠低于人類
語言推理技巧(CoT、Tree-of-Thought)幾乎無幫助
模型缺乏真正的 “world model / 空間認知結構”
并且語言推理技巧也幾乎完全落后人類
語言推理技巧(CoT、Tree-of-Thought)幾乎無幫助
模型缺乏真正的 “world model / 空間認知結構”
LLM模型無法做空間的底座
為什么現在的AI模型無法生成空間系統了,因為他就沒有辦法去理解空間操作能力,這就導致我們現在做vision Pro的開發,當程序員想用AI編碼工具生成,幾乎無法完成。
![]()
被迫只能手動寫代碼,在現在空間計算里面,因為他們記不住在視頻里面的內容,也很難分辨出空間里面的物體。
在論文里舉例,如果現在的常識是在3D圖形旋轉一圈之后,看下AI模型能不能識別,而這種只是拿著標準答案來測試;于是他們用真實的家庭識別來測試,或者工廠或者辦公室。
![]()
空間智能有4個能力,分別是視覺能力、語言能力、時間處理、空間推理,其中
1.視覺感知(visual perception)
模型需要:
識別物體
識別形狀
識別位置
例如:
桌子、椅子、門、窗戶
2.語言能力(linguistic intelligence)
模型要理解問題。
例如:桌子在沙發左邊還是右邊?
3.時間處理(temporal processing)
視頻是:
時間序列
模型要理解:
物體移動
相機移動
人的路徑
這是最難的部分。
模型要理解:
距離
方向
相對位置
例如:
桌子在椅子前面
而這點現在大模型做不到,主要是因為大模型現在只有tokens sequence,所以LLM不會真正理解房間結構、路徑、距離。
最后就是通過空間智能之后,加上時間的維度就是空間記憶,比如在記憶里面人類可以記住物體的位置,完整的房間布局結構。
![]()
而機器人要想能夠自主運動,就是需要空間模型,而當前時間是沒有空間模型的,都是LLM,這也是為什么vision Pro與AndroidXR會成為下一代革命,當真正使用空間設備的人多了之后,就可以快速生成更多高質量的空間數據,就可以完成空間智能模型的訓練了。
今天的分享就到這里
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.