![]()
這項由西湖大學陳一鳴教授聯合浙江大學、清華大學、上海交通大學、復旦大學等多所高校研究團隊完成的突破性研究,發表于2025年10月的計算機視覺頂級會議論文集,arxiv編號為2510.13800v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。這項研究首次解決了一個困擾人工智能領域多年的難題:如何讓計算機像人類一樣理解三維空間,并能準確地在復雜的立體環境中找到特定物體,然后基于這些物體的位置關系進行復雜的空間推理。
當我們走進一個房間時,大腦會自動識別出沙發在哪里、桌子在哪里,然后輕松判斷出"電話在桌子的左邊還是右邊"這樣的問題。這個看似簡單的過程,對計算機來說卻是一個巨大的挑戰。就像一個剛學會走路的孩子,雖然能看到各種物體,但很難準確理解它們在空間中的相對位置關系。
研究團隊發現,現有的3D人工智能系統就像一個只會背誦地理知識但從未實地探索的學生。它們可能知道很多關于物體的信息,比如椅子長什么樣、桌子有什么特征,但一旦需要在真實的三維空間中找到這些物體,并理解它們之間的位置關系時,就會變得手足無措。這種局限性嚴重影響了人工智能在自動駕駛、機器人導航、虛擬現實等實際應用中的表現。
為了解決這個問題,研究團隊開發了一個名為"接地空間推理器"(GS-Reasoner)的創新框架。這個系統的核心思想就像教會一個人先學會"指認"物體,再學會"思考"它們之間的關系。換句話說,系統首先要能準確地在三維空間中找到并標出各種物體的位置,然后基于這些具體的位置信息進行邏輯推理。
這種"先找到、再思考"的方法正是人類處理空間問題的自然方式。當有人問你"餐桌上的杯子離窗戶近還是離門近"時,你首先會在腦海中定位餐桌、杯子、窗戶和門的具體位置,然后比較距離得出答案。研究團隊將這種人類認知過程轉化為人工智能系統可以理解和執行的算法。
一、突破性的雙路徑融合技術
傳統的3D人工智能系統面臨著一個根本性的矛盾:要么擅長理解物體的語義信息(比如識別這是一把椅子),要么擅長處理幾何信息(比如判斷物體的形狀和位置),但很難同時處理這兩種信息。這就像一個人要么只認識字但不會看圖,要么只能看懂圖形但不認識字,無法將文字和圖像信息結合起來理解一本圖文并茂的書。
研究團隊設計的解決方案可以比作一個高明的翻譯官,能夠將語義信息和幾何信息"翻譯"成同一種"語言",讓它們能夠無縫協作。具體來說,他們開發了一種雙路徑池化機制,這個機制就像一個智能的信息整合器。
在這個系統中,每個圖像被劃分成許多小塊,就像將一幅大拼圖分解成若干小片。對于每個小片,系統會同時收集兩種信息:一種是語義信息,告訴系統這個區域可能包含什么物體;另一種是幾何信息,描述這個區域在三維空間中的具體位置和形狀特征。
雙路徑池化機制的巧妙之處在于它能夠根據語義信息來篩選和整合幾何信息。當系統看到一個圖像塊時,它會先判斷這個區域最可能包含什么物體,然后根據這個判斷來選擇最相關的幾何特征。這就像一個經驗豐富的醫生,在查看X光片時會根據病人的癥狀描述來重點關注特定區域的影像特征。
同時,系統還會根據每個圖像塊的中心位置來調整幾何特征的權重。如果一個圖像塊的中心位置對應的是前景物體(比如桌子),系統就會更多地關注前景物體的幾何特征;如果對應的是背景(比如墻壁),就會相應調整注意力分配。這種機制確保了系統能夠準確地將空間位置信息與幾何形狀信息對應起來。
通過這種雙路徑融合技術,系統生成的每個圖像塊都包含了豐富而準確的混合信息:既知道這里可能有什么物體,也知道這些物體在三維空間中的確切位置和形狀。這為后續的物體定位和空間推理提供了堅實的基礎。
二、接地思維鏈數據集的構建
為了訓練這個復雜的系統,研究團隊還面臨另一個挑戰:現有的數據集要么只提供簡單的問答對(比如"房間里有幾把椅子?""三把"),要么只包含物體識別信息,缺乏將物體定位和空間推理結合起來的訓練樣本。這就像想教一個學生解復雜的數學應用題,但只有加減法練習題和文字理解練習題,缺乏將數學計算和文字理解結合起來的綜合練習。
為了解決這個問題,研究團隊構建了一個名為"接地思維鏈"(GCoT)的全新數據集。這個數據集的特別之處在于,它不僅提供最終答案,還詳細記錄了解決問題的完整思考過程,特別是"先找物體、再推理"的邏輯鏈條。
數據集的構建過程就像編寫一本詳細的解題指南。研究團隊首先從現有的大規模3D場景數據中提取了超過15萬個問答對,這些問題涵蓋了各種空間推理任務,比如判斷物體間的相對距離、確定物體的相對方向、規劃空間路徑等。
然后,研究團隊利用先進的大型語言模型來為每個問答對生成詳細的思考過程。這個過程就像請一位優秀的數學老師來示范如何解題:不僅要給出正確答案,還要詳細說明每一步的思考邏輯。比如,對于"如果我站在散熱器旁面向桌子,電話是在桌子的左邊還是右邊?"這樣的問題,系統會詳細記錄:"首先,我需要找到散熱器的位置坐標,然后確定桌子的位置坐標,接著找到電話的位置坐標。基于我在散熱器處面向桌子的視角,計算電話相對于桌子的方位..."
這種詳細的思考過程記錄對訓練人工智能系統至關重要。就像學習開車時,教練不僅要告訴你"在這里右轉",還要解釋"為什么在這里右轉"、"如何判斷轉彎時機"、"需要注意哪些細節"。通過學習這些詳細的推理過程,AI系統能夠掌握從物體定位到空間推理的完整認知流程。
數據集中大約79%的問答對都包含了這種詳細的思考鏈條,涵蓋了相對距離判斷、相對方向判斷、絕對距離測量、物體計數、路徑規劃、出現順序判斷、房間尺寸估計等多種空間推理任務。這種全面性確保了訓練出來的系統能夠處理各種不同類型的空間推理問題。
三、革命性的自回歸物體定位
傳統的3D人工智能系統在需要定位物體時,通常依賴外部的專門檢測器,就像一個需要借助專門工具才能工作的工匠。這種依賴關系不僅增加了系統的復雜性,還限制了系統的靈活性和通用性。
GS-Reasoner的一個重大突破在于實現了完全自主的物體定位能力。這個系統就像一個技藝精湛的工匠,不需要依賴任何外部工具,僅憑自己的能力就能在三維空間中準確找到并標注各種物體的位置。
這種自回歸物體定位的工作原理可以比作一個有經驗的導游在介紹景點。當游客問"那座塔樓在哪里?"時,導游會自然地指向特定方向并說"看,就在那個位置,坐標大概是..."。GS-Reasoner也是這樣工作的:當接收到關于某個物體的詢問時,它會直接輸出該物體的三維邊界框坐標,用六個數字精確描述物體在空間中的位置和大小。
這種能力的實現依賴于前面提到的雙路徑融合技術。由于系統的每個部分都包含了豐富的語義和幾何信息,它能夠準確理解"沙發"、"桌子"等詞匯對應的空間位置。當系統看到文字描述"桌子"時,它能夠在內部的空間表示中快速定位到對應的區域,并準確輸出該區域的坐標范圍。
更重要的是,這種定位能力是集成在推理過程中的。系統不會為了定位而定位,而是根據推理需要來決定是否需要標注物體位置。比如,如果問題是"房間有多大?",系統會判斷不需要定位具體物體;但如果問題是"桌子和椅子哪個離窗戶更近?",系統就會自動定位桌子、椅子和窗戶的位置,然后進行距離比較。
這種智能化的定位策略大大提高了系統的效率。就像一個聰明的助手,知道什么時候需要查閱資料,什么時候可以直接回答問題,避免了不必要的工作量。
四、多維度空間推理能力
GS-Reasoner展現出了全面的空間推理能力,能夠處理從簡單的物體計數到復雜的路徑規劃等各種任務。這種全面性就像一個多才多藝的建筑師,既能設計宏偉的建筑布局,也能處理具體的施工細節。
在相對空間推理方面,系統能夠準確判斷物體之間的相對位置關系。當面對"如果我站在散熱器旁面向桌子,電話是在桌子的左邊還是右邊?"這樣的問題時,系統會首先確定觀察者的位置和朝向,然后建立相對的空間坐標系,最后計算目標物體在這個坐標系中的相對位置。這個過程就像一個GPS導航系統,能夠根據你當前的位置和朝向來指示目標的相對方向。
在絕對空間推理方面,系統可以測量物體間的實際距離、計算物體的真實尺寸、估算房間的面積等。這些能力就像一個精密的測量儀器,能夠提供準確的定量信息。比如,當被問及"桌子和沙發之間的距離是多少米?"時,系統會計算兩個物體中心點之間的歐幾里得距離,并給出精確的數值答案。
在時序推理方面,系統能夠分析物體在視頻中的出現順序。這種能力對于理解動態場景特別重要,就像一個細心的觀察者能夠記住事件發生的先后順序。系統通過分析物體在不同視頻幀中的可見性來判斷它們的出現時間,從而回答類似"在這個場景中,哪個物體最先出現?"的問題。
在路徑規劃方面,系統能夠為復雜的導航任務提供詳細的指引。當需要從一個位置移動到另一個位置時,系統不僅能規劃最優路徑,還能識別路徑上的重要地標物體,提供類似"向前走到書桌旁,然后左轉走向沙發"這樣的具體指示。這種能力就像一個貼心的導游,不僅知道目的地在哪里,還能提供清晰的路線指引。
五、卓越的實驗表現和驗證
研究團隊在多個權威測試平臺上對GS-Reasoner進行了全面評估,結果顯示這個系統在各項任務中都取得了令人矚目的成績,特別是在一些最具挑戰性的空間推理任務上達到了新的性能高度。
在3D視覺定位任務上,GS-Reasoner的表現可以用"準確無誤"來形容。在ScanRefer數據集上,系統在中等精度要求下達到了60.8%的準確率,這個成績已經接近甚至超過了一些專門設計的物體檢測系統。更重要的是,GS-Reasoner是完全自主實現這一性能的,不需要借助任何外部的檢測工具或預處理模塊。
在VSI-Bench空間推理基準測試中,GS-Reasoner的表現更是令人印象深刻。這個測試包含了八種不同類型的空間推理任務,系統在其中大部分任務上都取得了最佳成績。特別是在相對方向判斷任務上,系統達到了88.9%的準確率,遠超其他competing系統。在絕對距離測量任務上,準確率達到了61.9%,這對于完全基于視覺輸入的系統來說是一個相當了不起的成績。
研究團隊還進行了一系列對比實驗來驗證系統各個組件的貢獻。結果顯示,雙路徑融合技術對性能提升起到了關鍵作用。去除這個組件后,系統在物體定位任務上的準確率下降了超過7個百分點,證明了這種技術創新的重要價值。
接地思維鏈數據集的作用同樣得到了驗證。使用完整數據集訓練的系統比使用簡化數據集訓練的系統在空間推理任務上平均提升了13.8個百分點。這個結果清楚地表明,"先定位、再推理"的訓練策略確實能夠顯著提升系統的空間推理能力。
令人特別興奮的是,GS-Reasoner還展現出了出色的零樣本泛化能力。當系統在ScanNet數據上訓練后,在完全未見過的ScanNet++和ARKitScenes數據集上仍然保持了良好的性能。這種泛化能力就像一個在城市A學會開車的司機,到了城市B仍然能夠熟練駕駛,說明系統學到的不是死記硬背的規則,而是真正的空間理解能力。
六、技術架構的創新設計
GS-Reasoner的技術架構體現了多個層面的創新設計,整個系統就像一個精密的交響樂團,各個組件協調配合,共同演奏出和諧的空間理解樂章。
系統的核心建立在視頻大型語言模型的基礎上,選擇了LLaVA-Video 7B作為主干網絡。這個選擇就像選擇了一個既有語言天賦又有視覺敏感度的學生作為培養對象。在此基礎上,研究團隊集成了兩個關鍵的專門模塊:語義編碼器和幾何編碼器。
語義編碼器采用了SigLIP模型,這是一個在大規模圖像文本對上預訓練的視覺變換器。它的作用就像一個博學的圖書管理員,能夠準確理解每個視覺區域對應的語義概念。當系統看到一個圖像區域時,語義編碼器會提取出豐富的語義特征,告訴系統這個區域可能包含什么類型的物體。
幾何編碼器則采用了Sonata模型,這是基于Point Transformer v3架構構建的高效點云編碼器。它就像一個精密的測量儀器,專門負責理解空間的幾何結構。幾何編碼器接收從深度圖反投影得到的三維點云數據,提取出每個空間區域的形狀、大小、相對位置等幾何信息。
兩個編碼器的輸出通過雙路徑融合模塊進行整合。這個模塊的設計特別巧妙,它不是簡單地將兩種信息相加,而是采用了注意力機制來實現智能融合。具體來說,每個圖像塊的語義特征作為查詢信號,用來從對應的幾何特征中選擇最相關的信息。這就像一個智能過濾器,能夠根據語義上下文來篩選最有用的幾何信息。
同時,系統還采用了創新的位置編碼策略。傳統方法通常對整個點云進行統一的位置編碼,但GS-Reasoner采用了更精細的方法:對每個圖像塊中心對應的三維點進行單獨的位置編碼,然后通過插值方法獲得位置對齊的幾何特征。這種方法確保了位置信息和幾何信息的精確對應。
整個系統采用端到端的訓練策略,所有參數(除了凍結的視覺編碼器)都參與訓練優化。訓練過程分為兩個階段:首先在3D視覺定位數據集上進行預訓練,讓系統掌握基本的物體定位能力;然后在GCoT數據集和其他3D任務數據上進行精調,讓系統學會將定位能力整合到復雜的推理過程中。
為了應對3D數據相對稀缺的挑戰,研究團隊還設計了專門的數據增強策略。這些增強操作包括繞Z軸的旋轉、隨機縮放和平移等,旨在提高系統對幾何變換的魯棒性,防止過擬合特定的空間配置。
七、實際應用前景和影響
GS-Reasoner所代表的技術突破為多個實際應用領域打開了新的可能性。這些應用就像種子一樣,有望在不同的土壤中生根發芽,結出豐碩的果實。
在自動駕駛領域,這項技術能夠顯著提升車輛對復雜交通環境的理解能力。傳統的自動駕駛系統雖然能夠識別道路上的各種物體,但在理解這些物體之間的空間關系方面還存在不足。GS-Reasoner的空間推理能力可以幫助自動駕駛系統更好地理解"前方的卡車正在變道,我應該保持距離"或"右側的行人可能要過馬路,我需要減速"這樣的復雜場景。
在機器人導航方面,這項技術能夠讓服務機器人更智能地理解和操作家庭環境。一個配備了GS-Reasoner技術的家用機器人不僅能夠找到客廳里的沙發和茶幾,還能理解"把杯子放在離沙發最近的桌子上"這樣包含空間推理的指令。這種能力對于提升機器人的實用性至關重要。
在虛擬現實和增強現實應用中,精確的空間理解能夠創造更加沉浸式的體驗。用戶在虛擬環境中的互動會變得更加自然和直觀,系統能夠準確理解用戶的空間意圖,提供更加精確的響應。
在建筑設計和城市規劃領域,這項技術可以幫助專業人士更好地分析和優化空間布局。設計師可以通過自然語言查詢來了解設計方案中不同元素之間的空間關系,比如"客廳的采光如何?"或"從廚房到餐廳的動線是否合理?"
醫療影像分析是另一個潛在的應用領域。雖然GS-Reasoner目前主要針對一般的3D場景,但其空間推理的核心思想可以擴展到醫療影像分析中,幫助醫生更準確地理解病灶的位置關系和空間特征。
在教育領域,這項技術可以為空間幾何學習提供強大的輔助工具。學生可以通過自然語言與三維幾何模型進行交互,提出各種空間關系的問題,獲得直觀而準確的答案。
研究團隊特別強調,GS-Reasoner的一個重要優勢是它的通用性和可擴展性。系統不是為特定應用定制的,而是提供了一個通用的空間理解框架。這意味著它可以相對容易地適應不同的應用場景,就像一個多功能工具箱,可以在不同的工作環境中發揮作用。
說到底,這項研究代表了人工智能在空間理解方面的一個重要里程碑。GS-Reasoner首次實現了真正意義上的端到端空間推理,讓人工智能系統能夠像人類一樣自然地理解和推理三維空間。這種能力的獲得不僅解決了一個重要的技術難題,更為人工智能在現實世界中的應用開辟了新的道路。
歸根結底,空間理解是智能行為的基礎。當我們能夠讓機器真正"看懂"空間、"理解"位置關系時,我們就向創造真正智能的人工智能系統邁出了重要一步。GS-Reasoner所展示的技術路徑和取得的成果,為這個宏偉目標的實現提供了堅實的技術基礎和清晰的發展方向。未來,隨著這項技術的進一步發展和完善,我們有理由期待一個更加智能、更加便利的人機交互世界的到來。有興趣深入了解這項研究細節的讀者,可以通過arxiv編號2510.13800v1查閱西湖大學研究團隊發表的完整論文。
Q&A
Q1:GS-Reasoner是什么?
A:GS-Reasoner是由西湖大學聯合多所高校開發的3D空間推理系統,它能像人類一樣先在三維空間中準確找到物體位置,然后基于這些位置信息進行復雜的空間推理,比如判斷物體間的距離關系、相對方向等。
Q2:GS-Reasoner跟現有的3D AI系統有什么不同?
A:最大的不同是GS-Reasoner不需要依賴外部檢測工具就能自主定位物體,而且能將物體定位和空間推理無縫結合。傳統系統要么只擅長識別物體,要么只擅長處理空間信息,很難同時處理這兩種任務。
Q3:這項技術能用在哪些地方?
A:主要應用包括自動駕駛(幫助車輛更好理解交通環境)、機器人導航(讓家用機器人更智能地執行空間相關指令)、虛擬現實(創造更沉浸式體驗)、建筑設計(分析空間布局)等領域。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.