![]()
二十年前,李飛飛主導創建的ImageNet猶如一束火種,點燃了深度學習的革命,奠定了現代AI發展的基石。而今,面對席卷全球的AI浪潮,她再次將目光投向更遠的前沿——她堅信,未來十年AI的真正突破將來自于「世界模型」與「空間智能」的構建。
在近日Lenny Rachitsky的深度訪談中,李飛飛不僅回顧了AI從“技術寒冬”走向“遍地開花”的歷程,更首度揭秘了一段鮮為人知的創業秘辛:就在九到十年前,自稱AI公司無異于“商業自殺”,而今卻成為每家企業爭相標榜的身份。她指出,大數據、神經網絡與GPU構成了現代AI的“黃金三件套”,但真正的未來,在于讓AI理解我們所處的三維世界。
她強調,人類是“具身智能體”,我們通過與空間的互動構建認知。而當前機器人等領域面臨的數據困境,正呼喚一種能夠融合感知、推理與物理交互的“世界模型”。這場從二維識別邁向三維理解的認知革命,不僅關乎技術演進,更將重新定義人機共生的未來。
在這場一個多小時的對話中,李飛飛搭建了一座通往AI下一個十年的階梯——讓我們看到,空間智能不僅是技術的必然走向,更是機器理解人類、融入現實世界的認知橋梁。
什么是空間智能?
空間智能作為一個整體概念,強調的是三維感知、空間推理和多模態生成三大能力的有機整合,而非簡單疊加。
真正的空間智能系統需要這三種能力緊密協作,形成一個閉環系統:三維感知提供對環境的準確理解,空間推理基于這種理解預測可能的變化和交互結果,多模態生成則將理解和預測轉化為具體行動或內容,這些行動又可能改變環境狀態,觸發新一輪的“感知—推理—生成”循環。這種閉環特性使得空間智能具有自我提升的潛力:通過與環境的持續交互,系統能夠不斷完善其內部模型和行為策略,實現類似人類的經驗學習過程。
例如,一個智能機器人可能通過反復嘗試抓取不同形狀的物體,觀察成功和失敗案例,逐步改進其物理模型和操作策略。空間智能研究面臨著多重技術挑戰和科學問題。
在感知層面,如何在開放、動態和不確定環境中實現穩健的三維感知仍是一個核心挑戰,特別是對于透明、鏡面反射等復雜材質物體的準確感知;在推理層面,如何構建能夠高效且準確預測物理交互的計算模型,同時兼顧計算效率和物理準確性,是一個關鍵難題;在生成層面,如何確保生成內容的物理可行性和功能合理性,同時保持創造性和多樣性,仍需進行深入研究。
空間智能更本質的挑戰在于如何構建一個統一的空間表示框架,能夠同時支持高效感知、推理和生成,同時保持計算可行性和擴展性。這種表示需要兼顧幾何精度、物理屬性和語義信息,使系統能夠無縫處理不同類型的空間任務。
未來空間智能研究的發展方向可能包括多種路徑。
第一種是向更綜合的多模態感知發展,整合視覺、觸覺、聽覺等多種感官通道,構建更完整的環境表征;
第二種是向更深入的物理理解方向發展,通過物理導向學習或可微分物理模擬等方法,使系統能夠學習和應用更復雜的物理規律;
第三種是向更高級的交互生成能力發展,使系統能夠根據用戶需求和環境約束創造適應性解決方案。
這些方向的共同目標是構建能夠自然理解和交互于物理世界的人工智能系統,使機器能夠像人類一樣輕松應對各種空間挑戰。
隨著空間智能研究的深入,我們可能見證一個從“單一感知”向“整合理解”,再到“創造性交互”的技術演進過程。早期的計算機視覺系統主要關注如何“看見”世界,現代空間智能則強調如何“理解”世界的結構與規律,而未來的系統將進一步發展出如何創造性地“重塑”世界的能力。這一演進路徑類似于人類從嬰兒期的基礎感知,到幼兒期的因果理解,再到成熟期的創造性問題解決的認知發展過程,這反映了智能系統與物理世界交互能力的自然進階。
隨著這一領域的持續發展,空間智能可能成為連接感知人工智能和推理人工智能的關鍵橋梁,使人工智能系統真正能夠理解和交互于我們生活的三維物理世界。
空間智能:AGI無法跳過的進化階段
空間智能與通用人工智能(AGI)的關系既是基礎性的,也是戰略性的,二者之間存在著深刻而復雜的相互依存關系,這種關系不僅影響著當前人工智能技術的發展方向,還有可能決定通用人工智能最終實現的路徑選擇。理解這一關系,需要我們跳出技術細節,審視智能的本質特征及其在自然進化和認知發展中的演化規律,從而把握空間智能在通用人工智能構建中的核心地位和作用機制。
將空間認知發展研究的啟示應用于通用人工智能構建,我們可以推斷,真正的通用人工智能可能同樣需要先建立牢固的空間認知能力,然后才能發展出真正的抽象思維和通用問題解決能力。純粹的語言模型,無論多么強大,如果缺乏對物理世界的基本理解,其通用性可能始終受到根本限制。
近期大語言模型的驚人進展為通用人工智能研究帶來了新的思路和可能性。雖然這些模型主要處理語言數據,但它們已經展現出令人驚訝的推理能力和知識整合能力。特別值得注意的是,即使沒有直接接觸三維空間數據,這些模型也能在一定程度上理解和處理空間概念。
例如,GPT—4 在處理涉及空間關系的問題時表現出了超出預期的能力,它能夠理解“把紅色方塊放在藍色圓形的左側,但在綠色三角形的上方”這樣復雜的空間指令,盡管它并未直接接觸過三維空間數據。
這種現象可能源于語言中隱含的豐富空間知識。如喬治·萊考夫和馬克·約翰遜在《我們賴以生存的隱喻》(Metaphors We Live By)中所指出的,人類語言充滿了空間隱喻,許多抽象概念都通過空間關系來表達。例如,我們說“高”興和“低”落來描述情緒狀態,用“前”途和“后”果來表達時間關系,用“深”入和“膚”淺來描述理解程度。
這些空間隱喻不僅是語言表達的修辭手段,還反映了人類思維本質上的空間化特性—我們傾向于通過空間關系來組織和理解各種概念,包括那些本身并非空間性質的抽象概念。大語言模型通過處理大量文本,可能間接學習到這些隱含的空間知識,從而展現出對空間概念具有一定的理解能力。
然而,大語言模型僅通過語言獲取的空間知識很可能存在根本局限。
首先,語言描述往往是高度抽象和簡化的,難以傳達物理世界的全部復雜性和細節。
其次,語言學習缺乏直接的感知反饋和交互經驗,無法建立感知與動作之間的緊密聯系,而這種聯系對于真正的空間理解至關重要。
最后,語言本身是人類基于直接空間經驗創造的抽象系統,通過語言間接學習空間概念存在著本質上的信息損失和扭曲。
在創造性思維方面,空間智能與抽象推理的結合為通用人工智能系統提供了創新問題解決的可能性。空間智能為通用人工智能系統注入類似的空間化思維能力,可能為其提供更強大的創造性問題解決工具。例如,現代深度學習模型已經展示了在隱空間(latent space)中進行概念混合和轉換的能力,如DALL-E能夠創造出“穿著宇航服演奏薩克斯風的鱷魚”這樣的新穎組合圖像。
在整合多感知通道方面,空間智能的貢獻尤為突出。人類空間認知依賴于視覺、聽覺、觸覺和本體感受等多種感官輸入的協同處理,這種多模態整合使我們能夠構建豐富而穩健的空間表征。通用人工智能系統同樣需要這種多模態整合能力,以應對復雜多變的實際環境。例如,自動駕駛系統需要整合相機、雷達和激光雷達等多種傳感器數據,在不同天氣和光照條件下維持可靠的環境感知;家庭服務機器人需要結合視覺識別、語音理解和觸覺反饋,精確執行日常物體操作任務。
從系統架構角度,空間智能可能為通用人工智能提供層次化表征和模塊化組織的范例。人類空間認知系統同時具備多種空間表征,從身體中心的主觀坐標系到環境中心的客觀坐標系,從細粒度的局部表征到粗粒度的全局表征,這些表征相互補充,共同支持靈活的空間理解和導航。例如,當我們在熟悉的城市中導航時,既使用地標和路線等局部空間知識,又依靠心理地圖中的全局幾何結構,同時還能根據任務需求靈活切換不同參考系統。
實現真正的空間智能還需要克服當前技術的多重局限。
首先,現有深度學習方法通常依賴大量標注數據,而空間理解和物理推理的標注極其昂貴且耗時。
其次,多模態感知系統在噪聲、部分可觀測和模態缺失等挑戰面前的魯棒性仍然不足。
再次,現有物理模擬方法在計算效率和逼真度之間存在權衡,難以同時實現實時性和準確性。最后,將空間理解與高級認知功能(如規劃、決策和創造性思維)無縫整合仍然是一個開放性挑戰。
未來空間智能研究的突破性方向包括:自監督學習方法的創新,使系統能夠從未標注的物理交互數據中學習;神經符號混合方法的深入探索,結合神經網絡的感知能力與符號系統的結構化推理;可微物理模擬的進一步發展,將物理規律作為訓練約束而非后處理規則;以及多層次空間表征的設計,使系統能夠在不同抽象級別上操作空間概念。這些方向的進展將推動空間智能向更高水平發展,為實現真正的通用人工智能鋪平道路。
總體來說,空間智能與通用人工智能的關系是深層次、多維度的相互依存,而非簡單的功能疊加。空間智能不僅為通用人工智能提供了感知和理解物理世界的基礎能力,還影響著學習機制、交互能力和創造性思維的發展路徑。
隨著研究的深入,兩者的界限可能逐漸模糊,最終融合為一個統一的智能系統。這種融合的實現將標志著人工智能從專用工具向真正通用智能的根本性跨越,開創人機交互和智能技術應用的新紀元,使人工智能系統能夠自然理解和交互于我們的三維世界,成為人類真正的智能伙伴和助手。
空間智能未來展望:從技術突破到人機協同的新紀元
在人類認知與技術融合的前沿,空間智能技術正展現出前所未有的發展潛力。從感知與處理環境的基礎能力,到人機協同的深度融合,再到探索宇宙的宏大愿景,這一領域正經歷著從理論到實踐的革命性變革。
當我們站在技術演進的十字路口,面對能耗挑戰、動態環境適應、跨場景泛化等瓶頸,創新解決方案正在各個維度涌現。同時,人機關系的本質也在發生根本轉變,從簡單的工具使用邁向相互增強的伙伴關系。更令人振奮的是,這些進步不僅限于地球表面,而且逐漸延伸至太陽系乃至更遙遠的星際空間,開創了認知與探索的新紀元。
技術瓶頸與突破方向
空間智能技術作為融合感知、認知與決策的綜合系統,其發展道路既充滿希望,又面臨諸多挑戰。從人類認知演化的角度來看,空間智能的發展歷程反映了我們對世界理解方式的根本性變革。
早期人類通過直接經驗積累空間知識,而今天,我們正借助先進的計算技術和理論框架,構建能夠自主理解和交互于環境中的智能系統。然而,當前空間智能技術的發展仍面臨多重技術瓶頸,這些瓶頸不僅限制了系統性能的提升,還制約了其在復雜場景中的應用潛力。識別這些瓶頸并探索突破路徑,對推動空間智能技術邁向更高水平具有重要意義。
能耗問題無疑是當前空間智能系統面臨的首要挑戰之一。據麻省理工學院計算機科學與人工智能實驗室的研究顯示,現有空間智能系統的能耗普遍是傳統人工智能系統的數倍,這種高能耗不僅增加了運營成本,而且限制了系統在資源受限環境中的部署可能性。這一問題的根源在于空間智能系統需要同時處理多模態感知輸入、構建動態環境表示和執行實時決策,這些操作都是計算密集型的,對處理器和內存資源提出了極高要求。
例如,一個典型的自動駕駛系統在實時處理多路高分辨率攝像頭和激光雷達數據時,其功耗可達 300~500 瓦,這遠超普通消費級電子設備的能耗水平,對車載電源系統構成顯著壓力。特別是當系統需要在高動態環境中進行毫秒級決策時,計算負載的峰值更會導致能耗劇增,這種“能量饑渴”的特性嚴重制約了空間智能技術在便攜設備和長時間工作場景中的應用。
算法效率提升同樣是突破能耗瓶頸的關鍵途徑。當前空間智能算法往往采用“盡可能多的數據,盡可能復雜的模型”的設計理念,這雖然有助于提高系統的感知精度,但也導致了大量冗余計算。通過引入注意力機制和動態計算圖(Dynamic Computational Graph)技術,新一代空間智能算法能夠根據任務需求和環境復雜度動態調整計算資源分配。
例如,谷歌研究團隊于 2023 年提出的Adaptive Depth模型,能夠根據場景復雜度自動調整神經網絡的計算深度,在保持 90%識別精度的前提下,平均減少了 60%的計算量。類似地,微軟亞洲研究院開發的時空注意力網絡(Spatio-temporal Attention Network)通過選擇性地處理場景中的關鍵區域和時間段,將三維場景理解任務的能耗降低了近 45%,而精度損失不到 5%。
伴隨著各項技術的持續迭代與突破,空間智能正在從單純的感知工具向認知計算平臺演進。這種轉變不僅體現在功能的豐富和精度的提高,更重要的是系統理解世界和推理決策的方式正在從數據驅動的統計模型向更接近人類認知過程的結構化推理邁進。
人機協同新范式
人機協同作為空間智能技術發展的核心方向之一,正在經歷從簡單輔助到深度融合的根本性轉變。傳統的人機交互模式將人與機器視為獨立的實體,人類扮演指揮者角色,機器則作為被動執行者,二者之間通過有限的接口進行信息交換。這種模式雖然在特定任務中行之有效,但在復雜動態環境下卻顯得僵化且效率低下。
隨著空間智能技術的快速發展,一種新型人機關系正在形成,其特征是人與機器的邊界逐漸模糊,雙方能力相互增強,共同構成一個功能更強大的整體系統。這種新范式不僅改變了技術形態,更深刻地重塑了人類與技術的關系本質,開創了人機協同的全新時代。
在空間感知研究方面,學術界(而非特指Neuralink)在解碼與空間導航相關的神經活動方面取得了進展。研究團隊通過記錄實驗動物在空間任務中的神經活動,特別是海馬區域的活動,利用機器學習算法分析這些神經信號,建立了神經活動與空間位置之間的對應關系。
這類研究目前主要在受控實驗環境中進行,能夠實現一定程度的空間信息解碼,但整體技術仍處于實驗室研究階段,準確率和穩定性仍需進一步提高。相關研究表明,通過適當的訓練,實驗動物能夠學習使用腦機接口在簡單虛擬環境中進行基礎導航,但這種能力在環境變化時往往需要重新適應和學習。
隨著技術不斷成熟,人機協同將從特定領域的專業工具逐步融入日常生活,成為“環境智能”的一部分。這種轉變將使空間智能輔助變得無處不在卻又不引人注意,像電力一樣成為現代生活的基礎設施。未來的智能家居、工作場所和公共空間將能夠理解人類需求并提供情境化支持,但是以一種不引人注意、不造成干擾的方式。這種“平靜技術”的理念可能成為未來人機協同設計的核心原則。
人機協同新范式的興起標志著人類與技術關系的根本性轉變。不同于將技術視為外部工具的傳統觀念,新范式將人與技術視為相互增強的伙伴關系,共同形成更強大的認知系統。這種轉變不僅提高了解決問題的效率,還開創了理解和交互世界的新方式。
隨著腦機接口、增強現實和人工智能技術的持續發展,人機協同的邊界將繼續拓展,可能最終導致人類認知能力的革命性擴展,開創智能進化的新紀元。
![]()
《空間智能》
劉志毅著
2025年8月
中信出版集團
注:頭圖AI生成
作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
點「贊」的人都變好看了哦!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.