<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      ZPedia|李飛飛2篇長文點破本質,當前AI對空間的理解完全跑偏,Marble或是未來5年最重要的AI產品

      0
      分享至

      昨天,李飛飛的 World Labs 團隊正式發布了首款產品——Marble,一個真正意義上面向大眾的多模態世界模型平臺。用戶只需要一張圖、一段視頻,甚至一句短短的文字,就能在瀏覽器里生成一個可漫游、可編輯、可導出的三維世界。不需要 Blender,不需要虛幻引擎,也不需要任何 3D 專業知識,一切從提示開始,一切都能修改、一切都能拓展。

      但 Marble 最有意思的地方從來不在“它能生成多好看”,而在于它和李飛飛最近發布的兩篇文章形成了閉環:理念、路徑、產品三件事首次對齊。

      在空間智能宣言《From Words to Worlds》中,李飛飛把問題拆得非常徹底:當下的大模型,本質上是“黑暗中的盲人”。它們在符號世界里無所不能寫、能講、能推斷;但一旦進入物理世界,它們便近乎是個嬰兒:倒車入庫判斷不了距離、廚房里識別不出危險、房間里物體關系也完全沒有概念。

      原因不是模型不夠強,而是它根本沒有人類賴以生存的“空間智能”。語言能描述世界,但不能替代世界。智能若要進一步發展,就必須從“token-based”跨向“world-based”。

      Marble 的意義就在于,它是這條路線的第一個公眾可觸達的產品,它把“世界建模”從論文變成了能被創作者、工程師、設計師直接使用的工具,讓空間智能第一次有了落地的入口。

      Cambrian-S:為什么視頻大模型根本不理解世界?

      要理解 Marble 的價值,就要先理解為什么現有視頻大模型不夠——這正是李飛飛、謝賽寧和 Yann LeCun 在 Cambrian-S 論文中試圖回答的問題。


      論文開頭就給出了一個很重要的框架:人類理解世界不是靠單幀信息,而是靠“空間超感知”。簡單說,我們不僅要知道“眼前是什么”,還要知道“它在空間里的位置”“剛剛發生了什么”“接下來會發生什么”。

      基于這個思路,作者將空間智能拆成了四層——語義識別、事件認知、三維推理、預測性世界模型。殘酷的是:當下的多模態系統大多停留在第一層,連第二層都只摸到皮毛,而第三、四層才是真正決定 AI 能否進入物理世界的關鍵。

      為了驗證當前視頻理解模型究竟有沒有“真的在看視頻”,研究團隊設計了一組幾乎帶點挑釁意味的診斷實驗。他們沒有直接用視頻模型,而是用一個純圖像模型 Cambrian-1,把同一段視頻拆成四種輸入方式:

      (1)給它 32 幀正常視頻;

      (2)只給中間一幀;

      (3)不給畫面、只給從視頻生成的文字描述;

      (4)什么視覺信息都不提供。

      結果出乎所有人意料——甚至可以說是當頭一棒。

      在 EgoSchema、VideoMME 等九個主流視頻 QA 基準上,當研究者把“視頻”換成“字幕”時,模型表現不降反升,最高能提升 20%+。換句話說,這些任務根本不需要“看視頻”,模型靠的不是視覺理解,而是語言先驗和題庫式的模式匹配。

      下圖展示了這一點:一旦“多幀視頻”與“幀字幕”之間的性能差異接近于零,就意味著視覺信息在這個基準中幾乎沒有價值。

      為什么會這樣?因為當前模型是被動接受視頻的——來一幀收一幀,完全不知道什么重要、什么該記、什么該忘。它們記住了大量冗余信息,卻忽略了真正的空間變化點。


      于是,論文給行業補上了另一塊缺失的拼圖——VSI-SUPER,一個真正意義上考“空間智能”的新基準。它包含兩個特別折磨模型的任務。

      第一個測試叫 VSR,核心是考察模型的“空間回憶能力”。研究團隊讓人類標注者在一段長達 240 分鐘的房間巡游視頻中,將一只泰迪熊悄悄 P 到四個毫無關聯的位置里——可能在第三個房間的書架上,也可能在第十二個房間的地毯邊。模型的任務是:按順序說出泰迪熊究竟“在哪一個房間、在哪一個角落”出現過。圖 4 展示的就是這種帶有“視覺欺騙”的構造流程。


      第二個測試 VSC 則瞄準了另一種更貼近現實的能力:持續計數。在生活中,我們不需要把每一幀記在腦子里,也能大致知道一個房間里有幾把椅子。這個測試要求模型在鏡頭不斷切換、房間不斷變化的情況下,回答一個簡單的問題“所有房間加起來一共有幾把椅子?”


      這些任務對人類是本能,但對 AI 幾乎是災難。表 1顯示,即使給模型塞進 100 萬 token 上下文,它在 60 分鐘的 VSR 上依然只有 41.5% 準確率,而在 VSC 上更是只有 10.9%。


      上下文再長也沒用,因為真正的空間智能從來不是靠“記住更多幀”實現的——而是靠“記住關鍵幀、忘記無用信息”。人類不是靠記憶所有像素,而是靠預測世界的變化來決定該在什么時候記住什么。

      為了破解這些瓶頸,論文提出了一個非常有意思的機制:預測性感知(predictive sensing)。模型不再被動接受每一幀,而是主動預測下一幀。當預測失敗時,模型就會觸發記憶更新、事件分段、信息過濾——這和人類觀看視頻時的認知過程高度一致。


      實驗表明,這種機制的效果遠優于簡單堆疊幀數或擴展上下文窗口。即便不增加參數、不擴上下文,只要加入這套機制,模型在長時計數、跨房間回憶等任務上的表現就能顯著超越主流大模型;那些原本完全跟不上真實世界變化、計數曲線“死平”的模型,突然開始隨著畫面內容同步增長,首次展現出“世界狀態被正確維護”的趨勢。

      回到 Marble:世界模型的第一塊可用拼圖

      當我們理解了空間智能為何重要、現有視頻大模型為何無效,再回頭看 Marble,就會發現它真正突破的從來不是“生成一個好看的 3D 場景”,而是它第一次把“世界模型”從前沿論文、頂會討論里,推向了普通創作者與開發者的手中。

      第一,它是對“世界模型可用性”的一次實戰檢驗。很多世界模型工作停留在 NeRF demo 或研究原型階段:效果驚艷,門檻同樣驚人。而 Marble 做的事情,是把高門檻的 world model 包裝成一個創作者可以直接玩的 SaaS——瀏覽器里導入一張圖、一段視頻、一個 layout,就能生成一個可走、可改、可導出的世界。

      這對 3D 內容生產鏈條意味著什么?意味著影視前期預演、游戲關卡原型、建筑可視化、虛擬拍攝、VR 體驗,可以第一次把“搭世界”當作一個高度可反復迭代的環節,而不是一次性重資產投入。

      第二,它是對“空間智能商業邊界”的一次探索。PYMNTS 等媒體在報道中用了一個非常有意思的表述:Marble 是“為 AI 配備更深層物理空間理解的商業 world model”,標志著 AI 行業開始從語言和圖像模型,向可以在 3D 環境中生成和推理的系統遷移。

      你可以把 Marble 看成一種“空間版 API”:今天,它為創作者生成可編輯世界;明天,它完全可能為機器人公司提供可訓練的虛擬環境,為自動駕駛提供長尾場景仿真,為數字療法提供定制暴露環境,為科學模擬提供“假想實驗空間”。在這個意義上,Marble 賣的不是“幾張世界的訂閱”,而是一種“對世界進行編程的能力”。這也是為什么不少評論會把它視作 AGI 鏈路上的一個關鍵節點——它在某種程度上,把“世界作為數據”的想象變得可操作。

      第三,它其實隱含著對整個行業的一次“打法反問”。Hacker News 上有人評論說,Marble 更像是一個平臺發布,而不是簡單的模型發布,因為它企圖先占據“世界生成平臺”的位置,再把模型的演進放在平臺后面滾動升級。

      對比今天主流大模型公司的路徑:大多是先卷出一個更大的語言模型,再考慮生態、平臺和應用層。而World Labs 的選擇是:先站穩空間智能的敘事高地,再用論文和產品搶先把“世界模型平臺”這個入口坐牢。這種“理念 + 論文 + 產品 + 平臺”的一體化打法,對后來者是一種極高門檻——你不只是要追上技術,還要在話語體系和開發者心智上撕開新的入口。

      當然,必須承認 Marble 仍遠未達到 Cambrian-S 定義的空間智能上限。它生成的世界更多是靜態的,物理規律較為有限,復雜動態交互和長時因果鏈路的建模能力也還在非常早期階段。但這并不削弱它的重要性——恰恰相反,這意味著空間智能的路線第一次有“能落地的產品雛形。

      在從“Words 到 Worlds”的新敘事里,Marble 是那塊真正被放到桌面上的原型機,它讓整個行業第一次看見:AI 不必永遠停留在語言里,它也可以開始構建和理解世界本身。

      下面,讓我們重溫她的長文——《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》。這篇宣言式的文章,或許正是整個空間智能時代的序章。


      1950 年,當計算不過是“自動算術”和簡單邏輯運算時,艾倫·圖靈提出了一個直到今天仍回響的問題:機器能夠思考嗎?要看到他所看到的前景,需要極其非凡的想象力——也就是:也許有一天,智能不是“出生”的,而是被“制造”出來的。這個洞見后來開啟了一場被命名為“人工智能(AI)”的持久科學追問。進入 AI 領域工作至今二十五年,我依然時常被圖靈的愿景所鼓舞。但我們如今距離那個愿景還有多近?答案并不簡單。

      今天,以大型語言模型(LLM)為代表的前沿 AI 技術,已經開始重塑我們獲取和處理抽象知識的方式。然而,它們仍像是在黑暗中打字的文案高手:能言善辯卻缺乏體驗,知識豐富卻缺乏落地。空間智能將改變我們創造和交互真實世界與虛擬世界的方式——從講故事、創意、機器人,到科學發現乃至更廣的領域,都將被徹底改造。這是 AI 的下一塊前沿。

      自從進入這個領域開始,對視覺與空間智能的追求就一直是引導我的“北極星”。正因如此,我花了多年時間構建了 ImageNet——第一個大規模視覺學習與評測數據集,它與神經網絡算法以及現代算力(如 GPU 圖形處理器)一道,成為促成年代現代 AI 誕生的三大關鍵要素。也因此,我在斯坦福的學術實驗室在過去十年里,一直在把計算機視覺與機器人學習結合起來。也正因為同樣的原因,一年多前,我與 Justin Johnson、Christoph Lassner、Ben Mildenhall 幾位聯合創始人一起創建了 World Labs:第一次嘗試把這種可能性真正完整地變為現實。

      在這篇文章中,我將解釋什么是空間智能、為什么它至關重要,以及我們如何通過構建世界模型來釋放這種能力——這種能力將重塑創意、具身智能以及人類的整體進步。

      空間智能:人類認知的腳手架

      AI 從未像今天這樣令人興奮。以 LLM 為代表的生成式 AI 模型,已經從研究實驗室走進日常生活,成為數十億人進行創作、提升生產力和溝通協作的日常工具。它們展現了曾經被認為不可能的能力:能寫出連貫的長文,產出成山的代碼,生成照片級逼真的圖像,甚至輕松合成短視頻。AI 是否會改變世界,這已經不再是問題;按任何合理標準,它已經改變了世界。

      但仍有太多能力遠在我們的觸及之外。自主機器人的愿景依然充滿吸引力,卻仍更多停留在設想層面,而不是像未來學家長期承諾的那樣走入尋常日常生活。對疾病治療、全新品類材料發現、粒子物理等領域實現大幅提速的夢想,在很大程度上尚未實現。至于那種真正理解并賦能人類創作者的 AI——無論是幫助學生掌握復雜的分子化學概念,幫助建筑師在腦海中“看見”空間,幫助電影人構建世界,還是為任何渴望沉浸式虛擬體驗的人賦能——這一切依然遙不可及。

      要理解為何這些能力依舊難以實現,我們需要回到空間智能的演化歷程,重新審視它如何塑造我們對世界的理解。

      視覺長期以來一直是人類智能的基石,但它的力量源自更為根本的東西。早在動物學會筑巢、撫育后代、用語言溝通,乃至建造文明之前,最初那種“感知”的動作,就已經悄然點燃了一場通往智能的演化旅程。

      這種看似孤立的能力——從外部世界中捕捉一絲光亮,或感知某種觸感——在感知與生存之間架起了一座橋梁,而這座橋梁在一代代演化中不斷加固、延展并變得愈發精巧。神經元一層層地沿著這座橋梁生長,形成了能夠解釋世界、協調個體與環境之間互動的神經系統。因此,許多科學家推測:感知與行動構成了驅動智能演化的核心閉環,也成為大自然創造我們這個物種的基礎——我們也許是“感知—學習—思考—行動”的終極體現。

      空間智能在決定我們如何與物理世界互動方面,扮演著根本性的角色。每天,我們都在依賴它完成最尋常的動作:倒車入位時,在腦中想象保險杠與路沿之間那條逐漸收窄的縫隙;接住被人從房間另一頭隨手拋來的鑰匙;在人群密集的人行道上穿行而不相撞;又或是在迷迷糊糊的清晨,不看杯子也能把咖啡準確倒入杯中。在更極端的場景中,消防員在坍塌中的建筑里穿梭,在翻滾的煙霧中,對結構穩定與生死風險作出瞬間判斷,依賴手勢、身體語言以及一種無法用語言替代的專業本能進行溝通。而孩子們在尚未開口說話的幾個月甚至幾年里,幾乎完全通過與環境的游戲式互動來學習這個世界。所有這一切都發生得自然而然、自動流暢——這種“熟練度”,是機器遠未掌握的。

      空間智能同樣是我們想象力與創造力的底層支撐。講故事的人在腦海中構造出獨一無二的世界,并借助各種視覺媒介把它們呈現給他人——從遠古洞穴壁畫,到現代電影,再到沉浸式電子游戲。無論是孩子在海邊堆沙堡,還是在電腦前玩《我的世界》,建立在空間基礎之上的想象力,都是現實或虛擬世界中一切互動體驗的根基。在大量行業應用中,對物體、場景以及動態交互環境的模擬,也在為無數關鍵的商業場景提供動力——從工業設計到數字孿生,再到機器人訓練。

      歷史上存在許多足以塑造整個人類文明的時刻,而空間智能在其中都發揮了核心作用。在古希臘,埃拉托色尼把影子變成幾何問題:他在亞歷山大城測出一個 7 度的夾角,恰好對應賽伊尼城中正午無影的時刻,由此推算出地球的周長。哈格里夫斯發明的“珍妮紡紗機”通過一個空間上的洞見,徹底改變了紡織業:將多個紡錘并列布置在一臺機器上,使得一個工人可以同時紡出多股紗線,生產效率提升了八倍。沃森和克里克通過親手搭建三維分子模型——反復擺弄金屬片和金屬線——才最終找到了 DNA 堿基對的空間排布方式。在這些案例中,每一次文明的躍升,都離不開空間智能:科學家與發明家必須操控物體、在腦中構建結構,并在物理空間中進行推理——這些能力,都不是僅靠文字就能完全捕捉的。

      空間智能是支撐我們全部認知結構的腳手架。當我們被動地觀察,或主動地進行創造,它都在發揮作用。即便是在最抽象的議題上,它也驅動著我們的推理與規劃。無論是通過語言還是通過肢體動作,無論是與同伴互動,還是與外部環境打交道,空間智能都是不可或缺的。雖然我們大多數人在日常生活中,并不會天天像埃拉托色尼那樣發現“關于宇宙的新真理”,但我們的思考方式其實與之類似——通過感官去理解復雜世界,再基于對物理和空間規律的直覺,把這一切理順。

      不幸的是,今天的 AI 還不會這樣思考。

      過去幾年,我們的確取得了巨大進步。多模態大型語言模型(MLLM)在大量多媒體數據與文本數據上進行訓練,開始具備一些基礎的空間感知能力,今天的 AI 已經可以分析圖片,回答關于圖片的問題,并生成高度逼真的圖像和短視頻。而在傳感器與觸覺技術的突破下,我們最先進的機器人,已經開始能在高度受限的環境中操控物體和工具。

      但坦率地說,AI 在空間維度上的能力,距離人類水平仍然相去甚遠,而且其局限會很快暴露出來。最先進的多模態模型,在判斷距離、方向和大小時,表現往往和“擲硬幣猜測”差不多;在“心里”旋轉一個物體、從另一個視角重新生成它時,同樣幾乎不會比隨機好多少。它們不會走迷宮,也不會識別捷徑,更談不上預判最基礎的物理規律。AI 生成的視頻——雖然很新奇,也確實“很酷”——卻往往在短短幾秒后就失去連貫性。

      當前的最前沿 AI 模型,在閱讀、寫作、檢索信息以及數據模式識別方面可以表現得極其出色,但在表征或與物理世界互動時,它們都有根本性的局限。我們對世界的理解,始終是整體性的——不只是眼前看到什么,還包括事物之間的空間關系、它們意味著什么、為什么重要。通過想象、推理、創造與交互去理解世界,而不只是聽取“描述”,正是空間智能的力量。缺少空間智能,AI 就始終與它試圖理解的物理現實脫節。它無法真正安全地為我們駕駛汽車、在家庭和醫院中為機器人提供導航、無法開啟全新的沉浸式交互學習與娛樂方式,也無法大幅加速材料科學與醫療領域的發現。

      哲學家維特根斯坦曾寫道:“我語言的界限,就是我世界的界限。”我并不是哲學家,但至少就 AI 而言,我非常清楚:世界遠不止于“文字”。空間智能代表的是語言之“外”的前沿——它是一種能力,把想象、感知與行動連在一起,讓機器真正有機會在醫療、創意、科學發現和日常助理等方方面面,更深刻地改善人類生活。

      未來十年的 AI:構建真正具備空間智能的機器

      那么,我們究竟如何構建具有空間智能的 AI?怎樣的路徑,才能讓模型具備:在推理上擁有類似埃拉托色尼那樣的洞察力,在工程上擁有工業設計師級別的精度,在創造上具備講故事者那樣的想象力,并能像一線救援人員那樣與環境進行流暢互動?

      要打造具備空間智能的 AI,我們需要的,是比 LLM 更具野心的東西:世界模型(world models)。這是一類全新的生成模型,要在語義、物理、幾何與動態結構都極其復雜的世界中——無論是真實世界還是虛擬世界——實現理解、推理、生成以及交互,其能力遠遠超出當今 LLM 所能觸及。這個領域仍非常早期,從抽象推理模型到視頻生成系統,都可以算作當前方法的一部分。World Labs 正是基于這樣的信念在 2024 年初創立的:基礎方法仍在確立之中,而這將成為未來十年的決定性挑戰。

      在這個新興領域里,最重要的是先確立指導發展的原則。對于空間智能,我從三個關鍵能力來界定世界模型:

      1. 生成性:世界模型能夠生成在感知、幾何和物理上自洽的世界
        想要真正解鎖空間理解與空間推理,世界模型不僅要“看懂世界”,還要能生成自己的“模擬世界”。它必須能夠根據語義或感知層面的指令,生成無窮多樣且豐富的模擬世界,同時在幾何結構、物理規律與動態行為上保持一致,無論這些世界代表的是現實空間還是虛擬空間。當前研究社區正在積極探索:這些世界究竟應該以內隱的方式表示,還是應該以更顯式的幾何結構進行編碼。此外,我認為,在擁有強大潛在表示的基礎上,一個通用世界模型的輸出,還必須能夠在多種使用場景下生成“顯式、可觀察”的世界狀態。尤其重要的是,它對當下世界狀態的理解,必須與其過去保持連貫——與導致這一狀態的所有先前世界狀態前后一致。

      2. 多模態:世界模型在設計上就是多模態的
        就像動物和人類一樣,一個世界模型應該能夠處理多種形式的輸入——在生成式 AI 領域,這些輸入往往被稱為“提示(prompt)”。在只獲得部分信息的情況下——無論是圖像、視頻、深度圖、文本指令、手勢還是動作——世界模型都應當盡可能推斷或生成盡量完整的世界狀態。這要求模型既要具備接近真實視覺的圖像處理能力,又要能同樣熟練地理解語義指令。這樣一來,智能體與人類都可以通過多樣的輸入形式與模型就“世界”進行對話,并以同樣多樣的輸出形式得到響應。

      3. 交互性:世界模型能夠基于輸入的動作給出世界的下一狀態
        最后,如果“動作”與“目標”是輸入提示的一部分,那么世界模型的輸出就必須包含世界的下一狀態——無論這種世界狀態是以內隱還是顯式的方式表示。當一個世界模型只接收到一個動作(有或沒有目標狀態)作為輸入時,它應該生成的輸出狀態,需要與世界此前的狀態、預期目標狀態(若存在)、以及世界的語義結構、物理規律和動態行為保持一致。隨著具備空間智能的世界模型在推理與生成能力上的不斷增強,我們可以想象這樣一種情形:給定一個目標,世界模型不僅能預測世界的下一狀態,還能進一步預測在這一新狀態下應采取的下一步動作。

      這個挑戰的難度,前所未有地超出了 AI 以往面對的一切難題。

      語言是人類認知中一種“純粹生成”的現象,而“世界”則遵循遠為復雜的規則。在地球上,重力支配運動,原子結構決定光如何產生顏色與明暗,無數物理定律約束著每一次交互。即便是最天馬行空的虛構世界,也必須由復雜的空間對象和智能體組成,并且整體遵守該世界自身的物理規律與動態行為。要在語義、幾何、動態與物理這些維度上實現一致,必須依賴全新的方法。相比一維、按順序展開的語言信號,對“世界”的表示在維度上要復雜得多。想要構建出能夠像人類一樣具備普適能力的世界模型,我們還需要跨越多個艱巨的技術鴻溝。在 World Labs,我們的研究團隊正致力于在這些方向上取得根本性突破。

      以下是我們目前的一些研究主題示例:

      一種新的“通用任務函數”用于訓練:
      在世界模型研究中,如何定義一個像 LLM 中“下一個 token 預測”那樣簡單又優雅的通用任務函數,一直是核心目標之一。然而,世界模型的輸入與輸出空間都要復雜得多,使這種任務函數的定義變得更加困難。盡管仍有大量未知有待探索,這個目標函數及其對應的表示方式,必須體現幾何與物理的規律,才能不辜負世界模型的根本屬性:既是想象的載體,又扎根于現實。

      大規模訓練數據:
      訓練世界模型所需的數據,比文本清洗復雜得多。好消息是:海量的數據源其實已經存在。互聯網規模的圖像與視頻集合,是極其豐富又容易獲取的訓練材料——但挑戰在于:如何設計算法,從這些二維的圖像或視頻幀(即 RGB 信號)中,抽取更深層次的空間信息。過去十年的研究已經證明,在語言模型中,數據規模與模型規模之間存在強有力的“縮放律”;對于世界模型來說,關鍵突破在于構建能夠在類似規模上充分利用現有視覺數據的架構。此外,我也絕不會低估高質量合成數據,以及深度、觸覺等額外模態的價值。它們在訓練過程的關鍵階段補足了互聯網級數據。但前進的道路,仍有賴于更好的傳感器系統、更穩健的信號提取算法,以及更強大的神經模擬方法。

      新的模型架構與表征學習:
      世界模型研究,必然會推動模型架構與學習算法的創新,尤其是在超越當前多模態大模型與視頻擴散范式的方向上。現有范式通常把數據切分成一維或二維的 token 序列,這讓許多最基礎的空間任務變得不必要地困難——比如在一段短視頻中統計不同的椅子數量,或者記住一個房間一小時前的樣子。新的架構也許可以幫上忙,例如在 token 化、上下文建模與記憶機制中,引入對三維或四維信息更加敏感的方法。舉例來說,在 World Labs,我們最近提出了一個名為 RTFM 的實時生成幀式模型,已經展示出這種轉變:它通過“空間對齊的幀”作為一種空間記憶形式,在保持生成世界持續性的同時,實現了高效的實時生成。

      顯然,在通過世界建模真正釋放空間智能之前,我們仍面臨著巨大的挑戰。但這些研究絕不是純理論游戲,而是新一代創意工具與生產力工具的核心引擎。World Labs 內部的進展也令人鼓舞。最近,我們向一小部分用戶展示了 Marble 的早期能力——這是首個可以通過多模態輸入進行提示,從而為創作者和講述者生成并維持一致 3D 環境的世界模型,用戶可以在其中探索、交互,并在自己的創作流程中進一步搭建。我們也正在努力,盡快將它向更廣泛的公眾開放。

      Marble 只是我們邁向真正空間智能世界模型的第一步。隨著整體進展的加速,研究者、工程師、用戶和商業領袖都開始意識到它的巨大潛力。下一代世界模型將讓機器在空間智能上實現全新的跨越——這將解鎖許多當今 AI 系統中仍嚴重缺失的關鍵能力。

      用世界模型,為人類構建更好的世界

      推動 AI 發展的動機至關重要。作為幫助開啟“現代 AI 時代”的科學家之一,我的動力始終清晰:AI 必須是人類能力的“增幅器”,而不是“替代品”。多年來,我一直致力于讓 AI 的研發、部署與治理,與人類需求保持一致。如今關于 AI 的敘事,往往不是極端烏托邦,就是極端末日論,而我始終堅持更務實的觀點:AI 是由人類開發的,被人類使用的,也必須由人類來治理。它永遠都應尊重人的自主性與尊嚴。它的“魔力”在于擴展我們的能力,讓我們變得更有創造力、更緊密相連、更高效,也更有成就感。空間智能正體現了這樣的愿景——它代表著一種 AI:幫助創作者、照護者、科學家和夢想家完成曾經不可能的事情。正是這一信念,支撐著我把空間智能視為 AI 的下一個偉大前沿。

      空間智能的應用,橫跨不同的時間尺度。創意工具正在當下就逐步落地——World Labs 的 Marble 已經開始把這種能力交到創作者和講故事者的手中。機器人則代表一個更具雄心的中期目標,我們仍需要不斷完善“感知—行動”閉環。最具變革性的科學應用可能會來得更晚一些,但有望對整個人類的福祉產生極其深遠的影響。

      在所有這些時間尺度上,有幾個領域格外突出,極有可能重塑人類能力。這種變革需要巨大的集體努力,遠非任何一個團隊或一家公司所能獨自完成。它需要整個 AI 生態系統——研究者、創新者、創業者、企業乃至政策制定者——共同參與,朝著一個共享的愿景努力。但這個愿景值得我們追逐。那就是這樣一個未來:

      創意:為故事與沉浸式體驗加上“超級能力”

      “創造力,是在享受樂趣的智能。”這是我最喜歡的、來自我個人偶像愛因斯坦的一句名言。早在人類發明文字之前,我們就開始講故事——把故事畫在洞穴的石壁上,把它們在世代之間口耳相傳,在共享敘事之上構建起整個文明。故事,是我們理解世界、跨越時空建立連接、探索“何為人”的媒介,更是我們在生命和愛之中尋找意義的方式。今天,空間智能有機會徹底改變我們創造和體驗敘事的方式,在尊重敘事根本重要性的前提下,把這種影響從娛樂擴大到教育,從設計拓展到建筑與施工。

      World Labs 的 Marble 平臺,將前所未有的空間能力與“可剪輯性”交到電影人、游戲設計師、建筑師以及各類故事講述者的手中,讓他們無需傳統 3D 設計軟件的沉重負擔,就能快速創建與迭代可自由探索的三維世界。創作行為本身仍然完全屬于人類,只是 AI 工具放大并加速了創作者所能實現的一切。這包括:

      全新維度的敘事體驗:
      電影人和游戲設計師正在借助 Marble 憑空“召喚”整座世界,不再受預算或地理位置的束縛,可以探索多樣的場景與視角,這在傳統制作流程中幾乎難以實現。隨著不同媒介與娛樂形式之間的界限變得模糊,我們正在接近一種全新的交互體驗形態——藝術、模擬與游戲被融合在一起,每個人,而不僅僅是大工作室,都可以打造并棲居于自己的故事世界。隨著從概念草圖到完整體驗的路徑變得更快、更順暢,敘事將不再被鎖在單一媒介之中,創作者可以跨越多種載體與平臺,在統一世界觀下延展自己的故事宇宙。

      借助設計進行空間敘事:
      幾乎所有被制造出來的物品,或被建造出來的空間,都必須先在虛擬 3D 環境中完成設計,然后才會在現實中落地。這一過程高度迭代,且在時間和成本上都極為昂貴。有了空間智能模型,建筑師可以在投入數月精細設計之前,快速“走進”尚不存在的結構,在其中漫步,講述關于未來“如何生活、如何工作、如何聚集”的故事。工業設計師和時尚設計師也可以將腦中的想象即時轉換為具體形態,探索物體如何與人體、與空間發生互動。

      全新的沉浸式與交互式體驗:
      “體驗”本身,是我們這個物種創造意義的最深層方式之一。在人類歷史的大部分時間里,我們只共享一個三維世界:那個物理世界。直到近幾十年,隨著游戲與早期虛擬現實(VR)的興起,我們才初次窺見“共享自己創造的另一個世界”意味著什么。而如今,空間智能與新的硬件形態——如 VR 與擴展現實(XR)頭顯以及沉浸式顯示設備——結合在一起,使這些體驗被提升到前所未有的高度。我們正在走向這樣一個未來:走進一個完整構建的多維世界,就像打開一本書那樣自然。空間智能讓“建世界”的能力不再只屬于擁有專業制作團隊的大型工作室,而是下沉到個人創作者、教育者,以及任何有愿景的人手中。

      機器人:讓具身智能真正動起來

      從昆蟲到人類,所有動物都依賴空間智能來理解、導航并與其世界互動。機器人也不會例外。具備空間感知能力的機器,幾乎從機器人領域誕生起就是一個核心夢想,包括我和學生、合作者在斯坦福實驗室多年來的工作。也正因如此,我對通過 World Labs 正在構建的世界模型來實現這些機器人,感到格外興奮。

      通過世界模型擴展機器人學習的規模:
      機器人學習的進展,很大程度上取決于是否能找到一種在數據層面可擴展的訓練解決方案。鑒于機器人需要學習理解、推理、規劃和交互的狀態空間極其巨大,許多研究者推測,必須結合互聯網數據、合成模擬以及真實世界中的人類示范采集,才能真正打造具備泛化能力的機器人。但與語言模型不同,如今機器人研究中可用的訓練數據其實十分稀缺。在這點上,世界模型將扮演決定性的角色。隨著它們在感知精度與計算效率上的不斷提升,世界模型的輸出可以迅速縮小“模擬世界”與“真實世界”之間的差距。反過來,這將幫助機器人在模擬中經歷無數狀態、交互與環境,從而加速學習。

      伙伴與協作者:
      當機器人作為人類的協作者——無論是在實驗臺旁協助科學家,還是陪伴獨居老人——它們都有機會擴展那些急需更多勞動與生產力的人力領域。但要做到這一點,機器人必須擁有這樣的空間智能:既能感知、推理、規劃、行動,又能——這點尤為重要——在情感上與人類的目標和行為保持一致。比如,在實驗室里,一個機器人可以負責操作儀器,讓科學家把精力集中在需要高度靈巧或高階推理的任務上;在家庭環境中,一個助理機器人可以幫助年長者做飯,而不剝奪他們從中得到的樂趣與自主感。要實現這一切,我們需要真正具備空間智能的世界模型,能夠在給定預期的情況下預測世界的下一狀態,甚至預測與之相匹配的動作。

      多樣化的具身形態:
      類人機器人在我們現有的世界架構中確實有其作用,但真正的創新紅利將來自更為多樣的形態:向體內輸送藥物的納米機器人,能在狹窄空間中穿行的軟體機器人,以及為深海或外太空環境量身打造的機器。不管形態如何,未來的空間智能模型都必須同時整合這些機器人所處的環境與它們自身的感知與運動方式。然而,發展這些機器人的關鍵挑戰之一,是在如此多樣的具身形態下,都極度缺乏訓練數據。世界模型將在其中承擔重要角色——為這些努力提供模擬數據、訓練環境以及評測基準。

      更長遠的地平線:科學、醫療與教育

      除了創意與機器人應用之外,空間智能的深遠影響還將延伸到那些關乎“拯救生命、加速發現”的領域。下面我重點提及三個可能具備深度變革潛力的方向,但不言而喻,空間智能的應用空間遠不止這三個行業。

      在科學研究中,具備空間智能的系統可以模擬實驗,在并行的虛擬環境中測試假設,探索人類無法親身抵達的場所——從深海到遙遠行星。這項技術有望重塑氣候科學、材料科學等領域的計算建模方式。通過將多維度模擬與真實世界的數據采集結合起來,這類工具可以降低計算資源門檻,拓展每一家實驗室“看見”和理解世界的能力。

      在醫療健康領域,空間智能將重塑從實驗室到病床的整個鏈條。在斯坦福,我和學生、合作者們多年來一直與醫院、養老機構以及居家患者緊密合作,這些經歷讓我深信空間智能在這一領域的變革潛力。AI 可以通過多維建模分子相互作用來加速藥物發現,通過輔助放射科醫生識別影像中的模式來提升診斷能力,還可以實現“環境式監護系統”,為病患和照護者提供支持,而不替代真正治愈所需的人際連接——更不用說未來機器人在多種醫療場景中幫助醫護人員與患者的可能性。

      在教育領域,空間智能可以讓抽象或復雜概念變得“可觸摸”、可體驗,通過反復練習與反饋,構建起與我們大腦和身體的學習方式高度契合的過程。在 AI 時代,更快、更高效的學習和再培訓,不僅對學齡兒童,對成年人同樣至關重要。學生可以在多維環境中探索細胞機器的內部運作,或“走進”歷史事件現場。教師可以通過交互式環境,為不同學生提供更個性化的教學體驗。各類專業人士——從外科醫生到工程師——也可以在高度逼真的模擬環境中,安全地練習復雜技能。

      在所有這些領域中,可能性幾乎是無邊無際的,但目標始終如一:讓 AI 成為人類專業能力的放大器,加速人類發現,增強人類照護能力——而不是替代那些構成“為人之為人”核心的東西:判斷力、創造力與共情。

      結語

      在過去十年里,AI 已經成為一股全球現象,也成為科技、經濟乃至地緣政治中的關鍵拐點。但對我而言,無論是作為研究者、教育者,還是如今的創業者,真正持續激勵我的,仍然是圖靈在 75 年前提出的那個問題背后的精神。我依然與他共享那種“驚奇感”。正是這種驚奇,讓我每天都有動力去迎接空間智能帶來的挑戰。

      在人類歷史上,我們第一次站在這樣一個門檻前:我們有機會構建出與物理世界高度同步的機器,讓它們成為我們面對重大挑戰時真正可靠的伙伴。無論是加速我們在實驗室里理解疾病的過程,重塑我們講述故事的方式,還是在我們因疾病、傷痛或年老而最脆弱的時刻支持我們,我們都正站在這樣一種技術的邊緣:它將提升那些對我們而言最重要的生命維度。這是一個關于讓生活更深刻、更豐盈、更有掌控感的愿景。

      在大約五億年前,大自然第一次在遠古動物身上點亮了“空間智能”的微光;而今天,我們有幸成為這一代技術工作者:也許很快,我們就能讓機器擁有同樣的能力——并有幸把這些能力用于造福世界各地的人們。如果沒有空間智能,人類關于“真正智能機器”的夢想就永遠不算完整。

      參考文獻:

      [1] https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence?subscribe_prompt=free

      歡迎掃碼加群參與討論

      我們相信認知能夠跨越階層,

      致力于為年輕人提供高質量的科技和財經內容。

      稿件經采用可獲邀進入Z Finance內部社群,優秀者將成為簽約作者,00后更有機會成為Z Finance的早期共創成員。

      我們正在招募新一期的實習生

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      莫德里奇被啃老貢獻絕殺,AC米蘭2-1升班馬,靜待尤文阻擊國米

      莫德里奇被啃老貢獻絕殺,AC米蘭2-1升班馬,靜待尤文阻擊國米

      釘釘陌上花開
      2026-02-14 05:39:58
      韓媒譏諷中國隊冬奧或0金:離開主場優勢不行,谷愛凌是唯一希望

      韓媒譏諷中國隊冬奧或0金:離開主場優勢不行,谷愛凌是唯一希望

      楊華評論
      2026-02-13 19:04:46
      “流水220萬,利潤0” 2026開年多了個新詞——無利潤繁榮

      “流水220萬,利潤0” 2026開年多了個新詞——無利潤繁榮

      餐飲界
      2026-02-13 19:49:19
      歐洲屏息以待,萬斯“挑釁性”演講一年后,魯比奧會否重演“萬斯時刻”?

      歐洲屏息以待,萬斯“挑釁性”演講一年后,魯比奧會否重演“萬斯時刻”?

      上觀新聞
      2026-02-14 05:15:05
      4-0慘案!巴薩123年恥辱一夜:缺1個人就現原形,防線也崩盤!

      4-0慘案!巴薩123年恥辱一夜:缺1個人就現原形,防線也崩盤!

      落夜足球
      2026-02-13 19:04:02
      22歲中國男子巴厘島旅游時溺亡,去年剛大學畢業,原計劃除夕前回國和家人團圓,同伴發聲

      22歲中國男子巴厘島旅游時溺亡,去年剛大學畢業,原計劃除夕前回國和家人團圓,同伴發聲

      極目新聞
      2026-02-13 22:17:39
      美團被AI扔了一個二向箔

      美團被AI扔了一個二向箔

      商業數據派
      2026-02-13 23:22:19
      中戲風波升級!4位主任都落馬,牽涉閆學晶易烊千璽等十多位明星

      中戲風波升級!4位主任都落馬,牽涉閆學晶易烊千璽等十多位明星

      古希臘掌管松餅的神
      2026-02-13 16:24:17
      工信部整治汽車半幅方向盤:已刪除國標中所有相關技術內容

      工信部整治汽車半幅方向盤:已刪除國標中所有相關技術內容

      IT之家
      2026-02-13 16:05:49
      金燦榮給自己找臺階下,但是這個臺階,他是下不來的

      金燦榮給自己找臺階下,但是這個臺階,他是下不來的

      讀鬼筆記
      2026-02-13 13:03:44
      “日掙千元”扛樓小伙回家陪爺爺過年:去年賺了約35萬,花20萬買了車,特意早點回家

      “日掙千元”扛樓小伙回家陪爺爺過年:去年賺了約35萬,花20萬買了車,特意早點回家

      大風新聞
      2026-02-13 10:55:04
      釋永信倒臺后,老鄉才敢說實話:當年他想兩三萬一戶買下整個村

      釋永信倒臺后,老鄉才敢說實話:當年他想兩三萬一戶買下整個村

      每一次點擊
      2026-02-13 14:46:14
      趙一荻獨自回國掃墓,跪在張作霖墓前大哭:我代表您兒子來看您了

      趙一荻獨自回國掃墓,跪在張作霖墓前大哭:我代表您兒子來看您了

      大運河時空
      2026-02-13 07:00:03
      驚天轉向!托卡耶夫自削權力,哈薩克斯坦告別“一言堂”

      驚天轉向!托卡耶夫自削權力,哈薩克斯坦告別“一言堂”

      芳芳歷史燴
      2026-02-12 15:40:36
      中德法舉行三方外長會晤

      中德法舉行三方外長會晤

      新華社
      2026-02-14 08:38:08
      應急管理部:加強煙花爆竹非法制售、儲存的排查打擊

      應急管理部:加強煙花爆竹非法制售、儲存的排查打擊

      環球網資訊
      2026-02-13 14:16:06
      春節開電車返鄉血虧!充電竟比加油還貴?高速免費的紅利,全被充電刺客偷光了

      春節開電車返鄉血虧!充電竟比加油還貴?高速免費的紅利,全被充電刺客偷光了

      新浪財經
      2026-02-14 00:15:52
      國際奧委會取消處罰:已有約660名烏克蘭運動員在戰爭中被殺害

      國際奧委會取消處罰:已有約660名烏克蘭運動員在戰爭中被殺害

      鷹眼Defence
      2026-02-13 12:15:29
      米蘭冬奧|今日早報:金博洋謝幕,馬里寧爆冷,花滑男單冠軍花落哈薩克斯坦

      米蘭冬奧|今日早報:金博洋謝幕,馬里寧爆冷,花滑男單冠軍花落哈薩克斯坦

      上觀新聞
      2026-02-14 06:59:04
      “純中醫寶寶”被全網嘲笑:孩子天崩開局,果然無知才是高危妊娠

      “純中醫寶寶”被全網嘲笑:孩子天崩開局,果然無知才是高危妊娠

      妍妍教育日記
      2026-02-11 16:32:14
      2026-02-14 09:31:01
      ZFinance
      ZFinance
      Z世代的一站式AI、科技和財經資訊
      122文章數 2關注度
      往期回顧 全部

      科技要聞

      獨家探訪蔡磊:答不完的卷子 死磕最后一程

      頭條要聞

      37年懸案告破 香港女總督察被認出是昔日TVB女主播

      頭條要聞

      37年懸案告破 香港女總督察被認出是昔日TVB女主播

      體育要聞

      一年怒虧2個億,庫里和安德瑪的“孽緣”

      娛樂要聞

      大衣哥女兒風光出嫁,農村婚禮超樸素

      財經要聞

      華萊士母公司退市 瘋狂擴張下的食安隱憂

      汽車要聞

      星光730新春促銷開啟 80天銷量破2.6萬臺

      態度原創

      本地
      時尚
      教育
      公開課
      軍事航空

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準備

      穿上這些鞋擁抱春天

      教育要聞

      內蒙古2026年普惠性幼兒園覆蓋率達到93%以上

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      多次成功應對外艦、外機挑釁 太原艦展示052D硬核實力

      無障礙瀏覽 進入關懷版