![]()
出品 | 網易智能
作者 | 辰辰
編輯 | 王鳳枝
在生命進化的漫長長河里,“看見”世界比“談論”世界早了整整5億年。如今,AI正在補上這一課。
這句充滿進化論智慧的判斷,正是李飛飛對當下AI浪潮的最新注解。在充斥著浮躁與噪音的硅谷,她的聲音始終代表著一種冷靜的遠見。
北京時間2月4日凌晨,這位公認的“AI教母”帶著初創公司World Labs現身思科年度AI峰會(Cisco AI Summit)。作為曾經引爆計算機視覺革命的科學家,她沒有隨波逐流于大模型的語言游戲,而是將目光投向了AI進化的下一塊拼圖:空間智能(Spatial Intelligence)。
她認為,AI的下一個巔峰,不只是會寫代碼和聊天,而是像生物一樣,真實理解并交互我們所處的這個三維空間。
而超越技術維度之外,她更為AI的未來立下了一把人文標尺:“AI的成功,應當體現為文明的進步,讓每個個體都能由此追求幸福、繁榮和尊嚴。”
![]()
以下是本次精彩訪談的解析,為你拆解“空間智能”將如何重塑我們的未來。
1. 進化論的啟示:感知先于語言
很多人認為AI的終極形式是語言模型,但李飛飛提出了一個有趣的視角:從進化論來看,語言其實是“后來者”。
她舉例說,在5億多年前的寒武紀,生命體最先發育出的并不是語言,而是感知系統。動物通過觸覺和視覺觀察環境,才開啟了那場讓生命變得更聰明的“進化軍備競賽”。
李飛飛認為,“理解、推理并與3D物理世界互動的能力,與語言智能一樣,都是最基礎的底層能力。它是AI的下一個前沿。”
這也是World Labs的核心邏輯:如果AI不能像人一樣理解空間,它就永遠無法真正進入現實物理世界。
2. 什么是Marble?它不只是視頻,而是一個“世界”
訪談中,李飛飛詳細介紹了World Labs的第一代模型:Marble。
很多人將其與Sora等視頻生成模型混淆,但李飛飛指出,二者有著本質區別。Marble是一種真正意義上的“世界模型”:
· 全場景交互:它能根據文本或圖片提示,生成一個完整的、可導航的、可交互的3D世界。
· 物理一致性:它具有幾何結構,不是一段“看起來像”的視頻,而是一個在物理邏輯上始終保持一致的空間。
這意味著,它不僅能用來做游戲,更能直接成為機器人訓練的“虛擬實驗室”。
3. 意想不到的用例:從機器人到心理治療
空間智能的應用邊界在哪里?李飛飛給出的答案超出了很多人的想象:
· 游戲與影視:開發者可以用它快速構建可穿行的虛擬世界,特效團隊能進行虛擬制片。
· 機器人訓練:與英偉達等伙伴合作,為機器人提供高精度的仿真環境。
· 建筑設計:設計師能瞬間將平面圖轉化為可步入的3D樣板間。
最令人稱奇的是醫療科研。心理學家正利用Marble為強迫癥(OCD)患者定制個性化的沉浸式環境,通過模擬特定觸發場景來進行科學干預。
4. 數據與算力:我們離通用機器人還有多遠?
當被問及Marble是否像GPT-5那樣燒錢時,李飛飛顯得很坦誠。
目前,Marble的訓練規模比頂級大語言模型要小幾個數量級。這一方面是因為這個領域尚處于“規模定律(Scaling Law)”的早期,另一方面也面臨著數據獲取的挑戰。
李飛飛坦言,不同于互聯網上隨處可見的文本,高質量的3D物理數據非常稀缺。她透露,World Labs當下采用一種混合數據策略,綜合利用互聯網級的圖文視頻、仿真數據以及類似自動駕駛公司的“實景捕獲”數據。
關于通用機器人,李飛飛也潑了一盆冷水:“汽車只是在二維平面上移動、盡量不去碰東西的‘方盒子’。但通用機器人要在三維空間里完成靈活、精準的抓取和互動。這是一個極高維度的難題,我們不能亂開空頭支票。”
5. 拒絕“技術末日論”:AI的成功應關乎尊嚴
作為AI領域的領軍人物,李飛飛對當下的兩極分化言論感到擔憂。
“技術烏托邦”和“末日生存危機”在她看來都不夠負責任。她強調,技術是雙刃劍,人類必須發揮主觀能動性去引導它。
那么,AI最終的成功標志是什么?
李飛飛借用了“電力”的類比:電力的成功不在于電線本身,而在于它點亮了學校、溫暖了家庭、延長了人類壽命。“AI的成功,也應當體現在文明的進步,讓每個人都能追求幸福、繁榮和尊嚴。”
6. 結語
從理解像素到構建世界,李飛飛正帶領團隊在空間智能的無人區探索。這不僅是技術的跨越,更是人類試圖賦予數字生命“感知力”的又一次嘗試。
空間智能,或許就是我們通往AGI的那把“物理鑰匙”。
(以下為發言實錄)
主持人:好的。接下來,我們要聊聊3D模型,而不僅僅是語言模型。今天,我們有幸請到了被譽為“AI教母”的李飛飛博士。很榮幸,我們也是飛飛博士公司的投資者。讓我們用掌聲歡迎李飛飛博士上臺。我今天該穿上World Labs的周邊T恤的,你之前送過我,真的很有心。
李飛飛:是啊,我可還等著思科的周邊呢。
主持人:沒問題,我們馬上安排。感謝你來到這里。看到World Labs在過去一年取得的進展,真的令人欣喜。飛飛,先跟我們聊聊你們目前在做什么,以及為什么這件事如此重要?
李飛飛:好。現在我每天醒來,腦子里其實只在想一件事:空間智能(Spatial Intelligence)。這就是我大約兩年前和一群年輕的技術專家共同創辦的公司:World Labs的核心。
如果從進化論的角度來看,在5億多年前,最先開啟神經系統發育的并不是語言,而是感知。早在語言出現之前,動物就開始通過觸覺和視覺感知光線、接觸環境。
主持人:那你認為“本能”也屬于感知的范疇嗎?
李飛飛:對我來說,“本能”是一個比較虛泛的詞。但從物理進化上講,正是視覺開啟了進化史上的“軍備競賽”,讓動物變得更加活躍和聰明。
理解、推理、互動并在真實的3D/4D物理世界中穿行的能力,與語言智能一樣,都是最基礎的底層能力。而其中的關鍵技術就是“空間智能”,這是AI的下一個前沿陣地。
主持人:聊聊Marble吧。前陣子剛發布的Marble到底是什么?
李飛飛:Marble是我們的第一代空間智能模型。我們私下管它叫“世界模型”。
它能接收多模態輸入:無論是文本、圖片、視頻,還是簡單的3D輸入,然后根據這些提示詞,生成一個可以完全穿行、實時交互、且具有永久一致性的3D世界。這與目前的視頻模型截然不同,它擁有完整的幾何結構,可以支撐機器人仿真訓練或游戲編程。
主持人:有一種觀點認為,如果不增強AI的物理特性,我們就無法實現通用人工智能(AGI)。隨著時間的推移,這里面最大的“突破口”會是什么?除了機器人領域,五年后我們還能用它做什么?
李飛飛:其實都不用等五年。現在就已經有用戶在用Marble開發游戲了,影視特效(VFX)客戶也用它進行虛擬制片。我們正與英偉達以及一些初創公司合作,將Marble作為機器人的訓練環境。建筑師和設計師用它做室內設計。
還有一個令我意外的用例是臨床研究:心理健康研究人員利用它為強迫癥(OCD)患者創建沉浸式的個性化環境,來模擬特定的觸發場景。
主持人:你把整個人生都奉獻給了AI。在創辦這家公司、研究空間智能的過程中,最讓你感到驚訝的是什么?
李飛飛:過去幾年的發展速度簡直令人窒息。每個人都會感到焦慮,覺得“要讀的東西太多,發布的模型太快”。這讓我時刻保持謙遜,意識到自己所知甚少。
另一件讓我擔憂的事是那些極度兩極分化的言論:要么是技術烏托邦主義,要么是“生存危機”之類的末日論。這兩種觀點其實都不太負責任。技術是一把雙刃劍,我們必須發揮主觀能動性,引導它走向善意化和精細化的應用。
主持人:在你看來,未來幾年AI的成功標準是什么?
李飛飛:回看電力技術,它的成功在于點亮了學校、溫暖了家庭、推動了工業化,并延長了人類的壽命。AI的成功標志應該是:文明因它而進步,每個個體都能由此追求幸福、繁榮和尊嚴。
主持人:大型世界模型的計算量和語言模型一樣大嗎?
李飛飛:目前,我們的模型規模還沒有最大的大語言模型(LLM)那么大。GPT-5的訓練算力可能在10^26 FLOPS左右,而Marble要小幾個數量級。部分原因是這個領域還很新:Transformer論文發布于2017年,而世界模型才剛剛開始進入Scaling Law的上升曲線。
主持人:語言模型是用互聯網上的免費數據訓練的。但物理數據很難獲取,所以合成數據變得至關重要。數據的匱乏會減慢世界模型的發展嗎?另外,未來我們會擁有通用機器人,還是專用機器人?
李飛飛:我們采取的是混合數據策略。語言數據相對干凈且易于觀察,但像素和體素(Voxel)構成的物理世界則復雜得多。我們利用互聯網規模的文本、圖像和視頻,但也需要仿真數據和“現實世界捕獲”數據,這與特斯拉或Waymo等自動駕駛公司的做法類似。
關于機器人:作為科學家,我不喜歡亂開空頭支票。汽車可以看作是一個在二維平面上移動的“方盒子機器人”,它的主要目標是避開障礙物。而通用機器人是一個三維實體,它必須觸碰并與物體互動,且不能損壞它們。這是一個維度高得多的問題,涉及極高的靈活性和空間精準度。
主持人:在最后的一分鐘里,企業端應該如何看待世界模型?
李飛飛:空間智能是一項橫向通用技術。除了機器人和游戲,它還可以應用于醫療、教育、外勤服務、金融服務、農業、制造業和城市規劃。它是下一個前沿領域,我邀請大家共同來探索這個課題。
主持人:非常感謝。
李飛飛:謝謝。
