李飛飛最近發(fā)布的長(zhǎng)文《從語言到世界:空間智能是 AI 的下一個(gè)前沿》在硅谷引起巨大反響,甚至被許多人稱為“空間智能宣言”。緊接著,她聯(lián)合創(chuàng)辦的 World Labs 又發(fā)布了全球首個(gè)大型世界模型產(chǎn)品 Marble。而就在幾天后,她接受了 Lenny's Podcast 的播客訪談,圍繞著她近期一系列的重要舉措,詳細(xì)闡述了她對(duì) AI 未來的思考、世界模型的技術(shù)路徑,以及為什么空間智能將成為人工智能的下一個(gè)十年。
![]()
圖丨相關(guān)訪談(來源:Youtube)
在這場(chǎng)長(zhǎng)達(dá)一個(gè)多小時(shí)的對(duì)話中,李飛飛回顧了 AI 從寒冬到復(fù)興的歷史轉(zhuǎn)折,坦率地談?wù)摿藙?chuàng)業(yè)過程中的焦慮與壓力,她還直言不諱地指出 AGI(通用人工智能,Artificial General Intelligence)“更像是營(yíng)銷術(shù)語而非科學(xué)術(shù)語”,強(qiáng)調(diào)當(dāng)前 AI 最大的短板是缺乏空間智能——那種讓人類能夠在三維世界中導(dǎo)航、操控物體、預(yù)測(cè)物理現(xiàn)象的能力。她還解釋了為什么僅靠數(shù)據(jù)和算力的“苦澀教訓(xùn)”無法讓機(jī)器人真正成熟,以及為什么每個(gè)人在 AI 時(shí)代都不該被邊緣化。
從 ImageNet 到世界模型
今天,幾乎所有人都在談?wù)?AI,但很少有人記得,僅僅在九年前,將自己稱為“AI 公司”在商業(yè)上幾乎是自殺。李飛飛在訪談中回憶道:“2015 年中到 2016 年中,一些科技公司甚至避免使用 AI 這個(gè)詞,因?yàn)樗麄儾淮_定 AI 是否是個(gè)貶義詞。”那時(shí)的 AI 還深陷“寒冬”,公眾興趣寥寥,研究資金有限。
而這場(chǎng)寒冬的解凍,要追溯到 2012 年的一個(gè)技術(shù)突破。那一年,杰弗里·辛頓(Geoffrey Hinton)教授帶領(lǐng)的團(tuán)隊(duì)在 ImageNet 挑戰(zhàn)賽中使用神經(jīng)網(wǎng)絡(luò)算法取得突破性成功,這被廣泛認(rèn)為是現(xiàn)代 AI 或深度學(xué)習(xí)的誕生時(shí)刻。而這場(chǎng)革命的基礎(chǔ),正是李飛飛從 2006 年開始構(gòu)建的 ImageNet 數(shù)據(jù)集。
![]()
圖丨ImageNet(來源:ImageNet)
2000 年,李飛飛在加州理工學(xué)院開始攻讀博士學(xué)位,當(dāng)時(shí) AI 研究者已經(jīng)意識(shí)到純粹基于規(guī)則的編程無法賦予機(jī)器真正的認(rèn)知能力。機(jī)器學(xué)習(xí)的概念已經(jīng)開始興起,它讓計(jì)算機(jī)能夠從數(shù)據(jù)中學(xué)習(xí)模式,而不是為每一種情況編寫規(guī)則。
但李飛飛很快發(fā)現(xiàn)了一個(gè)被普遍忽視的瓶頸。“我們有各種各樣的數(shù)學(xué)模型,包括神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)等等,但這些模型缺乏訓(xùn)練數(shù)據(jù),”她在訪談中回憶道。這個(gè)洞察來自對(duì)人類學(xué)習(xí)方式的觀察。人類學(xué)習(xí)依賴海量的經(jīng)驗(yàn)積累,進(jìn)化本身也是一個(gè)跨越漫長(zhǎng)時(shí)間的大數(shù)據(jù)學(xué)習(xí)過程。而當(dāng)時(shí)的 AI 模型就像營(yíng)養(yǎng)不良的孩子,再精妙的算法也難以施展。
于是,這個(gè)觀察促使她和學(xué)生們啟動(dòng)了一個(gè)在當(dāng)時(shí)看來“完全瘋狂”的項(xiàng)目:從互聯(lián)網(wǎng)上精心收集 1,500 萬張圖片,創(chuàng)建包含 2.2 萬個(gè)概念的分類體系。
這個(gè)大膽的賭注最終得到了回報(bào)。辛頓團(tuán)隊(duì)的那兩塊游戲顯卡和 1,500 萬張標(biāo)注圖片,成為現(xiàn)代 AI 的黃金配方雛形。
這個(gè)“黃金配方”一直延續(xù)至今。“如果你看 ChatGPT 背后的技術(shù)成分,它仍然使用這三大要素:互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)(主要是文本)、比 2012 年復(fù)雜得多但仍是神經(jīng)網(wǎng)絡(luò)的架構(gòu),以及大量 GPU。”李飛飛指出。
然而,就在大語言模型席卷全球之際,李飛飛卻將目光投向了另一個(gè)方向。2019 年,當(dāng) GPT-2 問世時(shí)(注:原訪談中李飛飛提及的是“GPT-2,came out in late 2020”,但 GPT-2 實(shí)際發(fā)布于 2019 年 2 月,GPT-3 發(fā)布于 2020 年 6 月,此處也可能是指 GPT-3),作為斯坦福人本人工智能研究院(Human-Centered AI Institute,HAI)的聯(lián)合院長(zhǎng),她與自然語言處理領(lǐng)域的同事們展開了深入討論。“我們都看到了未來,”她回憶道。但她也意識(shí)到,僅有語言是不夠的。
空間智能:被忽視的認(rèn)知基礎(chǔ)架構(gòu)
在李飛飛看來,當(dāng)今 AI 的根本局限在于缺乏空間智能。“大語言模型雖然雄辯,卻缺乏經(jīng)驗(yàn);博學(xué),卻未能落地,”她在長(zhǎng)文中寫道,“它們是黑暗中的文字匠人。”
李飛飛舉了一個(gè)簡(jiǎn)單的例子:“你給最先進(jìn)的多模態(tài)大語言模型(Multimodal LLMs,MLLMs)播放幾個(gè)辦公室房間的視頻,然后要求它數(shù)清楚有多少把不同的椅子。這是一個(gè)學(xué)齡兒童都能做到的事情,但 AI 做不到。”更不用說那些需要在腦海中旋轉(zhuǎn)物體、估計(jì)距離、預(yù)測(cè)基本物理現(xiàn)象的任務(wù),在這些方面,AI 的表現(xiàn)往往不比隨機(jī)猜測(cè)更好。
相比之下,空間智能滲透在人類活動(dòng)的方方面面。從日常的停車、接球、倒咖啡,到古希臘學(xué)者埃拉托色尼用影子測(cè)量地球周長(zhǎng)、沃森和克里克用物理模型發(fā)現(xiàn) DNA 雙螺旋結(jié)構(gòu),這些人類智慧的高光時(shí)刻都離不開對(duì)空間的理解和操控。
“我們對(duì)世界的看法是整體的,”李飛飛強(qiáng)調(diào),“不僅僅是我們正在看的東西,還包括一切事物在空間上如何關(guān)聯(lián)、它意味著什么以及為什么重要。通過想象、推理、創(chuàng)造和互動(dòng)——而非僅僅描述——來理解這一點(diǎn),正是空間智能的力量。”
在訪談中,她進(jìn)一步闡述了為什么空間智能對(duì) AI 如此關(guān)鍵:“想象一個(gè)非常混亂的第一響應(yīng)現(xiàn)場(chǎng),可能是火災(zāi)、交通事故或自然災(zāi)害。如果你沉浸在那些場(chǎng)景中,思考人們?nèi)绾谓M織自己去救人、阻止進(jìn)一步的災(zāi)難、撲滅火焰——很多都是關(guān)于移動(dòng)、對(duì)物體和世界的即時(shí)理解、情境感知。語言是其中一部分,但在很多情況下,語言無法幫你撲滅火焰。”
“人類認(rèn)知的核心不僅僅是語言”,李飛飛強(qiáng)調(diào),“而是對(duì)三維空間的理解和操作能力。從停車到接鑰匙,從設(shè)計(jì)建筑到發(fā)現(xiàn) DNA 的雙螺旋結(jié)構(gòu),都依賴于空間智能。”
當(dāng)前的 AI 模型在這方面表現(xiàn)糟糕得令人吃驚。最先進(jìn)的多模態(tài)大語言模型(Multimodal LLMs,MLLMs)在估計(jì)距離、方向和大小方面的表現(xiàn),往往不比隨機(jī)猜測(cè)好多少。它們無法在腦海中旋轉(zhuǎn)物體,無法導(dǎo)航迷宮,無法預(yù)測(cè)基本的物理現(xiàn)象。AI 生成的視頻雖然新奇,但往往在幾秒鐘后就失去了連貫性。
這也正是李飛飛在 2022 年開始系統(tǒng)性地思考世界模型的原因。這個(gè)概念也是她多年計(jì)算機(jī)視覺和機(jī)器人研究的自然延伸。2024 年,她在 TED 演講中首次系統(tǒng)闡述了空間智能和世界模型的愿景,幾個(gè)月后,與賈斯汀·約翰遜(Justin Johnson)、克里斯托夫·拉斯納(Christoph Lassner)和本·米爾登霍爾(Ben Mildenhall)共同創(chuàng)立了 World Labs。
![]()
圖丨 World Labs 創(chuàng)始團(tuán)隊(duì)(來源:World Labs)
李飛飛為世界模型定義了三個(gè)核心能力:生成性——能夠創(chuàng)造具有幾何和物理一致性的世界;多模態(tài)——可以處理圖像、視頻、文本、動(dòng)作等多種輸入;交互性——能夠基于動(dòng)作預(yù)測(cè)下一個(gè)世界狀態(tài)。簡(jiǎn)單來說,如果大語言模型教會(huì)了機(jī)器讀寫,世界模型將教會(huì)它們觀察和建造。
Marble 的誕生:從研究到產(chǎn)品
大約一兩個(gè)月前,World Labs 團(tuán)隊(duì)第一次看到他們的模型通過簡(jiǎn)單的文字和圖像提示,生成出可以自由導(dǎo)航的三維世界。那一刻的震撼,或許類似于當(dāng)年看到 ImageNet 訓(xùn)練出第一個(gè)真正有效的深度神經(jīng)網(wǎng)絡(luò)。經(jīng)過一年多的艱苦研發(fā),全球首個(gè)生成式三維世界模型終于誕生。
這就是 11 月發(fā)布的 Marble。它與現(xiàn)有的視頻生成工具有本質(zhì)區(qū)別。“世界不是被動(dòng)地觀看視頻經(jīng)過,”李飛飛借用柏拉圖的洞穴寓言來解釋,“視覺的本質(zhì)是從二維中理解三維或四維世界。”視頻生成模型輸出的是平面的二維世界,而 Marble 輸出的是具有深度空間結(jié)構(gòu)的三維世界——用戶可以在其中自由探索、互動(dòng),甚至導(dǎo)出特定視角的視頻片段。
![]()
圖丨Marble(來源:World Labs)
產(chǎn)品推出后,應(yīng)用場(chǎng)景的多樣性超出了團(tuán)隊(duì)預(yù)期。影視制作公司用它大幅加速虛擬制作流程,“他們說這讓制作時(shí)間縮短了 40 倍”,因?yàn)閯?chuàng)作者可以在 Marble 生成的三維場(chǎng)景中自由定位攝像機(jī)位置并拍攝片段。游戲開發(fā)者將 Marble 場(chǎng)景導(dǎo)出為網(wǎng)格數(shù)據(jù),用于 VR 游戲或傳統(tǒng)游戲開發(fā)。
更令人意外的應(yīng)用來自科學(xué)研究領(lǐng)域。一個(gè)心理學(xué)團(tuán)隊(duì)聯(lián)系 World Labs,希望用 Marble 為精神病學(xué)研究創(chuàng)建實(shí)驗(yàn)環(huán)境。“他們需要理解患者的大腦如何對(duì)不同特征的沉浸式環(huán)境做出反應(yīng),比如雜亂的或整潔的空間。對(duì)研究人員來說,獲取這類沉浸式場(chǎng)景非常困難,創(chuàng)建它們需要太長(zhǎng)時(shí)間和太多預(yù)算。Marble 幾乎能即時(shí)提供大量實(shí)驗(yàn)環(huán)境。”李飛飛說。
機(jī)器人研究者也看到了 Marble 的價(jià)值。訓(xùn)練機(jī)器人需要在多樣化的合成環(huán)境中學(xué)習(xí),但創(chuàng)建這些訓(xùn)練數(shù)據(jù)一直是巨大痛點(diǎn)。“你希望機(jī)器人能在三維世界中執(zhí)行動(dòng)作,但訓(xùn)練數(shù)據(jù)缺乏三維世界中的動(dòng)作,”李飛飛指出,“世界模型可以生成那些合成環(huán)境。否則人類必須為機(jī)器人手工構(gòu)建每一個(gè)資產(chǎn),那將花費(fèi)更長(zhǎng)時(shí)間。”
甚至還有人詢問能否用 Marble 進(jìn)行暴露療法。“昨晚一個(gè)朋友給我打電話,談到他的恐高癥,問我 Marble 是否可以用于治療。”李飛飛說。
機(jī)器人的未來:為何“苦澀的教訓(xùn)”還不夠
在訪談中,主持人代表投資人本·霍洛維茨(Ben Horowitz)提出了一個(gè)問題:為什么 AI 歷史上著名的“苦澀教訓(xùn)”(bitter lesson)單獨(dú)無法解決機(jī)器人問題?
“苦澀教訓(xùn)”源自圖靈獎(jiǎng)得主理查德·薩頓(Richard Sutton)的一篇論文,核心觀點(diǎn)是:簡(jiǎn)單模型加海量數(shù)據(jù)總是勝過復(fù)雜模型加少量數(shù)據(jù)。這個(gè)規(guī)律在語言模型上得到了完美驗(yàn)證,而李飛飛建立 ImageNet 的初衷也正是相信大數(shù)據(jù)的力量。
![]()
圖丨Richard Sutton(來源:University of Alberta)
但機(jī)器人領(lǐng)域不同。“語言模型研究者很幸運(yùn),”李飛飛坦言,“他們有完美的設(shè)置:訓(xùn)練數(shù)據(jù)是文字(最終是 token),模型輸出也是文字。目標(biāo)函數(shù)和訓(xùn)練數(shù)據(jù)完美對(duì)齊。”
相比之下,機(jī)器人面臨的挑戰(zhàn)更復(fù)雜。首先是數(shù)據(jù)獲取困難。雖然可以使用網(wǎng)絡(luò)視頻,但“你希望從機(jī)器人那里得到的是在三維世界中的動(dòng)作,而訓(xùn)練數(shù)據(jù)缺乏這些”。研究者不得不尋找不同方法來彌補(bǔ)這個(gè)“方釘圓孔”的問題,比如遠(yuǎn)程操作數(shù)據(jù)或合成數(shù)據(jù)。
其次,當(dāng)前主流方法將數(shù)據(jù)切分為一維或二維 Token 序列,這讓一些原本簡(jiǎn)單的空間任務(wù)變得極其困難。“世界模型將在提供這些信息方面發(fā)揮決定性作用,”李飛飛說,“但我們必須謹(jǐn)慎,因?yàn)槲覀冞€處于早期階段,苦澀教訓(xùn)還有待檢驗(yàn)。”
更關(guān)鍵的是,機(jī)器人是物理系統(tǒng),而不僅僅是算法。李飛飛提醒道:“要讓機(jī)器人工作,我們不僅需要大腦,還需要物理身體和應(yīng)用場(chǎng)景。”她以自動(dòng)駕駛汽車為例:從 2005 年斯坦福賽車在內(nèi)華達(dá)沙漠跑完 130 英里,到今天 Waymo 在舊金山街頭運(yùn)營(yíng),經(jīng)歷了 20 年歷程。“而自動(dòng)駕駛汽車只是在二維表面運(yùn)行的金屬盒子,目標(biāo)是不碰到任何東西。機(jī)器人則是在三維世界中運(yùn)行的三維物體,目標(biāo)恰恰是要接觸東西。”
做這些工作時(shí),李飛飛對(duì)人類大腦的尊敬與日俱增。“我們的大腦只消耗約 20 瓦功率,比房間里的任何燈泡都暗,卻能做這么多事情。說實(shí)在的,我在 AI 領(lǐng)域工作得越久,就越尊重人類。”
AGI 的迷思與 AI 的未來
“世界模型”一直以來也被認(rèn)為是通往 AGI 的關(guān)鍵技術(shù)之一,然而作為世界模型的支持者和推動(dòng)者,李飛飛對(duì) AGI 何時(shí)到來這一問題的態(tài)度卻有點(diǎn)出人意料,在她看來,“AGI 更像是一個(gè)營(yíng)銷術(shù)語而非科學(xué)術(shù)語。”
作為科學(xué)家,她認(rèn)真對(duì)待的是 AI 本身,也就是那個(gè)自 1940 年代圖靈提出“機(jī)器能思考嗎”以來就存在的宏大問題。“我進(jìn)入這個(gè)領(lǐng)域是因?yàn)槭艿竭@個(gè)大膽問題的啟發(fā):機(jī)器能否像人類一樣思考和行動(dòng)?對(duì)我來說,那一直是 AI 的北極星。從這個(gè)角度看,我不知道 AI 和 AGI 有什么區(qū)別。”
她指出,沒有人真正定義過 AGI。“有很多不同的定義,從機(jī)器的某種超能力,一直到機(jī)器能否成為社會(huì)中經(jīng)濟(jì)上可行的代理人——換句話說,能夠謀生。這算是 AGI 的定義嗎?”
當(dāng)被問及當(dāng)前技術(shù)路徑能否達(dá)到 AGI 時(shí),李飛飛的回答既現(xiàn)實(shí)又充滿雄心:“我絕對(duì)認(rèn)為我們需要更多創(chuàng)新。更多數(shù)據(jù)、更多 GPU 和更大的當(dāng)前模型架構(gòu)仍有很多工作要做,但我也絕對(duì)認(rèn)為我們需要?jiǎng)?chuàng)新更多。”
她列舉了 AI 仍然無法完成的任務(wù):數(shù)清視頻中有多少把椅子,展現(xiàn)類似牛頓那樣從觀察天體運(yùn)動(dòng)中推導(dǎo)出運(yùn)動(dòng)定律的創(chuàng)造力,或是在師生辦公室談話中展現(xiàn)出的情感認(rèn)知智能。“人類文明史上沒有一個(gè)深刻的科學(xué)學(xué)科在某個(gè)時(shí)刻說‘我們完成了,我們不再創(chuàng)新了’。AI 作為人類文明中最年輕的學(xué)科之一,我們?nèi)栽诿鞅砻妗!?/p>
最近,DeepMind 的首席執(zhí)行官德米斯·哈薩比斯(Demis Hassabis)提出了一個(gè)有趣的 AGI 測(cè)試方法:如果給最先進(jìn)的模型提供截至 20 世紀(jì)末的所有信息,看它能否得出愛因斯坦的突破性發(fā)現(xiàn)。“我們離那還很遠(yuǎn),”李飛飛說,“事實(shí)上情況更糟。即使給 AI 所有數(shù)據(jù),包括牛頓時(shí)代沒有的現(xiàn)代天體儀器數(shù)據(jù),讓它創(chuàng)造 17 世紀(jì)關(guān)于物體運(yùn)動(dòng)的方程組,今天的 AI 根本做不到。”
李飛飛補(bǔ)充說,情感智能也是巨大的空白。一個(gè)學(xué)生走進(jìn)老師辦公室,討論動(dòng)力、熱情和困擾,那種對(duì)話的深度,即便是今天最強(qiáng)大的聊天機(jī)器人也無法企及。
“AI 是人類文明史上最年輕的學(xué)科之一,我們還在摸索表面,”她說。沒有任何一個(gè)成熟的科學(xué)領(lǐng)域會(huì)宣稱“我們完成了,不需要再創(chuàng)新了”。盡管大型語言模型已經(jīng)取得了驚人的進(jìn)展,李飛飛堅(jiān)信我們需要更多的創(chuàng)新,而不僅僅是更大的數(shù)據(jù)集、更多的 GPU 和更大規(guī)模的現(xiàn)有架構(gòu)。
以人為本:技術(shù)的終極歸宿
在采訪接近尾聲時(shí),李飛飛分享了一個(gè)貫穿她整個(gè)職業(yè)生涯的信念:“你們的領(lǐng)域叫人工智能,但它一點(diǎn)也不‘人工’。它由人啟發(fā),由人創(chuàng)造,最重要的是,它影響人。”這是她經(jīng)常提醒畢業(yè)生的話,也是她在 2018 年決定離開工業(yè)界、回到斯坦福創(chuàng)立 HAI 的原因。
那一年,她在《紐約時(shí)報(bào)》發(fā)表文章,呼吁為 AI 發(fā)展和應(yīng)用建立一個(gè)以人為本的指導(dǎo)框架。HAI 隨后成為全球最大的 AI 研究機(jī)構(gòu),涉及斯坦福七個(gè)學(xué)院的數(shù)百名教師,從醫(yī)學(xué)到教育,從可持續(xù)發(fā)展到人文學(xué)科。
![]()
圖丨HAI(來源:Stanford University)
但李飛飛強(qiáng)調(diào),她不是烏托邦主義者。“AI 會(huì)影響工作和人,這是無可回避的事實(shí)。但我相信,AI 目前和未來會(huì)做什么,取決于我們,取決于人。”她相信技術(shù)對(duì)人類文明是凈正向的,因?yàn)閯?chuàng)新是人類的本質(zhì)。從數(shù)千年前的文字記錄到今天,人類不斷創(chuàng)新,不斷改進(jìn)工具,從而讓生活更美好,讓工作更高效,構(gòu)建文明。
然而,她也清醒地認(rèn)識(shí)到技術(shù)的雙刃劍屬性:“如果我們作為社會(huì)、作為個(gè)體不做正確的事,我們也可能搞砸。”她呼吁每個(gè)人都應(yīng)該關(guān)心 AI,因?yàn)樗鼤?huì)影響你的個(gè)人生活、你的社區(qū)、整個(gè)社會(huì)和未來的世代。“作為負(fù)責(zé)任的個(gè)體關(guān)心這件事,是第一步,也是最重要的一步。”
在訪談的最后,李飛飛回答了一個(gè)她在全球各地旅行時(shí)最常被問到的問題:如果我是音樂家、中學(xué)教師、護(hù)士、會(huì)計(jì)或農(nóng)民,我在 AI 時(shí)代還有角色嗎?
她的回答是:“這是 AI 最重要的問題。答案是響亮的‘是’。每個(gè)人都在 AI 中有角色。”她舉例說,如果你是年輕藝術(shù)家,應(yīng)該擁抱 AI 作為工具——擁抱 Marble,讓它幫助你以最獨(dú)特的方式講述你的故事。如果你是護(hù)士,她希望你知道,她的整個(gè)職業(yè)生涯中有很大一部分投入到醫(yī)療 AI 研究,因?yàn)獒t(yī)護(hù)人員過度勞累,AI 可以也應(yīng)該極大地幫助他們。
“硅谷往往不善于與普通人心對(duì)心地交流”,她說,“我們總是拋出‘無限生產(chǎn)力’或‘無限休閑時(shí)間’這樣的詞匯。但歸根結(jié)底,AI 是關(guān)于人的。任何技術(shù)都不應(yīng)奪走人的尊嚴(yán)。人的尊嚴(yán)和能動(dòng)性,應(yīng)該是每一項(xiàng)技術(shù)開發(fā)、部署和治理的核心。”
參考資料:
1.https://www.youtube.com/watch?v=Ctjiatnd6Xk
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.