![]()
新智元報(bào)道
編輯:KingHZ
【新智元導(dǎo)讀】當(dāng)全世界都在給大模型添柴加火時(shí),AI教父卻拎包出走,暗示要跑去巴黎造「懂現(xiàn)實(shí)世界的機(jī)器」。
小扎口頭說支持,卻不愿真金白銀投資!
在Meta工作了12年后,圖靈獎(jiǎng)得主Yann LeCun將在年底離職。
上個(gè)月,65歲的LeCun宣布今年年底將離開Meta,開始創(chuàng)業(yè)。
在離職信中,他表示,正是由于同事持續(xù)的關(guān)注與支持,Meta將成為這家新公司的合作伙伴,但沒有更多的細(xì)節(jié)。
在昨日的巴黎AI-Pulse活動上,LeCun表示Meta不是投資者。
![]()
LeCun神秘初創(chuàng)公司不做ChatGPT,要教AI理解物理世界,專注于LeCun所描述的高級機(jī)器智能,一種基于視覺等感官信息訓(xùn)練的AI,用于預(yù)測物理世界。
LLM是AI黑洞
全球最大的科技巨頭們一擲千金,將數(shù)十億美元砸向AI領(lǐng)域,尤其是那些驅(qū)動了ChatGPT、谷歌Gemini和Meta Llama的「大語言模型」(LLM)。
這些AI巨頭相信,Scaling Law足以支持LLM通向AGI。
![]()
但幾個(gè)月來,Yann LeCun逆勢而為,擲地有聲:大語言模型(LLM)已觸及天花板。在文本生成上,它們表現(xiàn)出色,但不懂物理世界,缺乏記憶,而且在多步推理上舉步維艱。
博士生不要做LLM。
LLM幾乎過時(shí)了。
LLM只是token生成器,屬于System 1,沒有真正推理。
自回歸LLM不具備的、達(dá)到人類(甚至是狗類)智能水平所需的四項(xiàng)能力。 ……
總之,他對LLM似乎毫無興趣了,棄之如敝履。
![]()
直到最近,Yann LeCun仍堅(jiān)信,LLM是AI研究界的「毒瘤」。
上月在布魯克林,Yann LeCun直言不諱:「確實(shí),LLM很棒,也很有用。很多人都會用到它,我們理應(yīng)投資」。
但問題在于:「眼下,LLM就像個(gè)黑洞,把所有的資源和關(guān)注都吸干了,導(dǎo)致其他領(lǐng)域幾乎寸草不生。為了下一場革命,我們必須退一步,冷靜思考當(dāng)前的路徑到底缺失了什么。」
這番言論顯得格外耐人尋味。
幾個(gè)月來,Meta豪擲數(shù)十億美元,重金招攬全明星陣容的LLM專家。
據(jù)OpenAI的首席研究官透露,Meta已經(jīng)超越純砸錢行為。為了挖走人才,小扎親自端湯送給OpenAI員工:利益和情感,雙管齊下,堪稱硅谷版「三顧茅廬」。
![]()
本質(zhì)上,這是對Yann LeCun技術(shù)路線的一種否定。
作為Meta的首席AI科學(xué)家,Yann LeCun卻公開和小扎「唱反調(diào)」。
如此劍拔弩張,兩人理念沖突可見一斑。這也難怪,LeCun在加入12年后離開Meta。
LeCun:我做世界模型快10年了
多年來,Yann LeCun一直是 LLM 的堅(jiān)定批評者。
他始終認(rèn)為,僅僅依靠從互聯(lián)網(wǎng)上「鯨吞」文本,無法產(chǎn)生真正的機(jī)器智能。
他認(rèn)為,自主的機(jī)器智能,需要另辟蹊徑:世界模型(World Models)。
在法國AI研究的重點(diǎn)平臺ai-Pulse的全體大會上,Yann LeCun將與世界模型領(lǐng)域的先鋒公司General Intuition的創(chuàng)始人Pim de Witte共同闡述這一愿景,解析世界模型如何成為明日AI的基石,以及下一個(gè)重大的技術(shù)突破。
![]()
Meta首席AI科學(xué)家Yann LeCun、General Intuition首席執(zhí)行官Pim de Witte、Kyutai首席建模官Neil Zeghidour,以及iliad Group創(chuàng)始人Xavier Niel同臺論道
其實(shí),「世界模型」非常古老。
早在1943年,「人工智能」一詞出現(xiàn)的十二年前,29歲的蘇格蘭心理學(xué)家Kenneth Craik在專著中就深思道:
如果生物體能在其頭腦中攜帶外部現(xiàn)實(shí)的「小規(guī)模模型」……
它就能嘗試多種可能性,推斷出其中最佳的方案……
并以一種更全面、更安全、更得體的方式做出反應(yīng)。
![]()
他關(guān)于心理模型或模擬的概念,預(yù)見了在20世紀(jì)50年代改變心理學(xué)、并至今仍主導(dǎo)認(rèn)知科學(xué)的「認(rèn)知革命」。
更重要的是,它直接將認(rèn)知與計(jì)算聯(lián)系起來:Craik認(rèn)為,「并行或模擬外部事件的能力」是「神經(jīng)系統(tǒng)」和「計(jì)算機(jī)器」兩者共同的根本特征。
大概10年前,LeCun就開始不斷「安利」大家:這才是推動AI進(jìn)步的道路。
其實(shí),在這件事他思考更久。但直到NeurIPS 2016大會上,他做了個(gè)主題報(bào)告,那次算是第一次系統(tǒng)公開講:「這就是我們接下來需要攻克的方向」。
![]()
然后,又過了大概5年,他才逐漸意識到:不能只靠生成式模型來做這件事,于是開始發(fā)展一種新的、非生成式(non-generative)方法,稱之為JEPA(Joint Embedding Predictive Architecture,聯(lián)合嵌入預(yù)測架構(gòu))。
后來,大語言模型(LLMs)來了,它們是生成式的。
當(dāng)時(shí), LeCun反應(yīng)是:「好,這很有趣,用它來做語言非常好用,我們當(dāng)然應(yīng)該去研究,能有大量應(yīng)用。」
但他堅(jiān)信,這并不是通向人類級智能(或者你愿意怎么叫它都行)的那條路。
也就是說,早在LLM爆發(fā)之前,他就得出結(jié)論:「僅靠把語言模型Scaling,并不能帶來真正的智能。」
機(jī)器人不如狗智能
作為人類,我們傾向于覺得語言對智能是必不可少的,但并非如此。
而事實(shí)正好有點(diǎn)反直覺:理解物理世界,比理解語言難得多。
這聽上去可能有點(diǎn)讓人驚訝,但它確實(shí)是這樣。
在機(jī)器人學(xué)里,人們很早就意識到這一點(diǎn)。
上世紀(jì)80年代后期,著名的機(jī)器人學(xué)家Hans Moravec就指出:
要讓電腦如成人般地下棋,相對容易;
但是要讓電腦有如一歲小孩般的感知和行動能力,卻相當(dāng)困難甚至不可能。
這后來被稱為「莫拉維克悖論」(Moravec's paradox)。
LeCun舉了最新的例子:目前最好的AI可以通過律師資格考試,編寫代碼。但我們?nèi)匀粵]有一個(gè)機(jī)器人工人,能像五歲孩子一樣行動。
顯而易見,當(dāng)前的AI缺少一些真正重要的東西。
他認(rèn)為,當(dāng)我們思考現(xiàn)實(shí)中的場景時(shí),其實(shí)是依靠「心理模型」(mental models),也就是我們在腦中操縱的場景表征,我們有物理直覺。而這些東西,絕大部分是我們后天學(xué)來的。人類還是嬰兒、只有幾個(gè)月大的時(shí)候,主要就是通過觀察世界來學(xué)習(xí),也伴隨著一些交互。
過去10年里,LeCun一直嘗試去復(fù)制人類這種學(xué)習(xí)方式:
前5年,基本都在踩坑;
后5年,開始取得比較實(shí)質(zhì)的進(jìn)展,而依靠的是 非生成式架構(gòu) 。
這些系統(tǒng)能學(xué)習(xí)現(xiàn)實(shí)世界的結(jié)構(gòu),預(yù)判演變,并模擬可能的場景。
如果說LLM只是在「預(yù)測」,那么世界模型則是在「理解」;
如果說LLM只是在「反應(yīng)」,那么世界模型則是在「規(guī)劃」。
它們構(gòu)建連貫內(nèi)部表征的能力,打開了AI在復(fù)雜環(huán)境中進(jìn)行推理、行動和交互大門。
世界模型怎么做?
一開始,很多人都認(rèn)為,語言模型之后下一步,自然而然就是先加音頻,再加視頻。
但有趣的是,LeCun并不是純做「視頻模型」,還在用電子游戲數(shù)據(jù)集來做世界模型。
LeCun解釋了:為什么光有視頻還不夠,我們還需要其它什么東西?
首先,他承認(rèn)視頻對理解世界非常重要。基本上,視頻是我們能獲得的最接近現(xiàn)實(shí)的表征之一。
但他更喜歡把視頻比作夢境:很多時(shí)候,在夢里你其實(shí)沒法真正「和看到的東西互動」,你就像一個(gè)旁觀者,而不是參與者。
但從根本上來說,人類的學(xué)習(xí)是高度交互式(interactive)的。
世界模型,不僅僅預(yù)測下一幀視頻,還要預(yù)測「在不同動作下所有可能結(jié)果的分布」。
這就意味著:在視頻表征之外,你還需要大量的動作(action)和交互數(shù)據(jù),來真正構(gòu)建這些世界模型。
LeCun喜歡一個(gè)更直觀的比喻:
LLM有點(diǎn)像雪球:從山坡上滾下來,一路滾一路粘上更多的雪。
它們是自回歸的(auto-regressive):把自己的輸出再喂回模型,再預(yù)測下一個(gè)token。

它們沒有「感知」,它們整個(gè)世界就是自己,所以會一直滾、一直滾,到山底都不知道自己快要撞到什么東西了。
而真正的智能,更像《冰雪奇緣》電影里的雪人Olaf:他知道前面有塊石頭,要散開自己,繞過去。
![]()
文本的局限在于:
人類感知到的世界極其豐富,而文本只是一個(gè)非常小、且高度壓縮的子集。它是建立在人類三維感知之上的一種「描述世界的發(fā)明」。
但對于世界模型和智能體,你必須能夠與環(huán)境交互,才能建立對自己所處環(huán)境的通用直覺(general intuition)。
我們之所以會以為「人類知識大多體現(xiàn)在文本里」,是因?yàn)楹芏辔覀冋J(rèn)為的知識,確實(shí)被寫成了文字。
但事實(shí)并不是說所有人類知識都能通過文本很好地表達(dá)
真正大部分的人類知識,其實(shí)是關(guān)于物理世界和各種情境的心理模型和直覺,這些都是不直接以文本形式存在的。
人類的思考是在腦子里發(fā)生的,不是以token的形式運(yùn)轉(zhuǎn),更多是以心理意象(mental imagery)和各種其它表征出現(xiàn)的。
LeCun希望構(gòu)建的系統(tǒng),也能做到這一點(diǎn)。
再見,LeCun!Meta不投錢
在離職信中,LeCun表示盡管與Meta分道揚(yáng)鑣,小扎等Meta高管支持其創(chuàng)業(yè)項(xiàng)目。
![]()
在巴黎的AI-Pulse活動上,LeCun表示Meta不是投資者。
「但在過去幾個(gè)月發(fā)生的事情,讓我們雙方都意識到,這個(gè)項(xiàng)目的應(yīng)用范圍有點(diǎn)超出Meta的興趣范圍,」他說。
LeCun說:「硅谷完全被生成模型迷住了」。他暗示必須在硅谷之外,比如在巴黎非主流AI創(chuàng)業(yè)。
此前,媒體報(bào)道Yann LeCun計(jì)劃離職后,Meta的股價(jià)下跌了2%。據(jù)此估計(jì),Yann LeCun對Meta大概值300億美元,是他新上司28歲的Alexandr Wang的兩倍。
![]()
但這次,扎克伯格選擇了「群體思維」,而非「AI教父」。
![]()
毫無疑問,人類對「智能的本質(zhì)」的探索,仍在繼續(xù)。
當(dāng)然,少有人可以斷言Yann LeCun是否正確。也許,LLM擁護(hù)者是對的。
但事實(shí)是,這門科學(xué)尚無定論,而圍繞新技術(shù)的「共識」形成得如此之快,這本身就值得我們停下來深思。
如果連AI領(lǐng)域最聰明的大腦都無法對「什么是智能」達(dá)成一致,那么要預(yù)測這場大戲?qū)⑷绾问請觯峙赂请y上加難。
參考資料:
https://x.com/gen_intuition/status/1996638738777002210?s=20
秒追ASI
?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點(diǎn)亮星標(biāo),鎖定新智元極速推送!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.