網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Yann LeCun AI思考的最新小結(jié)：從機器學習到自主智能

2023-10-03 20:09:39　來源: Web3天空之城

浙江舉報

分享至

文：城主

這是AI巨頭Yann LeCun9.29在德國的一個演講。題目“從機器學習到自主智能”。這個主題的演講Yann巨頭之前也曾講過，這一次在德國所做的talk更加概括提煉。

LeCun之前PK參議院（）很是加分，這個演講代表了他AI思考的最新小結(jié)，講得還通俗易懂，推薦~

視頻完整版?zhèn)魉烷T【AI巨頭Yann LeCun最新德國演講：從機器學習到自主智能-嗶哩嗶哩】 https://b23.tv/b3eMUSW

=以下是本城根據(jù)講話整理成文=

我非常高興和榮幸地歡迎Yann LeCun教授。

感謝您接受我們的邀請并赴慕尼黑參與今日的講座。LeCun教授現(xiàn)任Meta的首席人工智能科學家，并擔任紐約大學計算機科學銀教授。他在巴黎取得計算機科學博士學位后移居到美國，進入知名的AT&T貝爾實驗室并成為圖像處理研究部的負責人。之后，他于2003年加入紐約大學，2012年又被任命為紐約大學數(shù)據(jù)科學中心的創(chuàng)始主任。

LeCun教授在卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展上有著杰出的貢獻。這種技術(shù)基本上解決了圖像科學和計算機視覺領(lǐng)域的許多難題。特別值得一提的是，一個特殊的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)名為LeNet，這一名字在某種程度上也代表了我們今天所看到的深度學習和AI的顯著發(fā)展。他的這些突出貢獻使他榮獲眾多獎項。其中，他是美國國家科學院和國家工程院的成員，并獲得了諸如來自EPFL的榮譽學位、IEEE神經(jīng)網(wǎng)絡(luò)先鋒獎和2019年的圖靈獎等眾多榮譽，這個獎項通常被譽為計算機界的諾貝爾獎。僅僅幾周前，《時代》雜志將他評選為全球AI領(lǐng)域100名最具影響力的人物之一。

他還發(fā)表了許多引發(fā)公眾爭議的觀點，并為公開的AI討論做出了重要貢獻，特別是關(guān)于現(xiàn)在盛行的大型語言模型。他深入探討了機器如何能夠像人類和動物那樣有效地學習，以及機器如何進行推理和計劃。在此次演講中，Yann LeCun教授將探討基于新的模塊化認知架構(gòu)的自主智能代理的發(fā)展路徑。

歡迎Yann教授上臺發(fā)言。

非常感謝您的熱情介紹和邀請，同時感謝所有來到這里的人。但我需要糾正一個誤會，我并沒有為LeNet命名。這個名稱是我在貝爾實驗室時的實驗室主任所起的，但我認為這確實是一個很好的名字。

接下來，我要討論的是目標驅(qū)動人工智能。我曾用“自主機器智能”作為此次演講的標題，但這似乎讓人們感到擔憂，他們擔心機器將會自主，超出我們的控制范圍。因此，我將其更名為“目標驅(qū)動AI”，這更加精確地描述了這一領(lǐng)域。這些系統(tǒng)不僅僅是我們已經(jīng)實現(xiàn)的，而是我們期望能夠?qū)崿F(xiàn)的：具有學習、記憶、推理、計劃和常識的系統(tǒng)，具備我們在動物和人類中觀察到的相同學習能力和智慧。

讓我先分享一些前沿技術(shù)。目前，關(guān)于AI的爭論很多，許多人擔心AI的影響。每當有技術(shù)革命，人們總是對未知感到恐懼。AI有望引發(fā)一場大革命，這使得人們的恐懼有所增加。但在討論其潛在風險之前，我們應該首先看到它的好處。現(xiàn)在，AI已經(jīng)在醫(yī)學、診斷、醫(yī)療助理和治療計劃方面帶來了巨大的好處，如今，在歐盟銷售的每輛汽車都必須配備自動緊急制動系統(tǒng)。這種系統(tǒng)能夠自動停車，從而避免正面碰撞，它已經(jīng)減少了40%的碰撞，這確實是一種可以拯救生命的技術(shù)。在所有我知道的系統(tǒng)中，大多數(shù)都使用了卷積網(wǎng)絡(luò)技術(shù)。德國，尤其是巴伐利亞，是這方面的領(lǐng)導者，這種早期的系統(tǒng)是由Benz開發(fā)的。

輔助駕駛、自動駕駛、能源存儲與管理、環(huán)境監(jiān)測與保護等都是當前的熱門領(lǐng)域。但其中，內(nèi)容信息與管理可能是人工智能最廣泛的應用，尤其在工業(yè)、制造、信息系統(tǒng)以及質(zhì)量控制等方面。教育領(lǐng)域也開始預測個性化教育的趨勢。隨著翻譯、遠程展示、增強現(xiàn)實、虛擬現(xiàn)實的發(fā)展，這些技術(shù)也廣泛應用于科學、生物學、基因組學、神經(jīng)科學以及特別是無序系統(tǒng)、復雜系統(tǒng)以及超大規(guī)模模擬的物理學領(lǐng)域，以及化學和材料科學等。我們經(jīng)常討論關(guān)于創(chuàng)新和藝術(shù)的話題，人工智能的核心就是提高創(chuàng)造力，使那些可能不具備技術(shù)基礎(chǔ)的人也能創(chuàng)造藝術(shù)。人工智能已經(jīng)深入到了各個領(lǐng)域。例如，幾年前Meta公司的計算機視覺系統(tǒng)就能展示物體檢測、人體跟蹤、語義分割等功能。但是，計算機視覺的研究還遠未完成，這也是為什么下周巴黎會有ICCV會議。目前，該領(lǐng)域仍有很多工作要做，盡管人工智能已經(jīng)取得了很多進展。

在醫(yī)學方面，醫(yī)學成像技術(shù)正在受到廣泛關(guān)注。我在紐約大學的同事們使用3D圖像識別技術(shù)來檢測例如乳腺X光中的腫瘤或MRI圖像中的特定區(qū)域。其中一個與Meta公司的FAIR實驗室合作的項目成功將MRI數(shù)據(jù)采集速度提高了四倍，而不降低圖像質(zhì)量。這意味著原本需要40分鐘的MRI檢查現(xiàn)在只需要10分鐘就能完成，這得益于深度學習技術(shù)。

在科學研究上，現(xiàn)在神經(jīng)科學家用來描述大腦工作原理的模型是基于人工神經(jīng)網(wǎng)絡(luò)。使用功能性MRI數(shù)據(jù)，我們觀察到的情況其實與卷積網(wǎng)絡(luò)模型非常相似。而卷積網(wǎng)絡(luò)的設(shè)計原則其實是受到了視覺皮層結(jié)構(gòu)的啟發(fā)。此外，還有研究試圖利用大型語言模型來解釋人腦在處理語言時的活動，但目前這種模型在語言處理方面的效果并不如卷積網(wǎng)絡(luò)模型在視覺處理方面的效果。這也意味著我們在理解語言處理的過程中還遺漏了一些關(guān)鍵要素。

在物理學，尤其是高能物理學中，現(xiàn)在有很多模型是基于AI來描述粒子碰撞等現(xiàn)象。圖像處理技術(shù)也被用來探索外太空中的行星。據(jù)統(tǒng)計，現(xiàn)在大約12%的物理學論文都提到了人工智能技術(shù)，這在短時間內(nèi)的進展確實令人驚訝。而在大規(guī)模宇宙模擬中，人工智能也被用來驗證關(guān)于暗物質(zhì)等的理論。FAIR實驗室的一個項目“開放催化劑項目”也是一個很有意思的研究，大家都可以參與其中。

該網(wǎng)站名為open-catalyst.org。這個項目的核心理念是：若我們掌握了一種優(yōu)越、高效且可擴展的能源儲存方法，那么我們就有機會應對氣候變化問題。理想情況下，如果我們有了合適的能源儲存方式，僅覆蓋小片的沙漠區(qū)域使用太陽能電池板，便可生產(chǎn)足夠的能源供應歐洲乃至全球。關(guān)鍵是我們需要一種有效的能源儲存方式。盡管德國政府已對可再生能源進行了大力支持，但由于我們無法預測風力和陽光的存在，使得可再生能源仍未完全發(fā)揮其潛能。在無風或無陽光的時刻，我們需要另一種能源來源，或是能夠儲存并傳輸?shù)叫枰牡胤降哪茉础?/p>

理想的能源儲存方法是以氫氣或甲烷的形式。最直接的方式是從水中分離出氫氣和氧氣。這個過程包括將水放入并設(shè)置兩個電極，接著將氫氣和氧氣進行分離。但難點在于，如果使用諸如鉑這樣的催化劑進行該過程，盡管它可以實現(xiàn)大規(guī)模應用，但其效率并不高。因此，主要的挑戰(zhàn)是是否能設(shè)計新的化合物或催化劑，來高效地促進這一反應，且不需要使用像鉑這樣的高價材料，使其具有更好的可擴展性。我們的策略是進行大量的化學模擬，主要基于兩種不同化合物上的水的DFT模擬。結(jié)合模擬和實驗獲取數(shù)據(jù)后，我們希望利用這些數(shù)據(jù)訓練一個機器學習系統(tǒng)，從中找出規(guī)律，進而設(shè)計出新的、效果相當?shù)杀靖偷牟牧稀＿@個項目的前景十分吸引人，雖然不確定是否一定會成功，但仍然值得嘗試。

重要的是，我們近年來在人工智能和機器學習領(lǐng)域所取得的進展，大部分都歸功于一種我們稱為“自我監(jiān)督學習”的技術(shù)。許多人可能已經(jīng)在使用或至少聽說過這種技術(shù)。從本質(zhì)上看，自監(jiān)督學習是一套技術(shù)，可以在不需要標注數(shù)據(jù)或人工干預的情況下，訓練系統(tǒng)來理解數(shù)據(jù)和世界。這種技術(shù)在自然語言處理領(lǐng)域尤為成功。現(xiàn)今，大部分NLP系統(tǒng)的訓練方式，無論是基于LLM或其他模型，都采用了這種方法。其核心思想是：取一段文字，刪除其中的某些單詞，然后訓練一個大型神經(jīng)網(wǎng)絡(luò)，如Transformer架構(gòu)，來預測這些被刪除的單詞。為了使這些系統(tǒng)正常工作，還需要將單詞進一步細分為子詞單元或標記，因為大多數(shù)語言的單詞都含有前綴、詞根和后綴。這種訓練方式的代表性模型就是BERT，它完全基于自我監(jiān)督學習，除了原始文本外，不需要任何其他數(shù)據(jù)。經(jīng)過預訓練后，您可以使用系統(tǒng)生成的內(nèi)部表示為其他任務，如翻譯、仇恨言論檢測或摘要等，提供輸入。

這里還有一個令人印象深刻的例子，是我在巴黎博覽會的同事所開發(fā)的系統(tǒng)，名為Dino V2。這可以被視為一個基礎(chǔ)的視覺模型，經(jīng)過訓練后，能夠從圖像中提取特征，進而這些特征可以被應用于各種任務，如分類、細粒度分類、深度估計、語義分割和實例檢索等。我在這里展示了一些視頻中的應用案例。這種方法需要非常少的監(jiān)督，但由于其在大量數(shù)據(jù)上的預訓練，因此僅需訓練一個淺層網(wǎng)絡(luò)，就可以在深度估計、分類等領(lǐng)域擊敗現(xiàn)有技術(shù)。這一技術(shù)已經(jīng)在線上開放互動使用，您可以通過提供的URL來體驗。

這些展示的是特征提取的可視化例子。它們采用不同的顏色表示不同的特征向量，每種顏色代表一個主成分，如果你對此有所了解。這些都是典型的圖像示例。現(xiàn)已有很多應用，如生物圖像分析、天文學和環(huán)境保護。我要介紹的下一個例子與此相關(guān)。他們利用了Dino V2的功能，并在其上訓練了一個相對較小的模型，從衛(wèi)星圖像中預測樹木的高度。我們手頭有大量的全球衛(wèi)星圖像，其分辨率為半米。這些圖像可以從衛(wèi)星成像公司獲取。在某些地區(qū)，激光雷達數(shù)據(jù)能夠提供樹木的高度信息。你可以使用這些數(shù)據(jù)來訓練模型，然后將其應用到全球范圍。通過知道樹的高度，我們可以估算樹木鎖定了多少碳。這是非常重要的信息，因為它涉及到我們是否應該保護森林，以及我們是否應該種植更多的樹木和在何處種植。

關(guān)于這個主題，有許多詳盡的出版物。在我展示的自然語言處理中，自我監(jiān)督學習的另一個成功案例是在生物學中。在那里，一些詞被刪除，尤其是在蛋白質(zhì)組學中。蛋白質(zhì)是由氨基酸組成的序列，我們知道存在數(shù)億種氨基酸。你可以取得氨基酸序列，刪除一些氨基酸，然后訓練一個大型神經(jīng)網(wǎng)絡(luò)預測缺失的氨基酸。這個系統(tǒng)學習了代表氨基酸序列的表示形式，然后使用這種表示作為輸入來預測蛋白質(zhì)的構(gòu)象，其折疊方式，以及它是否可以與另一種蛋白質(zhì)的特定部位結(jié)合。我們的DeepMind同事做了一個稱為AlphaFold的著名項目，但這種利用預先訓練的蛋白質(zhì)Transformer的概念最早是我在FAIR的同事提出的。他們已經(jīng)離開FAIR，并圍繞這個概念創(chuàng)建了一個創(chuàng)業(yè)公司。這一方法取得了巨大成功，全球有數(shù)千研究團隊正在使用這些數(shù)據(jù)。目前已有一個包含6億個蛋白質(zhì)的預測結(jié)構(gòu)的蛋白質(zhì)圖譜，名為ESM宏基因組圖譜，可在ESMatlas.com上查找。這對生物學家來說是一個寶貴的工具，它可能會徹底改變我們的藥物設(shè)計和生命機制理解方式。

另一個印象深刻的項目是“No Language Left Behind”，由FAIR的全球團隊完成。這是一個能夠翻譯200種語言的系統(tǒng)，無論翻譯方向如何。當你了解這些語言時，你會發(fā)現(xiàn)其中有很多我們從未聽說過的語言。但對于這些說這些語言的人們來說，保存他們的文化并能以自己的語言表達自己是非常重要的。有趣的是，盡管有40,000種可能的翻譯方向，但只有2,400對方向有數(shù)據(jù)覆蓋。但是，由于我們訓練了一個巨大的Transformer來表示各種語言，系統(tǒng)可以利用語言家族之間的相似性來獲得與語言無關(guān)的表示，從而允許系統(tǒng)在任何方向上進行翻譯，即使是那些從未被訓練過的方向。按照當前標準，這是一個相當大的模型，擁有540億個參數(shù)。同一團隊近期也發(fā)布了一個名為Seamless的項目，該項目可以進行語音到語音、語音到文本、文本到語音和文本到文本的翻譯，以及語音識別和語音合成。這種語音到語音的轉(zhuǎn)換尤其有趣，因為它可以翻譯那些并不直接用于語音書寫的語言。該系統(tǒng)可以處理上千種語言，這真的是令人震驚的。深度學習的一些應用可能不那么明顯，但它連接了人與知識，也連接了人與人。目前，深度學習在社交網(wǎng)絡(luò)和搜索引擎等在線服務中的部署可能是最大的。如果從Google、Meta或Microsoft中移除深度學習，這些公司可能會遭受重創(chuàng)，因為它們的業(yè)務在很大程度上是基于這種技術(shù)的。

深度學習能夠助力我們處理信息洪流，如搜索、檢索、排名和問答等任務。為了理解這些內(nèi)容，機器必須深入理解其背后的含義。這種技術(shù)對許多人來說尤為有益，例如那些不識字、盲人或有視力障礙的人群。如今，有近30億的人群無法充分利用現(xiàn)代技術(shù)，因為他們或多或少地存在閱讀障礙。人工智能的一個主要應用是篩選并移除非法和危險的內(nèi)容，但這絕非易事。盡管追求完美可能是一個遙不可及的目標，但值得注意的是，人工智能已經(jīng)取得了巨大的進步。例如，五年前，F(xiàn)acebook使用當時相對簡單的機器學習技術(shù)方法，僅能自動刪除約20%至25%的仇恨言論。但自從自我監(jiān)督的預訓練Transformer技術(shù)出現(xiàn)后，這一比例在去年已經(jīng)增加到95%。

很多人對人工智能持有各種觀點，其中一些人對其知之甚少。他們可能會告訴你關(guān)于人工智能的各種潛在危險，如如何破壞民主，或者因為假信息造成的影響。然而，他們可能沒有意識到的是，人工智能實際上是這些問題的解決辦法。實際上，社交網(wǎng)絡(luò)的內(nèi)容審核已經(jīng)大量地依賴了人工智能的進步，而那些試圖破壞這些系統(tǒng)的人在人工智能技術(shù)方面卻遠遠落后。

人們都很興奮地討論生成式人工智能，如自回歸的大型語言模型等。許多人都嘗試過利用先進技術(shù)生成圖像，例如Meta的Make-a-Scene、OpenAI的Dall-E和Google的ImageGen。事實上，最新的進展來自Meta，它最近發(fā)布了一篇論文，并隨后推出了名為EMU的產(chǎn)品，這是一個可以根據(jù)文本提示生成圖像的系統(tǒng)。這個產(chǎn)品在昨天已經(jīng)與新聞一同發(fā)布，并且它現(xiàn)在可以在Facebook Messenger上使用。通過與Meta.AI對話并輸入相應的命令，用戶可以在幾秒鐘內(nèi)生成圖像，這在過去需要數(shù)分鐘來完成。目前，該團隊正在研究視頻合成技術(shù)，這是他們一年前的研究方向。

關(guān)于大型語言模型，它們都是基于自回歸技術(shù)。簡單來說，這意味著從一段文本中刪除某些單詞，然后訓練模型來預測這些單詞。這種方法被稱為自回歸預測，其效果令人震驚。市場上有許多這樣的模型，例如Meta的Llama、Llama2等，其中一些模型如CodeLlama是專門用于代碼生成的。除了這些，還有ChatGPT、Alpaca、Lambda和Chinchilla等。最近，一個名為Mistral的產(chǎn)品由巴黎的一家初創(chuàng)公司發(fā)布，該公司的團隊成員曾在FAIR工作，這也是一個值得關(guān)注的事實。

這些系統(tǒng)確實展現(xiàn)出了卓越的性能，讓我們都感到震驚。然而，它們也犯下了一些嚴重的錯誤。這些系統(tǒng)并不真正理解這個世界，只是被訓練成根據(jù)給定提示生成最有可能的單詞序列。盡管它們經(jīng)過微調(diào)，能夠有效地解決特定的問題，但依然存在事實錯誤和邏輯錯誤。它們的輸出不總是一致的，并且它們沒有真正的推理能力。由于這些系統(tǒng)只是從文本中學習，所以它們對真實世界的理解是有限的。它們沒有常識，無法像我們預期的那樣策劃答案。這意味著用戶可以與像Llama這樣的機器人進行互動。

我提到的聊天機器人MetaAI實際上是Llama2的產(chǎn)品版本。它具有不同的化身，可以被視為扮演不同的角色。總共有三種模型，每種模型有自己的生產(chǎn)模式。最好的是，它是開源的，所以如果你有強大的GPU，你可以自己運行它。現(xiàn)在，有很多人正在努力使這些模型能夠在移動設(shè)備和筆記本電腦上運行，以生成文本。

有趣的是，當Llama剛開始時，我的同事們有所質(zhì)疑。他們向我展示了Llama的輸出，詢問是否可以發(fā)布在報紙上。當然可以，但我更想知道它是否可以以爵士樂的方式輸出，因為我更喜歡爵士樂。然而，由于缺乏爵士樂的訓練數(shù)據(jù)，該請求并未得到滿足，這讓我感到失望。

Meta最近發(fā)布了28種專門針對不同應用的聊天機器人。例如，你可以選擇讓說唱歌手Snoop Dogg扮演地下城主的角色，而其他機器人可能是旅行顧問或廚師。每個機器人都有自己獨特的性格。但問題在于，這些系統(tǒng)并不如我們預期的那樣出色。雖然它們能夠流暢地使用語言，給人一種它們很聰明的錯覺，但實際上，它們并沒有真正的人類智能。

在社交網(wǎng)絡(luò)上，如X和Twitter，人們經(jīng)常討論這些系統(tǒng)。當他們談論某個公司的最新LLM時，這確實很令人興奮。但事實上，我們距離實現(xiàn)人類水平的智能（我稱之為AGI）還有很長的路要走。

這些系統(tǒng)之所以看起來那么聰明，是因為它們接受了大量的數(shù)據(jù)訓練，使它們積累了大量的背景知識。但大多數(shù)人類知識與語言無關(guān)，而與我們的日常經(jīng)驗有關(guān)。很多人認為，這些機器不能制定計劃，并且它們的預測是基于自回歸的，這在本質(zhì)上是有缺陷的。

我預測，幾年內(nèi)，沒有人會使用自回歸LLM，因為它有明顯的缺陷。盡管有些人擔心未來的人工智能系統(tǒng)可能比人類更聰明，但基于當前的LLM，這是一個誤解。未來的人工智能系統(tǒng)不會使用現(xiàn)有的架構(gòu)。他們不會是自回歸的LLM。

自回歸LLM的問題在于，它們沒有真正的推理和計劃能力。盡管每個生成的Token的計算是恒定的，但這種機器不會學習到世界是如何運作的，因此它們永遠無法達到人類的智慧水平。

當某家公司的首席執(zhí)行官聲稱他們擁有世界上最先進的LLM，并預測AGI即將到來時，我們應持謹慎態(tài)度。我們目前仍未達到關(guān)于這方面的一些關(guān)鍵突破。然而，機器最終會在所有領(lǐng)域超越人類的智能，這是毫無疑問的。預計這將在大多數(shù)人的有生之年發(fā)生，雖然我可能看不到那一天。這個過程可能需要數(shù)十年。

這些都與人工智能面臨的挑戰(zhàn)有關(guān)，特別是在學習對世界的表征和預測模型方面。自我監(jiān)督學習正在努力解決這個問題。目前，對于文本的處理我們已經(jīng)取得了不錯的進展，但視頻方面仍需努力。同時，AI需要學會推理。比如丹尼爾·卡尼曼的系統(tǒng)一和系統(tǒng)二的概念：系統(tǒng)一是我們不假思索的潛意識行為，而系統(tǒng)二是需要我們集中注意力的有意識行為。當前的LLM可以處理系統(tǒng)一的任務，但對于系統(tǒng)二，我們?nèi)孕枰獦?gòu)建能夠推理的人工智能系統(tǒng)。

丹尼爾·卡尼曼，這位諾貝爾經(jīng)濟學獎得主實際上是一位心理學家。我曾提出一個解決方案，稱之為目標驅(qū)動人工智能，并公開評審了相關(guān)論文。這篇論文不僅是一個工作文件，而且被廣泛評述。我還進行了一系列技術(shù)講座，深入討論了基于模塊化認知架構(gòu)的理念。

這個認知架構(gòu)包括多個模塊，第一個是感知模塊，它負責感知世界并構(gòu)建對當前世界狀態(tài)的估計。這個估計可能會結(jié)合存儲的內(nèi)存內(nèi)容，這是未被直接感知到的信息。接下來是世界模型，它的任務是預測一系列行動的結(jié)果。演員模塊則想象這些動作，并將其輸入世界模型。這個模型會預測一系列行動的潛在結(jié)果。

系統(tǒng)的主要目標是找到一個行動序列，這些行動預計會滿足成本模塊定義的約束條件。成本模塊基本上是系統(tǒng)的驅(qū)動力，表示系統(tǒng)當前的目標和整體目的。系統(tǒng)從世界模型獲取預測，然后計算其成本，基本上衡量系統(tǒng)的不舒適度。系統(tǒng)的任務就是找到一個最小化其成本的行動序列。

此外，您可以想象一些安全措施，如家用機器人在切洋蔥時不會突然揮動其手臂，這樣可以確保系統(tǒng)的安全性。這些措施在系統(tǒng)推理時已經(jīng)考慮進去，并確保系統(tǒng)只產(chǎn)生安全的行為。

您知道，系統(tǒng)在某些情境下可能因為預期之外的提示而產(chǎn)生不安全的行為。但在這里，根據(jù)其世界模型，系統(tǒng)是設(shè)計成無法執(zhí)行違反設(shè)定護欄的操作的。所以，從這個角度看，只要滿足兩個基本條件，這些系統(tǒng)在本質(zhì)上是安全的。首先，需要確保護欄的目標本身確實保障了安全性，這是一個頗為復雜的問題。其次，我們需要假設(shè)世界模型是準確的，這也同樣具有挑戰(zhàn)性。可以設(shè)想，隨著時間的流逝，這種安全性的實現(xiàn)逐漸展現(xiàn)出來。例如，考慮到一系列操作，如在此場景中的兩個操作。這種思考模式與控制理論中的模型預測控制非常相似，但不同之處在于我們在這里是在學習世界模型，并可能同時學習相關(guān)的成本。

您可以將其視為一種分層規(guī)劃的系統(tǒng)。實際上，人類和動物時刻都在進行這種分層規(guī)劃，這是我們?nèi)粘；顒拥幕咎卣鳌Ｈ欢覀兡壳吧形赐耆莆者@一技能。盡管有一些初步的思路和嘗試，但真正的解決方案仍然遙遠。對于有抱負的年輕科學家或研究者，這是一個巨大的機會。如果您能破解分層規(guī)劃的秘密，那么收益將是巨大的。

以我自己為例，假設(shè)我現(xiàn)在位于紐約大學的辦公室，我計劃前往巴黎。在宏觀層面上，我首先需要前往機場然后乘坐飛機。但在這之間，還有許多決策要做，比如根據(jù)交通情況選擇機場，考慮哪家航空公司的班次。接下來，我需要考慮如何到達機場，可能是打車。為了實現(xiàn)這個目標，我需要走出辦公室，叫車。這就涉及到從座位上站起、打開門、走向電梯等一系列更微觀的行動。我們不可能為從辦公室到巴黎的每一步都制定詳細到毫秒的計劃，這就需要分層規(guī)劃。工程師在進行控制操作時確實可以實現(xiàn)這種規(guī)劃，但其中的層次結(jié)構(gòu)往往是手動設(shè)定的。真正的挑戰(zhàn)在于，我們?nèi)绾问箼C器能自動學習并確定行動計劃的合適層次。

這確實是一個待解決的重大問題。如果您計劃進一步深造或攻讀多個學位，這將是一個值得研究的領(lǐng)域。我們希望通過技術(shù)如LLM來實現(xiàn)這種功能。在這樣的系統(tǒng)中，Token的生成不再是逐一進行，而是通過推斷一系列滿足多個目標和條件的Token來完成。這會使得LLM更加可控，盡管現(xiàn)在的技術(shù)仍然存在局限性。

最終，我們希望機器能夠?qū)W習和理解世界，這正是建立世界模型的目的。當我們考慮在時間t的世界狀態(tài)和可能的行動時，我們希望預測時間t+1或之后的世界狀態(tài)會是怎樣的。人類和動物在此方面都表現(xiàn)得很出色。嬰兒在最初的幾個月里就能迅速學習世界的運作方式，從基本的三維空間概念到物體的持續(xù)性和重力等基本物理原理。這些大都是通過觀察和實驗學到的。而我們至今尚不清楚如何使機器實現(xiàn)這種學習。這也是為什么盡管我們已經(jīng)擁有了高度智能的系統(tǒng)，如可以輕松通過律師考試的系統(tǒng)，但我們還沒有可以自動完成家務的機器人。

任何10歲的孩子都能在短短幾分鐘內(nèi)輕松掌握某些事物。目前，我們尚未真正擁有完全自主的5級自動駕駛汽車，盡管任何17歲的青少年都可以在20小時內(nèi)掌握，并且可以在高速公路上以300公里的速度行駛。很顯然，我們在某些關(guān)鍵領(lǐng)域仍然缺乏進展。人類和動物所展現(xiàn)的學習效率，我們?nèi)匀徊恢廊绾卧跈C器上復制。

因此，我們需要培養(yǎng)機器的能力，使其能夠從視頻中學習世界模型，這實際上來源于自然信號。這引導我們轉(zhuǎn)向自我監(jiān)督學習的概念，但是現(xiàn)在它是應用于視頻而不是文本。處理文本相對容易，因為文本是離散的，每種語言中的可能標記數(shù)量大約為30,000個。這使得預測接下來的標記的概率分布變得相對簡單。但對于視頻，我們尚未找到一種有效的表示所有可能性的方法。

以高速公路為例，如果你嘗試用一個神經(jīng)網(wǎng)絡(luò)來預測視頻中的下一個場景，你可能只會得到一個非常模糊的預測，因為它僅僅是所有可能情境的平均值。這就導致我提出了所謂的聯(lián)合嵌入預測架構(gòu)，簡稱JEPA。它是一個非生成式的框架。

大家都在討論生成式人工智能，但我要告訴你的是，生成模型并不是王道。事實上，這些流行的方法，如LLM和其他機器學習方法，都存在局限性。在生成模型中，你需要從觀察到的數(shù)據(jù)x預測輸出y，這在文本中是可以的，但在視頻中，這幾乎是不可能的。而JEPA采用的聯(lián)合嵌入方式通過編碼器處理x和y，預測是在表示空間中進行的。

這個JEPA有多個版本，我這里無法詳細介紹，但有興趣的可以查閱相關(guān)長篇論文。核心思想是，存在多種方法來訓練這些JEPA。其中一個特別有趣的技術(shù)是Image JPA或iJPA，它采用了一種“遮蔽”技巧。簡而言之，你會遮蔽圖像的某部分，并用編碼器對其進行處理，再用另一個神經(jīng)網(wǎng)絡(luò)預測器嘗試預測完整圖像的表示。這種方法效果很好，并在多個任務上都表現(xiàn)出色。

我們還有類似的項目VJEPA，它旨在從視頻中進行自我監(jiān)督學習。基本上，這種學習模型是為了模擬嬰兒觀察世界并學習的方式。此項目的相關(guān)論文已提交，有些人可能知道這個項目，因為提交的截止日期是今天。實際上，知道這個日期的人現(xiàn)在可能都在忙于撰寫論文。

截止日期已經(jīng)過去兩個小時。這意味著您可以使用這些JPEG作為世界模型，因為您明白，當您有一個輸入時，您可以為其提供一系列可能的代理操作，然后它將預測下一個時間步的世界狀態(tài)的抽象表示。這也可能作為我先前提到的大型架構(gòu)的一部分用于世界模型。

我們確實需要利用人工智能來回答許多問題。這是我倒數(shù)第二張幻燈片。人類水平的人工智能距離我們還有多遠？幾年或是幾十年？似乎還需幾十年的時間。這個挑戰(zhàn)可能比我們預期的要大，絕對比某些過于自信的人所想象的要困難。在達到人類級別的人工智能之前，我們可能先實現(xiàn)貓級別的人工智能。

有些人擔心，有一天有人會突然發(fā)現(xiàn)人類級人工智能的秘密，并啟動一臺強大的計算機，這臺計算機可能會接管整個世界并消滅所有人。但這種想法簡直荒謬，完全不可能發(fā)生。我們會從小規(guī)模、低智能的模型開始，例如像老鼠或貓那樣的模型，然后我們將逐漸提高它的智能，并確保其在各種受控環(huán)境中被安全地測試。所以，將機器人突然獲得高級智能并失去控制的概念局限于好萊塢電影是不切實際的。

實際上，并沒有所謂的通用人工智能，因為智能本身就是多維的。人類只在某些方面表現(xiàn)出色，但在其他許多方面表現(xiàn)平庸。計算機在很多任務上都比我們做得更好，例如國際象棋、圍棋、撲克和許多電子游戲。還有，僅憑聽歌聲就能識別鳥類，或者通過尾巴的形狀來識別海洋哺乳動物。這是人工智能系統(tǒng)可以做到的，但只有少數(shù)人能做到。因此，所謂的通用人工智能（AGI）實際上是一個誤導性的概念。

不可否認，機器將最終超過人類的智能。因此，人們對此感到害怕是可以理解的。但一個有趣的問題是，想象20年或更長時間后，我們每次與數(shù)字世界互動都是通過人工智能系統(tǒng)進行的。事實上，如果今天的初創(chuàng)公司和大公司的計劃得以實現(xiàn)，這種情況可能會很快發(fā)生。因此，這些人工智能系統(tǒng)將成為所有人類知識的中心存儲庫。

開源在此背景下顯得尤為重要，因為整個互聯(lián)網(wǎng)基礎(chǔ)設(shè)施都是開源的，并在開源軟件上運行。這是因為它太重要了，不能被單個公司所控制。對于人工智能系統(tǒng)也是如此。它們必須是開源的，因為如果所有公民的信息都要通過這些系統(tǒng)進行處理，那么這些系統(tǒng)對于單個公司或少數(shù)公司來說太重要了。這些系統(tǒng)的培訓方式應該是眾包的，像維基百科那樣，收集全球的文化、信息和知識，而不僅僅是從某個特定的文化或地點。這也是我為什么強烈支持基于開源的人工智能模型。我和我的同事在Meta公司都支持開源這些基礎(chǔ)模型，因為這會使它們更安全、更強大，發(fā)展得更快，并從更多的人那里獲得多樣化的文化視角。這為初創(chuàng)公司和研究項目創(chuàng)建了一個完整的生態(tài)系統(tǒng)，他們可以在此基礎(chǔ)上進行構(gòu)建。這目前是一個非常重要的政策問題，因為許多公司正在向全球各地的政府施壓，希望將人工智能封閉起來，認為它過于危險，需要更多的控制和許可。但我認為真正的危險在于，如果它僅僅掌握在少數(shù)人手中。

這些人已經(jīng)成功地說服英國政府和首相，人工智能的應用需要受到嚴格的監(jiān)管。顯著地，歐盟委員會似乎也同意這種觀點。然而，我個人相信，如果我們正確地發(fā)展和應用人工智能，它有潛力使每個人都更為聰明。這種情境與我們目前擁有的智能助手相似，仿佛有一群聰明的人在為你工作。實際上，成功的領(lǐng)導者往往只與比自己更聰明的人合作。我自己也是如此，我只雇傭比我更有才智的人，因為這是成功的秘訣。因此，未來我們可能會有比自己還要聰明的人工智能助手。我們無需對它們感到威脅，因為這些助手會被設(shè)計得完全服從我們。這種變化可能會給社會帶來巨大的影響，這種影響與500年前印刷機的出現(xiàn)所帶來的影響相似，或許會引發(fā)一個新的復興，因為智力是我們目前最急需的資源。這將讓人類變得更聰明。

觀眾問答

非常感謝你，Yann，這是一次精彩的演講。我們還有大約10分鐘的提問時間，我相信會有很多問題。

感謝您的精彩演講。您提及了保持代碼的開放性，這是一個很好的觀點。但正如您所說，最近很多技術(shù)進步不僅依賴于軟件，還涉及到硬件。大部分的硬件技術(shù)都是由大公司進行開發(fā)的，他們擁有大量的GPU資源。這在德國，乃至其他國家，都造成了某種限制。您如何看待這一問題？同時，在學術(shù)界和Meta公司之間，您是如何進行權(quán)衡的？您在大學進行某些研究，而在Meta進行另一些研究嗎？關(guān)于未來，您有何看法？

回應這個問題，我認為應該使用自動語音識別器，但是由于存在回聲問題，這有時會變得困難。確實，硬件是一個巨大的瓶頸。目前，只有那些能夠進行大規(guī)模計算的實體，例如Google、Meta和Microsoft，或是那些可以通過云服務訪問這些資源的公司，如OpenAI和Anthropic，才能訓練大型語言模型。為了訓練一個頂尖的語言模型，所需的資金可能高達數(shù)千萬歐元，這還取決于所用的方法和規(guī)模。如果你想購買一個足夠強大的基礎(chǔ)設(shè)施，基本上你需要從NVIDIA那里購買，而這可能會花費上億。這真是太令人震驚了。因此，我們需要開源這些基礎(chǔ)模型，因為它們是一種共同的基礎(chǔ)設(shè)施，每個人都應該能夠訪問。

感謝您的精彩演講。我注意到您的演示文稿中涉及到人工智能和機器學習的挑戰(zhàn)，其中包括道德、公平和負責任的人工智能。我想知道這些是否是您當前所面臨的挑戰(zhàn)？如果是，您又是如何應對的？

對此，我認為這些挑戰(zhàn)確實是我們需要面對的，但它們被包含在我之前提到的其他點中。關(guān)于如何確保這些人工智能系統(tǒng)的安全性，這仍然是一個問題，因為我們還沒有開始構(gòu)建這種類型的系統(tǒng)。但這是一個可以解決的工程問題。我們過去已經(jīng)為智能實體，如人類或公司，設(shè)計了行為目標，這就是法律的目的。這些法律旨在確保人類和公司的行為符合社會的共同利益。當然，腐敗等問題可能存在，但這是一個基本的理念，所以我們對此概念并不陌生。

謝謝你的精彩演講。我想進一步詢問我們之前提到的關(guān)于GPU資源的問題。我觀察到在機器學習和人工智能領(lǐng)域，過去的幾年中很多重大突破都依賴于大量的GPU資源，而學術(shù)機構(gòu)往往沒有這樣的資源配置。在這樣的背景下，您認為學術(shù)研究在人工智能領(lǐng)域的前景如何？

實際上，我本身就是學者，并且我身兼多重角色。事實上，很多杰出的創(chuàng)意都起源于學術(shù)界。例如，從文本生成圖像的技術(shù)實際上最早是在德國的一所大學中提出的。而使用注意力機制的想法，也是Transformer的核心，起源于蒙特利爾大學。這是由迪米特里·巴達諾、喬京勇和約書亞·本吉奧提出的。他們構(gòu)想了一個翻譯系統(tǒng)，這個系統(tǒng)能夠決定在翻譯英語到德語時應該關(guān)注哪些單詞，因為德語中動詞的位置經(jīng)常導致翻譯錯誤。他們因此引入了學習注意力機制的概念。隨后，斯坦福大學的Chris Manning采納了這種設(shè)計并成功地進行了擴展，贏得了WNT比賽。之后，這個思路被廣泛采納，例如谷歌的研究人員基于此構(gòu)建了完整的神經(jīng)網(wǎng)絡(luò)，其中的一篇研究論文被命名為“注意力就是你所需要的”，也就是現(xiàn)在的Transformer。

學術(shù)界往往是許多出色創(chuàng)意的發(fā)源地。我提到的問題，如分層規(guī)劃、從視頻中學習世界模型等，并不需要大量的計算資源來驗證其有效性。如果一個理論被證明是可行的并且有說服力，那么即使它在某些基準測試中可能不是最佳的，也仍然有其他研究者或機構(gòu)愿意接受并進一步發(fā)展它。這就是學術(shù)研究產(chǎn)生影響的方式。

如果你考慮一下你的職業(yè)生涯，是什么驅(qū)使你，你會說更多的是對可能發(fā)生事情的夢想，或者是對這個主題的唯一興趣？隨著時間的推移，你貢獻的所有工作還可能如何改變？

這確實是一個引人入勝的問題。從根本上說，這是一個科學問題：什么是智力？大腦是如何工作的？這一大問題，隨著時間的推移，仍然是中心焦點。實際上，存在三個主要的科學問題：宇宙是由什么構(gòu)成的？生命是什么？以及大腦如何工作？這三個問題都是至關(guān)重要的。

盡管我也是一名工程師，但對于像大腦這樣的復雜系統(tǒng)，真正理解其工作原理的方式是構(gòu)建一個類似的系統(tǒng)，然后驗證您在該系統(tǒng)中的所有假設(shè)與實際情況是否相符。這就是多層學習、神經(jīng)網(wǎng)絡(luò)，以及背后的卷積網(wǎng)絡(luò)的思想來源。它們從大腦中獲得靈感，但我們不能簡單地復制大腦。我們需要理解其背后的基本原理，這確實是驅(qū)使我前進的力量。當然，如果有其他引人入勝的應用，不管是有用的還是僅僅有趣的，都是值得歡迎的。雖然我不總是親自這樣做，但我對那些這樣做的人感到非常高興。

您問到我對實體人工智能和機器人學習的看法。我發(fā)現(xiàn)這非常有趣，因為它使用人工智能技術(shù)來影響現(xiàn)實世界。實際上，世界模型的概念在語言背景下容易實現(xiàn)，這也是為什么我們有如此出色的語言模型。但現(xiàn)實世界的數(shù)據(jù)，如視頻和機器人的本體感知數(shù)據(jù)，與此大不相同。與機器人合作的實體AI的優(yōu)點是您不能夠作弊或采取捷徑。因此，我認為，這類問題會迫使人們更加真實和坦誠。

我覺得過去幾年在人工智能領(lǐng)域的最有趣的進展不僅僅是大型語言模型。而是那些專注于機器人技術(shù)的研究團隊，他們努力使機器人能夠高效學習而無需長時間的模擬訓練。例如，紐約大學的Leroy Pinto，卡內(nèi)基梅隆大學的Abhinav Gupta和他的團隊，以及伯克利分校的Peter Abbeel、Sergey Levine和Chelsea Finn（后者曾是他們在斯坦福大學的學生）。這些方法都與規(guī)劃理念和目標驅(qū)動的規(guī)劃緊密相關(guān)，這些都必須在機器人背景下實現(xiàn)。這確實是一個非常有趣的領(lǐng)域。因此，F(xiàn)AIR設(shè)有一個名為Embody.ai的專門部門。

非常感謝您，Yann，為我們帶來這次精彩的分享。我們都非常感謝您分享了您對未來人工智能的見解和觀點。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.