OpenAI 元學習與自我對弈: Ilya Sutskever 超級前瞻的MIT講座2018

2023-11-28 21:02:58　來源: Web3天空之城

浙江舉報

分享至

文：城主

前言

熟悉OpenAI發(fā)展史的同學都知道，在2018年大舉進軍生成式AI（GPT-1誕生于2018年）之前，OpenAI花了很大的精力去做強化學習和游戲的AI自我對弈, 這在另外一位大神Andrej Karpathy的多次談話里都提到。

今天分享的是一個有承前啟后意義的講座，OpenAI首席科學家Ilya在2018年2月在MIT所做：“OpenAI元學習和自我對弈”。講座總結了OpenAI在這個領域所做出的結果，在這之后，OpenAI就轉而投入到生成式AI的大道了。

如果細讀這個講座內(nèi)容，讀者會驚訝的發(fā)現(xiàn)，當年OpenAI在強化學習/自我對弈方面所做的事情，很多都為后面生成式AI的進展做了技術鋪墊，比如，這里居然看到了RLHF “Learn from Human Feedback”！再比如，這里居然大量使用了最近因為Qstar神秘模型而大火的Q-learning技術；這講座還大量提到了現(xiàn)在最流行的“智能體”概念。。。

而在最后的問答環(huán)節(jié)里，更是有讀者詢問“目前生成語言模型的狀況非常糟糕。您認為生成語言模型最有成效的研究方向是什么？”

Ilya高瞻遠矚的回答：

“我想說的是，僅僅訓練更大、更深的語言模型就會取得令人驚訝的效果，擴大規(guī)模。”

神一般的判斷。

對于關心OpenAI發(fā)展軌跡的同學，這是一個特別好的補齊OpenAI早期研究路線和思考體系拼圖的一次講座，非常推薦！

慣例有B站傳送門：【Ilya Sutskever MIT講座2018 OpenAI 元學習與自我對弈【中英】-嗶哩嗶哩】

https://b23.tv/ECfFw9h

=以下是根據(jù)講座重寫匯總的天空之城文字版=

今天，我們非常榮幸地邀請到了OpenAI的聯(lián)合創(chuàng)始人兼研究總監(jiān)伊利亞·蘇茨克維。伊利亞的職業(yè)生涯始于與杰弗里·辛頓一同在多倫多的機器學習小組工作，隨后他在斯坦福大學與吳恩達共同創(chuàng)建了DNN Research。在Google Brain擔任研究科學家三年后，他參與創(chuàng)立了OpenAI。

雖然引用次數(shù)并非衡量一切的標準，但它們確實能夠反映一個人的學術影響力。伊利亞過去五年的研究成果已經(jīng)被引用超過46,000次，他一直是深度學習和人工智能領域中一些最重大突破性思想的關鍵創(chuàng)新者和推動者。非常歡迎伊利亞的加入。

感謝您的介紹，Lex。也感謝大家參加我的演講。今天，我將向大家介紹我們在OpenAI過去一年在元學習和自我對戰(zhàn)方面的一些研究成果。在我詳細闡述這些工作的技術細節(jié)之前，我想先花些時間討論一下深度學習的原理，以及為什么它能夠起效。事實上，深度學習之所以有效，并不是顯而易見的。

有一個事實，也是一個可以證明的數(shù)學定理，那就是如果你能找到一個對你的數(shù)據(jù)效果很好的最短程序，那么你就能獲得盡可能最好的泛化效果。稍作修改，這個觀點可以被轉化為一個精確的定理。在直觀層面上，這是容易理解的。如果你能找到一個生成特定數(shù)據(jù)的更短程序，那么你實際上已經(jīng)將所有可想象的規(guī)律提取到了你的程序中，從而可以使用該程序做出最佳預測。如果你的數(shù)據(jù)如此復雜，以至于無法被簡化為一個更短的程序，那么這意味著你的數(shù)據(jù)是完全隨機的，無法從中提取任何規(guī)律。

然而，這背后的數(shù)學理論并不廣為人知，而且這些陳述的證明實際上并不復雜。但有些許令人失望的是，至少以目前的工具和理解來看，尋找最佳短程序來解釋、生成或解決你的問題是不可能的，因為這個問題在計算上是非常困難的。程序的空間是非常龐大且復雜的，程序的微小變化可能導致行為的巨大變化，這是不可避免的。例如，你改變了一個循環(huán)的內(nèi)部，自然會得到完全不同的結果。因此，在如此龐大的程序空間中進行搜索似乎是完全不可能的。

那么，如果我們放棄尋找短程序，轉而尋找小回路會怎樣呢？幸運的是，事實證明，當涉及到小回路時，我們可以通過使用反向傳播來找到解決問題的最佳小回路。這是人工智能領域的一個神奇事實，其他所有的研究都是基于這一點。實際上，當你對一個回路施加限制，并使用數(shù)據(jù)來迭代地通過反向傳播微調(diào)神經(jīng)網(wǎng)絡的權重，直到其預測滿足數(shù)據(jù)要求時，你就找到了解決計算問題的方法。

這是回路搜索的過程。我們知道并不總是能解決這個問題，但有時你可以，尤其是當我們擁有實用的數(shù)據(jù)集時。雖然設計一個人工數(shù)據(jù)集很容易，但你可能找不到最佳的神經(jīng)網(wǎng)絡，但在實踐中，這似乎并不是問題。在許多情況下，你可以將訓練神經(jīng)網(wǎng)絡視為求解一系列方程，例如f(xi, theta) = yi。你有你的參數(shù)，它們代表了你所有的自由度。然后，你可以使用梯度下降將這些方程中的信息推入?yún)?shù)中，以滿足所有這些方程。

神經(jīng)網(wǎng)絡假設有50層，基本上是一臺并行計算機，給定50個時間步來運行。你可以用一臺非常強大的大規(guī)模并行計算機的50個時間步來完成許多任務。例如，人們可能不知道，你可以使用一個只有兩個隱藏層的中等大小的神經(jīng)網(wǎng)絡來學習排序，對n位數(shù)字進行排序，這是相當不錯的成就。這并不是顯而易見的，特別是因為我們被告知排序需要使用神經(jīng)網(wǎng)絡執(zhí)行l(wèi)og n個并行步驟，而你只需要兩個并行步驟就可以成功排序。所以，有一些不太明顯的事情正在發(fā)生。現(xiàn)在，這些是閾值神經(jīng)元的并行步驟，因此它們完成了更多的工作。這就是謎底的答案。但如果你有50個這樣的層，你就可以在神經(jīng)網(wǎng)絡內(nèi)部完成相當多的邏輯和推理。這就是它起作用的原因。給定數(shù)據(jù)，我們能夠找到最好的神經(jīng)網(wǎng)絡。因為神經(jīng)網(wǎng)絡很深，因為它可以在其層內(nèi)運行計算，最好的神經(jīng)網(wǎng)絡值得尋找。因為這確實是你所需要的。你需要一個模型類，這是值得優(yōu)化的。但它也需要是可優(yōu)化的。深度神經(jīng)網(wǎng)絡滿足這兩個條件。這就是一切正常運作的原因。這是其他一切的基礎。

現(xiàn)在，我想談談強化學習。強化學習是一個框架，用于評估代理在復雜的隨機環(huán)境中實現(xiàn)目標的能力。你有一個代理插入環(huán)境中，如圖所示。對于任何給定的代理，你只需要多次運行它，并計算其平均獎勵。強化學習框架的有趣之處在于，它存在有趣且有用的強化學習算法。這個框架已經(jīng)存在了很長時間，一旦我們意識到好的算法是存在的，事情就變得有趣了。這些算法并不完美，但它們足以完成有趣的任務。你所面臨的數(shù)學問題是需要最大化預期回報的地方。

強化學習框架還不完全完善的一個重要方面是，它假設獎勵是由環(huán)境給出的。你看這張圖片，代理發(fā)送一個動作，而環(huán)境則將觀察結果和獎勵一起返回。這就是環(huán)境返回的信息。然而，在現(xiàn)實世界中，情況并非如此，因為我們有一個框架來從觀察中找出獎勵是什么。我們獎勵自己。我們沒有被告知。環(huán)境并沒有說，嘿，這里有一些負面獎勵。這是我們對感官的詮釋，讓我們可以確定獎勵是什么。生命中只有一種真正的回報，那就是存在或不存在，其他一切都是其必然結果。

那么，我們的代理應該是什么？你已經(jīng)知道答案了。它應該是一個神經(jīng)網(wǎng)絡，因為每當你想做某事時，答案將是一個神經(jīng)網(wǎng)絡，并且你希望代理將觀察結果映射到行動。因此，你可以使用神經(jīng)網(wǎng)絡對其進行參數(shù)化，然后應用學習算法。

所以，我想向你解釋一下強化學習是如何運作的。這就是無模型強化學習。強化學習實際上已經(jīng)在各地得到了實際應用。但它也很深刻，非常堅固。這個過程非常簡單。它的效率并不特別高。因此，其工作原理如下：這實際上可以用一句話來描述正在發(fā)生的事情。簡單來說，就是嘗試一些新事物。為你的行動引入隨機性，并將結果與你的預期進行比較。如果結果讓你感到驚訝，如果你發(fā)現(xiàn)結果超出了你的預期，那么就調(diào)整你的參數(shù)，以便在將來采取這些行動時能夠得到改進。就是這么簡單。這就是強化學習的核心思想。嘗試一下，看看你是否喜歡它，如果你喜歡，那么以后就多做一些。字面上就是這個意思。這是核心概念。

事實證明，將這個過程用數(shù)學形式化并不困難，但這確實是正在發(fā)生的事情。如果你在神經(jīng)網(wǎng)絡中，在常規(guī)神經(jīng)網(wǎng)絡中，你可能會問，目標是什么？你運行神經(jīng)網(wǎng)絡，你就會得到一個答案。你將這個答案與所需的答案進行比較。無論兩者之間有什么差異，你都可以將其反饋回去以更改神經(jīng)網(wǎng)絡。這就是監(jiān)督學習。在強化學習中，你運行一個神經(jīng)網(wǎng)絡，你為你的行動添加了一些隨機性，然后如果你喜歡這個結果，實際上，你的隨機性就變成了期望的目標。就是這樣了。這很簡單。現(xiàn)在，數(shù)學已經(jīng)存在。在不解釋這些方程的含義的情況下，重點并不是要真正推導它們，而只是證明它們存在。

強化學習算法有兩大類。其中之一是策略梯度，你所做的基本上就是使用這個表達式，期望的總和，獎勵的總和，你只需要計算導數(shù)。你展開項，你運行，你做一些代數(shù)，你就得到了一個導數(shù)。奇跡般的是，導數(shù)的形式正好是我告訴你的，那就是嘗試一些行動，如果你喜歡它們，就增加這些行動的對數(shù)概率。這實際上是從數(shù)學上得出的。直觀的解釋與你在等式中得到的內(nèi)容完美對應，即使你不熟悉它，你也必須相信我。這就是頂部的等式。

還有一類不同的強化學習算法，它稍微復雜一些，解釋起來有點困難。它被稱為基于Q學習的算法。它們的穩(wěn)定性稍差一些，樣本效率更高一些，它具有這樣的特性：它不僅可以從參與者生成的數(shù)據(jù)中學習，而且還可以從任何其他數(shù)據(jù)中學習。因此，它具有不同的穩(wěn)健性特征，這有點重要，但這只是一個技術問題。是的，這就是策略內(nèi)和策略外的區(qū)別，但這有點技術性，所以如果你發(fā)現(xiàn)這很難理解，請不要擔心。如果你已經(jīng)知道了，那么你就已經(jīng)知道了。

那么現(xiàn)在強化學習的潛力是什么？承諾是什么？它到底是什么，我們?yōu)槭裁匆獙Υ烁械脚d奮？現(xiàn)在，有兩個原因。今天的強化學習算法已經(jīng)非常有用和有趣，特別是如果你對你的世界有一個很好的模擬，你可以訓練智能體做很多有趣的事情。但真正令人興奮的是，如果你能夠構建一個超級驚人的樣本高效強化學習算法。我們只給它少量的數(shù)據(jù)，算法只是對它進行處理并從中提取每一點熵，以便以盡可能最快的方式學習。現(xiàn)在，我們的算法的數(shù)據(jù)效率并不是特別高。他們的數(shù)據(jù)效率低下。但隨著我們的領域不斷進步，這將會改變。

接下來，我想深入探討元學習的主題。元學習的目標是一個很好的主意，這并沒有真正起作用，但它確實有效。而且它也確實很有前途。這是另一個有前途的想法。那么夢想是什么？我們有一些學習算法。也許我們可以使用這些學習算法來學會學習。如果我們能學會學習就好了。那么你會怎么做呢？你會采用一個系統(tǒng)，你不是在一項任務上訓練它，而是在多項任務上訓練它，你問它是否學會快速解決這些任務。這實際上可能就足夠了。

所以它看起來是這樣的。這是大多數(shù)傳統(tǒng)元學習的工作原理和外觀。你有一個模型，它是一個大的神經(jīng)網(wǎng)絡。但你所做的是對待每一個，你有訓練任務，而不是訓練案例。你擁有的不是測試用例，而是測試任務。所以你的輸入可能是，它不僅僅是你當前的測試用例，而是有關測試任務的所有信息加上測試用例，你將嘗試輸出該測試用例的預測或操作。所以基本上你會說，是的，我會給你10個例子作為你模型輸入的一部分，弄清楚如何充分利用它們。所以這是一個非常簡單的想法。你將神經(jīng)網(wǎng)絡轉變?yōu)閷W習算法，將訓練任務轉化為訓練案例。所以訓練任務等于訓練案例。這就是元學習。

因此出現(xiàn)了一些我認為非常有趣的成功案例。元學習的成功案例之一是學習快速識別字符。麻省理工學院的Lake等人制作了一個數(shù)據(jù)集。這是一個數(shù)據(jù)集。我們有大量不同的手寫字符。人們已經(jīng)能夠為此訓練極其強大的元學習系統(tǒng)。元學習的另一個非常成功的例子是神經(jīng)架構搜索，由來自谷歌的Zoph和Le提出，他們發(fā)現(xiàn)了一種神經(jīng)架構可以很好地解決一個問題，一個小問題，然后它也能成功解決大問題。所以這是一種少量比特元學習。這就像當你學習架構，甚至學習一個程序、一個小程序或?qū)W習算法時，你可以將其應用于新任務。所以這是進行元學習的另一種方式。

無論如何，但重點是正在發(fā)生的事情大多數(shù)情況下元學習中到底發(fā)生了什么就是你把一個訓練任務變成一個訓練案例并假裝這是完全正常的深度學習。就是這樣。這就是元學習的全部。其他一切都只是小細節(jié)。接下來，我想深入。

現(xiàn)在我已經(jīng)完成了介紹部分，我想開始討論不同的工作來自OpenAI的不同人，我想首先談談事后經(jīng)驗回放。安德烈等人付出了巨大的努力開發(fā)強化學習的學習算法，這不僅僅解決了一項任務，但它解決了許多任務，并且學會利用其經(jīng)驗以更有效的方式。

我想討論強化學習中的一個問題。我想，這實際上是一系列相互關聯(lián)的問題。但你需要學會做的一件非常重要的事情就是探索。你從一個環(huán)境開始，你不知道該怎么辦。你做什么工作？所以必須發(fā)生的一件非常重要的事情就是你必須時不時地獲得獎勵。如果你嘗試某件事但沒有得到回報，那你怎樣才能學習呢？所以我說這就是問題的癥結所在。你怎么學習？與此相關的是，有沒有什么方法可以讓我們受益匪淺？來自經(jīng)驗，來自你的嘗試，來自你的失敗？如果你嘗試實現(xiàn)一個目標但失敗了，你還能從中吸取教訓嗎？

你告訴你，不要要求你的算法實現(xiàn)單一目標，你想要學習一項可以實現(xiàn)一系列目標的策略。例如，不是達到一種狀態(tài)，你想了解一項適用于每個狀態(tài)的策略，你的系統(tǒng)的。現(xiàn)在，這意味著什么？每當你做某事時，你就會達到某種狀態(tài)。假設我表達了一個目標，即我希望達成狀態(tài)A。我付出了極大的努力，但最終只能達到狀態(tài)B。從這個結果來看，我可以得出結論，這是一種令人失望的結果。我?guī)缀鯖]有學到任何東西，我仍然不清楚如何實現(xiàn)狀態(tài)A。然而，我也可以換個角度思考，暫時停下來，我實際上已經(jīng)達到了一個非常良好的狀態(tài)，即狀態(tài)B。我可以從中學習如何實現(xiàn)狀態(tài)B，而這正是我原本試圖達到狀態(tài)A的過程中意外獲得的。答案是肯定的，這是有效的。

我想強調(diào)的是，這是一個案例，它包含了一個微妙之處，對于那些非常了解策略內(nèi)和策略外學習差異的人來說，這可能是一個有趣的點。當你嘗試實現(xiàn)狀態(tài)A時，你正在進行策略內(nèi)學習。但是，當你實際上達到狀態(tài)B時，你正在進行策略外學習，因為如果你真的在嘗試達到狀態(tài)B，你會采取不同的行動。這就是為什么選擇能夠支持策略外學習的算法非常重要。這只是一個小的技術細節(jié)。關鍵的想法是，你通過讓問題變得更簡單，表面上看似更加困難，通過訓練一個系統(tǒng)去渴望并學習達到每一個狀態(tài)，實現(xiàn)每一個目標，從而在整體上掌握其環(huán)境，你就建立了一個能夠不斷學習的系統(tǒng)。它能夠從成功和失敗中學習，因為如果它嘗試做一件事卻完成了另一件事，那么它就獲得了如何實現(xiàn)那另一件事的訓練數(shù)據(jù)。

我想展示一個視頻，向您演示這個概念在實踐中是如何運作的。強化學習系統(tǒng)面臨的挑戰(zhàn)之一是需要塑造獎勵。這意味著什么呢？當系統(tǒng)剛開始學習，知之甚少時，它可能無法實現(xiàn)你設定的目標。因此，設計一個逐漸遞增的獎勵函數(shù)是非常重要的，使其平滑且連續(xù)，這樣即使系統(tǒng)的表現(xiàn)不佳，它也能實現(xiàn)目標。如果你給系統(tǒng)一個非常稀疏的獎勵，只有在達到最終狀態(tài)時才給予獎勵，那么傳統(tǒng)的強化學習算法就很難解決問題，因為它幾乎永遠不會得到獎勵，從而無法學習。沒有獎勵就意味著沒有學習。但在這里，因為你可以從失敗和成功中學習，這個問題就不復存在了。這是非常好的。我認為，我們應該再看一下視頻，看看它是如何自信且充滿活力地將綠色的小冰球移動到目標位置的，這真是太棒了。

現(xiàn)在，讓我們跳過這個部分，如果你在物理機器人上實施這個策略也是可行的，但我們可以跳過這個。

我認為重點是事后經(jīng)驗重播算法的方向是正確的，因為你想要利用所有的數(shù)據(jù)，而不僅僅是一小部分。現(xiàn)在，一個巨大的問題是，你如何獲得高級狀態(tài)？高級狀態(tài)是從哪里來的？因為在我迄今為止向你們展示的例子中，系統(tǒng)被要求達到低級狀態(tài)。所以，我認為對于這些方法來說，表示學習和無監(jiān)督學習將變得非常重要，它們能夠發(fā)現(xiàn)正確的狀態(tài)，確定值得實現(xiàn)的目標狀態(tài)空間。

現(xiàn)在，我想要查看一些真實的元學習結果，并告訴你一個非常簡單的方法，即如何通過元學習從模擬轉移到物理機器人。這是Peng等人在2017年完成的一個非常出色的實習項目。所以，我認為我們可以同意，在機器人領域，如果你能夠在模擬器中訓練你的策略，然后以某種方式將這些知識轉移到物理機器人上，那將是非常理想的。現(xiàn)在，我們可以構建沒有問題的模擬器，但它們永遠無法完美地匹配現(xiàn)實世界，除非你愿意接受一個極其緩慢的模擬器。原因是，事實證明模擬接觸是非常困難的，我在某個地方聽說，如果我錯了，請糾正我，模擬摩擦力是NP完全問題。我不確定這是否準確，但就是這樣的情況。所以你的模擬器和現(xiàn)實世界總是會有所不同。會有一些相似之處，但僅此而已。

我們該如何解決這個問題呢？我想向您展示一個簡單的想法。假設有一件事情會很好，那就是如果你能學習一項策略，它能夠迅速適應現(xiàn)實世界。那么，如果你想學習一個能夠快速適應的策略，我們需要確保它在訓練期間有機會適應。那么我們該怎么辦？我們不僅僅在一個模擬器中解決問題，而是為模擬器添加了大量的變異性。我們說，我們將隨機化摩擦力，我們將隨機化質(zhì)量，我猜還有不同物體的長度和尺寸。所以你嘗試以多種不同的方式隨機化物理模擬器。然后重要的是，你不會告訴策略是如何隨機化的。那么接下來它會做什么呢？你將你的策略放入一個環(huán)境中，它會發(fā)現(xiàn)這真的很困難。我不知道質(zhì)量是多少，也不知道摩擦力是多少。當我從環(huán)境中得到反饋時，我需要嘗試一些事情并找出摩擦力是什么。所以你學會了讓策略具有一定程度的適應性。這確實是有效的。

我只是想給你看一下。當你在模擬器中訓練策略并將其部署到物理機器人上時，會發(fā)生什么。這里的目標是將冰球推向紅點的方向。你會發(fā)現(xiàn)它會掙扎。它陷入困境的原因是模擬器和真正的物理機器人之間的系統(tǒng)差異。因此，即使是基本的運動對于策略來說也是困難的，因為假設被嚴重違反了。因此，如果你按照我所討論的方式進行訓練，我們就會訓練一個循環(huán)神經(jīng)網(wǎng)絡策略，它學會快速推斷模擬器的屬性，以完成任務。然后你可以給它真實的東西，真正的物理環(huán)境，它會做得更好。現(xiàn)在，這不是一個完美的技術，但它絕對是非常有前途的。每當你能夠充分隨機化模擬器時，它都是有希望的。因此，很高興看到該策略的閉環(huán)性質(zhì)。你可以看到它會推動冰球，并且會非常非常輕柔地糾正冰球的方向，使其到達球門。是的，你看到了嗎？這太酷了。所以這是元學習的一個很酷的應用。

我想討論元學習的另一個應用，即學習動作的層次結構。這是Franz等人完成的工作。事實上，當時完成這項工作的實習生Kevin Franz還在讀高中。他寫了這篇論文。所以，有一件事情會很好，那就是強化學習是否是分層的。如果不是簡單地采取微小的動作，而是有一些可以部署的小子程序。也許子程序這個術語有點過時了，但如果你知道哪些動作原語是值得采用的，那將是非常有幫助的。現(xiàn)在，沒有人能夠證明分層強化學習確實帶來了真正的增值。到目前為止，所有真正酷的結果、所有真正令人信服的強化學習結果都沒有使用它。那是因為我們還沒有完全弄清楚強化學習、分層強化學習的正確方法是什么。

我只想向您展示一種非常簡單的方法，在這種方法中，我們使用元學習來學習動作的層次結構。所以這就是你要做的。在這項具體的工作中，你有一定數(shù)量的低級原語。假設你有10個，并且你有任務分配。你的目標是學習低級原語，這樣當它們在一些強化學習算法的非常簡短的運行中使用時，你會取得盡可能多的進步。所以這個想法是你想要獲得最大程度的進步，你想要學習能夠帶來最大進步的策略，抱歉，你想要學習能夠帶來最大程度進步的原語。在學習過程中的應用中，我們面對的是一個元學習的場景，因為你需要分配不同的任務。這里有一個小型迷宮的例子。你面對的是一個迷宮分布。在這種情況下，小蟲子學會了三種不同的策略，使其能夠朝著一個固定的方向移動。得益于這種層次化結構，你可以迅速地解決問題。但這只有在層次結構設置得當時才成立。因此，分層強化學習是一個持續(xù)進行中的研究領域。這項研究是一個有趣的證明點，展示了分層強化學習的概念以及它在有效時的樣子。

現(xiàn)在，我想通過一張幻燈片來討論高容量元學習的局限性。具體來說，訓練任務的分布必須與測試任務的分布相同。我認為這是一個真正的限制，因為實際上你想要學習的新任務在某些方面將與你迄今為止所見的任務完全不同。例如，當你上學時，你會學到很多有用的東西。但當你開始工作時，你會發(fā)現(xiàn)只有一小部分所學知識是有用的，你需要從頭開始學習很多東西。因此，元學習面臨的問題在于它實際上假設訓練任務的分布必須與測試任務的分布相同。這是一個限制。我相信，隨著我們開發(fā)出更好的算法，使得在測試任務超出訓練任務分布時仍能保持穩(wěn)健，元學習的效果將會更好。

現(xiàn)在，我想談談自我對弈。我認為自我對弈是一個非常酷的話題，現(xiàn)在才開始引起人們的關注。我想首先回顧一下一項非常古老的研究，名為TD Gammon。這項研究可以追溯到1992年，現(xiàn)在已經(jīng)有26年的歷史了。這是由Jerry Tesauro完成的。這項工作非常不可思議，因為它在今天仍然具有重要的意義。他們所做的基本上是，讓兩個神經(jīng)網(wǎng)絡相互對弈，讓它們玩雙陸棋，并接受Q-learning訓練。這是一種非常現(xiàn)代的方法。你可能會以為這是2017年的論文，但當你看到圖表顯示只有10個、20個、40個和80個隱藏單元的不同顏色時，你會發(fā)現(xiàn)最大的神經(jīng)網(wǎng)絡效果最好。在某些方面，并沒有太多的變化，這就是證據(jù)。事實上，他們能夠在雙陸棋中擊敗世界冠軍，并發(fā)現(xiàn)了最優(yōu)秀的人類雙陸棋玩家沒有注意到的新策略，他們確定TDGammon所涵蓋的策略實際上更好。這就是純粹的自我對弈Q-learning，它一直處于休眠狀態(tài)，直到與DeepMind的Atari合作出現(xiàn)DQN。

其他自我對弈的例子包括AlphaGo Zero，它能夠在不使用任何外部數(shù)據(jù)的情況下學會擊敗圍棋世界冠軍。這種思路的另一個成果是OpenAI的Dota 2機器人，它能夠在1v1版本的游戲中擊敗世界冠軍。

所以我想花一點時間談談自我對弈的魅力以及為什么我認為這令人興奮。當我們嘗試構建真正的智能系統(tǒng)時，我們必須面對的一個重要問題是任務是什么？我們究竟在教系統(tǒng)做什么？自我對弈的一個非常有吸引力的特點是主體創(chuàng)造了環(huán)境。通過代理在環(huán)境中的作用，環(huán)境對于其他智能體來說變得更加困難。這里有一個鬣蜥和試圖吃掉它的蛇的互動的例子，這次蛇沒有成功。我們可以看到接下來會發(fā)生什么。鬣蜥正在盡力而為。實際上，蛇和鬣蜥之間的軍備競賽激勵了它們的發(fā)展，可能沒有界限。這就是在生物進化中實際發(fā)生的情況。

Carl Sims在1994年在這個方向上做了有趣的工作。YouTube上有一個由Carl Sims制作的非常酷的視頻。你應該去看看，這確實展示了他所做的所有工作。在這里，代理之間存在一些競爭，你可以進化行為和形態(tài)，當智能體試圖獲得綠色立方體的所有權時。所以你可以看到代理們互相創(chuàng)造了挑戰(zhàn)。這就是他們需要發(fā)展的原因。

所以我們做了一件事，這是OpenAI的Dan Salerno的工作，我們問自己，我們能否在自我對弈中展示一些不尋常的結果，讓我們真正相信其中存在某些東西？我們在這里所做的是創(chuàng)建一個小環(huán)境，并有兩個人形角色。他們的目標只是將對方推出擂臺。他們對摔跤一無所知，他們對站立或相互平衡一無所知，他們對重心一無所知。他們只知道如果你做得不好，那么你的競爭對手就會做得更好。

自我對弈真正有吸引力的一點是，你總是有一個與你實力相當?shù)膶κ帧榱藢W習，你需要有時贏，有時輸。你不可能總是贏。有時你必須失敗，有時你必須成功。讓我們看看這里會發(fā)生什么。是的，綠色人形能夠擋住球。在一個平衡良好的自我對弈環(huán)境中，競爭始終是公平的。不管你的水平如何，你面臨的競爭對你來說都是恰到好處的挑戰(zhàn)。

哦，還有一件事。這個視頻展示了遷移學習。你帶著小摔跤人形，然后你把它的伙伴帶走了。然后你開始對它施加很大的隨機力，看看它是否能保持平衡。答案是，是的，它可以，因為它經(jīng)過了針對推動它的對手的訓練。這就是為什么，即使它不明白壓力施加在哪里，它仍然能夠自我平衡。所以這是自我對弈環(huán)境的一個潛在的有吸引力的特征，你可以學習一系列廣泛的技能，雖然技能的內(nèi)容有點難以控制。

因此，這項研究最大的懸而未決的問題是，如何在自我對弈環(huán)境中學習代理，以便他們無論做什么，但隨后他們能夠解決一系列對我們有用的任務，這些任務是外部明確指定的？

我還想強調(diào)一下我們在Dota機器人中觀察到的自我對弈環(huán)境的一個特點。也就是說，我們看到機器人的能力快速提高。因此，在大約五個月的時間里，我們已經(jīng)看到機器人從完全隨機地玩游戲變成了現(xiàn)實，一路走向世界冠軍。原因是一旦你有了自我對弈的環(huán)境，如果你投入計算資源，你就可以將其轉化為數(shù)據(jù)。自我對弈允許你將計算轉化為數(shù)據(jù)。我認為我們會認為這是一件極其重要的事情，能夠?qū)⒂嬎惚举|(zhì)上轉化為數(shù)據(jù)泛化，僅僅是因為神經(jīng)網(wǎng)絡處理器的速度將在未來幾年內(nèi)顯著提高。因此，神經(jīng)網(wǎng)絡循環(huán)將變得非常便宜，并且利用這些新發(fā)現(xiàn)的過量循環(huán)將變得非常重要。

現(xiàn)在，我還想談談自我對戰(zhàn)方法的結局。關于人類大腦，我們知道的一件事是它的大小在過去兩百萬年里增長得非常快。我的理論是，這種現(xiàn)象發(fā)生的原因是因為我們的祖先已經(jīng)達到了一個點，在這個點上，對你的生存最重要的東西是你在部落中的地位，而不是老虎和獅子。在處理那些具有高度智能的其他實體時，擁有一個稍大的大腦確實有其優(yōu)勢。我相信這正是我們所觀察到的現(xiàn)象。至少有一篇科學論文支持了這一點。顯然，社會性的靈長類動物和鳥類之間存在著一種趨同進化，盡管它們的行為多種多樣，而且人類與鳥類在進化的時間線上早已分道揚鑣，人類、靈長類動物和鳥類的大腦結構也大相徑庭。因此，我認為，如果我們能夠成功地沿著這條道路前進，我們應該能夠創(chuàng)造出一個具有語言和心智理論的主體社會，擁有談判、社交技巧、貿(mào)易、經(jīng)濟、政治和司法系統(tǒng)。所有這些都應該在一個多代理體環(huán)境中發(fā)生。同時，我們還會面臨一致性問題，即如何確保我們所訓練的智能體按照我們所期望的方式運作。

現(xiàn)在，我想做一個推測性的題外話，即我想提出一個觀點。如果你認為代理人社會是一個合理的場所，那里可能會出現(xiàn)完全通用的智能，而且如果你接受我們在DotaBot方面的經(jīng)驗，我們已經(jīng)見證了能力的快速提升，那么一旦所有細節(jié)都得到妥善處理，我們就可以繼續(xù)這種經(jīng)驗。如果你假設這兩個條件成立，那么我們應該看到我們的代理人在代理社會中生活時能力的迅速提升。

現(xiàn)在我們已經(jīng)討論了一個有潛力提高能力并教授代理人社交技能和語言的有趣方法，以及許多真實存在于人類社會中的東西，我們想要探討的是如何向代理人傳達目標。向智能體傳達目標的問題是一個技術問題，但這一點非常重要，因為我們所訓練的智能體最終可能會比我們更加聰明。這是Paul Christiano等人以及OpenAI安全團隊的工作。

因此，我將向您展示這段視頻，它基本上解釋了整個過程是如何運作的。你會看到一些你希望觀察到的行為，作為人類，你可以看到成對的行為，并通過點擊來選擇看起來更好的那個。經(jīng)過極少量的點擊，你就可以讓這個模擬的小腿做后空翻。在這個例子中，為了獲得這種特定的行為，人類注釋者需要點擊大約500次。

這個方法的工作原理是，你收集所有的點擊，這些點擊表明了一種行為比另一種行為更好。你需要擬合一個獎勵函數(shù)來滿足這些點擊，然后通過強化學習來優(yōu)化這個獎勵函數(shù)。這種方法確實有效。因此，這需要大約500次信息輸入。我們還能夠使用數(shù)千次信息輸入來訓練大量的Atari游戲。

在所有這些情況下，都有人類注釋者或評判，就像之前的幻燈片所示，他們查看成對的軌跡，然后點擊他們認為更好的軌跡。這是一個不尋常目標的例子，在一場賽車游戲中，目標是讓代理訓練白色汽車緊跟在橙色汽車后面。使用這種方法傳達目標非常簡單。

最后，對齊是一個技術問題，它必須得到解決。但當然，確定我們希望人工智能系統(tǒng)具有的正確目標將是一個非常具有挑戰(zhàn)性的政治問題。在此，我非常感謝您的關注，并想說今晚8點45分將在Cambridge Brewing Company舉行歡樂時光，如果你想更多地討論人工智能和其他話題，請加入我們。

=QnA環(huán)節(jié)=

關于反向傳播，雖然神經(jīng)網(wǎng)絡是受生物啟發(fā)的，但反向傳播并不像是大腦中發(fā)生的事情，因為大腦中的信號沿著軸突單向傳播，而反向傳播則需要將誤差沿著神經(jīng)途徑傳回。這看起來大腦正在做一些與我們非常成功的算法有些不同的事情。一旦我們弄清楚大腦在做什么，算法是否會得到改進？還是大腦確實在發(fā)送信號，盡管它沒有明顯的方法來做到這一點？

這是一個很好的問題。首先，我要說的是，真正的答案是我不知道，但我有我的看法。

所以，我要說兩件事。首先，如果我們同意反向傳播解決了回路搜索問題，這個問題看起來像是一個極其根本的問題。出于這個原因，我認為它不太可能消失。你也說得對，大腦顯然不會進行反向傳播，盡管已經(jīng)有多種關于它如何進行反向傳播的建議。例如，Tim Lillicrap和其他人的研究已經(jīng)證明，如果你學習一組不同的連接，它們可以用于反向傳遞，并且可以導致成功的學習。現(xiàn)在，這并沒有被從業(yè)者真正推向極限，因為他們會說，我有tf.gradients，我不需要擔心這個。但你說得對，這是一個重要的問題，而且，有兩種可能的情況。所以我個人的觀點是，反向傳播將一直伴隨我們直到最后，在我們了解大腦如何運作之前，我們實際上將建立完全人類水平和超越的系統(tǒng)。這就是我所相信的，但是，當然，這是必須承認的差異。

你認為Dota機器人與人類的對決公平嗎？考慮到系統(tǒng)的限制？

所以我想說，電腦在這樣的游戲中最大的優(yōu)勢之一就是它們顯然有更好的反應時間，盡管特別是在Dota中，頂級玩家的每秒點擊次數(shù)相當少，這與星際爭霸不同。星際爭霸是一個機械性非常重的游戲，由于單位數(shù)量較多，所以頂級玩家他們只是一直點擊。而在Dota中，每個玩家只控制一個英雄，這大大減少了他們需要采取的行動總數(shù)。現(xiàn)在，精度仍然很重要。我認為我們會發(fā)現(xiàn)，但我認為真正會發(fā)生的是，我們會發(fā)現(xiàn)計算機在任何領域都具有優(yōu)勢，或者更確切地說，每個領域。目前還沒有。

你是否認為智能體的緊急行為實際上是有指導的，因為約束已經(jīng)就位，所以它是被迫去發(fā)現(xiàn)這些，或者你認為這實際上是某種東西非常新奇，哇，它實際上自己發(fā)現(xiàn)了這些。你實際上并沒有添加限制它的偏見。

所以毫無疑問，我們發(fā)現(xiàn)了新的策略，我可以分享一個軼事，我們的測試人員，我們有一個專業(yè)人士可以測試機器人，他和它對抗了很長時間，機器人會針對玩家（人類玩家）做各種各樣的事情，這些事情都很有效。然后在某個時候，該職業(yè)選手決定與更好的職業(yè)選手比賽，他決定模仿機器人正在做的事情之一，通過模仿，他能夠擊敗更優(yōu)秀的職業(yè)選手。所以我認為他發(fā)現(xiàn)的策略是真實的，這意味著，存在著非常真實的轉移，我想說，我認為這意味著，因為機器人發(fā)現(xiàn)的策略可以幫助人類，所以這意味著基本的游戲玩法是密切相關的。

長期以來，我了解到強化學習的目的是確定一種策略，即選擇一個行動以最大化預期獎勵，正如你之前所述。你是否希望考慮可能獎勵的標準差？這個想法還合理嗎？

是的，我相信這是肯定的。我認為這確實取決于具體的應用場景。追求最大化預期獎勵的一個原因是，設計算法時更為簡便。因此，你可以寫下一個方程或公式，進行一些推導，最終得到一個看起來非常優(yōu)雅的算法。現(xiàn)在，我確實認為，在某些應用中，你永遠不希望犯錯，同時你也希望考慮標準偏差。但在實際操作中，似乎只考慮預期獎勵就能覆蓋大多數(shù)你想要應用這種方法的情況。謝謝你。

在上周的討論中，我們談到了動機，這與強化學習有很大的關聯(lián)。有些理論認為，我們的動機實際上與與他人的聯(lián)系和合作有關。我很好奇，我知道讓計算機玩競技游戲非常流行，但是讓代理進行自我協(xié)作，比如在協(xié)作游戲中，這有什么用處呢？

是的，我認為這是一個非常好的問題。我們可以從合作的演變中獲得一些啟示。我認為我們最終會選擇合作，因為合作比不合作對我們更有利。所以我認為，如果你有一個足夠開放的游戲，合作將成為一種勝利策略。因此，我認為無論我們是否愿意，我們都將看到合作的出現(xiàn)。

你提到了模擬摩擦的復雜性。我想知道你是否認為存在與人工智能相關的開放性復雜性理論問題，或者這只是尋找人類行為良好近似的問題，即人類傾向于解決的問題類型。

是的，所以在復雜性理論方面，在非常基礎的層面上，我們知道無論我們運行什么算法，它都會在某些硬件上非常有效地運行。這為我們正在解決的問題的真實復雜性設定了一個相當嚴格的上限。從定義上講，我們正在解決的問題在復雜性理論上并不是特別困難。現(xiàn)在，也有很多問題出現(xiàn)，盡管我們所做的事情在復雜性理論上并不難，而且實際上，人類通常無法解決NP完全問題，但是，從神經(jīng)網(wǎng)絡優(yōu)化本身開始，我們對算法提出的許多優(yōu)化問題在一般情況下都是棘手的。很容易為具有少量神經(jīng)元的神經(jīng)網(wǎng)絡創(chuàng)建一系列數(shù)據(jù)集，使得找到全局最優(yōu)解是NP完全問題。那么，我們?nèi)绾伪苊膺@個問題呢？好吧，無論如何我們都只是嘗試使用梯度下降，不知怎的它就起作用了。但是，毫無疑問，我們沒有解決真正困難的問題。所以，我希望這能回答你的問題。

似乎通向通用人工智能（AGI）的道路上一個重要的子問題是理解語言，而目前生成語言模型的狀況非常糟糕。您認為生成語言模型最有成效的研究方向是什么？

首先，我要說的是，你說的完全正確，我們在語言方面的情況還遠未達到理想狀態(tài)，盡管已經(jīng)取得了一些進展。即使沒有任何特定的創(chuàng)新，僅僅是在更大的數(shù)據(jù)集上擴展現(xiàn)有模型也會取得驚人的效果。甚至不是更大的數(shù)據(jù)集，而是更大、更深的模型。例如，如果你訓練了一個具有一千層的語言模型，并且它是同一類型的層，我認為這將是一個非常驚人的語言模型。我們還沒有達到那個階段，但我認為這種情況很快就會改變。現(xiàn)在，我也同意你的觀點，即我們目前對深度學習的理解缺乏一些基本的東西，這使我們無法真正解決我們想要的問題。所以，我認為其中一個問題，缺少的東西之一是，或者看起來顯然是錯誤的，事實是我們訓練一個模型，然后停止訓練，我們將其凍結。盡管真正的魔法發(fā)生在訓練過程中。魔法在于，如果你仔細想想，訓練過程是整個故事的真正通用部分，因為你的TensorFlow代碼并不關心要優(yōu)化哪個數(shù)據(jù)集。它只是說，給我數(shù)據(jù)集就行，我不在乎要解決哪個問題，我會解決所有問題。所以，能夠做到這一點感覺真的很特別，我認為我們在測試時沒有利用它。很難推測我們不知道答案的事情，但我想說的是，僅僅訓練更大、更深的語言模型就會取得令人驚訝的效果，擴大規(guī)模。但我認為，在測試時進行訓練和在測試時進行推理之類的事情將是性能的另一個重要提升。

謝謝你的演講。因此，現(xiàn)在解決強化學習問題的另一種有趣方法可能是采用進化策略。盡管它們有自己的局限性，我想知道你在OpenAI是否正在從事相關的工作，以及你對它們的總體看法是什么？

就目前而言，我認為像進化策略這樣的方法對于強化學習來說并不是特別好。我認為傳統(tǒng)的強化學習算法，尤其是大規(guī)模策略的算法，更為有效。但如果你想進化出一個小而緊湊的實體，比如一段代碼，我認為這將是一個值得認真考慮的方向。但是，開發(fā)一段有用的代碼是一個很酷的想法，它還沒有實現(xiàn)，所以在我們達到那個目標之前還有很多工作要做。

非常感謝你的到來。我的問題是，你提到確定正確的目標是一個政治問題。所以我想知道你是否可以詳細說明一下，然后你認為我們可以采取什么方法來實現(xiàn)這一目標？

好吧，我真的不能過多評論，因為現(xiàn)在我們在OpenAI有一些人全職思考這個問題。我沒有足夠強烈的意見來發(fā)表任何明確的聲明。我所能說的是，在非常高的層面上，如果你進入未來，無論何時，或者，每當你建造一臺可以比人類做得更好的機器時，這將會發(fā)生，因為大腦是物理的，它對社會的影響將是巨大且壓倒性的。即使你非常努力，這也是很難想象的。我認為這意味著人們會非常關心，這就是我所暗示的，事實上這將是許多人會強烈關心的事情。而且，隨著自動駕駛汽車和更多自動化的影響逐漸增加，我認為我們會看到更多的人關心。

我們是否需要擁有一個非常準確的物理世界模型，然后對其進行模擬，以便讓這些代理最終能夠進入現(xiàn)實世界并執(zhí)行一些接近人類水平的智能任務？

這是一個很好的問題。所以我認為如果是這樣的話，我們就有麻煩了。我非常確定這是可以避免的。所以具體來說，真正的答案必須是，看，你學會解決問題，你學會談判，你學會堅持，你在模擬中學到很多不同的有用的人生教訓。是的，你也學了一些物理。但隨后你就脫離了現(xiàn)實世界，你必須在某種程度上重新開始，因為你的許多根深蒂固的假設將是錯誤的。這是目標之一，這就是我如此關心永不停止訓練的原因之一。你已經(jīng)積累了知識，現(xiàn)在你進入了一個違反某些假設的環(huán)境，你繼續(xù)訓練，嘗試將新數(shù)據(jù)與舊數(shù)據(jù)聯(lián)系起來。這是我們算法的一個重要要求，在一定程度上已經(jīng)得到滿足，但還需要更多地滿足，這樣你就可以利用你所獲得的部分知識進入新的情況，繼續(xù)學習。一個直觀的例子是，你去學校，你學到有用的東西，然后你就去工作。它并不完美，它不是完全一樣的，但是你能夠應用你在學校學到的東西，并在工作中繼續(xù)學習和適應。對于你們這些學習了四年計算機科學的本科生來說，這段教育經(jīng)歷并不會讓你們完全準備好掌握工作中所需了解的所有知識。它確實有助于你們的起步，但你們還需要學習許多新事物。這正是教育的本質(zhì)。我認為這是學校應該做的事情。

你們在演講的早期階段提到的一點是，強化學習風格的一個局限性是缺乏自我組織能力。因此，你必須指導它何時做得好或做得不好。這在嘗試教導老鼠穿越迷宮時，實際上也是神經(jīng)科學領域的一個問題。你必須人為地指示它應該做什么。那么，既然我們在教學中已經(jīng)面臨這個問題，你認為未來的方向是什么？你知道，這不僅僅是關于學習，還有教學的問題。你認為這方面的研究進展如何？我們?nèi)绾我胱晕医M織的概念？

我認為，無疑，一件非常重要的事情是能夠通過觀察其他代理來推斷它們的目標和策略。這是一項基本技能，需要被學習并嵌入到代理中。比如，假設有兩個代理，一個代理正在執(zhí)行某項任務，另一個代理觀察到這一行為并認為這非常酷，也希望能夠做到同樣的事情。然后它就會開始模仿。所以，我想說，這是在設定獎勵機制時的一個非常重要的組成部分。你觀察到他們的行為，從而推斷出獎勵。現(xiàn)在我們有一個調(diào)節(jié)器，上面標有：“你看到他們在做什么嗎？現(xiàn)在去嘗試做同樣的事情。”所以，據(jù)我所知，這是人類與其他動物的一個重要區(qū)別，我們模仿他人行為的規(guī)模和范圍。

你介意我追問一個問題嗎？因此，這在競爭環(huán)境中如何運作是顯而易見的，但在任意任務中又是如何呢？比如我在上數(shù)學課，看到有人用特定的方式解決問題，我會想：“哦，這是一個很好的策略。也許我應該嘗試一下。”在非競爭環(huán)境中，這是如何運作的？

所以我認為，這將是一個與競爭環(huán)境相區(qū)分的問題，但它也必須以某種方式融入系統(tǒng)中，也許是通過進化。如果你有其他代理在執(zhí)行任務，他們產(chǎn)生了你所觀察到的數(shù)據(jù)，那么真正理解你所看到的數(shù)據(jù)的唯一方法是推斷出代理的目標、策略以及他們的信念狀態(tài)。這對于與他們溝通也是至關重要的。如果你想與某人成功溝通，你必須了解他們的目標以及他們的信念和知識狀態(tài)。因此，我認為你會發(fā)現(xiàn)，理解其他智能體在做什么、推斷他們的目標、模仿他們以及與他們成功溝通之間存在著聯(lián)系。

好的，讓我們?yōu)橐晾麃喓陀淇斓臅r光熱烈鼓掌。謝謝。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.