<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI大神Ilya訪談最新論斷:我們高估了算力,低估了情緒

      0
      分享至


      智東西
      編譯 王涵
      編輯 漠影

      智東西11月26日消息,今日,前OpenAI聯創兼首席科學家、SSI聯創兼首席科學家Ilya Sutskever在接受采訪時做出重磅論斷:AI的擴展(Scaling)時代已經終結!

      整場播客長達1小時36分鐘,在這場深度對話中,Ilya Sutskever提出,當下算力規模已經十分龐大,僅靠算力堆砌已經無法讓模型實現更大的突破,他直言:“我們正從擴展時代回歸到研究時代,如今只是擁有了更強大的計算機。”

      當前,AI存在嚴重的“評估表現與現實應用脫節”割裂問題,Ilya Sutskever認為是因為其泛化能力不足。他提到了一個關鍵點,AI的一大瓶頸是沒有類似人類的感官和情緒等“價值函數”,因此提出嘗試通過預訓練讓模型獲得“情緒驅動的決策能力”,構建出關心所有“有情生命”的AI。

      訪談核心信息如下:

      1、泛化能力是AI發展的瓶頸:Ilya Sutskever認為,當前頂尖AI存在嚴重的“評估表現”與“現實應用”脫節,其核心問題在于模型的泛化能力遠不如人類。

      2、人類的情緒相當于AI的“價值函數”:他提出顛覆性觀點:“情緒”是人類進化形成的、內置的“價值函數”,能為決策提供即時反饋,這是AI目前缺失的關鍵能力。

      3、堆砌算力已無法突破,“擴展時代”已經終結:Ilya Sutskever認為,當下,以堆砌數據、算力為核心的“擴展時代”已經結束,AI發展正回歸“研究時代”,需要新范式突破。

      4、人類擁有比AI更好的“學習算法”:人類在樣本效率和持續學習上的優勢,源于某種更根本、更優越的底層學習機制,而非僅僅是進化賦予的“先驗知識”。

      5、SSI是純粹的“研究公司”:Ilya Sutskever透露,其創業公司SSI不參與算力競賽,其核心身份是一家專注于突破性研究的“研究時代”公司。

      6、超級智能是“能學會做所有事”的智能:對于什么是超級智能這個問題,Ilya Sutskever將超級智能定位為一個“能夠學會做所有事”的成長型心智。

      7、讓人們看到AI的強大,才能更好地治理:在AI治理方面,Ilya Sutskever主張通過“漸進式部署和公開展示”,讓人們親自感受AI的能力與風險。

      8、應該構建“關心有情生命的AI”:Ilya Sutskever認為,業界應該構建關心所有“有情生命”的AI,他認為這比只關心人類更根本,也更簡單。

      9、預訓練導致模型趨同:Ilya Sutskever認為,預訓練是導致各公司模型同質化的根源,而強化學習才是產生差異化的路徑。

      Dwarkesh播客:

      https://www.dwarkesh.com/p/ilya-sutskever-2

      YouTube:

      https://www.youtube.com/watch?v=aR20FWCCjAs&t=1s

      以下為Ilya Sutskever播客實錄(智東西做了不改變原意的編輯):

      一、頂尖AI為何表現“分裂”?泛化能力是關鍵瓶頸

      Ilya Sutskever:你知道這有多瘋狂嗎?所有這一切都是真實的。

      Dwarkesh Pate:什么意思?

      Ilya Sutskever:你不這么認為嗎?所有這些AI的東西,所有這灣區的一切……它正在發生。這難道不就是科幻小說里的情節嗎?

      Dwarkesh Patel:另一件瘋狂的事情是,這一切發生的都如此自然。我們將GDP的1%投資于AI這個想法,我本以為會感覺是件大事,而現在卻只覺得稀松平常。

      Ilya Sutskever:事實證明,我們適應事物的速度相當快。但這也有點抽象。因為當你在新聞上看到,某某公司宣布了某某金額的投資。你看到的就只有事件本身,到目前為止,還跟你沒什么直接聯系。

      Dwarkesh Patel:我們真的應該從這里開始嗎?我認為這是個有趣的討論,我們就從這開始聊吧。你是說,這從普通人的角度看確實沒什么太大不同,即使到了技術奇點階段,這一點也依然成立。

      Ilya Sutskever:不,我不這么認為。我剛才說的“感覺不到不同”的是,例如,某某公司宣布了一筆難以理解的投資金額,數據比較抽象,人們對此可能沒有明顯感知。

      但AI的影響將會被感受到。AI將滲透到經濟中,會有非常強大的經濟力量推動這一點,而且我認為其影響將會被強烈地感知到。

      Dwarkesh Patel:你預計這種影響何時出現?我覺得這些模型看起來比它們的在經濟體系中體現得要更聰明。

      Ilya Sutskever:是的,這是目前這些模型最令人困惑的一點。它們在評估中表現極佳——那些評估難度不低,模型卻能交出亮眼答卷——但產生的經濟影響卻遠遠落后。這種反差很難理解:模型既能完成一些驚人任務,為何有時又會出現“重復犯同一錯誤”這類基礎問題?

      舉個例子,假設你用vibe coding處理事務時遇到程序錯誤,向模型求助:“能修復這個錯誤嗎?”模型會回應:“哦,天哪,你說得對,我確實有個錯誤,我來修復它。”可結果它反而引入了第二個錯誤。當你指出這個新問題,它又會說:“哦,天哪,我怎么會犯這種錯?你又說對了”,隨后卻把第一個錯誤恢復了。你就這樣在兩個問題間來回拉扯,這實在讓人費解。但這確實說明,模型背后一定存在某種異常情況。

      我有兩種可能的解釋。一種更異想天開的想法是,強化學習訓練或許讓模型變得過于專注和狹隘,缺乏足夠的全局意識,盡管這種訓練在其他方面也讓模型展現出一定的“感知能力”。正因如此,它們有時連基礎任務都無法完成。

      另一種解釋則與訓練數據相關。在預訓練階段,數據選擇的答案很明確:需要用到所有能獲取的數據,無需糾結取舍。

      但到了強化學習訓練階段,情況就不同了。人們必須主動決策:“我們要針對這個目標設計這類強化學習訓練,針對那個目標設計那種訓練。”據我所知,所有相關公司都有專門團隊開發新的強化學習環境,并將其納入訓練體系。問題在于,這些環境的設計存在極大自由度,能衍生出種類繁多的形式。

      有一種情況很可能在無意中發生:人們會從評估指標中獲取訓練靈感。比如有人會想:“我希望模型發布時評估表現出色,什么樣的強化學習訓練能實現這個目標?”我認為這種情況確實存在,這也能解釋我們觀察到的諸多現象。

      如果再結合模型本身泛化能力不足的問題,或許就能說明評估表現與現實應用效果脫節的原因,而這種脫節的深層含義,我們至今仍未完全理解。

      Dwarkesh Patel:我很喜歡這個說法:真正的獎勵黑客,其實是那些過于關注評估的人類研究人員。

      對于你提出的問題,我認為有兩種思考方向。一種是,既然模型在編程競賽中表現超強,并不意味著它會自動擁有更好的品味,也不會在改進代碼庫上做出更優判斷,那我們就應該擴展環境套件。不僅要測試它在編程競賽中的最佳表現,還得讓它能為X、Y、Z等各類場景開發出優質應用程序。

      另一種方向,或許正是你所暗示的:“為什么編程競賽中的超強表現,無法讓模型在更普遍的場景下成為更有能力的程序員?”

      也許我們要做的,不是一味增加環境的數量和多樣性,而是找到一種方法,讓模型能從一個環境中習得能力,并將其遷移到其他事情上,實現跨場景提升。

      Ilya Sutskever:正好你提到了競技編程,咱們就以此為例。假設有兩個學生:一個一心想成為最頂尖的競技程序員,為此投入了一萬個小時深耕這個領域,他解決了所有能找到的問題,記住了各類證明技巧,還能熟練且快速地實現所有算法,最終成為了該領域的頂尖高手之一。

      另一個學生覺得“競技編程挺有意思”,或許只花了100個小時練習,投入遠少于前者,但也取得了相當不錯的成績。你覺得這兩個人,誰在之后的職業生涯中會發展得更好?

      Dwarkesh Patel:第二個。

      Ilya Sutskever:沒錯,我認為目前模型的情況基本就是這樣。它們更像第一個學生,甚至有過之而無不及。我們會先明確“模型要擅長競技編程”,然后收集所有出現過的競技編程問題,再通過數據增強生成更多同類題目,專門基于這些內容訓練模型。最終,我們確實得到了一個頂尖的“競技程序員”。

      用這個類比來理解就很直觀了:即便模型經過這樣高強度訓練,能熟練掌握各類算法和證明技巧,隨時調用自如,但它未必能把這些能力泛化到其他場景,這一點也就不難想通了。

      Dwarkesh Patel:那用這個類比來看,第二個學生在那100小時微調之前所具備的特質,對應的是什么呢?

      Ilya Sutskever:我覺得是他們身上有“那種特質”。我讀本科時,身邊就有過這樣的同學,所以我知道這類人是真實存在的。

      Dwarkesh Patel:把“那種特質”和預訓練的作用區分開,是個很有意思的角度。

      理解你之前說的“預訓練無需選擇數據”,有一種思路是:預訓練其實和那一萬小時的專項練習本質沒區別。只不過預訓練數據里本就包含這類內容,相當于“免費”獲得了一萬小時的練習量。

      但或許你想表達的是,預訓練帶來的泛化能力并沒有那么強。它只是覆蓋的數據量極大,未必比強化學習的泛化效果更好。

      Ilya Sutskever:預訓練的主要優勢在于:第一,數據量非常大;第二,你不必費心思考該把什么數據放進預訓練里。這是非常自然的數據,并且它確實包含了人們所做的很多事情:人們的想法和很多特征。這就像整個世界通過人類投射到文本上,而預訓練試圖用海量數據來捕捉這一點。

      預訓練很難進行推理,因為很難理解模型依賴預訓練數據的方式。每當模型犯錯時,有沒有可能是因為某些東西碰巧在預訓練數據中得到的支持不夠?“得到預訓練支持”可能是一個寬松的術語。我不知道我是否能就此補充任何更有用的東西。我認為沒有與預訓練相對應的人類類比。

      二、AI決策的困境,源于缺少情緒的“價值函數”

      Dwarkesh Patel:人們提出過一些關于人類類比預訓練的說法。我很想聽聽你的看法,為什么它們可能是錯誤的。一種是把人生命最初的18年、15年或13年看作預訓練,這個階段他們不一定有經濟產出,但他們在做一些讓他們更好地理解世界之類的事情。另一種是把進化看作某種進行了30億年的搜索,最終產生了人類生命的實例。

      我很好奇你是否認為這兩種說法中的任何一種與預訓練類似。如果不把人類畢生學習比作預訓練,你會如何看待它?

      Ilya Sutskever:我認為這兩者與預訓練都有一些相似之處,而預訓練試圖扮演這兩者的角色。但我認為也存在一些很大的差異。預訓練的數據量是非常、非常驚人的。

      Dwarkesh Patel:是的。

      Ilya Sutskever:不知何故,人類即便只接觸了預訓練數據中極小的一部分,掌握的知識量遠不如模型,但對已知內容的理解卻深刻得多。哪怕是15歲的少年,也不會犯AI現在常犯的那些錯誤。

      還有一點值得思考:這會不會和進化之類的機制有關?答案或許是肯定的,而且我認為進化在這方面可能更具優勢。神經科學家研究大腦的一種常用方法,是觀察大腦不同部位受損的人,他們常會表現出各種令人意想不到的奇特癥狀,這其實非常有趣。

      我想到一個相關案例:有個人因中風或事故導致腦損傷,情緒處理能力被破壞,再也感受不到任何情緒。他依然口齒清晰,能解決簡單謎題,測試中表現得完全正常,但就是沒有了喜怒哀樂,也沒有了活力。這讓他的決策能力變得極差:選一雙襪子要花好幾個小時,還會做出糟糕的財務決策。

      這一案例恰恰說明了內在情緒對我們成為“可行的行為主體”有多重要。回到你關于預訓練的問題:或許如果能從預訓練數據中充分提取所有有用信息,也能獲得這種類似“情緒驅動的決策能力”,但這種能力能否從預訓練中習得,目前還不確定。

      Dwarkesh Patel:“那個”是指什么?顯然不直接是情感。它似乎像是某種幾乎像價值函數一樣的東西,告訴你任何決策的最終回報應該是什么。你認為那種東西不會從預訓練中隱式地產生嗎?

      Ilya Sutskever:我認為有可能,我只是說這不是100%顯而易見的。

      Dwarkesh Patel:但那到底是什么?你如何看待情感?情感的機器學習類比是什么?

      Ilya Sutskever:它應該是某種價值函數類的東西。但我不認為有一個很好的機器學習類比,因為目前價值函數在人們所做的工作中并不扮演非常突出的角色。

      Dwarkesh Patel:也許值得為聽眾定義一下什么是價值函數,如果你愿意的話。

      Ilya Sutskever:當然,我很樂意展開說。目前強化學習訓練智能體的常規做法是這樣的:給神經網絡一個問題,讓模型去解決。模型可能要執行數千甚至數十萬次行動或思考,最終生成一個解決方案,這個方案會被評分。

      而這個分數會作為訓練信號,應用到模型解決問題過程中的每一個行動上。這就意味著,如果任務本身耗時很長,比如訓練一個需要長時間才能完成的任務,模型在給出最終解決方案并獲得評分前,根本不會有任何學習進展。這是強化學習的樸素做法,據稱o1、R1采用的就是這種方式。

      價值函數的作用則不同,它相當于“時不時(而非必須等到最后)告訴你當前做得好還是壞”。這個概念在某些領域比其他領域更有用,比如下棋時,你丟了一個棋子,顯然是出錯了,沒必要等到棋局結束,才知道剛才的行為是糟糕的,進而推導出導致這個錯誤的先前步驟也有問題。

      價值函數能幫你縮短等待最終結果的時間。比如你在做數學題或編程任務,嘗試探索某個特定解決方案或方向,經過一千步思考后,發現這個方向完全沒希望。

      一旦得出這個結論,你就能在一千步之前,也就是當初決定沿著這條路徑探索的時候,就獲得一個獎勵信號,相當于告訴自己“下次遇到類似情況,不該選這條路”,這比等到給出最終解決方案時再反饋要早得多。

      Dwarkesh Patel:這在DeepSeek R1的論文中提到過——軌跡空間如此之廣,以至于可能很難學習從中間軌跡到價值的映射。而且考慮到,例如在編程中,你可能會有一個錯誤的想法,然后你會回溯,然后改變一些東西。

      Ilya Sutskever:這聽起來像是對深度學習缺乏信心。當然這可能有難度,但深度學習沒有做不到的事情。我認為價值函數應該是有用的,完全期待它們現在或將來會被充分利用。

      我提到那個情緒中樞受損的人,更多是想說明:人類的價值函數,或許是通過進化硬編碼的方式,由情緒進行重要調節的。而這一點,可能對人類在世界上有效行動至關重要。

      Dwarkesh Patel:這正是我想問的。關于情感與價值函數的關聯,有件很有趣的事:情感既有極強的實用性,又相對易于理解,這一點非常令人印象深刻。

      Ilya Sutskever:我有兩個回應。首先,我確實同意,比起我們所學的知識以及正在討論的這類AI,情感是相對簡單的。它們甚至簡單到能用人類易懂的方式描述出來,我覺得這會是件很酷的事。

      但就效用而言,復雜性與魯棒性之間存在權衡:復雜的事物可能用處很大,但簡單的事物在極廣泛的場景下也同樣高效。我們的情感大多源自哺乳動物祖先,在進化為人科動物后只經歷了輕微微調。

      當然,我們還擁有不少哺乳動物可能缺乏的社會性情感,但這些情感并不復雜。也正因為這份簡單,它們在如今這個與遠古截然不同的世界里,依然能很好地為我們服務。

      不過情感也會出錯。比如我們的直覺饑餓感,我不確定饑餓算不算情緒,但在食物充裕的當下,它顯然沒能很好地指導我們的飲食選擇。

      三、算力規模已觸頂,AI的未來重回“研究時代”

      Dwarkesh Patel:人們總在談論擴展數據、擴展參數、擴展算力。有沒有更通用的視角來理解“擴展”?還有其他哪些可擴展的維度?

      Ilya Sutskever:我認為有一個視角可能是正確的:機器學習過去的運作方式,是人們不斷嘗試各種方法,只為得到有趣的結果。

      后來,“擴展”出現了。隨著擴展定律的提出和GPT-3的問世,所有人突然意識到“我們應該擴展”。這正是語言影響思維的典型例子:“擴展”只是一個詞,卻極具力量,因為它明確告訴了人們該做什么。于是大家紛紛行動:“讓我們嘗試擴展事物”。而你問“我們在擴展什么?”,答案在當時就是預訓練,它是一套特定的擴展配方。

      預訓練的重大突破,核心在于證實了這套配方的有效性:只要將適量算力、數據與特定規模的神經網絡結合,就能產生成果;而且按比例放大這些要素,效果還會更好。企業尤其青睞這種方式,因為它提供了一種低風險的資源投入路徑。

      相比之下,把資源投入研究要難得多。做研究需要這樣號召:“研究人員們,去探索并拿出新成果”,而獲取更多數據、更多算力則簡單直接得多。你能確定從預訓練中一定能有所收獲。

      根據推特上的一些討論,Gemini似乎找到了從預訓練中挖掘更多價值的方法。但問題在于,預訓練終有耗盡數據的一天,數據的有限性是顯而易見的。到那時該怎么辦?要么進行某種強化版預訓練,一套與以往不同的配方;要么轉向強化學習,或者嘗試其他方向。

      而現在,算力已經達到了前所未有的規模,從某種意義上說,我們又回到了需要依賴研究的時代。

      換種說法或許更清晰:2012年到2020年(允許一定誤差范圍),是研究的時代;2020年到2025年左右,則是擴展的時代。因為所有人都在說“這太神奇了,必須繼續擴展、不斷擴展”,核心就圍繞 “擴展” 這一個詞。

      但如今規模已經足夠龐大,還有人堅信“即便現在規模很大,只要再投入100倍資源,一切就會徹底不同”。不可否認,結果肯定會有變化,但要說僅靠擴大100倍規模就能帶來質變,我并不認同。

      所以,我們其實是回到了研究的時代,只是如今擁有了更強大的計算機。

      Dwarkesh Patel:這是個非常有趣的說法。但我還是想問剛才提出的問題:我們在擴展什么,擁有一個“配方”意味著什么?我想我并不清楚在數據、算力、參數、損失是否存在一個非常清晰、幾乎像物理定律一樣的關系,就像在預訓練中存在的那樣。我們應該尋求的是哪種關系?我們應該如何思考這個新配方可能是什么樣子?

      Ilya Sutskever:我們已經看到擴展方向的轉變:從預訓練轉向了強化學習,現在人們正在著力擴展強化學習。根據推特上的討論,目前強化學習消耗的算力甚至超過了預訓練,因為強化學習需要進行極長的推演,生成這些推演本身就需要大量算力,而每次推演能帶來的學習收益又相對有限,因此確實會耗費巨額算力。

      但我甚至不覺得這能稱之為“擴展”。我更想問:“你現在做的事情,是利用算力最高效的方式嗎?有沒有更具成效的算力使用方法?”我們之前聊過價值函數,或許當人們熟練運用價值函數后,就能更高效地利用資源。如果能找到全新的模型訓練方法,你可能會疑惑:“這算擴展,還是只是合理利用資源?”我認為這個邊界已經變得有些模糊。

      從這個角度來說,當我們回歸研究時代,情況會是這樣:“讓我們試試這個、這個和這個,再試試那個、那個和那個——哦,看,有趣的現象出現了。”我認為行業將會回到這種探索狀態。

      Dwarkesh Patel:如果真的回歸研究時代,退一步說,我們最需要深入思考現有配方的哪個部分?你提到了價值函數,現在人們已經在現有配方中嘗試相關應用,比如“LLM-as-a-Judge”等。你可以說這也算一種價值函數,但聽起來你心里想的是更根本的東西。我們是否應該徹底重新思考預訓練,而不只是在流程末尾添加更多步驟?

      Ilya Sutskever:關于價值函數的討論很有意思。我想強調,價值函數會讓強化學習更高效,這一點很重要。但我認為,任何用價值函數能做到的事,沒有它也能實現,只是速度會慢很多。最核心的問題是,這些模型的泛化能力遠遠不如人類。這一點非常明顯,也是個極其根本的問題。

      四、人類擁有更好的“學習算法”,這是AI尚未掌握的優勢

      Dwarkesh Patel:那核心就在于泛化能力。這可以拆成兩個子問題:一是樣本效率,為什么模型學習所需的數據量比人類多得多?

      二是拋開數據量不談,為什么教會模型我們想要的東西,比教會人類難得多?對人類來說,我們不一定需要可驗證的獎勵,比如你現在可能正在指導一些研究人員,只需和他們交流、展示代碼和思考方式,他們就能領悟你的思路和做研究的方法。

      你不需要為他們設定繁瑣的定制化流程,比如“這是課程的下一部分,現在開始;哦,這次訓練不穩定,重新調整”。這兩個問題可能存在關聯,但我更想探討第二個,因為它更接近持續學習,而第一個問題則聚焦樣本效率。

      Ilya Sutskever:關于人類的樣本效率,有一個可能的解釋是進化。進化賦予了我們一些最有用的基礎信息。對于視覺、聽覺和運動等能力,有充分理由認為進化給了我們很多先天優勢。

      比如人類的靈巧度遠超現有技術。就算讓機器人在模擬環境中大量訓練,它們能變得靈巧,但在現實世界中讓機器人像人類一樣快速掌握新技能,似乎還遙不可及。

      這里可以說:“運動能力對我們所有祖先都至關重要,所以在運動方面,我們可能擁有難以置信的先天先驗知識。”

      視覺領域也可以用同樣的邏輯解釋。我記得楊立昆(Yann LeCun)說過,孩子只需10小時練習就能學會開車,我們的視覺系統非常強大。

      至少我五歲時就對汽車極度著迷,我敢肯定當時我的汽車識別能力已經足以支撐駕駛。一個五歲孩子接觸的數據量并不多,大部分時間都待在父母家,數據多樣性很低,但視覺能力已經很出色。

      但這可能也是進化的結果,而語言、數學和編程領域,情況或許就不同了。

      Dwarkesh Patel:但人類在這些領域的學習能力似乎仍然優于模型。顯然,模型在語言、數學和編程上比普通人表現更好,但它們的學習能力也比普通人強嗎?

      Ilya Sutskever:不,顯然不是。我的意思是,語言、數學和編程,尤其是后兩者,說明,讓人擅長學習的關鍵,可能不是復雜的先天先驗知識,而是某種更根本的東西。

      Dwarkesh Patel:為什么會是這樣?

      Ilya Sutskever:想想人類表現出高度可靠性的技能。如果這項技能在數百萬年甚至數億年間,對我們的祖先都至關重要,你可以說人類擅長它是因為進化,我們擁有進化而來的先天先驗知識,以某種不顯而易見的方式編碼,讓我們天生擅長這項技能。

      但如果人類在一個最近才出現的領域(比如數學、編程),依然表現出強大的能力、可靠性、魯棒性和學習能力,那就更能說明,人類可能只是擁有更好的機器學習機制,就這么簡單。

      Dwarkesh Patel:我們該如何理解這種機制?它對應的機器學習類比是什么?

      它有幾個有趣的特點:需要的樣本更少,更接近無監督學習。比如青少年學開車,他們不是在接受預設的、可驗證的獎勵,而是通過與機器和環境的互動學習,所需樣本量少得多,看起來更接近無監督學習,而且魯棒性更強?

      Ilya Sutskever:魯棒性強得多,人類的魯棒性確實令人震驚。

      Dwarkesh Patel:你有統一的思路解釋為什么這些特點會同時存在嗎?什么樣的機器學習類比能實現類似效果?

      Ilya Sutskever:你一直問的問題是,青少年司機如何在沒有外部教師的情況下自我糾正、從經驗中學習?答案是他們有自己的價值函數,一種通用的感知,而且這種感知在人類中極其魯棒。除了成癮等少數例外,人類的價值函數實際上非常、非常可靠。

      比如青少年開始開車時,立刻就能感知到自己開得怎么樣、有多糟糕、有多不自信。然后他們會觀察、調整,學習速度非常快,10個小時后就能上路行駛。

      Dwarkesh Patel:人類顯然已經有了這樣的解決方案,但我好奇他們是如何做到的,以及為什么這對AI來說如此困難?我們需要如何重新定義模型的訓練方式,才能實現類似的效果?

      Ilya Sutskever:這是個很好的問題,我對此有很多看法。但不幸的是,我們所處的環境并不允許自由討論所有機器學習想法,這就是其中之一。很可能存在實現的方法,我認為這是可行的,人類本身的存在就證明了這一點。

      不過可能還有一個障礙:人類的神經元可能比我們想象的進行了更多計算。如果這是真的,而且起到了重要作用,那么事情可能會更困難。但無論如何,我確實認為這指向了某種機器學習原理的存在,我對此有一些見解,但可惜的是,環境不允許我詳細討論。

      五、SSI只專注于研究,在“直奔超智能”與“漸進部署”間尋找平衡點

      Dwarkesh Patel:我很好奇,你說我們回到了研究時代,而你2012到2020年就身處那個階段。如果真的回歸,現在的氛圍會是怎樣的?

      比如,即便AlexNet之后,實驗所需的計算量仍在不斷增加,前沿系統的規模也在擴大。你覺得現在這個研究時代,依然需要巨大的計算量嗎?是否需要回溯舊論文、挖掘過往研究?

      你曾在谷歌、OpenAI、斯坦福這些地方待過,經歷過研究氛圍更濃厚的時期。我們該對現在的科研社區抱有怎樣的期待?

      Ilya Sutskever:擴展時代的一個后果是,“擴展”吸走了所有關注。因為所有人都聚焦于此,大家開始做同樣的事情。到最后,市場上的公司數量甚至超過了真正有價值的想法數量。硅谷有句諺語說“想法廉價,執行力才是一切”,這話有道理,但我也看到有人在推特上反問“如果想法真的廉價,為什么現在沒人有好想法?”,我覺得這也說到了點子上。

      從瓶頸角度看,研究進展受兩個因素制約:一是想法,二是實現想法的能力,這包括算力和工程能力。比如回到90年代,當時人們其實有不少好想法,但苦于沒有足夠強大的計算機驗證,只能做小規模演示,無法說服他人,所以那時的瓶頸是算力。

      而到了擴展時代,算力大幅增長。雖然仍有“需要多少算力”的疑問,但如今的算力已經足夠支撐想法驗證。舉個例子,AlexNet只用了兩塊GPU,Transformer的實驗也只用到8到64塊2017年的GPU,換算到現在大概也就兩塊GPU的性能。甚至o1的推理過程,也算不上計算量最大的操作。

      所以,研究確實需要一定算力,但絕非必須用到有史以來最頂級的算力。當然,如果你想構建當前最優的系統,更多算力會有幫助——尤其是在大家都處于同一范式下時,算力會成為核心競爭優勢之一。

      Dwarkesh Patel:我想請教這段歷史,因為你親身經歷過。聽起來當時用較少的計算量就能發展核心想法,但Transformer并沒有立刻走紅。它之所以成為大家爭相實驗、構建的基礎,是因為在越來越高的計算量水平上得到了驗證,對嗎?

      Ilya Sutskever:沒錯。

      Dwarkesh Patel:如果SSI有50個不同的想法,在沒有其他前沿實驗室那樣的算力支持下,怎么判斷哪個是下一個Transformer,哪個只是脆弱的構想?

      Ilya Sutskever:我可以說說我的看法。簡單來說,SSI用于研究的計算量其實并不小,背后的邏輯很簡單。

      SSI已經籌集了30億美元(約合人民幣213.1億元),這絕對是一筆巨款。你可能會說“其他公司籌集的資金更多”,但要知道,那些公司的很多算力都用于推理任務,大額資金也常指定用于推理。

      而且,若要推出需要推理支持的產品,還需要大量工程師、銷售人員,很多研究資源也得投入到產品相關功能的開發中。所以,扣除這些之后,真正留給核心研究的資源差距,并沒有表面上那么大。

      另外,如果你在做的是差異化的事情,真的需要用頂級規模來驗證嗎?我完全不這么認為。對我們來說,現有的算力足夠讓我們自己,也讓其他人相信我們做的事情是正確的

      Dwarkesh Patel:有公開估計稱,像OpenAI這樣的公司,每年僅實驗方面的花費就有50到60億美元(約合人民幣355.2億元到426.2億元),這還不包括推理等其他開支。也就是說,他們一年的研究實驗花費,比你們的總資金還多。

      Ilya Sutskever:這取決于資金的用途。他們以及其他類似公司,對訓練算力的需求要大得多——涉及更多工作流、更多模態,要做的事情更繁雜,資源自然就分散了。

      Dwarkesh Patel:SSI將如何盈利?

      Ilya Sutskever:我的回答是,目前我們只專注于研究,盈利的答案會隨著研究推進自然顯現。我相信會有很多可行的方向。

      Dwarkesh Patel:SSI的計劃仍然是直奔超級智能嗎?

      Ilya Sutskever:也許吧。我認為這有其價值——不受日常市場競爭的干擾,能專注研究,這是很大的優勢。但有兩個原因可能讓我們改變計劃:一是務實考量,如果實現超級智能的時間線比預期長得多;二是,讓強大的AI問世并影響世界,本身就是一件極具價值的事。

      Dwarkesh Patel:那為什么你們的默認計劃是直奔超級智能?OpenAI、Anthropic等公司的思路很明確:“先推出較弱的AI,讓公眾逐漸適應、做好準備”。直接構建超級智能,為什么可能是更好的選擇?

      Ilya Sutskever:我來分析一下利弊。支持直奔超級智能的理由是,市場競爭會帶來巨大壓力,迫使你做出艱難權衡。如果能隔離這些干擾,專注研究,直到準備充分再推出產品,而不是倉促上陣,這是很大的優勢。

      但反對的理由也同樣成立:“讓世界看到強大AI的實際用處,是推廣它的唯一方式”。

      Dwarkesh Patel:我覺得不止是推廣……

      Ilya Sutskever:是“傳播AI”,不是傳播想法,是讓AI真正落地。

      Dwarkesh Patel:你說的“傳播AI”是什么意思?

      Ilya Sutskever:假設你寫了一篇關于AI的文章,描述它會怎樣、能做什么,讀者可能只會覺得“這篇文章很有趣”。但如果人們親眼看到AI正在做這些事、實現這些功能,那種沖擊力是無可比擬的。所以我認為,讓AI公開落地有很大好處,這也是我們可能不會完全“直奔超級智能”的原因之一。

      Dwarkesh Patel:我覺得還有更深層的原因。在人類其他工程和研究領域,沒有哪個最終產物是僅憑“思考如何讓它更安全”就變得安全的。比如現在每英里的飛機失事率比幾十年前低得多,Linux系統的漏洞比以前難發現得多,核心原因都是這些系統被廣泛部署到現實世界中——人們發現故障、糾正問題,系統才變得更健壯。

      我不認為AGI和超人類智能會是例外,尤其是考慮到(我希望之后能討論這個話題),超級智能的危害可能不只是“惡意回形針優化器”那么簡單。它是一種極其強大的存在,我們甚至無法想象人們會如何與它互動、用它做什么。逐步接觸它,似乎是分散風險、幫助人們做好準備的更好方式。

      六、超級智能會“在實踐中學習”

      Ilya Sutskever:關于這一點,我認為即使是“直奔超級智能”的方案,也會包含逐步發布的過程,這是計劃中固有的一部分。關鍵在于,你首先發布的是什么。

      其次,你一直倡導的“持續學習”,我認為非常重要且正確。這里可以用“語言如何影響思維”來解釋——有兩個術語塑造了大家的認知:AGI(人工通用智能)和“預訓練”。

      先說說AGI這個術語。它的出現其實是對“狹義AI”的回應。回溯歷史,早期的跳棋AI、國際象棋AI、游戲AI,雖然能在特定領域表現出色(比如擊敗卡斯帕羅夫),但功能極其單一,被稱為“狹義AI”。于是有人提出,我們需要的是“通用AI”——一個能勝任所有事情的AI,這個術語也因此受到廣泛關注。

      再看“預訓練”,尤其是預訓練的核心配方。現在人們做強化學習的方式,可能正在淡化預訓練留下的認知烙印,但預訓練有個特點:投入越多,模型在各方面的表現都會或多或少均勻提升。“預訓練催生AGI”的觀念也隨之深入人心。

      但問題在于,AGI和預訓練的邏輯在某種意義上“超出了目標”。如果你結合預訓練的背景思考AGI,會發現人類其實并不是AGI——我們確實有基礎技能,但缺乏大量專業知識,反而極度依賴持續學習。

      所以,假設我們成功造出了安全的超級智能,該如何定義它?它在持續學習的曲線上會處于什么位置?

      我想象中的超級智能,就像一個15歲的少年,求知欲強、渴望工作,但懂得并不多,卻是個優秀的學習者。它會像人類一樣,去當程序員、當醫生,在實踐中學習。因此,部署本身就會包含一個試錯學習的過程,它不是一個“成品”,而是一個“成長型”存在

      Dwarkesh Patel:我明白了。你說的超級智能,不是一個已經掌握經濟中所有工作技能的成品心智——比如早期OpenAI章程中對AGI的定義是“能做人類所有工作”,而你提出的是“能夠學會做所有工作”的心智,這才是超級智能。

      Ilya Sutskever:是的。

      Dwarkesh Patel:一旦有了這種學習算法,它就會像人類勞動者加入組織一樣,被部署到世界中。

      Ilya Sutskever:完全正確。

      Dwarkesh Patel:這可能會帶來兩種結果,也可能都不會發生。第一,這個高效的學習算法變得超人類,在機器學習研究領域達到甚至超越你的水平,進而推動自身不斷進化,變得越來越強。

      第二,即便沒有發生這種情況,如果你有一個單一模型(這是你明確提出的愿景),它的多個實例被部署到經濟的不同領域,從事不同工作,在實踐中持續學習、掌握所有人類能掌握的技能,同時整合所有學習成果——那么即便沒有軟件層面的遞歸自我改進,這個模型在功能上也會成為超級智能。畢竟人類無法像這樣整合彼此的心智。

      你認為廣泛部署會引發某種“智能爆炸”嗎?

      Ilya Sutskever:我認為我們很可能會經歷快速的經濟增長。對于廣泛部署,有兩個相互沖突的論點:一方面,一旦擁有能快速學習的AI,且沒有法規限制(當然法規可能會存在),市場會有強大的動力推動它們的部署。

      通過廣泛部署實現快速經濟增長,我認為是非常可能的。但增長速度有多快,很難預測。一方面,我們有了高效的“勞動者”;另一方面,世界規模龐大,各類事務的發展速度不同。而且不同國家的規則可能不同,規則更友好的國家,經濟增長可能會更快。這些都難以預判,但快速增長是大概率事件。

      七、應該構建“關心有情生命”的AI

      Dwarkesh Patel:在我看來,這是一種非常不穩定的局面。從極限角度看,我們知道這種情況是可能的:如果有一個學習能力和人類相當,但能以人類無法做到的方式整合不同實例的“大腦”,它在物理層面是可行的——人類和數字計算機都是現實存在的,只需將兩者的優勢結合就能實現。

      它的潛力也極其強大。“經濟增長”只是一種說法,戴森球本質上就是極致的經濟增長。但更直接的是,它可能在極短時間內爆發式進化:SSI雇傭的員工大概六個月后能產生凈生產力,人類學習速度已經很快了,而這個“東西”的進化速度會快得多。你如何看待讓這個過程平穩推進?為什么SSI有能力做好這件事?這正是我想知道的SSI的相關計劃。

      Ilya Sutskever:我思維上的一個轉變是,現在更重視AI的漸進式部署和提前落地。關于AI,一個核心難題是我們討論的都是尚未存在的系統,很難真正想象它們的形態。

      我認為,人們很難真正“感知”AGI。我們可以談論它,但就像年輕時談論年老的感受一樣——能對話、能嘗試想象,卻始終無法真切體會,直到親身經歷。

      圍繞AGI及其未來力量的諸多疑問,根源都在于它太難以想象了。未來的AI會截然不同,它將極具力量,而AI和AGI的核心問題,本質上就是“力量”的問題。

      當力量達到極致時,會發生什么?過去一年我想法的一個轉變(這個轉變可能會反過來影響公司計劃)是:如果無法想象,就必須展示。我堅信,大多數從事AI工作的人也無法真正想象它,因為它和我們日常所見的一切都太不一樣了。

      我還有一個預測:隨著AI變得更強大,人們的行為會發生改變,會出現各種前所未有的情況。比如,無論好壞,前沿公司和政府將在其中扮演關鍵角色;你已經能看到一些苗頭——激烈競爭的公司開始在AI安全領域合作,OpenAI和Anthropic已經邁出了第一步,這是我三年前在演講中就預測過的。

      我還認為,當AI的強大變得更顯而易見時,政府和公眾會更有意愿采取行動,而“展示AI”正是推動這一切的重要力量。

      第二點,AI正在被構建,我們需要做什么?目前,人們覺得AI不夠強大,很大程度上是因為它常犯錯誤。但我認為,當AI開始讓人真正感受到“強大”時,所有AI公司處理安全的方式都會發生巨大轉變——他們會變得極度謹慎。這是我的預測,我們可以拭目以待。現在大家對AI安全的重視不足,本質上是因為看著今天的AI,很難想象未來的AI會有多強大。

      第三點,公司應該致力于構建什么?現在大家都執著于“自我改進的AI”,這只是因為有價值的想法太少了。但我認為存在更好的方向,而且最終所有人都會認同——那就是構建“穩健對齊、明確關心有情生命”的AI

      值得一提的是,構建關心所有有情生命的AI,可能比只關心人類的AI更容易,因為AI本身也可能是有情識的。就像人類的鏡像神經元和對動物的同理心(雖然強度有限,但確實存在),這可能是一種涌現屬性——用模擬自身的回路去模擬他人,這是最高效的方式。

      Dwarkesh Patel:但即使讓AI關心有情生命,我不確定解決對齊問題后,這是否是該優先做的事,未來大多數有情生命可能都是AI——萬億、甚至千萬億個AI,人類只占極小一部分。如果目標是讓人類在未來文明中保持某種控制權,這似乎不是最好的標準。

      Ilya Sutskever:確實,這可能不是最優標準。我說三點:第一,關心有情生命本身有其價值,值得被考慮;第二,如果能列出一份簡短清單,給出這類情況下公司可參考的方向,會很有幫助;第三,如果能以某種方式限制最強大超級智能的力量,將從根本上緩解許多擔憂。具體如何實現我不確定,但對于真正強大的系統來說,這至關重要。

      Dwarkesh Patel:在討論對齊問題之前,我想深入聊聊:超級智能的上限在哪里?你如何定義它?基于“學習效率”的思路,它只是學習新技能、新知識的速度極快?還是擁有更龐大的策略庫?

      它是否存在一個單一、凝聚的核心“自我”?如果存在,你覺得它相對于人類文明,會是類似“神”的存在,還是只是另一個智能體,或是智能體集群?

      Ilya Sutskever:在這個領域,不同人有不同直覺。我認為它肯定會極其強大。最可能的情況是,多個這樣的AI會在大致相同的時間被創造出來。如果集群規模足夠大——比如達到大陸級別——它的力量會難以想象。我能說的是,對于這種級別的AI,如果能以某種方式約束它們,或者建立相關協議,會是一件好事。

      超級智能的擔憂核心是什么?如果一個系統足夠強大,即使你讓它“專注關心有情生命”,最終結果也可能不是我們想要的——就是這么簡單。

      順便說一句,答案可能是:不要以常規方式構建強化學習智能體。人類其實是“半強化學習智能體”——我們追求一個獎勵,然后情緒或其他因素讓我們厭倦,轉而追求另一個獎勵。

      市場是短視的智能體,進化也是如此——在某些方面極其聰明,在另一些方面又非常愚蠢。政府被設計成三權分立、相互制衡的結構,這也產生了特定效果。超級智能可能也是類似的邏輯。

      這個討論的難點在于,我們談論的是尚未存在、也不知道如何構建的系統。我堅信,現在人們正在做的事情會有進展,但最終會走向瓶頸——它會持續改進,但不會成為那個終極“它”。我們還不知道如何構建“它”,而關鍵就在于理解“可靠的泛化能力”。

      還有一點:對齊困難的根源,可能是學習人類價值觀的能力很脆弱,優化這些價值觀的能力也很脆弱——而這些都是“不可靠泛化”的體現。為什么人類泛化能力更強?如果AI的泛化能力大幅提升,會發生什么?這些問題目前都沒有答案。

      Dwarkesh Patel:人們如何設想AI的平穩發展?你已經勾勒了它的演變路徑:持續學習的智能體、極其強大、可能有多個不同的AI。你如何看待多個“大陸規模”的計算智能并存?這有多危險?我們如何降低風險?如何在保護某種均衡的同時推進——畢竟可能存在未對齊的AI和惡意行為者?

      Ilya Sutskever:這就是我支持“關心有情生命的AI”的原因之一。我們可以爭論它的好壞,但如果前N 個具有決定性意義的系統真的關心、熱愛人類(或類似的價值導向),顯然能讓事情順利推進——當然,這需要實際實現。

      但長期來看,如何實現均衡?我有一個答案,雖然我并不喜歡,但必須考慮。

      短期內,強大AI普及的世界可能會實現“普遍高收入”,大家都過得很好。但佛教說“變化是唯一的不變”。政府、政治結構都有保質期,新的形式出現、運作,然后衰落,這是歷史規律。

      長期均衡的一種可能:每個人都擁有一個聽從自己指令的AI,這很好——但如果這種狀態無限持續,人類會逐漸脫離參與:AI為人賺錢、爭取政治訴求、提交報告,人類只需說“很好,繼續”,最終不再是文明的參與者。這是一種不穩定的狀態。

      我要提前說明,我不喜歡這個解決方案,但它確實是一個選項:讓人類通過某種“Neuralink++”技術,變成“半AI形態”。這樣一來,AI理解的事物,人類也能同步理解——認知是整體傳輸的。當AI處于某種場景時,人類也能完全參與其中,這可能就是均衡的答案。

      Dwarkesh Patel:我在想,情感在人類身上演化了數百萬年(甚至數十億年),至今仍強烈指導著我們的行動,這是否是“對齊成功”的一個例子?

      具體來說——我不知道稱它為價值函數還是獎勵函數更準確——腦干有一個指令:“與更成功的人交配”。大腦皮層負責理解現代社會中“成功”的定義,但腦干能對齊大腦皮層,說:“無論你如何定義成功——我不夠聰明,無法理解——你都要追求這個指令。”

      Ilya Sutskever:我有一個更普遍的觀點:進化如何編碼高級欲望,實際上非常神秘。我們很容易理解進化如何讓我們追求聞起來香的食物——氣味是化學信號,只需編碼“追求這種化學物質”即可。

      但進化還賦予了我們各種社會欲望:我們在乎被社會正面看待、在乎擁有良好的地位,這些社會直覺我強烈認為是內置的。我不知道進化是如何做到的——因為這是大腦中表征的高級概念,不是像氣味那樣的低級信號。

      大腦需要處理大量信息,才能理解社會層面的情況,而進化卻能明確“這就是你應該在乎的東西”。更神奇的是,這些復雜的社會欲望似乎是最近才進化出來的,進化能如此輕松地硬編碼高級欲望,我至今沒有找到滿意的解釋,曾有過一些想法,但都站不住腳。

      Dwarkesh Patel:更令人印象深刻的是,這些欲望是你在生命中逐漸學會的——這說得通,因為大腦是智能的。但另一種理解是,欲望是內置在基因組中的,而基因組并不智能。它甚至無法清晰定義這些高級特征,卻能將其構建到基因里。

      Ilya Sutskever:本質上,基因組的工具是“構建大腦的配方”。比如,“將多巴胺神經元連接到氣味傳感器,聞到好聞的氣味就產生進食欲望”——這種配方我能想象。

      但我很難想象,基因組會編碼“在乎大腦某一區域的復雜計算結果”——這正是我覺得神秘的地方。我可以提出一個推測,但也要說明它可能是錯誤的:

      大腦有不同腦區,皮層雖然結構均勻,但腦區和神經元主要與鄰居交流,這也是腦區存在的原因(比如語言處理需要相關神經元集中協作)。而且這些腦區在不同人腦中的位置大致固定。所以也許進化硬編碼了大腦的某個“GPS坐標”,說:“當這個位置的神經元放電時,就是你應該在乎的東西。”這在進化的能力范圍內。

      Dwarkesh Patel:但有例子反駁這一點。比如天生失明的人,他們皮層中原本負責視覺的區域會被其他感覺占用。如果視覺相關的欲望或獎勵功能依賴固定腦區,那失明者的這些功能應該會失效,但事實似乎并非如此——比如失明者依然會在乎“身邊的人是否喜歡自己”,而這通常需要視覺線索。

      Ilya Sutskever:我完全同意。還有一個更強的反駁:有些孩子在童年時被切除了半個大腦,但他們仍然擁有所有核心腦區——這些腦區只是轉移到了僅剩的一個半球。這說明腦區位置并非固定,我的推測不成立。

      所以這仍然是一個謎,但很有趣:進化總能極其可靠地賦予人類關心社會性事物的能力,即使是有精神障礙、情感缺陷的人,往往也在乎這一點。

      八、 “我們完全是一家(處于)研究時代的公司”

      Dwarkesh Patel:SSI計劃做哪些與眾不同的事?想必你希望公司在超人類智能到來時,成為前沿玩家之一。你創立SSI,應該是認為“我有一套其他公司沒有的方法,能安全實現這個目標”,這個核心差異是什么?

      Ilya Sutskever:簡單來說,我有一些認為很有前景的想法,想通過研究驗證它們是否真的可行。就是一次嘗試而已。如果我們之前討論的、關于理解泛化能力的那些想法被證明是正確的,那我們就能擁有真正有價值的成果。

      這些想法能成功嗎?我們正在做研究,SSI完全是一家“研究時代”的公司。過去一年我們已經取得了不錯的進展,但還需要繼續推進、做更多研究。我把這看作是努力成為這個領域有話語權的參與者。

      Dwarkesh Patel:你的聯合創始人兼前CEO最近離職加入了Meta,大家都在質疑“如果有很多突破正在發生,這種情況似乎不太可能出現”,你怎么回應?

      Ilya Sutskever:我只需提醒幾個可能被遺忘的背景事實。當時我們正在以320億美元(約合人民幣2273億元)的估值融資,Meta介入提出收購,我拒絕了,但我的前聯合創始人在某種程度上同意了。結果是,他獲得了大量短期流動性,而且他是SSI中唯一加入Meta的人。

      Dwarkesh Patel:聽起來SSI的計劃是,在人類歷史進入超人類智能這個關鍵時期時,成為前沿公司。你對如何讓超人類智能平穩發展有自己的想法,但其他公司也會嘗試各自的路徑。SSI在推動超級智能平穩發展方面,方法上有什么獨特之處?

      Ilya Sutskever:SSI的主要差異在于技術路徑。我們有一套不同的技術方法,我認為它很有價值,正在全力推進。

      但我認為,最終大家的對齊策略會趨于一致。隨著AI變得更強大,“應該采取什么策略”會逐漸清晰——比如需要找到相互溝通的方式,確保第一個真正的超級智能是對齊的,關心有情生命、人類、民主等,或是這些價值的某種組合。

      這是每個人都應該努力實現的目標,也是SSI正在做的。我認為現在或不久之后,其他公司也會意識到這一點,朝著同一個方向努力。我們拭目以待。

      隨著AI變強,世界會真正改變,一切都會變得截然不同,人們的行為方式也會隨之改變。

      Dwarkesh Patel:說到預測,你對那種“能像人類一樣學習、進而變得超人類”的系統,有什么時間上的預測?

      Ilya Sutskever:大概5到20年。

      Dwarkesh Patel:我想理清你對未來發展的看法。是不是說,未來幾年其他公司會繼續沿用現有方法,然后陷入停滯?這里的“停滯”是指它們的收入不會超過幾千億美元的較低水平嗎?你認為“停滯”具體意味著什么?

      Ilya Sutskever:我認為不同公司的“停滯”狀態會非常相似。即便停滯,這些公司也能獲得驚人的收入——可能不是利潤,因為它們需要努力差異化競爭,但收入肯定很可觀。

      Dwarkesh Patel:但你的模型暗示,當正確的解決方案出現時,所有公司會趨于一致。我很好奇你為什么這么認為?

      Ilya Sutskever:我更多指的是對齊策略上的一致。技術方法上最終也可能趨同,但我重點說的是對齊策略——大家會逐漸明確“到底應該做什么”。

      Dwarkesh Patel:我想更清楚地理解你的未來圖景。目前有很多不同的公司,你預計它們的現有方法會繼續產生收入,但無法達到類人類學習者的水平。所以會出現不同的公司分支:你們、Thinking Machines以及其他實驗室,也許其中一家找到了正確方法。但他們產品的發布,會讓其他人清楚知道該怎么做嗎?

      Ilya Sutskever:具體怎么做可能不會很明確,但會傳遞一個關鍵信息——某種不同的東西是可行的。然后人們會嘗試破解其中的原理。

      不過有一點沒被討論:隨著AI能力的每一次提升,做事的方式都會發生某種變化,但我不知道具體是哪些變化。我認為這會很重要,但無法確切說明。

      Dwarkesh Patel:默認情況下,擁有這種模型的公司應該會獲得所有收益,因為它們擁有模型以及模型在世界中積累的技能和知識。有什么理由認為這些好處會被廣泛分配,而不是只歸屬于第一個啟動持續學習循環的公司?

      Ilya Sutskever:我認為會發生這樣的情況:首先看AI發展的歷史,一家公司取得進展后,另一家會倉促跟進,一段時間后推出類似產品,然后在市場上競爭、壓低價格。從市場角度看,未來可能也會如此。

      順便說一句,我們討論的是理想情況。理想的世界里,我們有這些強大的類人類學習者,而且超級智能也可以是狹隘的——既有用又專注于特定領域,我們可以擁有很多這樣的狹隘超級智能。

      假設一家公司靠這類AI獲得巨額利潤,很快會有其他公司進入市場競爭。競爭會偏向專業化——就像在市場和進化中看到的那樣,會出現很多不同的細分領域,不同公司占據不同賽道。比如一家AI公司擅長某個復雜的經濟領域,另一家擅長另一個領域,第三家則精通訴訟。

      Dwarkesh Patel:這和類人類學習的隱含意義不矛盾嗎?類人類學習意味著它能學習……

      Ilya Sutskever:它確實能學習,但學習需要積累。要在某個領域達到驚人的精通程度,需要投入大量算力;其他人要在另一個領域做到頂尖,也需要付出巨大的算力和經驗成本。你已經通過大量學習達到了某個高點,其他人不會愿意再從頭學習你已經掌握的東西。

      Dwarkesh Patel:這似乎需要很多不同的公司同時擁有類人類持續學習智能體,這樣它們才能在不同分支上各自探索。但如果一家公司率先獲得了這種智能體或學習者,理論上它完全可以讓一個實例學習經濟中的每一份工作,這對一家公司來說似乎是可行的。

      Ilya Sutskever:這是個合理的論點,但我的強烈直覺是事情不會這樣發展。理論上,理論和實踐沒有區別,但在實際中,兩者差異很大。這就是其中一種情況。

      Dwarkesh Patel:很多人對遞歸自我改進模型的明確預期是,服務器里會有一百萬個“伊利亞”,提出不同想法,導致超級智能快速出現。

      你對自己所做事情的可并行化程度有什么直覺?復制“Ilya”能帶來多少收益?

      Ilya Sutskever:我不知道。但肯定會有收益遞減——你需要的是想法不同的人,而不是完全相同的復制品。如果有一百個和我一模一樣的副本,我不確定能獲得多少額外價值,真正需要的是思維各異的個體。

      九、預訓練導致所有模型趨同,而強化學習才開始帶來差異化

      Dwarkesh Patel:不同公司發布的模型,即便可能基于非重疊數據集訓練,彼此卻如此相似,這真的很不可思議,為什么會這樣?

      Ilya Sutskever:也許這些數據集并不像看起來那樣毫無重疊。

      Dwarkesh Patel:但從某種意義上說,即便單個人類的效率可能不如未來的AI,但人類團隊的多樣性或許更有價值。我們該如何在AI中創造有意義的多樣性?僅僅提高溫度只會導致胡言亂語,我們想要的是像不同科學家那樣,擁有不同偏見、不同想法的多樣性。怎樣才能讓AI智能體具備這種多樣性?

      Ilya Sutskever:AI缺乏多樣性的核心原因是預訓練——所有預訓練模型幾乎一致,因為它們都基于相似的數據訓練。而強化學習和后期訓練階段,才開始出現一些差異化,因為不同團隊會采用不同的強化學習訓練方法。

      Dwarkesh Patel:我以前聽你暗示過,自我博弈是一種獲取數據、讓智能體與同等水平的其他智能體配對以啟動學習的方法。為什么目前沒有關于這類方法在LLM上有效的公開提議?

      Ilya Sutskever:我想說兩點。首先,自我博弈的有趣之處在于,它提供了一種僅靠計算、無需額外數據就能創建模型的方式。如果數據是最終瓶頸,那么這種僅依賴計算的方法就極具吸引力。

      但問題在于,過去的自我博弈方式——讓智能體相互競爭——只適用于培養特定技能,過于狹隘,比如談判、沖突處理、某些社交技能或策略制定。如果目標是這些技能,自我博弈會有用,但適用范圍有限。

      實際上,自我博弈已經以不同形式找到了應用場景。比如辯論、證明者-驗證者模式,或是“LLM作為評判者”的機制——評判者會被激勵去發現其他智能體工作中的錯誤。你可以說這不完全是傳統意義上的自我博弈,但確實是人們正在采用的相關對抗性設置。

      真正的自我博弈,是智能體之間更普遍競爭的一個特例。對競爭的自然反應就是嘗試差異化——如果把多個智能體放在一起,告訴它們“你們都要研究同一個問題,且可以查看其他人的研究方向”,它們會思考:“既然他們已經采用了這種方法,我或許不該再跟進,而應該選擇有差異化的路徑。”這種設置能創造追求方法多樣性的激勵。

      十、為什么說Ilya Sutskever是世界上AI研究品味最好的人之一?

      Dwarkesh Patel:最后一個問題:什么是研究品味?你顯然被認為是世界上AI研究品味最好的人之一,也是深度學習史上諸多重要成果(從AlexNet到GPT-3等)的合著者。研究品味到底是什么?你如何描述自己提出這些想法的方式?

      Ilya Sutskever:我可以談談自己的經驗。不同的人有不同的做法,指導我的核心原則是:對AI應有形態的審美,源于對人類本質的正確思考。很多人容易錯誤理解人類,但“正確思考”意味著抓住根本。

      舉幾個例子:人工神經元的概念直接受大腦啟發,這是個偉大的想法。為什么?因為大腦有很多器官和褶皺,但褶皺可能不是關鍵,神經元的核心價值在于其龐大的數量——這一點讓人感覺是本質性的,所以我們選擇聚焦神經元,同時設想用局部學習規則來改變神經元間的連接,這與大腦的工作邏輯是合理契合的。

      再比如分布式表示的概念:大腦會對經驗做出反應,因此我們的神經網絡也應該從經驗中學習——這也是基于對大腦本質的思考。

      我會不斷追問:某個東西是根本性的,還是非根本性的?事情本該是什么樣子?這種思考貫穿始終,同時我會從多個角度尋找一種“美”——這種美源于簡潔、優雅,以及對大腦的正確啟發。這些要素越契合,我對自己自上而下的信念就越有信心。

      自上而下的信念,是在實驗結果與預期相悖時支撐我的力量。如果一味相信數據,有時可能會因為某個未發現的錯誤而否定正確的方向。這時如何判斷是該繼續調試,還是放棄方向?這就需要自上而下的思考:堅信事情必須是這樣,這類方法必然有效,因此值得堅持推進。而這種信念,正是源于對“美”、簡潔性和大腦啟發的多方面考量。

      Dwarkesh Patel:好的,我們就到這里。

      Ilya Sutskever:非常感謝。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      今日風大氣溫降,本周氣溫大起大落→

      今日風大氣溫降,本周氣溫大起大落→

      上海預警發布
      2025-12-08 11:04:24
      臺灣GDP增速大幅上調,創十多年來新高

      臺灣GDP增速大幅上調,創十多年來新高

      小院之觀
      2025-12-08 06:05:07
      特朗普對澤連斯基“失望” 美媒:時機耐人尋味

      特朗普對澤連斯基“失望” 美媒:時機耐人尋味

      新華社
      2025-12-08 11:41:05
      中國武術大師扇耳光落下終身殘疾?一只眼歪了,雙眼無法同步移動

      中國武術大師扇耳光落下終身殘疾?一只眼歪了,雙眼無法同步移動

      念洲
      2025-12-08 08:13:11
      中國人民海軍、國防部、中國駐日使館、外交部,警告日本!日方若重走軍國主義邪路,必將墜入萬劫不復深淵

      中國人民海軍、國防部、中國駐日使館、外交部,警告日本!日方若重走軍國主義邪路,必將墜入萬劫不復深淵

      每日經濟新聞
      2025-12-08 10:24:05
      合法,卻無恥:特朗普毀掉布達佩斯備忘錄

      合法,卻無恥:特朗普毀掉布達佩斯備忘錄

      書生論劍
      2025-12-08 00:12:33
      2名中央委員、中央候補委員被處理!上周,中紀委還打下2虎

      2名中央委員、中央候補委員被處理!上周,中紀委還打下2虎

      上觀新聞
      2025-12-08 13:07:12
      大降11℃,中雪、大雪,即將抵達湖北

      大降11℃,中雪、大雪,即將抵達湖北

      極目新聞
      2025-12-08 14:56:08
      江蘇少婦出軌已婚男同事:高顏值照曝光,少婦一句話爭議大

      江蘇少婦出軌已婚男同事:高顏值照曝光,少婦一句話爭議大

      老貓觀點
      2025-12-08 10:27:14
      混團世界杯大結局!國乒獎金排行榜:王楚欽第一30萬,孫穎莎第4

      混團世界杯大結局!國乒獎金排行榜:王楚欽第一30萬,孫穎莎第4

      知軒體育
      2025-12-08 00:19:46
      男子掉粉碎機后續:結婚不到一年,女兒4個月,賠償50萬分期三年

      男子掉粉碎機后續:結婚不到一年,女兒4個月,賠償50萬分期三年

      天天熱點見聞
      2025-12-08 08:43:26
      最瘆人文物:裝人頭的青銅蒸鍋!這個15歲少女經歷了什么?

      最瘆人文物:裝人頭的青銅蒸鍋!這個15歲少女經歷了什么?

      收藏大視界
      2025-12-06 20:35:41
      美國癌癥死亡率驚人下降,2030年抗癌策略值得學習!

      美國癌癥死亡率驚人下降,2030年抗癌策略值得學習!

      霹靂炮
      2025-12-07 23:06:11
      特朗普高市早苗涉臺通話內容曝光,他要求高市早苗不要在臺灣主權問題上挑釁中國

      特朗普高市早苗涉臺通話內容曝光,他要求高市早苗不要在臺灣主權問題上挑釁中國

      極目新聞
      2025-12-08 10:48:43
      一片嘩然,馬克龍回國就變臉,竟然向中方發出威脅

      一片嘩然,馬克龍回國就變臉,竟然向中方發出威脅

      艾米手工作品
      2025-12-08 07:21:13
      72歲老戲骨濮存昕官宣外孫女出道,尖嘴猴腮,長相遭吐槽:太丑了

      72歲老戲骨濮存昕官宣外孫女出道,尖嘴猴腮,長相遭吐槽:太丑了

      深析古今
      2025-12-08 12:29:36
      廣州房票“買爆”全城,黃埔拆遷戶半月買了600套,房票中介也做起倒賣生意

      廣州房票“買爆”全城,黃埔拆遷戶半月買了600套,房票中介也做起倒賣生意

      時代財經
      2025-12-08 07:03:19
      軍事 | 美國這也重返,那也重返,到底啥情況?

      軍事 | 美國這也重返,那也重返,到底啥情況?

      新民周刊
      2025-12-08 09:08:57
      道歉!下架!第一個遭遇反噬的電動車廠商來了

      道歉!下架!第一個遭遇反噬的電動車廠商來了

      數字財經智庫
      2025-12-07 10:51:38
      27.3℃,熱到穿短袖!本周,廣東天氣將大反轉

      27.3℃,熱到穿短袖!本周,廣東天氣將大反轉

      南粵女聲
      2025-12-08 12:15:43
      2025-12-08 15:36:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      10861文章數 116921關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

      頭條要聞

      40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      健康
      藝術
      數碼
      家居
      軍事航空

      甲狀腺結節到這個程度,該穿刺了!

      藝術要聞

      一棵樹的力量

      數碼要聞

      內存暴漲三星賺瘋了!有望奪回DRAM全球第一

      家居要聞

      有限無界 打破慣有思維

      軍事要聞

      柬泰沖突細節披露 洪森要求部隊“克制”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 少妇被多人c夜夜爽爽av| 精品久久国产| 潮州市| 8050午夜二级无码中文字幕| 欧美v亚洲| 狠狠88综合久久久久综合网| 91在线播| 中文字幕乱码亚洲中文在线| 人妻斩0930无码视频| 色婷婷AV| 精品人妻系列无码专区| 探花无码| 国产av激情久久无码天堂| 亚洲成人国产精品| 国产精品露脸视频观看| 你懂的国产在线| 亚洲人成色7777在线观看不卡| 欧美一二三区| 婷婷有码| 久久精品女人天堂av| 四虎影视久久久免费| 另类内射国产在线| 亚洲av片在线免费观看| ,国产乱人伦无无码视频| 九九三级影视| 久艹在线| 欧美熟妇xxxxx| 波多野结衣av在线观看| 久久发布国产伦子伦精品| av无码av无码专区| 国产人妻777人伦精品hd| 国模和精品嫩模私拍视频| 三级片在线看| 谁有老熟女网站| 亚洲精品成人a在线观看| 拍摄av现场失控高潮数次| 亚洲无av在线中文字幕| 成年片色大黄全免费网站久久| 91视频网址| 日韩精品av一区二区三区| 国产精品午夜福利免费看|