<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Andrej Karpathy回應強化學習之父Sutton最新觀點「LLM是“死路一條”」

      0
      分享至


      國慶節快樂!大家從sora 2的震驚中緩過來沒?

      前幾天我寫了一篇文章,介紹了圖靈獎獲得者,強化學習之父Richard Sutton最新采訪觀點,老爺子認為當前熱門的大語言模型是“死路一條”。他的核心觀點是,LLMs 的架構從根本上缺乏從實際互動(on-the-job)中持續學習的能力。無論我們如何擴大其規模,它們本質上仍然是在模仿人類數據,而不是通過與世界直接互動來理解世界并實現目標,老爺子的作為大神和先驅思考都是終極問題,就像老爺子自己說的他是古典主義者。詳細請看我之前的文章

      今天AI大神Andrej Karpathy分享了他對 Sutton老爺子觀點的看法,總體上Karpathy認同老爺子對當前LLM研究的批評,并且認為老爺子的觀點有趣且具有啟發性,但當前的LLM更像是一個向現實妥協的東西,Karpathy對此進行了詳細解讀,并提出了一個比喻:當今的LLM研究并非在創造“動物”,而是在召喚“幽靈“,至于如何理解“動物”和“幽靈“且看下文分解,哈哈


      Andrej Karpathy首先點明了一個背景:Sutton的“苦澀教訓”(The Bitter Lesson)一文,如今已成為前沿LLM圈子里的“圣經”。研究者們會經常討論某個方法或想法是否足夠“bitter lesson pilled”(意即一個方法能夠隨著算力的增加而自然受益),以此作為判斷其是否有效或值得追求的依據

      這背后的基本假設是,LLM本身就是“苦澀教訓”的絕佳范例——看看LLM的縮放定律(scaling laws)就知道了,只要把算力放在X軸上,性能指標就會一路向右上角增長

      然而,有趣的是,Sutton本人作為理論的提出者,卻并不確定LLM是否真的符合“苦澀教訓”

      Sutton指出,LLM是在巨型數據集上訓練的,而這些數據本質上是人類數據,這意味著它有兩個特點:1)由人類生成;2)數量有限。當數據耗盡時該怎么辦?如何避免人類偏見?

      這就很有趣了:信奉‘苦澀教訓’的LLM研究者們,貌似被‘苦澀教訓’的作者本人給打臉了

      Sutton老爺子的“古典主義”愿景:構建“兒童機器”

      Karpathy分析,在某種意義上,采訪老爺子的Dwarkesh(代表LLM研究者觀點)和Sutton有點雞同鴨講。因為Sutton心中有一個完全不同的AI架構,而LLM打破了其許多原則

      Sutton稱自己為古典主義者,并援引了艾倫·圖靈最初構建“兒童機器”的構想——一個能夠通過與世界動態互動、從經驗中學習的系統

      在這個構想中,沒有模仿網頁內容的巨型預訓練階段。也沒有監督微調,Sutton指出這在動物界是不存在的(這是一個微妙但正確的觀點:動物可能會觀察演示,但它們的行為不會被其他動物直接強行控制或遙控操作)

      Sutton還強調了一個重要觀點:即使你只是將預訓練視為強化學習微調之前的先驗知識初始化,這種方法也已經被人類偏見所“污染”,從根本上偏離了軌道。他以AlphaZero(從未見過人類棋局)擊敗AlphaGo(從人類棋局中初始化)為例

      在Sutton的世界觀里,AI的一切都源于與世界的強化學習互動。獎勵函數部分來自環境,部分是內在驅動的,例如“樂趣”、“好奇心”,以及與世界模型預測質量相關的因素。并且,智能體在測試時默認是始終在學習的,而不是訓練一次就部署

      總的來說,Sutton更關心我們與動物界的共同點,而非我們與它們的區別。他有名言:“如果我們理解了一只松鼠,那我們幾乎就大功告成了。”

      Karpathy的觀點:預訓練是我們蹩腳的進化

      對于Sutton的觀點,Karpathy分享了自己的看法

      首先,他認為Sutton的批評并非毫無道理。當前的前沿LLM確實是高度復雜的產物,每個階段都充滿了人性的參與——基礎(預訓練數據)是人類文本,微調數據是人類策劃的,強化學習的環境組合也是由人類工程師調整的

      我們確實沒有一個真正單一、干凈、完全符合“苦澀教訓”、可以“一鍵啟動”并讓其從純粹的經驗中自動學習的算法

      那么,這樣的算法存在嗎?

      Karpathy提到了兩個常被用來證明其可能性的范例:

      第一個是AlphaZero的成功。它完全從零開始,沒有任何人類監督就學會了下圍棋。但圍棋的環境過于簡單和封閉,很難將其類比到混亂的現實世界。在算法和分類學上,它本質上只是一個更難的井字游戲

      第二個例子是動物,比如松鼠。對此,Karpathy個人也持保留態度。因為動物的產生是通過一種與我們在工業界實際可用的計算過程和約束截然不同的方式

      動物的大腦在出生時遠非一張白紙。首先,很多通常被歸因于學習的東西,在他看來更像是“成熟”。其次,即使是明確屬于“學習”而非“成熟”的部分,也更像是在一個強大預設基礎上的“微調”

      他舉例說:一頭小斑馬出生后幾十分鐘內,就能在稀樹草原上奔跑并跟隨母親。這是一個高度復雜的感官-運動任務,Karpathy認為這絕不可能是在“白板一塊”的基礎上從零開始實現的。動物大腦及其數十億參數,其強大的初始化信息被編碼在DNA的ATCG序列中,并通過進化的“外循環”優化進行了訓練。如果小斑馬像一個隨機初始化的強化學習策略那樣亂動肌肉,它根本活不長

      由此類比,我們現在的AI也擁有數十億參數的神經網絡。這些參數同樣需要豐富、高信息密度的監督信號。我們不可能重新運行一次進化。但我們確實擁有堆積如山的互聯網文檔

      Karpathy承認,這基本上是動物界所沒有的監督學習。但它是一種實用的方法,可以為數十億參數收集足夠的軟約束,從而避免從零開始

      他給出了一個精辟的總結:“預訓練是我們蹩腳的進化(Pretraining is our crappy evolution)。” 它是解決冷啟動問題的一個候選方案,之后再通過更正確的框架(如強化學習)進行微調——這正是當前最先進的LLM實驗室普遍在做的事情

      召喚”幽靈”,而非創造“動物”

      Karpathy認為,我們仍然值得從動物身上汲取靈感。LLM智能體在算法上仍然缺少許多可以從動物智能中借鑒的強大思想。同時,“苦澀教訓”仍然是正確的,但他更將其視為一個值得追求的柏拉圖式理想,而非在現實世界中必然能達到的目標。

      這就引出了我們目前的處境。

      Karpathy直言,今天的前沿LLM研究,并非在創造“動物”,而是在召喚幽靈

      你可以將“幽靈”視為智能空間中一種截然不同的存在。它們被人類性所混雜,并被人類徹底地工程化。它們是一種不完美的復制品,一種人類文檔的統計蒸餾,外加一些點綴

      它們并非柏拉圖式的“苦澀教訓”產物,但與之前的許多方法相比,或許可以算是“實踐上”的“苦澀教訓”產物

      Karpathy推測,隨著時間的推移,我們或許可以進一步微調我們的“幽靈”,讓它們越來越像“動物”;這可能不是根本性的不兼容,而只是智能空間中的初始化問題

      但同樣很有可能的是,它們會進一步分化,最終變得永久不同、不像動物,但仍然極具幫助并能真正改變世界

      這可能是:幽靈之于動物,如同飛機之于鳥類。

      最后,Karpathy總結道,Sutton的這期播客對于前沿LLM研究人員來說是一次扎實的“real talk”,他們可能過于沉浸在“利用模式”(exploit mode)中了。我們可能還不夠遵循“苦澀教訓”,很有可能存在比窮盡地構建和優化基準測試更強大的思想和范式。

      而動物,或許就是一個很好的靈感來源。比如:內在動機、樂趣、好奇心、賦能、多智能體自我博弈、文化等等。這需要我們發揮想象力

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      重慶一小學禁止“二手房”業主孩子入讀,當地:孩子多學校容量小,已調研后期可能調整

      重慶一小學禁止“二手房”業主孩子入讀,當地:孩子多學校容量小,已調研后期可能調整

      瀟湘晨報
      2025-12-08 16:29:25
      道歉!下架!第一個遭遇反噬的電動車廠商來了

      道歉!下架!第一個遭遇反噬的電動車廠商來了

      數字財經智庫
      2025-12-07 10:51:38
      40歲,想結婚,被網暴

      40歲,想結婚,被網暴

      南風窗
      2025-12-08 14:56:09
      受賄2.36億余元,十四屆全國政協原常委茍仲文一審被判死緩

      受賄2.36億余元,十四屆全國政協原常委茍仲文一審被判死緩

      界面新聞
      2025-12-08 17:01:51
      蘋果iPhone 18系列全新曝光,等等黨有福了!

      蘋果iPhone 18系列全新曝光,等等黨有福了!

      科技堡壘
      2025-12-08 11:15:49
      今后3天河南晴朗持續!11日起大風雨雪強降溫“組團”上線

      今后3天河南晴朗持續!11日起大風雨雪強降溫“組團”上線

      大象新聞
      2025-12-08 13:30:12
      現代朝鮮底層驚人的食量:一頓能吃下一斤多主食

      現代朝鮮底層驚人的食量:一頓能吃下一斤多主食

      百姓聞世界
      2025-12-04 18:14:06
      周星馳《鹿鼎記》票房慘淡首日僅18萬:情懷牌為何突然失靈?

      周星馳《鹿鼎記》票房慘淡首日僅18萬:情懷牌為何突然失靈?

      城市鄉村
      2025-12-08 10:13:29
      朝鮮宣布:糧食大豐收

      朝鮮宣布:糧食大豐收

      IN朝鮮
      2025-12-07 13:13:06
      被拐30年兒子認親14小時就走,全程冷臉,網友:窮家標簽太刺眼

      被拐30年兒子認親14小時就走,全程冷臉,網友:窮家標簽太刺眼

      老特有話說
      2025-12-06 17:31:27
      新加坡華裔男生被評“全球最丑”?本地網友怒懟:這鍋不背!

      新加坡華裔男生被評“全球最丑”?本地網友怒懟:這鍋不背!

      新加坡萬事通
      2025-12-07 20:55:03
      30歲的賀子珍在蘇聯莫斯科的真實容貌 并非演員扮演 貨真價實的照片

      30歲的賀子珍在蘇聯莫斯科的真實容貌 并非演員扮演 貨真價實的照片

      動物奇奇怪怪
      2025-12-08 13:26:50
      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      胡嚴亂語
      2025-12-07 15:51:07
      最新民調出來后,盧秀燕傻眼了,賴清德樂不出來,鄭麗文贏面大增

      最新民調出來后,盧秀燕傻眼了,賴清德樂不出來,鄭麗文贏面大增

      落雪聽梅a
      2025-12-08 13:58:40
      王迅老師不幸逝世,官網已變黑白

      王迅老師不幸逝世,官網已變黑白

      wuhu派
      2025-12-08 08:47:33
      一片嘩然,馬克龍回國就變臉,竟然向中方發出威脅

      一片嘩然,馬克龍回國就變臉,竟然向中方發出威脅

      艾米手工作品
      2025-12-08 07:21:13
      -4℃到-5℃!這個冬天比以往來得更晚些

      -4℃到-5℃!這個冬天比以往來得更晚些

      上觀新聞
      2025-12-08 16:57:06
      入選《金融時報》“2025年影響力人物榜” 黃仁勛坦言:怕公司倒閉,我一周工作7天

      入選《金融時報》“2025年影響力人物榜” 黃仁勛坦言:怕公司倒閉,我一周工作7天

      紅星新聞
      2025-12-08 15:35:14
      存在不當影射行為,郭德綱被約談!

      存在不當影射行為,郭德綱被約談!

      微微熱評
      2025-12-08 00:51:45
      它是止咳第一名,放到鍋中蒸一蒸,輕松排出黃痰,做法真的很簡單

      它是止咳第一名,放到鍋中蒸一蒸,輕松排出黃痰,做法真的很簡單

      墜入二次元的海洋
      2025-12-08 05:50:41
      2025-12-08 19:07:00
      AI寒武紀 incentive-icons
      AI寒武紀
      專注于人工智能,科技領域
      1001文章數 375關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動和卡梅隆熱聊

      財經要聞

      重磅!政治局會議定調明年經濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      旅游
      健康
      教育
      本地
      公開課

      旅游要聞

      “趣唱、趣跑、趣逛” 豐富游園體驗,世紀公園持續探索“公園+”

      甲狀腺結節到這個程度,該穿刺了!

      教育要聞

      2025中國百強中學出爐!山東4所學校上榜!

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品无码人妻一区二区三区| 777天堂麻豆爱综合视频| 2020国产欧洲精品网站| 欧美va| 久久99国内精品自在现线| 广西| 综合Av| AV无码免费不卡在线观看| 精品无码国产av一区二区三区| 久久狠狠高潮亚洲精品| 永福县| 精品国产国产2021| 一本色道国产在线观看二区| 国精产品一区一区三区| 亚洲人成色777777老人头| 久久天天躁狠狠躁夜夜av| 国产专区一va亚洲v天堂| 午夜羞羞影院男女爽爽爽| 毛片无码免费无码播放| 怡春院网站| 欧美3p视频| 亚洲男人在线| 国产一级小视频| 亚洲成a人片在线视频| 国产大片黄在线观看| 少妇久久久久久久久久| 亚洲无码天天| 熟女内射| 中文字幕高清在线| 国产二区三区不卡免费| 香蕉97超级碰碰碰免费公开| 久久精品蜜芽亚洲国产av| 亚洲30p| 久久草视频在线| 中文字幕一二区| 国产精品久久久久久福利69堂| wwww亚洲熟妇久久久久| 亚洲欧美精品综合在线观看| 在线天堂新版最新版在线8| 欧美精品videosex极品| 逆3p在线|