<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型“縮放定律”悖論:RL(強化學習)越強,AGI(通用智能)越遠?

      0
      分享至

      在人工智能邁向通用智能(AGI)的競賽中,當前最受追捧的強化學習(RL)路徑,可能正將我們引向一條歧路——RL越強,距離真正的AGI或許越遠。

      12月24日,知名科技博主、Dwarkesh Podcast博客主持人Dwarkesh Patel今日發布了一則引發行業深思的視頻,直擊當前大模型發展的痛點。在硅谷普遍對Scaling Law(縮放定律)和RL(強化學習)持極度樂觀態度的背景下,Patel提出了一個反直覺的犀利觀點:對RL(強化學習)的過度依賴和投入,可能非但不是通往AGI的捷徑,反而是其遠未到來的明確信號。

      Patel的核心論點在于,當前頂尖AI實驗室正耗費巨資,通過基于可驗證結果的強化學習,為大模型“預制”大量特定技能,例如操作Excel或瀏覽網頁。然而,這一做法本身就構成了邏輯上的沖突。他犀利地指出:“如果我們真的接近一個類人學習者,那么這套在可驗證結果上進行訓練的整個方法就注定要失敗。”

      在Patel看來,這種“預置”技能的模式,恰恰暴露了當前模型的根本缺陷。人類之所以在工作中具有價值,正是因為我們不需要為工作的每一個細微部分都建立專門的“繁瑣訓練循環”。一個真正的智能體應該能夠通過經驗和反饋自主學習,而不是依賴于預先排練好的腳本。如果AI無法做到這一點,那么其通用性就大打折扣,離真正的AGI也就相去甚遠。

      因此,Patel認為,通往更強大AI的真正驅動力,并非無盡的RL(強化學習),而是“持續學習”(Continual Learning)——即像人類一樣從經驗中學習的能力。他預測,解決持續學習問題不會是一蹴而就的“單一成就”,而會是一個漸進的過程,類似于模型在“上下文學習”能力上的逐步演進。這個過程可能需要“5到10年才能完善”,從而排除了某個模型因率先破解該難題而獲得“失控優勢”的可能性。

      核心要點提煉:

      • 技能預制的悖論:目前的模型依賴“預先植入”技能(如使用Excel或瀏覽器),這恰恰證明了它們缺乏人類具備的通用學習能力,AGI并不是迫在眉睫的。
      • 機器人學的啟示:機器人問題本質是算法問題而非硬件問題。如果擁有類人學習能力,機器人早已普及,無需在該特定環境下反復訓練百萬次。
      • 經濟擴散的“托詞”:所謂“技術擴散需要時間”是自我安慰(Cope)。如果模型真有類人智能,它們會瞬間被企業吸納,因為它們比雇傭人類更低風險且無需培訓。
      • 收入與能力的落差:全球知識工作者創造數十萬億美元價值,而模型收入遠低于此,證明模型能力尚未達到替代人類的臨界點。
      • 持續學習(Continual Learning)是關鍵:AGI的真正瓶頸在于“持續學習”能力,而非單純的RL算力堆疊。真正的AGI可能需要未來10到20年才能實現。


      視頻文字全文實錄(由AI工具翻譯):

      Dwarkesh Patel 00:00
      我很困惑。為什么有些人一方面認為AGI(通用人工智能)很快就會實現,另一方面卻看好在頂級大模型上擴大強化學習(Reinforcement Learning, RL)的應用?如果我們真的接近造出一個像人類一樣的學習者,那么這種基于“可驗證結果”進行訓練的整套方法注定是死路一條。
      目前,各大實驗室正試圖通過中途訓練(mid-training)將大量技能“烘焙”(bake in)進這些模型中。現在有一整條供應鏈的公司正在構建虛擬環境,教模型如何瀏覽網頁或使用Excel建立財務模型。現在的情況是,要么這些模型很快就能以自我導向的方式在職學習,這將使所有這些“預烘焙”工作變得毫無意義;要么它們不能,這意味著AGI并非迫在眉睫。人類不需要經歷這種特殊的訓練階段,也無需排練他們在工作中可能需要使用的每一個軟件。
      Dwarkesh Patel 00:45
      Baron Millage在他最近的一篇博客文章中對此提出了一個有趣的觀點。他寫道(引用):“當我們看到前沿模型在各種基準測試中取得進步時,我們不應只想到規模的增加和聰明的機器學習研究思路,還應想到支付給博士、醫學博士和其他專家的數十億美元,讓他們編寫問題并提供針對這些精確能力的示例答案和推理過程。”
      Dwarkesh Patel 01:07
      你可以在機器人領域最生動地看到這種張力。從某種根本意義上說,機器人學是一個算法問題,而不是硬件或數據問題。人類只需要很少的訓練,就可以學習如何操作當前的硬件來做有用的工作。因此,如果你真的擁有一個類人的學習者,機器人學在很大程度上將是一個已解決的問題。但事實是,我們沒有這樣一個學習者,這使得我們必須走進1000個不同的家庭,練習一百萬次如何拿起盤子或折疊衣物。
      Dwarkesh Patel 01:32
      現在,我從那些認為我們要么在未來五年內實現(AI)騰飛的人那里聽到的一個論點是:我們需要做所有這些笨拙的RL工作,是為了構建一個超人類的AI研究員。然后,這百萬個自動化的“Ilya”(指Ilya Sutskever,OpenAI前首席科學家)副本可以去搞清楚如何解決從經驗中進行穩健且高效學習的問題。這給我的感覺就像那個老笑話:“我們要么每筆生意都虧錢,但我們會通過走量把錢賺回來。”這個自動化的研究員將找出AGI的算法——這是一個人類在這個世紀的大半時間里都在絞盡腦汁解決的問題——而它甚至不具備兒童擁有的基本學習能力。我覺得這極不可能。
      Dwarkesh Patel 02:09
      此外,即使你相信這一點,這也不能描述實驗室目前如何通過“可驗證獎勵”來進行強化學習的方法。為了自動化“Ilya”,你不需要預先植入制作PPT幻燈片的咨詢顧問技能。所以很明顯,實驗室的行動暗示了一種世界觀,即這些模型將繼續在泛化能力和在崗學習方面表現不佳,從而使得有必要預先將我們希望具有經濟用途的技能構建到這些模型中。
      Dwarkesh Patel 02:36
      你目前可以提出的另一個論點是,即使模型可以在工作中學習這些技能,但在訓練期間一次性構建這些技能,比為每個用戶和每個公司一次又一次地構建要高效得多。聽著,將常見工具(如瀏覽器和終端)的流暢使用能力直接植入模型是非常有意義的。確實,AGI擁有的關鍵優勢之一是這種在副本之間共享知識的巨大能力。但人們真的低估了大多數工作所需的“公司特定”和“語境特定”技能的數量。目前還沒有一種穩健、高效的方法讓AI掌握這些技能。我最近和一個AI研究員以及一位生物學家共進晚餐,結果發現這位生物學家對AGI的時間線預期很長。所以我們問她為什么預期這么長。她說:“你知道,最近實驗室工作的一部分涉及查看幻燈片,并決定幻燈片中的那個點實際上是一個巨噬細胞,還是僅僅看起來像一個巨噬細胞。”正如你所預料的那樣,那位AI研究員回應道:“看,圖像分類是一個教科書式的深度學習問題。這是死板的中心問題,也是我們可以訓練這些模型去做的那種事情。”
      Dwarkesh Patel 03:45
      我覺得這是一次非常有趣的交流,因為它闡明了我與那些預期未來幾年內會有變革性經濟影響的人之間的關鍵癥結。人類工人之所以有價值,正是因為我們不需要為他們工作的每一個細小部分建立那些繁瑣的(schleppy)訓練循環。鑒于這個實驗室制備幻燈片的特定方式,建立一個定制的訓練管道來識別巨噬細胞的樣子,然后為下一個特定的微任務再建立一個訓練循環,依此類推,這并不是凈生產力的提升。你真正需要的是一個能夠從語義反饋或自我導向的經驗中學習,然后像人類一樣進行泛化的AI。每天,你都要做100件需要判斷力、情境感知以及在工作中習得的技能和背景知識的事情。這些任務不僅因人而異,甚至同一個人每天的任務也不同。僅僅通過植入一套預定義的技能來自動化單一工作是不可能的,更不用說所有的工作了。
      Dwarkesh Patel 04:46
      事實上,我認為人們真的低估了真正的AGI將是多么大的一件事,因為他們只是想象當前這種制度的延續。他們沒有思考服務器上數十億個類人智能,它們可以復制和合并所有的學習成果。明確一點,我預期這一點會發生,也就是說,我預期在未來一二十年內會出現真正的大腦般的智能,這已經相當瘋狂了。
      Dwarkesh Patel 05:09
      有時人們會說,AI目前沒有在企業中更廣泛部署并在編碼之外提供大量價值的原因是,技術擴散需要很長時間。我認為這是“Cope”(托詞/自我安慰),人們用這種托詞來掩蓋這樣一個事實:這些模型就是缺乏產生廣泛經濟價值所必需的能力。
      Dwarkesh Patel 05:28
      如果這些模型真的像服務器上的人類,它們會以難以置信的速度擴散。事實上,它們比普通人類員工更容易整合和入職。它們可以閱讀你所有的Slack記錄并在幾分鐘內上手。它們可以立即提煉出你其他AI員工擁有的所有技能。此外,人類的招聘市場非常像一個“檸檬市場”(信息不對稱市場),很難預先知道誰是優秀的人才。顯然,雇傭一個結果很差的人成本是非常高的。如果你只是啟動一個經過驗證的API模型的另一個實例,這就不是你必須面對或擔心的一種動態。
      Dwarkesh Patel 06:05
      所以基于這些原因,我預計將AI勞動力擴散到企業中要比雇傭一個人容易得多。而公司無時無刻不在招人。
      Dwarkesh Patel 06:14
      如果能力真的達到了AGI水平,人們會愿意每年花費數萬億美元購買這些模型生成的Token。全世界的知識工作者每年累計賺取數十萬億美元的工資,而實驗室現在的收入數字與之相差幾個數量級,原因就在于這些模型的能力遠不如人類知識工作者。現在,你可能會說:“看,標準怎么突然變成了實驗室要每年賺幾十萬億美元的收入了?對吧?就在不久前,人們還在說,這些模型能推理嗎?這些模型有常識嗎?它們只是在做模式識別嗎?”顯然,AI看多者批評AI看空者反復移動這些球門(標準)是正確的。這通常是公平的。人們很容易低估AI在過去十年中取得的進步,但一定程度的球門移動實際上是合理的。如果你在2020年向我展示Gemini 3,我會確信它可以自動化一半的知識工作。所以我們不斷解決我們認為是通向AGI的充分瓶頸。我們擁有具備一般理解力的模型,它們有少樣本學習能力,它們有推理能力,然而我們仍然沒有AGI。
      Dwarkesh Patel 07:24
      那么,觀察到這一點的理性反應是什么?我認為完全合理反應是看著這一切說:“哦,實際上,智能和勞動包含的內容比我以前意識到的要多得多。”我們在很多方面已經非常接近,甚至超過了我過去定義的AGI。
      Dwarkesh Patel 07:41
      模型公司沒有創造出AGI所暗示的數萬億美元收入這一事實,清楚地表明我以前對AGI的定義太狹隘了,我預計這種情況在未來會繼續發生。我預計到2030年,實驗室將在我熱衷的“持續學習”(continual learning)方面取得重大進展,模型每年的收入將達到數千億美元,但它們仍然不會自動化所有的知識工作。我會說:“看,我們取得了很大進步,但我們還沒有達到AGI。我們還需要這些其他能力。”
      如果模型在能力上的提升速度符合短期時間線派的預測,但在實用性上的提升速度符合長期時間線派的預測,值得問的是:我們在擴展什么?在預訓練(Pre-training)中,我們在損失函數(loss)上有極其清晰和普遍的改進趨勢,跨越了多個數量級的計算量,盡管這是一個冪律,雖然不如指數增長強勁,但依然有效。但人們正試圖利用預訓練擴展所擁有的聲望(它幾乎像宇宙物理定律一樣可預測),來為基于可驗證獎勵的強化學習(RL)做出樂觀預測,而對于后者,我們并沒有廣為人知的趨勢。而當無畏的研究人員確實試圖從稀缺的公共數據點拼湊出其含義時,他們得到了相當悲觀的結果。例如,Toby Bord有一篇很棒的文章,他巧妙地連接了不同O系列基準測試之間的點。
      這向他表明:“我們需要在大約100萬倍的總RL計算規模上進行擴展,才能獲得類似于單一GPT級別提升的效果。”。所以人們花了很多時間討論“軟件奇點”的可能性,即AI模型將編寫代碼生成更聰明的后繼系統,或者“軟件+硬件奇點”,即AI也改進其后繼者的計算硬件。然而,所有這些場景都忽略了我認為將是頂級API(應指AGI)進一步改進的主要驅動力:持續學習。再次強調,想想人類是如何變得比任何事物都更有能力的?主要是通過相關領域的經驗。
      在談話中,Baron Millage提出了一個有趣的建議,即未來可能看起來像持續學習的智能體(Agents),它們都走出去,做不同的工作,產生價值。然后它們將所有的學習成果帶回蜂巢思維模型,該模型對所有這些智能體進行某種批量蒸餾。智能體本身可能是相當專業化的,包含Karpathy所說的“認知核心”加上與其被部署所做工作相關的知識和技能。解決持續學習不會是一次性的一勞永逸的成就。相反,這感覺就像解決“上下文學習”(in-context learning)。現在的GPT-3在2020年就已經證明了上下文學習可能非常強大。它的上下文學習能力如此驚人,以至于GPT-3論文的標題就是《語言模型是少樣本學習者》。但當然,當GPT-3問世時,我們并沒有徹底解決上下文學習。確實,從理解力到上下文長度,仍然有大量的進步需要取得。
      Dwarkesh Patel 10:50
      我預計持續學習也會有類似的進展過程。實驗室可能會在明年發布某種東西,他們稱之為持續學習,實際上這也算作通向持續學習的進步。但人類水平的“在崗學習”可能還需要5到10年才能解決。這就是為什么我不指望第一個破解持續學習的模型會帶來某種失控的收益,而是會越來越廣泛地部署和增強能力。
      Dwarkesh Patel 11:16
      如果你完全解決了持續學習,并且它突然從天而降,那么當然,正如Satya(微軟CEO)在播客中我在問及這種不穩定性時所說的那樣,這可能是“Game, Set, Match”(比賽結束,勝負已分)。但這可能不是將會發生的事情。相反,某個實驗室會找出如何在這個問題上獲得一些初步牽引力的方法,然后通過把玩這個功能,它的實現方式就會變得清晰,隨后其他實驗室很快就會復制這一突破并稍作改進。此外,我只是有一些先驗判斷,即所有這些模型公司之間的競爭將保持相當激烈。這是基于觀察得出的:所有以前所謂的飛輪效應,無論是聊天機器人的用戶參與度,還是合成數據或其他什么,都在減少模型公司之間越來越大的競爭方面收效甚微。每隔一個月左右,三大模型公司就會輪流登上領獎臺,而其他競爭對手并沒有落后太遠。似乎有某種力量,可能是人才挖角,可能是謠言工廠,或者是NSF(此處可能指一般的科學基礎)或者僅僅是正常的逆向工程,到目前為止已經抵消了單個實驗室可能擁有的任何失控優勢。
      Dwarkesh Patel 12:14
      這是對我最初在我的博客dwarkesh.com上發表的一篇文章的敘述。我將發表更多的文章。我發現這實際上非常有用于在采訪前理清我的思路。如果你想了解這些最新動態,可以在dwarkesh.com訂閱。或者,我們下期播客見。干杯。
      注:翻譯不能保證100%正確。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      19歲王鈺棟穿英超勁旅球衣和隊友合影引熱議,球迷:不能亂穿

      19歲王鈺棟穿英超勁旅球衣和隊友合影引熱議,球迷:不能亂穿

      側身凌空斬
      2025-12-26 10:24:34
      《老舅》大結局:崔小紅缺席崔國明葬禮,張曉梅攜巨款回國最圓滿

      《老舅》大結局:崔小紅缺席崔國明葬禮,張曉梅攜巨款回國最圓滿

      小小李娛
      2025-12-26 17:01:53
      錢再多有什么用?獨居英國20年靠吃速凍餃子,64歲費翔還是崩潰了

      錢再多有什么用?獨居英國20年靠吃速凍餃子,64歲費翔還是崩潰了

      豐譚筆錄
      2025-12-07 11:49:02
      為什么龐家敢硬剛南京博物館,龐家的底蘊你想不到

      為什么龐家敢硬剛南京博物館,龐家的底蘊你想不到

      鶴羽說個事
      2025-12-25 11:39:22
      從普通人到惡魔,只有一步之遙

      從普通人到惡魔,只有一步之遙

      近距離
      2025-12-24 11:07:14
      男子理發時耳朵被剪開1.8公分,家屬稱店家欺瞞傷勢,回家后才發現,商家:這就像切菜,切到手也是概率問題

      男子理發時耳朵被剪開1.8公分,家屬稱店家欺瞞傷勢,回家后才發現,商家:這就像切菜,切到手也是概率問題

      觀威海
      2025-12-25 14:30:08
      華南五虎全軍覆沒

      華南五虎全軍覆沒

      新浪財經
      2025-12-26 00:06:36
      克萊:我希望庫里別穿著我的KT11贏獨行俠,但他穿就挺棒的了

      克萊:我希望庫里別穿著我的KT11贏獨行俠,但他穿就挺棒的了

      懂球帝
      2025-12-26 17:35:07
      甜甜圈被人保釋出獄了,開始瘋狂污蔑美國高層

      甜甜圈被人保釋出獄了,開始瘋狂污蔑美國高層

      遠方青木
      2025-12-25 23:47:28
      最新通知!陜西新一輪雨雪時間確定

      最新通知!陜西新一輪雨雪時間確定

      環球網資訊
      2025-12-26 17:36:56
      一個月后,中洪恐斷交,洪都拉斯新總統:中國大陸不給我們好處

      一個月后,中洪恐斷交,洪都拉斯新總統:中國大陸不給我們好處

      博覽歷史
      2025-12-25 18:31:13
      海南封關成照妖鏡,東南亞國家挨個現行,新加坡直言不準自給自足

      海南封關成照妖鏡,東南亞國家挨個現行,新加坡直言不準自給自足

      離離言幾許
      2025-12-26 14:16:02
      和睦家回應闞清子生產出事:無醫療糾紛,醫護人員沒泄露患者隱私

      和睦家回應闞清子生產出事:無醫療糾紛,醫護人員沒泄露患者隱私

      八斗小先生
      2025-12-26 19:14:18
      雷迪克勃然大怒直指詹姆斯?湖人將帥關系或已破裂

      雷迪克勃然大怒直指詹姆斯?湖人將帥關系或已破裂

      體壇周報
      2025-12-26 18:39:10
      美國前總統布什的表親和佩洛西的女兒等宣布將參加明年的中期選舉

      美國前總統布什的表親和佩洛西的女兒等宣布將參加明年的中期選舉

      AI商業論
      2025-12-26 19:32:00
      謀財害命的中藥注射液,早該被清理進歷史的垃圾堆

      謀財害命的中藥注射液,早該被清理進歷史的垃圾堆

      老爸講科學
      2025-10-20 16:11:11
      瘋狂!一天60萬港人涌向內地!網友:這個行業被救活了

      瘋狂!一天60萬港人涌向內地!網友:這個行業被救活了

      港你知
      2025-12-26 13:07:09
      湖人內訌實錘!拉拉維亞直指內部脫節,雷迪克暗諷某人,難怪連敗

      湖人內訌實錘!拉拉維亞直指內部脫節,雷迪克暗諷某人,難怪連敗

      細話籃球
      2025-12-26 13:21:49
      2月27日,美國司法部首次公布了“蘿莉島”相關案件,

      2月27日,美國司法部首次公布了“蘿莉島”相關案件,

      現代小青青慕慕
      2025-12-25 20:14:26
      永州男子發現女兒非親生,和女友分手后獨自撫養至5歲,為上戶口發尋親公告,當地回應

      永州男子發現女兒非親生,和女友分手后獨自撫養至5歲,為上戶口發尋親公告,當地回應

      瀟湘晨報
      2025-12-26 19:54:11
      2025-12-26 20:52:49
      華爾街見聞官方 incentive-icons
      華爾街見聞官方
      中國領先的金融商業信息提供商
      139390文章數 2651944關注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      寶馬網紅銷冠推行"一口價"賣車:來回談價累 8天賣11輛

      頭條要聞

      寶馬網紅銷冠推行"一口價"賣車:來回談價累 8天賣11輛

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財經要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

      態度原創

      數碼
      教育
      家居
      時尚
      公開課

      數碼要聞

      ColorOS公布OPPO Pad 5十二月升級內容

      教育要聞

      教育部公布重要名單!上海10所學校上榜

      家居要聞

      格調時尚 智慧品質居所

      冬天,“大衣”是中年女人的穿搭剛需,這樣搭配時髦提氣質

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 最新中文字幕在线| 亚洲av日韩av永久无码电影| 性欧美大战久久久久久久| 99久久婷婷国产综合精品青草漫画| 国产sm重味一区二区三区| 欧美日韩精品| 久久久影院| 91新视频| 亚洲欧洲精品国产二码| 亚洲精品欧美综合二区| 99精品国产丝袜在线拍国语| 桂东县| 亚洲无码久久| 日本黄页网站免费观看| 在线观看国产精品普通话对白精品| 日韩亚洲精品一卡二卡| 亚洲精品成人网| 夜夜欢视频| 精品久久人人妻人人做精品 | 荣昌县| xxxx免费| 欧美成人h亚洲综合在线观看| 欧美日韩无套内射另类| 国产偷国产偷亚洲清高动态图| 26uuu国产日韩综合| 内射网址| 欧美视频精品| 91亚洲国产三上悠亚在线播放| 亚洲最大有声小说AV网| 18禁美女裸体无遮挡网站| 亚洲伊人久久精品影院| 欧美性交无码| 3P无码| 国产欧美精品一区aⅴ影院| 日韩精品亚洲人成在线观看| 国内精品久久久久精免费| 中文字幕成人版| 曰韩一级| 国产xxx| 亚洲精品揄拍自拍首页一| 色翁荡熄又大又硬又粗又视频图片|