網易首頁 > 網易號 > 正文申請入駐

從蟄伏到王炸，RL啟示錄

2025-03-16 21:29:22　來源: 20社

北京舉報

分享至

“如果人工智能是一塊蛋糕，那么無監督學習是蛋糕的主體，監督學習是糖霜，強化學習（RL）只是頂上的櫻桃。”

全文共 6255 字，閱讀大約需要 16 分鐘

作者 | 賈陽

強化學習（Reinforcement Learning），重新變得性感了。

就在3月5日，2025年的圖靈獎頒給了強化學習的兩位理論奠基者——安德魯·巴托（Andrew Barto）和理查德·薩頓（Richard Sutton）。

這次頒獎，像是一個不斷放大的信號，揭示了一個越來越明確的AI研究范式轉折——引入RL，AI研究從“快思考”（快答出預訓練的回復）推進到“慢思考”（在推理時深思熟慮）。

在過去這一年間，RL從一度沉淪的位置，重新走回了AI研究的閃光燈中心。2024年下半年，OpenAI率先發布了它在LLM基礎上，用RL實現“深度思考”的成果——o1，設定了新的終點線。今年初，DeepSeek將賽道上的迷霧更進一步迅速驅散了，把自己的方案完全開源，在LLM中加入“純RL”，讓R1的推理能力比肩甚至超過o1。關于RL能幫助通往AGI的共識，迅速凝聚。

一些RL領域的研究者幾乎要喜極而泣了。

AlphaGo曾經用驚艷的“神之一手”打敗了人類圍棋的最頂尖高手李世石，讓世人第一次大規模地為AI的智力驚喜以及驚嚇。RL，正是AlphaGo訓練的理論基石。

RL的研究者們認為，機器的學習，可以類比人類，就像多巴胺激勵神經元，機器也能通過與環境的反饋互動不斷改進提升能力。人的時間經驗有限，而機器不受這些限制，在RL中能夠有超人的潛力。

這曾經一度是人們對通往AGI的最主流想象。

但在2020年后，更多的人被“LLMs and scaling laws are all you need”吸引走了。大語言模型，以及越來越龐大的預訓練數據集，將AI的智能推進到了新的階段，也把不走“大力出奇跡”路線的RL相對邊緣化了。

因為LLM能夠實現看起來更通用（general）的智能，而RL只能在獎懲明確的特殊環境中訓練出“專科”智能，只能“玩游戲”，而無法處理復雜的現實環境。

在一些論壇的AI板塊討論中，從業者們明確地感覺到，RL的“市場關注份額”流失，有人抱怨“找不到RL工作”（I can’t find an RL job）。一些“RL是否走進死胡同”的論戰更是非常有意思。RL和LLM的支持者激烈地爭論，誰更好地模仿了人類的自然認知模式，誰才更有前途。

直到大語言模型的scaling law開始碰壁，科技樹上的一場新較量開始了。

這正是一部人類智慧交替閃耀的故事。通往AGI的路上，原本是一片黑暗，有人提出用刀耕，有人用火種，有人用哲思，都獲得過成就，也遭遇過瓶頸。而在新的障礙面前，這些方法的新組合，把人類帶到了新的起點。

AlphaGo

2016年3月的首爾，深度學習歷史上最具開創性的時刻之一正在這里發生。在擊敗歐洲圍棋冠軍Fan Hui后，AlphaGo正式挑戰全球圍棋冠軍李世石。這被全球媒體視為人類智識尊嚴和人工智能的對決。

結果足夠驚悚，AlphaGo以4:1的絕對優勢，戰勝了14次圍棋世界冠軍得主李世石。人類轟轟烈烈地落敗了。

在第二局的第37手，AlphaGo出了讓所有人都困惑不已的一招，落在第五線，而非傳統最優選的第三線。解說室懵了，一位評論員稱不知是好是壞，另一位說“這是一個錯誤。”

第37手出現的概率是萬分之一。在AlphaGo的研究員看來，沒有人類會這么下，但這一手仍然是正確的，“它通過內省過程發現了這一點。”同樣在觀戰的Fan Hui評價這是“神之一手”。

右側新落的黑子，為AlphaGo的傳奇第37手

AlphaGo戰勝李世石，一下子讓AI在公眾認知中爆發了，AI迎來了前所未有的希望和期待，甚至讓大眾第一次真正恐懼“AI比人更聰明”。RL的巨大潛力，恐怖如斯。

谷歌的核心高管悉數到達首爾，來見證這個“代表谷歌互聯網業務未來”的AI技術。這場比賽對谷歌非常重要。

谷歌是2010年代那一波歷史性的AI人才爭奪戰的最積極下注方。辛頓（Geoffrey Hinton）僅用4顆GPU和更好的神經網絡算法，就把谷歌用了16000顆CPU的“谷歌貓”踩在腳下，震驚業界。谷歌毫不吝惜地以4400萬美元拍下辛頓三人的純智力公司，又砸了4億英鎊把英國初創公司DeepMind納入麾下。

DeepMind當時展現給谷歌的RL路線，并不是谷歌當時的神經網絡做圖像識別、音頻理解等研究方向。但創始人哈薩比斯（Demis Hassabis）聚集了當時最好的一批人才，這非常珍貴，哈薩比斯和不少同事都算是辛頓的學生。更重要的是，哈薩比斯曾用“圍棋”和“打造人腦一樣的通用人工智能”成功說服彼得·蒂爾（Peter Thiel）投了140萬英鎊，也讓谷歌相信了RL讓DeepMind構建了一個系統，這是在通用人工智能方面的第一次真正嘗試。

攻克古老的圍棋，是DeepMind向谷歌證明自己的第一步。哈薩比斯是一個愛玩游戲的學霸，他研究AI，把兩個愛好完美結合，把AI扔進游戲里，反復試錯，直到它玩得比人類更好。

AlphaGo有兩個神經網絡，一個負責策略，輸出下一步落子的概率；另一個是價值網絡，來輸出落子的勝率。AlphaGo初始學習了3000萬步圍棋專家的下法，然后一場接一場地與自己對抗，分析哪些下法是更有利的，飛速進步。

在后續的版本AlphaGo Zero中，DeepMind把RL進一步做到極致——不再提供海量對弈棋局的初始數據，僅告知基本規則，由它自我對弈數百萬次，發現獲勝策略。AlphaGo Zero經過3天的訓練，就獲得了比擊敗李世石的版本更強的能力，與后者對弈的勝率是100比0。

而AlphaGo Zero遠比AlphaGo強大的原因，正在于RL占比提高了。取名為Zero，也暗示了它是真正從零做起，完全自學成才。

一時間，DeepMind的論文《Mastering the game of go without human knowledge》火得發燙。該論文稱，即便是在最具挑戰性的領域中，單純使用RL的方法也是完全可行的：沒有人類實例或指導，沒有基本規則之外的知識，訓練達到超人的性能是完全可能的。

AlphaGo Zero更加簡潔優美。AlphaGo的初始版本需要176個GPU和1202個CPU，AlphaGo Zero只需要一臺機器和4個TPU。

AlphaGo Zero將RL的路線帶到業界熱情的頂峰。在2018年12月，AlphaGo Zero登上了《科學》雜志封面。《科學》雜志給出了這樣一句評價，“能夠解決多個復雜問題的單一算法，是創建通用機器學習系統，解決實際問題的重要一步。”

DeepMind商業計劃書的第一行，就是通用人工智能。當時的巨大成功，讓哈薩比斯更加確認了DeepMind的使命，“這是我們開發通用算法的一大進步”。

DeepMind繼續研究如何把提升AlphaGo，把它的能力遷移到其他領域。AlphaGo Zero更加通用，除了圍棋還輕松地在國際象棋、日本將棋領域達到頂尖水平。AlphaFold在預測蛋白質結構上成就斐然，哈薩比斯還因此獲得了諾貝爾化學獎。AlphaStar能玩《星際爭霸II》。

業界對這一探索方向也懷抱著巨大的希望。RL相關論文激增。在機器人、自動駕駛、儲能等行業，RL是一種非常合適的訓練學習路徑，行業研究也越來越深入。

僅統計了arXiv，制圖20社

“死胡同”

辛頓對哈薩比斯個人的聰明程度評價甚高，稱“他的實力不僅在智力上，還展現在他對勝利極端且堅定不移的渴望上”。辛頓曾經在英國當過哈薩比斯短暫的導師，在2014年谷歌收購DeepMind時還專門克服了腰椎間盤病痛無法乘民航飛機的困難，到倫敦提供了關鍵的科學顧問。

但這位連接主義的大拿，對哈薩比斯認定的RL路線并不認可。

2018年，辛頓和楊樂昆（Yann LeCun）、約書亞·本吉奧(Yoshua Bengio)憑神經網絡深度學習獲得圖靈獎。在獲獎后演講中，辛頓開玩笑地要把RL排除在機器學習方法之外，因為“被稱為強化學習的第三種方法不太有效。”RL需要太多的數據和太多的處理能力，才能完成真實世界中的實際任務。

要理解他們之間的分歧，我們需要了解一些背景框架。

在AI的漫長探索中，研究者們都在試圖用人類認知世界的方式（本質），去建構機器智能的框架（模仿）。因此AI的理論演進，一直是和人類心理學、腦科學、神經科學、哲學和語言學的發展互相糾葛。對本質的不同認知，也讓AI研究者分化為主要的三大流派。

符號主義（Symbolicism）認為，人的認知單元是符號，主張通過公理邏輯和符號操作來模擬人類的智能。一度是最先獲得實踐應用、最風靡的流派。IBM的“深藍”打敗了國際象棋世界冠軍，本質上是符號主義的成果。

連接主義（Connectionism）來源于仿生學，主張通過模擬人腦神經元的連接方式來實現人工智能。如今AI領域最宗師級的幾個大牛——辛頓和楊樂昆是扛鼎者，神經網絡就是模仿人腦的產物，也是現在最主流的理論派別。

行為主義（Actionism）關注行為和刺激之間的關系，讓機器通過與環境交互來學習和改進其行為。這也就是RL所屬的流派。

圖片來源于網絡

事實上，RL的發展歷程非常曲折，經歷了多次長久的寒冬和等待。

最早在在1950年，艾倫·圖靈（Alan Turing）提出了RL初步的設想，一種基于獎勵和懲罰的機器學習方法。

在這個想法的基礎上，幾十年后的1980年代，AI的寒冬中，巴托與薩頓在麻省理工默默搭建了RL的理論框架和算法體系。他們最核心的貢獻莫過于時間差分學習算法，它解決了獎勵預測的問題，agent如何獲得長期收益。

又過了40年，巴托與薩頓憑借對強化學習的研究，獲得了圖靈獎的遲到獎勵。

RL的進展受制于算法、算力、數據三大瓶頸。DeepMind能夠用RL創造出震驚世界的AlphaGo，有一個重要原因是，它把辛頓等連接主義學者的成果“神經網絡”借過來了。AlphaGo由兩個13層的深度神經網絡構成。

神經網絡和泛化能力的引入，從根本上改變了RL。傳統的RL，依賴于表格的方法（如Q-learning）和動態編程，通常需要窮舉所有可能的狀態和動作組合，計算上難以實現。而神經網絡可以學習數據中的模式和特征，對新的狀態進行有效的預測。因此DeepMind后來也把自己的研究稱為“深度強化學習”。

第4代的AlphaMuZero可以自己學會玩圍棋、國際象棋、日本將棋和Atari游戲，還被用來幫YouTube尋找視頻壓縮的更優算法。比前幾代更“通用”了，更夠應對更多不確定環境。

但是經過神經網絡加強過后的RL，依然是RL。Mu的應用還是在有限的游戲環境中。

AGI需要AI能應對不同的任務，而不是只在單一任務中做到極致。

在2021年，AlphaGo系列的負責人David Silver和RL奠基人薩頓聯手發了另一篇文章，《Reward is Enough》，跟神經網絡領域的劃時代論文《Attention is all you need》有異曲同工的修辭。

Silver等人認為，一個簡單而強大的原則“獎勵最大化”下，具備出色智能的agent能夠“適者生存”，習得知識、學習、感知、社交智能、語言、泛化能力和模仿能力。簡而言之，RL將促進AGI的實現。這像是把自然界的進化論，搬到了AI領域。

但這一理論遭遇了業界很多的質疑和批評，因為它某種程度上非常“空洞”，且論文中提到的泛化，仍難以在實踐中獲得突破進展。

強化學習是死胡同（RL is a dead-end）之類的討論在AI社區越來越頻繁。圍棋等游戲天然適合RL。但在開放性環境中，獎勵目標或環境的細微變化，就會導致整個系統徹底失敗，或者需要重新訓練。監督學習效果是穩定的，但RL根本不穩定。人類設定的獎勵，經過RL的黑盒子，可能會導向無法預知的離譜行為。

去年從DeepMind離職創業的科學家Misha Laskin認為，RL進展停留在了超人類、但極度狹窄的智能體層面，缺乏明確路徑來拓展通用性。“如果單一任務上都要實現六億步的訓練，又從哪獲取足夠數據來覆蓋所有任務呢？”

Google DeepMind的研究員Kimi Kong最近在真格基金播客中稱，在2019年之后，RL在算法層面就沒有更多的長足進步了。

這種迷茫和低落實際上蔓延在整個RL社區。尤其在ChatGPT發布后，LLM展現出來的泛化能力，讓RL開始失去資本和產業的聚光燈，甚至在一些人看來，是被趕回了象牙塔。

2024年8月，DeepMind的一次學校講座。RL的關注度在LLM浪潮中跌入低谷，但DeepMind仍堅信RL

蛋糕上的櫻桃

大語言模型如日中天，但它的頭頂也飄著幾朵烏云。

在2024年底的AI峰會NeurIPS上，OpenAI聯合創始人兼前首席科學家Ilya Sutskever宣稱，預訓練時代即將終結（Pre-training as we know it will end），這將已經籠罩在行業頭頂的scaling law碰壁焦慮徹底一語道破。

AI的訓練數據，正在枯竭。而擴大訓練數據量級提升智能的邊際效應也在遞減。

此外，LLM天生不擅長數學和物理。因為LLM本質上仍是基于語言模式，而科學原理和人類的決策從根本上講是抽象的，超越了語言或像素的表達范疇。

怎么辦呢？

OpenAI率先給出了方案。去年年中發布的o1模型，不是一味擴大預訓練規模，而是用RL結合CoT（思維鏈）技術，實現了深度推理，將大模型的智能又推上一個新的臺階。一個新的范式也出現了，AI研究開始從“快思考”（快速給出預訓練的答案）遷移到“慢思考”（深思熟慮地推理）。

RL的優點在此時盡顯優勢。其一，RL（在給定環境下）需要的數據量遠小于LLM。其二，RL善于在環境中自主探索、動態學習、連續決策。

據RL研究者、Pokee AI的創始人Zheqing Zhu的演講，從90年代以來，RL領域一個趨勢是“反向的scaling law”。AlphaGo需要3000萬對局，到AlphaGo Zero，再到MuZero，對局減少到500萬以下，效率呈指數級提高。

圖片來自 @ZheqingZhu

有意思的是，又是OpenAI實現了工程突破，又是谷歌提供了理論來源，就像上一次是ChatGPT點燃了Transformer的烽火。

在o1發布的一個月前，DeepMind的論文《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》與o1模型原理幾乎一致，提出增加測試時計算比擴展模型參數更有效。

谷歌在2024年初發布的《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》也提出類似觀點，傳統Transformer模型擅長并行計算，用CoT突破其串行邏輯推理的限制。

但為什么不是谷歌摘得果實呢？這又是另一個問題了，或許涉及到大廠的工作考核、組織模式、業務牽制等等。谷歌的員工大概率也為此忿懣。

去年兩位DeepMind核心研究員Misha Laskin和Ioannis Antonoglou為了更快地追趕AGI的時間窗口，離職創辦Reflection AI，創業方向正是基于RL+LLMs的通用Agent。

顯而易見，整個大模型業界都進入了新的心照不宣硝煙四起的競賽中。終點大家都看到了，但后來者誰能率先到達？

答案是，來自純中國本土團隊的DeepSeek。

這里就不再贅述DeepSeek在其他方面的創新（有興趣的可以點開前文），只看它如何實現“深度思考”。

此前OpenAI雖然展示了o1的推理能力，但有意把推理的詳細過程隱藏掉了，以防止其他模型復制它的數據。因此深度思考能力仍是一個黑盒，其他團隊也只能從頭研究。破解的難點除了數據、基礎模型，更在于RL環境通常不完美，且難以準確指定獎勵函數。如果獎勵機制有噪聲，就很容易被reward hacking，能力卻沒能真正提升。

就像LLM們此前在做RLHF時，這種現象普遍存在，甚至出現越訓練模型越笨的情況。

（不同的目標函數都存在過度優化，模型性能先升后降）

RLHF依靠人類的反饋，并不是一個明確的簡潔的規則。且RLHF很多部分，是為了實現alignment，為了更像人，而不是更智能。這正是這個原因，OpenAI聯合創始人Andrej Karpathy認為，RLHF并不是真正的RL，只是人類偏好的代理，而非真正的獎勵函數。

DeepSeek-R1-Zero把黑盒的秘密大張旗鼓地公布給了所有人。它提出了一種完全跳過人類監督微調的模型，純粹通過RL獲得有效學習和泛化的能力。它的獎勵函數簡單到不可思議，只包括兩部分，針對數學問題的“準確性獎勵”和規定思考過程要置于 '' 和 '' 標簽之間的“格式獎勵”。

（R1-Zero在AIME 2024基準測試中，隨著RL訓練的推進，性能穩定性和一致性得到增強。）

這種極簡的獎勵機制，回過頭來看，像極了AlphaGo。而幾年前被指“空洞”的“Reward is Enough”觀點，似乎也得到了一些驗證：DeepSeek創造了適合的策略，找到了適合的獎勵函數，于是R1-Zero獲得理性思考的能力，“頓悟時刻”降臨了。

隨著擁有通用知識的LLM，插上了擅長抽象邏輯、自主推理決策的RL翅膀，兩者互補，AI的智能程度顯著提高。這簡直是目前為止完美的解決方案。

還記得楊樂昆在2016年提出的那個非常著名的蛋糕梗嗎？“如果智能是一塊蛋糕，那么無監督學習是蛋糕的主體，監督學習是糖霜，強化學習（RL）只是頂上的櫻桃。”

他本意是強調無監督學習（后來他變成自監督學習）的重要性，從可用的任意信息預測過去、現在或未來的情況，順便諷刺一下RL。這也是連接主義的學者嘲笑RL的習慣性動作。

被刺激到的DeepMind的研究人員，曾經還回敬他了一張綴滿櫻桃的蛋糕圖。

不過，這個諷刺意味的meme，反而成了當下情形的正面預言。

OpenAI Deep Research的研究員Josh Tobin很好地描述了這個趨勢：我們2015年、2016年搞RL研究時進展受限，是在沒有“蛋糕”的情況下加“櫻桃”。但現在我們有了在大量數據上預訓練的強大語言模型，RL終于迎來了合適的發展時機，AGI Agent和復雜決策也更加高效和可行。

奧特曼（Sam Altman）稱未來發布的GPT-5，將是兩條線合并起來的“神奇的統一智能”，將根據任務自行決定是快速回答，還是進行深入分析思考。

就像Ilya Sutskever曾提出的比喻，大多數哺乳動物的大腦體重比遵循一定規律，但人進化出了新路徑，大腦比重更大。AI也會找到突破預訓練模式的新方向。

根據DeepSeek的預告，RL提升大模型智能的潛力顯然遠未窮盡。下一波AI突破才剛剛開始。

《我們最終能用上Manus嗎》

《當店播成為新常態，下一步會是什么？》

《你可能用了假的DeepSeek》

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.