<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      從蟄伏到王炸,RL啟示錄

      0
      分享至


      “如果人工智能是一塊蛋糕,那么無監(jiān)督學(xué)習(xí)是蛋糕的主體,監(jiān)督學(xué)習(xí)是糖霜,強(qiáng)化學(xué)習(xí)(RL)只是頂上的櫻桃。”

      全文共 6255 字,閱讀大約需要 16 分鐘

      作者 | 賈陽

      強(qiáng)化學(xué)習(xí)(Reinforcement Learning),重新變得性感了。

      就在3月5日,2025年的圖靈獎(jiǎng)?lì)C給了強(qiáng)化學(xué)習(xí)的兩位理論奠基者——安德魯·巴托(Andrew Barto)和理查德·薩頓(Richard Sutton)。


      這次頒獎(jiǎng),像是一個(gè)不斷放大的信號(hào),揭示了一個(gè)越來越明確的AI研究范式轉(zhuǎn)折——引入RL,AI研究從“快思考”(快答出預(yù)訓(xùn)練的回復(fù))推進(jìn)到“慢思考”(在推理時(shí)深思熟慮)。

      在過去這一年間,RL從一度沉淪的位置,重新走回了AI研究的閃光燈中心。2024年下半年,OpenAI率先發(fā)布了它在LLM基礎(chǔ)上,用RL實(shí)現(xiàn)“深度思考”的成果——o1,設(shè)定了新的終點(diǎn)線。今年初,DeepSeek將賽道上的迷霧更進(jìn)一步迅速驅(qū)散了,把自己的方案完全開源,在LLM中加入“純RL”,讓R1的推理能力比肩甚至超過o1。關(guān)于RL能幫助通往AGI的共識(shí),迅速凝聚。

      一些RL領(lǐng)域的研究者幾乎要喜極而泣了。



      AlphaGo曾經(jīng)用驚艷的“神之一手”打敗了人類圍棋的最頂尖高手李世石,讓世人第一次大規(guī)模地為AI的智力驚喜以及驚嚇。RL,正是AlphaGo訓(xùn)練的理論基石。

      RL的研究者們認(rèn)為,機(jī)器的學(xué)習(xí),可以類比人類,就像多巴胺激勵(lì)神經(jīng)元,機(jī)器也能通過與環(huán)境的反饋互動(dòng)不斷改進(jìn)提升能力。人的時(shí)間經(jīng)驗(yàn)有限,而機(jī)器不受這些限制,在RL中能夠有超人的潛力。

      這曾經(jīng)一度是人們對(duì)通往AGI的最主流想象。

      但在2020年后,更多的人被“LLMs and scaling laws are all you need”吸引走了。大語言模型,以及越來越龐大的預(yù)訓(xùn)練數(shù)據(jù)集,將AI的智能推進(jìn)到了新的階段,也把不走“大力出奇跡”路線的RL相對(duì)邊緣化了。

      因?yàn)長LM能夠?qū)崿F(xiàn)看起來更通用(general)的智能,而RL只能在獎(jiǎng)懲明確的特殊環(huán)境中訓(xùn)練出“專科”智能,只能“玩游戲”,而無法處理復(fù)雜的現(xiàn)實(shí)環(huán)境。

      在一些論壇的AI板塊討論中,從業(yè)者們明確地感覺到,RL的“市場關(guān)注份額”流失,有人抱怨“找不到RL工作”(I can’t find an RL job)。一些“RL是否走進(jìn)死胡同”的論戰(zhàn)更是非常有意思。RL和LLM的支持者激烈地爭論,誰更好地模仿了人類的自然認(rèn)知模式,誰才更有前途。

      直到大語言模型的scaling law開始碰壁,科技樹上的一場新較量開始了。

      這正是一部人類智慧交替閃耀的故事。通往AGI的路上,原本是一片黑暗,有人提出用刀耕,有人用火種,有人用哲思,都獲得過成就,也遭遇過瓶頸。而在新的障礙面前,這些方法的新組合,把人類帶到了新的起點(diǎn)。

      AlphaGo

      2016年3月的首爾,深度學(xué)習(xí)歷史上最具開創(chuàng)性的時(shí)刻之一正在這里發(fā)生。在擊敗歐洲圍棋冠軍Fan Hui后,AlphaGo正式挑戰(zhàn)全球圍棋冠軍李世石。這被全球媒體視為人類智識(shí)尊嚴(yán)和人工智能的對(duì)決。

      結(jié)果足夠驚悚,AlphaGo以4:1的絕對(duì)優(yōu)勢,戰(zhàn)勝了14次圍棋世界冠軍得主李世石。人類轟轟烈烈地落敗了。

      在第二局的第37手,AlphaGo出了讓所有人都困惑不已的一招,落在第五線,而非傳統(tǒng)最優(yōu)選的第三線。解說室懵了,一位評(píng)論員稱不知是好是壞,另一位說“這是一個(gè)錯(cuò)誤。”

      第37手出現(xiàn)的概率是萬分之一。在AlphaGo的研究員看來,沒有人類會(huì)這么下,但這一手仍然是正確的,“它通過內(nèi)省過程發(fā)現(xiàn)了這一點(diǎn)。”同樣在觀戰(zhàn)的Fan Hui評(píng)價(jià)這是“神之一手”。


      右側(cè)新落的黑子,為AlphaGo的傳奇第37手

      AlphaGo戰(zhàn)勝李世石,一下子讓AI在公眾認(rèn)知中爆發(fā)了,AI迎來了前所未有的希望和期待,甚至讓大眾第一次真正恐懼“AI比人更聰明”。RL的巨大潛力,恐怖如斯。

      谷歌的核心高管悉數(shù)到達(dá)首爾,來見證這個(gè)“代表谷歌互聯(lián)網(wǎng)業(yè)務(wù)未來”的AI技術(shù)。這場比賽對(duì)谷歌非常重要。

      谷歌是2010年代那一波歷史性的AI人才爭奪戰(zhàn)的最積極下注方。辛頓(Geoffrey Hinton)僅用4顆GPU和更好的神經(jīng)網(wǎng)絡(luò)算法,就把谷歌用了16000顆CPU的“谷歌貓”踩在腳下,震驚業(yè)界。谷歌毫不吝惜地以4400萬美元拍下辛頓三人的純智力公司,又砸了4億英鎊把英國初創(chuàng)公司DeepMind納入麾下。

      DeepMind當(dāng)時(shí)展現(xiàn)給谷歌的RL路線,并不是谷歌當(dāng)時(shí)的神經(jīng)網(wǎng)絡(luò)做圖像識(shí)別、音頻理解等研究方向。但創(chuàng)始人哈薩比斯(Demis Hassabis)聚集了當(dāng)時(shí)最好的一批人才,這非常珍貴,哈薩比斯和不少同事都算是辛頓的學(xué)生。更重要的是,哈薩比斯曾用“圍棋”和“打造人腦一樣的通用人工智能”成功說服彼得·蒂爾(Peter Thiel)投了140萬英鎊,也讓谷歌相信了RL讓DeepMind構(gòu)建了一個(gè)系統(tǒng),這是在通用人工智能方面的第一次真正嘗試。

      攻克古老的圍棋,是DeepMind向谷歌證明自己的第一步。哈薩比斯是一個(gè)愛玩游戲的學(xué)霸,他研究AI,把兩個(gè)愛好完美結(jié)合,把AI扔進(jìn)游戲里,反復(fù)試錯(cuò),直到它玩得比人類更好。

      AlphaGo有兩個(gè)神經(jīng)網(wǎng)絡(luò),一個(gè)負(fù)責(zé)策略,輸出下一步落子的概率;另一個(gè)是價(jià)值網(wǎng)絡(luò),來輸出落子的勝率。AlphaGo初始學(xué)習(xí)了3000萬步圍棋專家的下法,然后一場接一場地與自己對(duì)抗,分析哪些下法是更有利的,飛速進(jìn)步。

      在后續(xù)的版本AlphaGo Zero中,DeepMind把RL進(jìn)一步做到極致——不再提供海量對(duì)弈棋局的初始數(shù)據(jù),僅告知基本規(guī)則,由它自我對(duì)弈數(shù)百萬次,發(fā)現(xiàn)獲勝策略。AlphaGo Zero經(jīng)過3天的訓(xùn)練,就獲得了比擊敗李世石的版本更強(qiáng)的能力,與后者對(duì)弈的勝率是100比0。

      而AlphaGo Zero遠(yuǎn)比AlphaGo強(qiáng)大的原因,正在于RL占比提高了。取名為Zero,也暗示了它是真正從零做起,完全自學(xué)成才。


      一時(shí)間,DeepMind的論文《Mastering the game of go without human knowledge》火得發(fā)燙。該論文稱,即便是在最具挑戰(zhàn)性的領(lǐng)域中,單純使用RL的方法也是完全可行的:沒有人類實(shí)例或指導(dǎo),沒有基本規(guī)則之外的知識(shí),訓(xùn)練達(dá)到超人的性能是完全可能的。

      AlphaGo Zero更加簡潔優(yōu)美。AlphaGo的初始版本需要176個(gè)GPU和1202個(gè)CPU,AlphaGo Zero只需要一臺(tái)機(jī)器和4個(gè)TPU。

      AlphaGo Zero將RL的路線帶到業(yè)界熱情的頂峰。在2018年12月,AlphaGo Zero登上了《科學(xué)》雜志封面。《科學(xué)》雜志給出了這樣一句評(píng)價(jià),“能夠解決多個(gè)復(fù)雜問題的單一算法,是創(chuàng)建通用機(jī)器學(xué)習(xí)系統(tǒng),解決實(shí)際問題的重要一步。”

      DeepMind商業(yè)計(jì)劃書的第一行,就是通用人工智能。當(dāng)時(shí)的巨大成功,讓哈薩比斯更加確認(rèn)了DeepMind的使命,“這是我們開發(fā)通用算法的一大進(jìn)步”。

      DeepMind繼續(xù)研究如何把提升AlphaGo,把它的能力遷移到其他領(lǐng)域。AlphaGo Zero更加通用,除了圍棋還輕松地在國際象棋、日本將棋領(lǐng)域達(dá)到頂尖水平。AlphaFold在預(yù)測蛋白質(zhì)結(jié)構(gòu)上成就斐然,哈薩比斯還因此獲得了諾貝爾化學(xué)獎(jiǎng)。AlphaStar能玩《星際爭霸II》。

      業(yè)界對(duì)這一探索方向也懷抱著巨大的希望。RL相關(guān)論文激增。在機(jī)器人、自動(dòng)駕駛、儲(chǔ)能等行業(yè),RL是一種非常合適的訓(xùn)練學(xué)習(xí)路徑,行業(yè)研究也越來越深入。


      僅統(tǒng)計(jì)了arXiv,制圖20社

      “死胡同”

      辛頓對(duì)哈薩比斯個(gè)人的聰明程度評(píng)價(jià)甚高,稱“他的實(shí)力不僅在智力上,還展現(xiàn)在他對(duì)勝利極端且堅(jiān)定不移的渴望上”。辛頓曾經(jīng)在英國當(dāng)過哈薩比斯短暫的導(dǎo)師,在2014年谷歌收購DeepMind時(shí)還專門克服了腰椎間盤病痛無法乘民航飛機(jī)的困難,到倫敦提供了關(guān)鍵的科學(xué)顧問。

      但這位連接主義的大拿,對(duì)哈薩比斯認(rèn)定的RL路線并不認(rèn)可。

      2018年,辛頓和楊樂昆(Yann LeCun)、約書亞·本吉奧(Yoshua Bengio)憑神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)獲得圖靈獎(jiǎng)。在獲獎(jiǎng)后演講中,辛頓開玩笑地要把RL排除在機(jī)器學(xué)習(xí)方法之外,因?yàn)椤?strong>被稱為強(qiáng)化學(xué)習(xí)的第三種方法不太有效。”RL需要太多的數(shù)據(jù)和太多的處理能力,才能完成真實(shí)世界中的實(shí)際任務(wù)。


      要理解他們之間的分歧,我們需要了解一些背景框架。

      在AI的漫長探索中,研究者們都在試圖用人類認(rèn)知世界的方式(本質(zhì)),去建構(gòu)機(jī)器智能的框架(模仿)。因此AI的理論演進(jìn),一直是和人類心理學(xué)、腦科學(xué)、神經(jīng)科學(xué)、哲學(xué)和語言學(xué)的發(fā)展互相糾葛。對(duì)本質(zhì)的不同認(rèn)知,也讓AI研究者分化為主要的三大流派。

      符號(hào)主義(Symbolicism)認(rèn)為,人的認(rèn)知單元是符號(hào),主張通過公理邏輯和符號(hào)操作來模擬人類的智能。一度是最先獲得實(shí)踐應(yīng)用、最風(fēng)靡的流派。IBM的“深藍(lán)”打敗了國際象棋世界冠軍,本質(zhì)上是符號(hào)主義的成果。

      連接主義(Connectionism)來源于仿生學(xué),主張通過模擬人腦神經(jīng)元的連接方式來實(shí)現(xiàn)人工智能。如今AI領(lǐng)域最宗師級(jí)的幾個(gè)大牛——辛頓和楊樂昆是扛鼎者,神經(jīng)網(wǎng)絡(luò)就是模仿人腦的產(chǎn)物,也是現(xiàn)在最主流的理論派別。

      行為主義(Actionism)關(guān)注行為和刺激之間的關(guān)系,讓機(jī)器通過與環(huán)境交互來學(xué)習(xí)和改進(jìn)其行為。這也就是RL所屬的流派。


      圖片來源于網(wǎng)絡(luò)

      事實(shí)上,RL的發(fā)展歷程非常曲折,經(jīng)歷了多次長久的寒冬和等待。

      最早在在1950年,艾倫·圖靈(Alan Turing)提出了RL初步的設(shè)想,一種基于獎(jiǎng)勵(lì)和懲罰的機(jī)器學(xué)習(xí)方法。

      在這個(gè)想法的基礎(chǔ)上,幾十年后的1980年代,AI的寒冬中,巴托與薩頓在麻省理工默默搭建了RL的理論框架和算法體系。他們最核心的貢獻(xiàn)莫過于時(shí)間差分學(xué)習(xí)算法,它解決了獎(jiǎng)勵(lì)預(yù)測的問題,agent如何獲得長期收益。

      又過了40年,巴托與薩頓憑借對(duì)強(qiáng)化學(xué)習(xí)的研究,獲得了圖靈獎(jiǎng)的遲到獎(jiǎng)勵(lì)。


      RL的進(jìn)展受制于算法、算力、數(shù)據(jù)三大瓶頸。DeepMind能夠用RL創(chuàng)造出震驚世界的AlphaGo,有一個(gè)重要原因是,它把辛頓等連接主義學(xué)者的成果“神經(jīng)網(wǎng)絡(luò)”借過來了。AlphaGo由兩個(gè)13層的深度神經(jīng)網(wǎng)絡(luò)構(gòu)成。

      神經(jīng)網(wǎng)絡(luò)和泛化能力的引入,從根本上改變了RL。傳統(tǒng)的RL,依賴于表格的方法(如Q-learning)和動(dòng)態(tài)編程,通常需要窮舉所有可能的狀態(tài)和動(dòng)作組合,計(jì)算上難以實(shí)現(xiàn)。而神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)數(shù)據(jù)中的模式和特征,對(duì)新的狀態(tài)進(jìn)行有效的預(yù)測。因此DeepMind后來也把自己的研究稱為“深度強(qiáng)化學(xué)習(xí)”。

      第4代的AlphaMuZero可以自己學(xué)會(huì)玩圍棋、國際象棋、日本將棋和Atari游戲,還被用來幫YouTube尋找視頻壓縮的更優(yōu)算法。比前幾代更“通用”了,更夠應(yīng)對(duì)更多不確定環(huán)境。

      但是經(jīng)過神經(jīng)網(wǎng)絡(luò)加強(qiáng)過后的RL,依然是RL。Mu的應(yīng)用還是在有限的游戲環(huán)境中。

      AGI需要AI能應(yīng)對(duì)不同的任務(wù),而不是只在單一任務(wù)中做到極致。

      在2021年,AlphaGo系列的負(fù)責(zé)人David Silver和RL奠基人薩頓聯(lián)手發(fā)了另一篇文章,《Reward is Enough》,跟神經(jīng)網(wǎng)絡(luò)領(lǐng)域的劃時(shí)代論文《Attention is all you need》有異曲同工的修辭。

      Silver等人認(rèn)為,一個(gè)簡單而強(qiáng)大的原則“獎(jiǎng)勵(lì)最大化”下,具備出色智能的agent能夠“適者生存”,習(xí)得知識(shí)、學(xué)習(xí)、感知、社交智能、語言、泛化能力和模仿能力。簡而言之,RL將促進(jìn)AGI的實(shí)現(xiàn)。這像是把自然界的進(jìn)化論,搬到了AI領(lǐng)域。

      但這一理論遭遇了業(yè)界很多的質(zhì)疑和批評(píng),因?yàn)樗撤N程度上非常“空洞”,且論文中提到的泛化,仍難以在實(shí)踐中獲得突破進(jìn)展。

      強(qiáng)化學(xué)習(xí)是死胡同(RL is a dead-end)之類的討論在AI社區(qū)越來越頻繁。圍棋等游戲天然適合RL。但在開放性環(huán)境中,獎(jiǎng)勵(lì)目標(biāo)或環(huán)境的細(xì)微變化,就會(huì)導(dǎo)致整個(gè)系統(tǒng)徹底失敗,或者需要重新訓(xùn)練。監(jiān)督學(xué)習(xí)效果是穩(wěn)定的,但RL根本不穩(wěn)定。人類設(shè)定的獎(jiǎng)勵(lì),經(jīng)過RL的黑盒子,可能會(huì)導(dǎo)向無法預(yù)知的離譜行為。

      去年從DeepMind離職創(chuàng)業(yè)的科學(xué)家Misha Laskin認(rèn)為,RL進(jìn)展停留在了超人類、但極度狹窄的智能體層面,缺乏明確路徑來拓展通用性。“如果單一任務(wù)上都要實(shí)現(xiàn)六億步的訓(xùn)練,又從哪獲取足夠數(shù)據(jù)來覆蓋所有任務(wù)呢?”

      Google DeepMind的研究員Kimi Kong最近在真格基金播客中稱,在2019年之后,RL在算法層面就沒有更多的長足進(jìn)步了。

      這種迷茫和低落實(shí)際上蔓延在整個(gè)RL社區(qū)。尤其在ChatGPT發(fā)布后,LLM展現(xiàn)出來的泛化能力,讓RL開始失去資本和產(chǎn)業(yè)的聚光燈,甚至在一些人看來,是被趕回了象牙塔。


      2024年8月,DeepMind的一次學(xué)校講座。RL的關(guān)注度在LLM浪潮中跌入低谷,但DeepMind仍堅(jiān)信RL

      蛋糕上的櫻桃

      大語言模型如日中天,但它的頭頂也飄著幾朵烏云。

      在2024年底的AI峰會(huì)NeurIPS上,OpenAI聯(lián)合創(chuàng)始人兼前首席科學(xué)家Ilya Sutskever宣稱,預(yù)訓(xùn)練時(shí)代即將終結(jié)(Pre-training as we know it will end),這將已經(jīng)籠罩在行業(yè)頭頂?shù)膕caling law碰壁焦慮徹底一語道破。

      AI的訓(xùn)練數(shù)據(jù),正在枯竭。而擴(kuò)大訓(xùn)練數(shù)據(jù)量級(jí)提升智能的邊際效應(yīng)也在遞減。


      此外,LLM天生不擅長數(shù)學(xué)和物理。因?yàn)長LM本質(zhì)上仍是基于語言模式,而科學(xué)原理和人類的決策從根本上講是抽象的,超越了語言或像素的表達(dá)范疇。

      怎么辦呢?

      OpenAI率先給出了方案。去年年中發(fā)布的o1模型,不是一味擴(kuò)大預(yù)訓(xùn)練規(guī)模,而是用RL結(jié)合CoT(思維鏈)技術(shù),實(shí)現(xiàn)了深度推理,將大模型的智能又推上一個(gè)新的臺(tái)階。一個(gè)新的范式也出現(xiàn)了,AI研究開始從“快思考”(快速給出預(yù)訓(xùn)練的答案)遷移到“慢思考”(深思熟慮地推理)。

      RL的優(yōu)點(diǎn)在此時(shí)盡顯優(yōu)勢。其一,RL(在給定環(huán)境下)需要的數(shù)據(jù)量遠(yuǎn)小于LLM。其二,RL善于在環(huán)境中自主探索、動(dòng)態(tài)學(xué)習(xí)、連續(xù)決策。

      據(jù)RL研究者、Pokee AI的創(chuàng)始人Zheqing Zhu的演講,從90年代以來,RL領(lǐng)域一個(gè)趨勢是“反向的scaling law”。AlphaGo需要3000萬對(duì)局,到AlphaGo Zero,再到MuZero,對(duì)局減少到500萬以下,效率呈指數(shù)級(jí)提高。


      圖片來自 @ZheqingZhu

      有意思的是,又是OpenAI實(shí)現(xiàn)了工程突破,又是谷歌提供了理論來源,就像上一次是ChatGPT點(diǎn)燃了Transformer的烽火。

      在o1發(fā)布的一個(gè)月前,DeepMind的論文《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》與o1模型原理幾乎一致,提出增加測試時(shí)計(jì)算比擴(kuò)展模型參數(shù)更有效。

      谷歌在2024年初發(fā)布的《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》也提出類似觀點(diǎn),傳統(tǒng)Transformer模型擅長并行計(jì)算,用CoT突破其串行邏輯推理的限制。

      但為什么不是谷歌摘得果實(shí)呢?這又是另一個(gè)問題了,或許涉及到大廠的工作考核、組織模式、業(yè)務(wù)牽制等等。谷歌的員工大概率也為此忿懣。

      去年兩位DeepMind核心研究員Misha Laskin和Ioannis Antonoglou為了更快地追趕AGI的時(shí)間窗口,離職創(chuàng)辦Reflection AI,創(chuàng)業(yè)方向正是基于RL+LLMs的通用Agent。

      顯而易見,整個(gè)大模型業(yè)界都進(jìn)入了新的心照不宣硝煙四起的競賽中。終點(diǎn)大家都看到了,但后來者誰能率先到達(dá)?

      答案是,來自純中國本土團(tuán)隊(duì)的DeepSeek。

      這里就不再贅述DeepSeek在其他方面的創(chuàng)新(有興趣的可以點(diǎn)開前文),只看它如何實(shí)現(xiàn)“深度思考”。

      此前OpenAI雖然展示了o1的推理能力,但有意把推理的詳細(xì)過程隱藏掉了,以防止其他模型復(fù)制它的數(shù)據(jù)。因此深度思考能力仍是一個(gè)黑盒,其他團(tuán)隊(duì)也只能從頭研究。破解的難點(diǎn)除了數(shù)據(jù)、基礎(chǔ)模型,更在于RL環(huán)境通常不完美,且難以準(zhǔn)確指定獎(jiǎng)勵(lì)函數(shù)。如果獎(jiǎng)勵(lì)機(jī)制有噪聲,就很容易被reward hacking,能力卻沒能真正提升。

      就像LLM們此前在做RLHF時(shí),這種現(xiàn)象普遍存在,甚至出現(xiàn)越訓(xùn)練模型越笨的情況。


      (不同的目標(biāo)函數(shù)都存在過度優(yōu)化,模型性能先升后降)

      RLHF依靠人類的反饋,并不是一個(gè)明確的簡潔的規(guī)則。且RLHF很多部分,是為了實(shí)現(xiàn)alignment,為了更像人,而不是更智能。這正是這個(gè)原因,OpenAI聯(lián)合創(chuàng)始人Andrej Karpathy認(rèn)為,RLHF并不是真正的RL,只是人類偏好的代理,而非真正的獎(jiǎng)勵(lì)函數(shù)。

      DeepSeek-R1-Zero把黑盒的秘密大張旗鼓地公布給了所有人。它提出了一種完全跳過人類監(jiān)督微調(diào)的模型,純粹通過RL獲得有效學(xué)習(xí)和泛化的能力。它的獎(jiǎng)勵(lì)函數(shù)簡單到不可思議,只包括兩部分,針對(duì)數(shù)學(xué)問題的“準(zhǔn)確性獎(jiǎng)勵(lì)”和規(guī)定思考過程要置于 '' 和 '' 標(biāo)簽之間的“格式獎(jiǎng)勵(lì)”。


      (R1-Zero在AIME 2024基準(zhǔn)測試中,隨著RL訓(xùn)練的推進(jìn),性能穩(wěn)定性和一致性得到增強(qiáng)。)

      這種極簡的獎(jiǎng)勵(lì)機(jī)制,回過頭來看,像極了AlphaGo。而幾年前被指“空洞”的“Reward is Enough”觀點(diǎn),似乎也得到了一些驗(yàn)證:DeepSeek創(chuàng)造了適合的策略,找到了適合的獎(jiǎng)勵(lì)函數(shù),于是R1-Zero獲得理性思考的能力,“頓悟時(shí)刻”降臨了。

      隨著擁有通用知識(shí)的LLM,插上了擅長抽象邏輯、自主推理決策的RL翅膀,兩者互補(bǔ),AI的智能程度顯著提高。這簡直是目前為止完美的解決方案。

      還記得楊樂昆在2016年提出的那個(gè)非常著名的蛋糕梗嗎?“如果智能是一塊蛋糕,那么無監(jiān)督學(xué)習(xí)是蛋糕的主體,監(jiān)督學(xué)習(xí)是糖霜,強(qiáng)化學(xué)習(xí)(RL)只是頂上的櫻桃。”

      他本意是強(qiáng)調(diào)無監(jiān)督學(xué)習(xí)(后來他變成自監(jiān)督學(xué)習(xí))的重要性,從可用的任意信息預(yù)測過去、現(xiàn)在或未來的情況,順便諷刺一下RL。這也是連接主義的學(xué)者嘲笑RL的習(xí)慣性動(dòng)作。


      被刺激到的DeepMind的研究人員,曾經(jīng)還回敬他了一張綴滿櫻桃的蛋糕圖。

      不過,這個(gè)諷刺意味的meme,反而成了當(dāng)下情形的正面預(yù)言。

      OpenAI Deep Research的研究員Josh Tobin很好地描述了這個(gè)趨勢:我們2015年、2016年搞RL研究時(shí)進(jìn)展受限,是在沒有“蛋糕”的情況下加“櫻桃”。但現(xiàn)在我們有了在大量數(shù)據(jù)上預(yù)訓(xùn)練的強(qiáng)大語言模型,RL終于迎來了合適的發(fā)展時(shí)機(jī),AGI Agent和復(fù)雜決策也更加高效和可行。

      奧特曼(Sam Altman)稱未來發(fā)布的GPT-5,將是兩條線合并起來的“神奇的統(tǒng)一智能”,將根據(jù)任務(wù)自行決定是快速回答,還是進(jìn)行深入分析思考。

      就像Ilya Sutskever曾提出的比喻,大多數(shù)哺乳動(dòng)物的大腦體重比遵循一定規(guī)律,但人進(jìn)化出了新路徑,大腦比重更大。AI也會(huì)找到突破預(yù)訓(xùn)練模式的新方向。

      根據(jù)DeepSeek的預(yù)告,RL提升大模型智能的潛力顯然遠(yuǎn)未窮盡。下一波AI突破才剛剛開始。


      《我們最終能用上Manus嗎》

      《當(dāng)?shù)瓴コ蔀樾鲁B(tài),下一步會(huì)是什么?》

      《你可能用了假的DeepSeek》

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      三亞不香了?東北人撤離成潮,壓垮他們的不是物價(jià),而是生活現(xiàn)實(shí)

      三亞不香了?東北人撤離成潮,壓垮他們的不是物價(jià),而是生活現(xiàn)實(shí)

      歷史有些冷
      2025-12-04 20:20:06
      蚊香社十大花旦,你最鐘意誰?

      蚊香社十大花旦,你最鐘意誰?

      吃瓜黨二號(hào)頭目
      2025-12-15 09:51:07
      金正恩公開承認(rèn):朝鮮士兵在俄羅斯?fàn)奚?20天海外行動(dòng)細(xì)節(jié)曝光

      金正恩公開承認(rèn):朝鮮士兵在俄羅斯?fàn)奚?20天海外行動(dòng)細(xì)節(jié)曝光

      科普100克克
      2025-12-14 18:02:29
      澤連斯基訪德談“有尊嚴(yán)的和平”

      澤連斯基訪德談“有尊嚴(yán)的和平”

      環(huán)球時(shí)報(bào)國際
      2025-12-15 09:56:11
      文班亞馬你太狠了,22分鐘打爆16連勝雷霆,2.5億頂薪穩(wěn)了

      文班亞馬你太狠了,22分鐘打爆16連勝雷霆,2.5億頂薪穩(wěn)了

      大西體育
      2025-12-14 14:30:27
      收到工資1002415.13元,愛你華為。

      收到工資1002415.13元,愛你華為。

      純潔的微笑
      2025-12-12 21:29:39
      【歐洲】最大妓院,竟然成了中國富豪移民德國的核心基地?瓜有點(diǎn)大...

      【歐洲】最大妓院,竟然成了中國富豪移民德國的核心基地?瓜有點(diǎn)大...

      魯曉芙看歐洲
      2025-11-24 03:57:20
      父母回應(yīng)向佐痛哭,向太稱他是哭自己太笨,向華強(qiáng):40歲還年輕

      父母回應(yīng)向佐痛哭,向太稱他是哭自己太笨,向華強(qiáng):40歲還年輕

      小海娛計(jì)
      2025-12-13 17:43:12
      中日稀土博弈升級(jí),高市坐不住了,亮出藏了14年的底牌?

      中日稀土博弈升級(jí),高市坐不住了,亮出藏了14年的底牌?

      北向財(cái)經(jīng)
      2025-12-14 11:15:14
      尤文啃下硬骨頭 斯帕萊蒂拿到“最重要的勝利”

      尤文啃下硬骨頭 斯帕萊蒂拿到“最重要的勝利”

      體壇周報(bào)
      2025-12-15 10:48:14
      何家勁發(fā)文悼念何晴,廖京生沒有和何晴結(jié)婚,只是和許亞軍長得像

      何家勁發(fā)文悼念何晴,廖京生沒有和何晴結(jié)婚,只是和許亞軍長得像

      史行途
      2025-12-15 09:34:04
      賴清德造訪陸配面館,郭正亮揭1事讓人火大

      賴清德造訪陸配面館,郭正亮揭1事讓人火大

      新時(shí)光點(diǎn)滴
      2025-12-15 07:26:03
      反轉(zhuǎn)!拒絕交易!雄鹿隊(duì)正式更名密爾沃基字母哥隊(duì)!

      反轉(zhuǎn)!拒絕交易!雄鹿隊(duì)正式更名密爾沃基字母哥隊(duì)!

      一路荒涼如歌a
      2025-12-14 20:51:07
      何晴去世最大的巧合

      何晴去世最大的巧合

      藍(lán)鉆故事
      2025-12-14 23:39:47
      哭窮炫富,“知三當(dāng)三”,裝了10年的吉克雋逸,還是“自食惡果”

      哭窮炫富,“知三當(dāng)三”,裝了10年的吉克雋逸,還是“自食惡果”

      顧史
      2025-12-12 14:59:24
      45分慘敗,淪為東部第11名!字母哥失望透頂,離開雄鹿進(jìn)入倒計(jì)時(shí)

      45分慘敗,淪為東部第11名!字母哥失望透頂,離開雄鹿進(jìn)入倒計(jì)時(shí)

      籃球圈里的那些事
      2025-12-15 10:56:46
      炸裂!陳若琳被曝和楊旭文已訂婚!多個(gè)同框照被扒,楊旭文秒回應(yīng)

      炸裂!陳若琳被曝和楊旭文已訂婚!多個(gè)同框照被扒,楊旭文秒回應(yīng)

      探源歷史
      2025-12-04 07:54:51
      深圳樓市驚現(xiàn)“平行世界”:豪宅狂歡,剛需入冬

      深圳樓市驚現(xiàn)“平行世界”:豪宅狂歡,剛需入冬

      新浪財(cái)經(jīng)
      2025-12-14 23:26:46
      兩性關(guān)系:到了六十歲,如果你還想多活幾年,一定要牢記這5句話

      兩性關(guān)系:到了六十歲,如果你還想多活幾年,一定要牢記這5句話

      荷蘭豆愛健康
      2025-12-15 08:30:22
      比上緯新材還猛?商業(yè)航天重組第一黑馬  6元+70億市值+AI+核能

      比上緯新材還猛?商業(yè)航天重組第一黑馬 6元+70億市值+AI+核能

      元芳說投資
      2025-12-15 06:00:08
      2025-12-15 12:07:00
      20社 incentive-icons
      20社
      關(guān)注年輕人的錢包、工作和生活。
      151文章數(shù) 65關(guān)注度
      往期回顧 全部

      科技要聞

      平價(jià)數(shù)碼產(chǎn)品,要和我們說再見了?

      頭條要聞

      巨頭裁員史無前例 員工發(fā)現(xiàn)同事"消失":杯子還在桌上

      頭條要聞

      巨頭裁員史無前例 員工發(fā)現(xiàn)同事"消失":杯子還在桌上

      體育要聞

      戰(zhàn)勝完全體雷霆,馬刺“瘋狂動(dòng)物城”只是半成品

      娛樂要聞

      黃綺珊在何晴去世首發(fā),10年悄悄祈福

      財(cái)經(jīng)要聞

      新會(huì)陳皮亂象曝光:產(chǎn)地造假、年份速成

      汽車要聞

      奔馳小G諜照,或搭混動(dòng)或燃油動(dòng)力

      態(tài)度原創(chuàng)

      游戲
      教育
      健康
      公開課
      軍事航空

      曝《半條命3》將護(hù)航Steam machine!或春季上線

      教育要聞

      補(bǔ)課的孩子,在為誰努力?

      甲狀腺結(jié)節(jié)到這個(gè)程度,該穿刺了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      澤連斯基稱烏方已妥協(xié)不加入北約 俄方發(fā)聲

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 3P性视频| 国产日产亚洲系列最新| 乱人伦中文无码视频在线观看| 最新的国产成人精品2020| 狠狠色婷婷久久综合频道日韩| 国产精品久久久久久久久免费无码| 亚洲?无码?人妻| 国产女高清在线看免费观看| 最新国产精品亚洲| 丝袜美腿视频一区二区三区| 国产在线精品熟女| 亚洲踪合一二三| 人妻无码一区二区三区免费| 最新的国产成人精品2020| 精品自拍网| 亚洲天堂人妻| 国产精品久久久久久影视| 天堂av在线一区二区| 69久蜜桃人妻无码精品一区| 国产口爆吞精在线视频| 亚洲欧洲自拍拍偷精品 美利坚| 国产乱弄免费视频观看| 日韩性色| 国产午夜精品久久久久免费视 | 亚洲视屏| 亚洲又粗又大| 会同县| 亚洲国产精品久久久久秋霞影院 | 丁香婷婷综合激情五月色 | 国产sm重味一区二区三区| 国产老熟女伦老熟妇露脸| 成人精品人妻一区| 色午夜一av男人的天堂| 精品午夜福利短视频一区| 欧美顶级metart祼体全部自慰| 欧美中文字幕人妻系列| 精品深夜av无码一区二区老年 | 少妇AV在线| 99精品中文| 天天干天天日| 天天做天天爱夜夜爽女人爽|