<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AReaL:?推理大模型的訓練解耦,可中斷的數據生成和配套的解耦PPO目標函數

      0
      分享至

      距離ChatGPT發布已經過去兩年多了,現在的主流大模型已經很不同了,最大的區別就是推理Reasoning能力的發掘和應用。

      什么是推理?舉一個很簡單的例子。比如有一道很簡單的數學題,27+62=?,傳統大模型(LLM,Large Language Model)碰到這種題會調用自己的記憶和檢索能力,從海量的數據庫里找到27+62 = 89 或者62+27 = 89這種結果,然后輸出正確答案。

      而推理大模型(LRM,Large Reasoning Model)處理這種問題的思路不一樣,它是真正的在模仿人類的思考方式,首先個位數相加 7+ 2 = 9,不需要進位,然后十位數相加 2+ 6 = 8,最后組合成89這個正確答案。

      你看出區別沒,LRM學到的是真正的通用知識,而LLM更多的是靠腦子硬記,而一旦碰到沒背過的題,很容易就捉瞎了。


      但實際上對于大多數的問題,從結果出發這兩種大模型可能并沒有太多的不同。但是一旦涉及到稍微復雜點的問題,比如高等數學、復雜推理等,那LLM幾乎無從下手。

      其實大家對于LRM應該不陌生,因為幾乎人人都用過LRM,大名鼎鼎的DeepSeek-R1就是典型的LRM,它就是靠火速追趕上OpenAI發布的一個推理模型而聞名于世的。而從LLM->LRM,最重要的一個步驟就叫強化學習RL(Reinforcement Learning),你來看DeepSeek-R1的論文標題,直接就點明了,LLM的推理能力就是靠RL激活的。


      RL是一個好東西,它的訓練邏輯很簡單:先把一堆題目(prompts)一次性“跑完一遍”得到所有的思考鏈和答案,然后把這些完整的數據一次性拿去更新模型。等模型更新好了,再用新模型去下一批題目,重復同樣的流程。

      原理很簡單,但是它麻煩就麻煩在需要大規模訓練的時候,每一批的思考鏈和答案的長度可能相差很大,也就是說,有的回答早就生成好了,但有些距離結束還早,這樣結束了的都在等還在生成的。

      這就正好對應了現在LRM的主流訓練方式,它叫同步(Synchronous)訓練,與之相對的是異步(Asynchronous),同樣的四個工作,同步需要的時間=所有工作的總和,而異步方式就要快很多。

      這就是現在LRM訓練時候的尷尬之處,特別是模型越來越大之后,訓練時間也到了嚴重拖慢進度的程度,更重要的,同步訓練方式會造成大量的資源在等,在AI大模型發展階段,這種行為無異于是浪費最寶貴的算力資源。

      那么總結一下:同步訓練會主要帶來了三個問題:

      • (1)GPU 利用率低

      • (2)訓練周期長

      • (3)難以擴展到更復雜的任務和更長的思考過程

      而清華和螞蟻近期開源的AReaL-boba2就是一項前瞻性的全異步強化學習工作,他們的論文《AREAL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning》,簡稱AReaL(這里其實指的是AReaLv0.3版,研究小組給它命名為AReaL-boba2,以下同)恰恰就是為了解決LRM同步訓練的幾個痛點的,它的解決方案就是利用異步訓練方式,最終實現大規模異步強化學習系統。

      開源地址:

      https://github.com/inclusionAI/AReaL

      論文:

      https://arxiv.org/pdf/2505.24298

      模型:

      https://huggingface.co/collections/inclusionAI/areal-boba-2-683f0e819ccb7bb2e1b2f2d5

      論文中圖一??里面提到了,現有的兩種訓練方式本質上都是同步模式,可以看到每一塊的處理都得等最長的(用時最長)的那個生成任務(藍色條)。


      而實際上第二和第六個任務早就完成了,同步的思路會讓GPU只能處于等待狀態,而改良后的one-step overlap方式其實也差不太多,都得等最長的任務結束。


      而AReaL-boba2最大的貢獻就是把GPU等算力資源用到了極限了,達到了下面的這種效果,幾乎所有算力資源都被用的滿滿當當,這就是LRM訓練的理想狀態。


      而實現AReaL-boba2如此高效的主要原因有兩個:

      • 架構創新

      • 算法創新

      架構創新的主要點就在于下面這個圖,它實現了一個關鍵功能,AReaL-boba2徹底解耦了數據生成與模型訓練過程。這意味著生成工作節點(rollout workers)可以持續不斷地產生新的推理序列,而無需等待其他節點或模型更新;同時,訓練工作節點(trainer workers)一旦收集到足夠的數據批次,即可進行模型參數更新。


      原來的訓練是需要等同一批次的數據生成,然后一次性全部送入下一次訓練,這種固定模式的改變主要歸功于AReaL-boba2提出的Interruptible Rollout Worker,其中interruptible是關鍵,它的意思是可中斷,簡單來說:可中斷生成就是當模型還在“邊想邊寫”某個回答時,如果訓練那邊出了新版本,就會立刻讓它停下來,換上新版本后繼續接著寫。

      這種方式可以把長流程拆成幾段,讓生成和訓練同時進行,彼此不必等對方都結束才開始。


      這就是「異步」實現的架構基礎,這就是徹底的異步,你生成你的,我訓練我的,兩者互不干涉,并且都能以全速開動。

      在論文提供的Github官方代碼庫中的,realhf/system/rollout_worker.py中可以看到這部分的實現邏輯,當模型需要更新權重的時候,rollout會用新的權重來生成數據。


      你也能從partial_rollout文件中看到部分rollout的實現邏輯。


      同時還有配套的Trainer Worker、Rollout Controller 和 Reward Service與可中斷Rollout Worker形成了一個非常靈活的架構,大家通過一個共享的池子來實現信息共享和互換。

      你可以看到這種靈活架構的優勢,算力資源的利用率達到了最大,同時在處理很長的生成回答(長序列)文本也有巨大的優勢。

      當然了這種異步思想并不是第一次出現,在游戲 AI 領域有一些經典異步工作,如 A3C, IMPALA, SEED RL等,他們也有類似的數據生成和模型訓練“隔離”的操作,但是區別也很大,因為大型語言模型推理面臨著兩個獨特的挑戰:

      • 極長的序列長度: LLM 推理(思維鏈)可以產生非常長的 token 序列,這與游戲中通常較短的動作序列不同。

      • 巨大的模型參數: LLM 的參數量遠大于傳統 RL 任務中的模型。

      前兩個挑戰相信大家也都有所了解,那就是現在的LRM動不動就需要消耗1,2萬的token,因為LRM在推理的時候需要花費大量的資源進行思考,特別是在Agent AI的時代,有一些任務單步操作就需要用幾十萬-上百萬的token進行閱讀和思考。另外一個就是模型大小非常大,訓練的時候需要循序漸進,步子太大容易扯著,這樣很容易把大模型搞崩。

      AReaL-boba2在架構層次上的創新也帶來了算法層面的挑戰,有兩個主要的問題:數據陳舊性和解耦PPO算法。


      第一個問題很好理解,以前的同步訓練,生成一批,訓練一批,所有的生成數據都是最新的,AReaL-boba2的異步不同,有些數據是新的,有些數據還是以前的老模型生成的,這就造成了一個問題,那就是如何處理這些老數據。

      實際上,模型每一次的更新幅度并不大,特別是對于LRM來說,動不動訓練幾天,甚至幾個月,每一次的更新幅度帶來的生成數據差別并不大,舊的生成數據價值并不低。AReaL-boba2引入了最大允許陳舊度參數 η。這意味著,如果當前模型版本為 i,則訓練時僅使用由版本i-η 至i-1 的策略生成的數據。系統會優先消耗經驗池中相對較舊但仍在η 范圍內的軌跡,以此確保訓練數據的整體新鮮度在一個可控的滯后范圍內,避免因數據過度陳舊導致學習性能下降,同時最大化異步生成帶來的數據吞吐量。


      第二個問題也是由于異步帶來的,那就是模型會中途更新,所以一個模型的更新可能會受到很多批數據的影響,那到底是新的數據帶來的影響大還是舊的數據,傳統的PPO算法需要這個信息,而AReaL-boba2的創新是承認這條數據是“集體智慧”的產物,它的好壞(優勢)還是看實際效果。在進行PPO學習時,不直接比較當前策略與那條可能由多個舊策略混合生成的復雜數據,而是將當前策略與一個固定的、較新的舊策略版本進行比較和調整,以此來穩定學習過程。


      同樣做了算法消融實驗,標準 PPO 對數據陳舊性非常敏感,即使是很小的陳舊度也會導致性能大幅下降 (下a圖),AReaL 提出的解耦 PPO 目標函數能夠在允許一定程度數據陳舊性(η ≤ 4 甚至 η=8)的情況下,依然保持甚至提升最終的模型性能 (下b圖)。


      可以看到AReal做的算法創新并不是孤立的,而是與異步系統架構是相輔相成的,因為引入了新的結構必定會擾動原有的穩定性,AReal修正了這些變化。

      這也是是AReaL-boba2這個工作的核心價值,它在效率和性能上的突破很明顯,模型大小不變,在AReaL-boba2訓練后,性能得到了明顯的提升,同時訓練時間只有其他方法的一半左右。


      可以說,這個工作在LRM大行其道,并且越來越被Agent AI需要的時代,它未來的工作方向如同論文中所說,會集中在動態資源調配、多輪交互、智能體等)。特別是它對于降低頂尖LRM研發門檻有非常重要的作用,最終實現加速AGI實現的終極愿景。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      老同志借而不還的畫,現估價8800萬現身拍賣會這個老東西究竟是誰

      老同志借而不還的畫,現估價8800萬現身拍賣會這個老東西究竟是誰

      深度報
      2025-12-22 22:36:02
      1-0!鐵衛處子球,曼聯復仇紐卡升英超第五,烏加特甩掉災星帽子

      1-0!鐵衛處子球,曼聯復仇紐卡升英超第五,烏加特甩掉災星帽子

      釘釘陌上花開
      2025-12-27 08:00:23
      RYBAR改口:庫皮揚斯克失守,俄系軍博的“最后防線”也塌了

      RYBAR改口:庫皮揚斯克失守,俄系軍博的“最后防線”也塌了

      老馬拉車莫少裝
      2025-12-24 21:28:37
      央地交流,侯延波赴吉林履新

      央地交流,侯延波赴吉林履新

      吉刻新聞
      2025-12-27 12:18:02
      價格飆升,多地零售價突破10元/斤!年初一斤僅一兩元,網友:雞蛋都快配不上它了……

      價格飆升,多地零售價突破10元/斤!年初一斤僅一兩元,網友:雞蛋都快配不上它了……

      每日經濟新聞
      2025-12-26 10:01:26
      若有一天中日開戰,日退役少將預言三大后果,日本唯一生機曝光?

      若有一天中日開戰,日退役少將預言三大后果,日本唯一生機曝光?

      比利
      2025-12-26 20:59:23
      緊急提醒!這款常用藥或導致自殺傾向

      緊急提醒!這款常用藥或導致自殺傾向

      中國新聞周刊
      2025-12-27 12:29:03
      生殖科最奇葩的事是什么?網友:這個科絕對是最有錢成本最低的科

      生殖科最奇葩的事是什么?網友:這個科絕對是最有錢成本最低的科

      帶你感受人間冷暖
      2025-12-25 00:05:19
      《獻血法》頒布實施至今 全國無償獻血累計3.08億人次 保障獻血者權益從多個維度持續發力

      《獻血法》頒布實施至今 全國無償獻血累計3.08億人次 保障獻血者權益從多個維度持續發力

      每日經濟新聞
      2025-12-26 18:08:17
      甘肅女博士張明玉剛生完孩子,被丈夫提刀割喉,丈夫:你真臟

      甘肅女博士張明玉剛生完孩子,被丈夫提刀割喉,丈夫:你真臟

      天字號野史
      2024-11-18 23:49:45
      頂流空降深圳!有人早上開始排隊

      頂流空降深圳!有人早上開始排隊

      深圳晚報
      2025-12-26 22:19:48
      37歲闞清子閨蜜葉青探望寶寶:辟謠孩子畸形,用法律追責造謠者

      37歲闞清子閨蜜葉青探望寶寶:辟謠孩子畸形,用法律追責造謠者

      粵語經典歌單
      2025-12-27 09:09:49
      陜北革命老區邁入“高鐵時代”

      陜北革命老區邁入“高鐵時代”

      人民網
      2025-12-27 09:11:15
      悲催!廣東一臺資工廠結業,聲稱6月起沒有訂單,將依法支付補償

      悲催!廣東一臺資工廠結業,聲稱6月起沒有訂單,將依法支付補償

      火山詩話
      2025-12-27 13:42:15
      不到24小時,歐豪發三大喜訊竟暗自追隨謝霆鋒的腳步

      不到24小時,歐豪發三大喜訊竟暗自追隨謝霆鋒的腳步

      手工制作阿殲
      2025-12-27 11:36:56
      不到48小時,高市大反轉,支持率飆升至92.4%,日本發生了什么?

      不到48小時,高市大反轉,支持率飆升至92.4%,日本發生了什么?

      鐵錘簡科
      2025-12-26 19:23:46
      21歲男子趁表姐熟睡欲與其發生關系未得逞,家屬賠償10萬獲諒解 一審被判三緩四

      21歲男子趁表姐熟睡欲與其發生關系未得逞,家屬賠償10萬獲諒解 一審被判三緩四

      紅星新聞
      2025-12-26 17:20:10
      醫學博士:腫瘤越來越高發,我們究竟被隱瞞了什么?

      醫學博士:腫瘤越來越高發,我們究竟被隱瞞了什么?

      深度報
      2025-12-21 23:01:02
      太奇葩了,中國籃協宣布重要決定,球迷怒噴,中國籃球又成為笑話

      太奇葩了,中國籃協宣布重要決定,球迷怒噴,中國籃球又成為笑話

      宗介說體育
      2025-12-27 15:42:19
      從承諾歸還搶走的土地,到提出出海權,俄國時隔100年又服軟了?

      從承諾歸還搶走的土地,到提出出海權,俄國時隔100年又服軟了?

      近史博覽
      2025-12-20 10:50:02
      2025-12-27 16:39:00
      平凡AI incentive-icons
      平凡AI
      高校AI從業者
      54文章數 23關注度
      往期回顧 全部

      科技要聞

      小米也漲價了!業界稱終端再不漲明年必虧

      頭條要聞

      男子戒毒后隨領導出差被警察帶走驗尿 回家后工作沒了

      頭條要聞

      男子戒毒后隨領導出差被警察帶走驗尿 回家后工作沒了

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂要聞

      張昊唯逃稅涉黃風波落幕:法院認定朋友造謠

      財經要聞

      注意,開始拉物價了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態度原創

      手機
      時尚
      親子
      游戲
      軍事航空

      手機要聞

      吳彥祖開箱小米17 Ultra徠卡版:So cool

      從0度穿到20度,這件衣服才是今年冬天的“頂流”!

      親子要聞

      父母為了孩子連夜驅車趕來武漢,為了方便換藥在武漢租房等待

      索尼被騎臉!獨占神作被抄襲 PS商店竟然給過審了

      軍事要聞

      英法德三國領導人通話 重申對烏支持

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产愉拍精品手机| 婷婷有码| 人妻?综合?无码?另类| 狠狠躁夜夜躁人人爽蜜桃| 欧美日韩在线第一页免费观看| 婷婷四虎东京热无码群交双飞视频| 国产三级网| 亚洲中文字幕乱码av波多ji| 最新国产精品亚洲| 农村老熟妇乱子伦视频| 探花AV| 无码中文幕熟AⅤ一区二区| 日本一道高清一区二区三区| 色偷偷亚洲男人的天堂 | 国产v自拍| 亚洲AV成人片在线观看| 国产免费一区二区三区在线观看| 久久国产精品成人免费| 亚洲成人精品无码| 亚洲AV成人精品一区二区三区在线播放| 国产v亚洲v天堂无码久久久| 日本熟妇hdsex视频| ..真实国产乱子伦对白在线_!| 国产xxx| 亚洲精品无码成人aaa片| 久久精品国产99国产精品导航| 她也色tayese在线视频 | 国产美女白丝袜精品_a不卡| 亚洲专区久久| 亚洲日韩成人无码| av无码免费一区二区三区| 2020国产成人精品视频| 国产黄拍| 国产精品66| 少妇做爰免费视频了| www亚洲精品| 99啪啪| 久久久久久曰本av免费免费| 亚洲熟女www一区二区三区| 91资源站| 四房播播成人网|