<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      只用512張H200!106B模型靠分布式RL殺出重圍,全網開源

      0
      分享至


      新智元報道

      編輯:元宇

      【新智元導讀】Prime Intellect發布的INTELLECT-3,在數學、代碼等多項基準測試中取得同規模最強表現。該模型旨在將訓練前沿模型的技術棧開放給社區,推動大規模RL研究的普及與發展。

      最近,Prime Intellect正式發布了INTELLECT-3。

      這是一款擁有106B參數的混合專家(Mixture-of-Experts)模型,基于Prime Intellect的強化學習(RL)技術棧訓練。

      在數學、代碼、科學與推理的各類基準測試上,它達成了同規模中最強的成績,甚至超越了不少更大的前沿模型。

      Prime Intellect已經把完整的訓練流程——包括模型權重、訓練框架、數據集、RL環境和評測體系——全部開源,希望能推動更多關于大規模強化學習的開放研究。

      INTELLECT-3使用的訓練軟件與基礎設施,與即將在Prime Intellect平臺向所有人開放的版本完全一致。

      這意味著未來每個人、每家公司都能擁有對最先進模型進行后訓練的能力。

      多項基準,斬獲SOTA

      INTELLECT-3是一個106B參數的Mixture-of-Experts(MoE)模型,基于GLM 4.5 Air進行了監督微調(SFT)和強化學習訓練。

      它在數學、代碼、科學和推理類Benchmark上均取得了同體量中的最強表現。


      訓練框架

      訓練中,Prime Intellect使用了以下核心組件:

      • PRIME-RL:自研的分布式RL框架,支持監督微調和大規模MoE模型的強化學習。

      • Verifiers 與 Environments Hub:統一的環境接口與生態,用于各類智能體式RL環境與評測。

      • Prime Sandboxes:高吞吐、安全的代碼執行系統,用于智能體代碼類環境。

      • 算力編排:在64個互聯節點上的512張NVIDIA H200 GPU完成調度與管理。

      INTELLECT-3完整使用PRIME-RL進行端到端訓練。

      這套框架與Verifiers環境深度整合,支撐從合成數據生成、監督微調、強化學習到評估的整個后訓練體系。

      通過與Environments Hub的緊密連接,訓練系統可以順暢訪問不斷擴展的環境與評測任務集合。

      PRIME-RL最顯著的特點是全分布式(async-only)。

      研究團隊在上一代INTELLECT-2時就已經確認:

      RL的未來一定是分布式的,也就是始終處于輕微off-policy的狀態。

      因為在長時序智能體rollout中,分布式是唯一能避免速度瓶頸、真正擴大訓練規模的方式。


      過去6個月,研究團隊重點做了大量關于性能、穩定性和大規模效率的消融實驗,INTELLECT-3正是這些研究的成果。

      Prime Intellect也將在即將上線的Lab平臺提供托管式PRIME-RL,訪問者無需處理復雜基礎設施就能進行大規模RL訓練。

      訓練環境

      INTELLECT-3的訓練環境由Verifiers庫構建,并托管于Environments Hub,這是Prime Intellect面向社區的RL環境與評測中心。

      Verifiers是當前領先的開源工具,用來為模型構建RL環境與評測任務。

      它提供模塊化、可擴展的組件,讓復雜環境邏輯也能以簡潔方式描述,同時保持極高性能與吞吐。

      傳統的RL框架通常把環境強綁定在訓練倉庫里,使得版本管理、消融與外部貢獻都不方便。

      Environments Hub則把基于Verifiers的環境作為獨立、可鎖定版本的Python模塊發布,并統一入口點,讓任務可以獨立版本化、共享與持續迭代。


      INTELLECT-3使用的所有環境和評測,均已公開在Environments Hub。

      為了支持強化學習,Prime Intellect大幅擴展并升級了自研的Sandboxes基礎設施。

      在幾千條并發rollout中安全執行外部代碼,需要一個具備亞秒級啟動、毫秒級執行延遲的容器編排層。

      雖然Kubernetes提供了底層能力,但常規架構并無法滿足這種高速度的訓練需求。

      Prime Sandboxes可以繞過Kubernetes控制面板,通過Rust直接與pod通信,做到接近本地進程的延遲;即使在大規模并發下也能在10秒內啟動,且每個節點可穩定運行數百個隔離沙箱。

      在Verifiers中,研究人員將沙箱啟動與模型首輪推理并行,從而完全消除代碼執行前的可感知等待時間。

      算力調度

      研究人員在64個互聯節點上部署了512張NVIDIA H200 GPU。

      最大工程挑戰是如何在可能出現硬件故障的分布式系統里保持確定性與同步。

      • 資源準備:使用Ansible做基礎設施即代碼、自動發現硬件,并進行InfiniBand預檢以隔離慢節點或故障節點。

      • 調度:通過Slurm + cgroup v2確保任務可以干凈退出,不會留下占用GPU顯存的殘留進程。

      • 存儲:用Lustre提供高吞吐訓練I/O,用NVMe NFS作為快速元數據與便捷SSH存儲。

      • 可觀測性:通過DCGM + Prometheus監控,能在問題擴大前快速發現并下線不穩定節點。

      訓練方案

      INTELLECT-3主要分兩階段:

      基于GLM-4.5-Air的監督微調,以及大規模RL訓練。

      兩個階段以及多輪消融實驗都在512張H200 GPU上運行,總共持續兩個月。

      研究人員訓練了覆蓋數學、代碼、科學、邏輯、深度研究、軟件工程等類別的多樣化RL環境,用來提升模型的推理與智能體能力。

      所有環境均已在Environments Hub上公開。


      所有基準測試也都提供了標準化且驗證過的實現。

      未來,Prime Intellect的工作重點包括:

      • 擴展智能體式RL:研究人員將繼續訓練,并更強調智能體環境,預計能在更多任務上獲得進一步提升。

      • 更豐富的RL環境:Environments Hub已擁有 500+ 任務,涵蓋研究、電腦使用、定理證明、自動化和專業領域。INTELLECT-3 只用到了其中一小部分,下一步是讓RL覆蓋更多、更高質量的社區任務。

      • 長時序智能體:研究人員正在讓模型能夠自我管理上下文(如裁剪上下文、分支推理、維護輕量外部記憶),從而讓長時序行為真正可通過RL訓練。未來也會探索專門獎勵長時序推理的環境。

      Prime Intellect正在構建開放的超級智能技術棧,把訓練前沿模型的能力交到每個人手里。

      INTELLECT-3 也證明:即使不是大實驗室,也可以訓練出與頂尖團隊同臺競技的模型。

      參考資料:

      https://www.primeintellect.ai/blog/intellect-3

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      臺灣退役將領楊國強向大陸叫囂狂言:黃埔軍校的建立沒你中國的份

      臺灣退役將領楊國強向大陸叫囂狂言:黃埔軍校的建立沒你中國的份

      普覽
      2025-12-09 15:39:04
      高盛點名9家中國機器人龍頭,隱形冠軍撐起產業核心,潛力十足

      高盛點名9家中國機器人龍頭,隱形冠軍撐起產業核心,潛力十足

      娛樂督察中
      2025-12-09 01:31:52
      越來越多孩子得白血病?醫生坦言:家里4樣東西是禍根,趁早扔了

      越來越多孩子得白血病?醫生坦言:家里4樣東西是禍根,趁早扔了

      DrX說
      2025-11-19 14:42:09
      一輛“政治正確”的電動車,為何被市場冷落?

      一輛“政治正確”的電動車,為何被市場冷落?

      易覽甘肅
      2025-12-05 11:30:55
      蔡依林“渣女站姿”火了! 腿縫幾乎沒間距,看得人眼睛都直了!

      蔡依林“渣女站姿”火了! 腿縫幾乎沒間距,看得人眼睛都直了!

      健身迷
      2025-10-19 09:58:20
      新加坡“媚日”史:早在二戰時,李光耀就給日本人當過間諜?

      新加坡“媚日”史:早在二戰時,李光耀就給日本人當過間諜?

      阿胡
      2025-12-05 11:32:10
      路易斯半場兩失良機!媒體人熱議:18般武藝都不精,1年斷崖下滑

      路易斯半場兩失良機!媒體人熱議:18般武藝都不精,1年斷崖下滑

      奧拜爾
      2025-12-10 19:13:47
      防守悍將+頂級扣將!恭喜東契奇迎好幫手?湖人可以達到一箭雙雕

      防守悍將+頂級扣將!恭喜東契奇迎好幫手?湖人可以達到一箭雙雕

      八零后小伙兒
      2025-12-09 20:52:07
      10號午評:三大指數集體下挫!所有人都注意,大盤后市或將這樣走

      10號午評:三大指數集體下挫!所有人都注意,大盤后市或將這樣走

      春江財富
      2025-12-10 11:56:37
      康熙微服出巡,問揚州乞丐:當今圣上如何?乞丐一句話得百兩黃金

      康熙微服出巡,問揚州乞丐:當今圣上如何?乞丐一句話得百兩黃金

      卡西莫多的故事
      2025-11-11 10:59:19
      阿尼西莫娃稱用十年贏了佩古拉,阿爾卡拉斯表演賽變成求婚大戰

      阿尼西莫娃稱用十年贏了佩古拉,阿爾卡拉斯表演賽變成求婚大戰

      網球之家
      2025-12-10 14:43:32
      烏克蘭最美體操冠軍,放棄國籍做中國媳婦,37歲生二胎仍似少女

      烏克蘭最美體操冠軍,放棄國籍做中國媳婦,37歲生二胎仍似少女

      相思賦予誰a
      2025-12-10 02:34:18
      法國專家坦言:不知該怎么跟中國相處!被中國獨特的工業體系震驚

      法國專家坦言:不知該怎么跟中國相處!被中國獨特的工業體系震驚

      艾米手工作品
      2025-12-05 16:05:16
      中國還有哪些赫赫有名的通緝犯沒有被抓到?

      中國還有哪些赫赫有名的通緝犯沒有被抓到?

      X小賢吶
      2023-12-23 19:57:08
      德國博世壟斷車核心技術,中國華為比亞迪聯手破局,制造業迎新機

      德國博世壟斷車核心技術,中國華為比亞迪聯手破局,制造業迎新機

      瑛派兒老黃
      2025-12-10 21:41:22
      李澤楷被她迷得神魂顛倒,林丹為她不顧妻兒,她究竟有什么魅力?

      李澤楷被她迷得神魂顛倒,林丹為她不顧妻兒,她究竟有什么魅力?

      小馮聊體育
      2025-12-09 14:03:18
      白崇禧認為林彪的軍事才能一般,最欣賞我軍另一悍將

      白崇禧認為林彪的軍事才能一般,最欣賞我軍另一悍將

      聞識
      2024-11-01 15:44:14
      二戰老照片:光著身子的日本婦女,與男人一起挖礦,頂替男性崗位

      二戰老照片:光著身子的日本婦女,與男人一起挖礦,頂替男性崗位

      冰語歷史
      2025-12-04 07:16:10
      英特爾盤中跌幅擴大至近4%

      英特爾盤中跌幅擴大至近4%

      界面新聞
      2025-12-10 22:38:43
      朱孝天因不合群被F4踢出局,妻子受辱,言行終自食其果

      朱孝天因不合群被F4踢出局,妻子受辱,言行終自食其果

      孤城落日
      2025-12-09 18:30:33
      2025-12-11 03:31:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14067文章數 66385關注度
      往期回顧 全部

      科技要聞

      防"走私",英偉達被曝開發“芯片定位”技術

      頭條要聞

      男子被上海民警騙去"見面"結果毒檢陽性 被逼寫認罪書

      頭條要聞

      男子被上海民警騙去"見面"結果毒檢陽性 被逼寫認罪書

      體育要聞

      試訓20支球隊,落選,成為NBA新秀助攻王

      娛樂要聞

      為何網友不再相信張柏芝的“故事”?

      財經要聞

      對話陳志武:特朗普嚴重誤判中國!

      汽車要聞

      有動力操控 有智能座艙 6萬多的第五代帝豪掀桌子了

      態度原創

      房產
      游戲
      藝術
      教育
      公開課

      房產要聞

      斷供10年,終迎破局者!三亞核心區,突然殺出新標桿!

      《漫威斗魂》封測試玩報告:英雄集結"/> 主站 商城 論壇 自運營 登錄 注冊 《漫威斗魂》封測試玩報告:英雄集結 神堡薛師傅 2025-12-10 返...

      藝術要聞

      砸10億!80米!圓通在上海的總部大樓,酷似滿天星!

      教育要聞

      TTS新傳論文帶讀:德國媒介研究不存在?齊林斯基談媒介研究的歷史、現狀與未來

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 三男一女吃奶添下面视频| 超碰精品在线| 91福利姬| 中文字幕精品无亚洲字幕| 伊人久久久大香线蕉综合直播| 久久www免费人成一看片| 久操资源站| 91精品国产成人观看| 九色视频丨PORNY丨丝袜| 亚洲精品欧美二区三区中文字幕 | 日韩福利在线视频| 国内精品一区二区三区| 国产精品无码天天爽视频| 成av免费大片黄在线观看| www.亚洲成人| 摸丰满大乳奶水www免费| 人妻熟女一区二区三区app下载| 国产成人精品18| 99在线免费观看| 国产精品va无码一区二区| 中文日韩在线一区二区| av无码av天天av天天爽| 国产成人无码综合亚洲日韩| jlzzjlzz欧美大全| 成人1区2区| av天堂亚洲| 中文字幕精品无码一区二区三区| 野花在线观看免费观看高清| 蜜臀久久99精品久久久酒店新书| 中国AV网| av淘宝国产在线观看| 成在线人永久免费视频播放| 黑人牲交| 狠狠五月深爱婷婷网| 亚洲无码成人| 国产精品免费无遮挡无码永久视频| 霍林郭勒市| 国产精品无码v在线观看| 最新成免费人久久精品| 狠狠干性视频| 国产精品无码一区二区桃花视频|