網易首頁 > 網易號 > 正文申請入駐

只用512張H200！106B模型靠分布式RL殺出重圍，全網開源

2025-12-10 12:34:23　來源: 新智元

北京舉報

分享至

新智元報道

編輯：元宇

【新智元導讀】Prime Intellect發布的INTELLECT-3，在數學、代碼等多項基準測試中取得同規模最強表現。該模型旨在將訓練前沿模型的技術棧開放給社區，推動大規模RL研究的普及與發展。

最近，Prime Intellect正式發布了INTELLECT-3。

這是一款擁有106B參數的混合專家（Mixture-of-Experts）模型，基于Prime Intellect的強化學習（RL）技術棧訓練。

在數學、代碼、科學與推理的各類基準測試上，它達成了同規模中最強的成績，甚至超越了不少更大的前沿模型。

Prime Intellect已經把完整的訓練流程——包括模型權重、訓練框架、數據集、RL環境和評測體系——全部開源，希望能推動更多關于大規模強化學習的開放研究。

INTELLECT-3使用的訓練軟件與基礎設施，與即將在Prime Intellect平臺向所有人開放的版本完全一致。

這意味著未來每個人、每家公司都能擁有對最先進模型進行后訓練的能力。

多項基準，斬獲SOTA

INTELLECT-3是一個106B參數的Mixture-of-Experts（MoE）模型，基于GLM 4.5 Air進行了監督微調（SFT）和強化學習訓練。

它在數學、代碼、科學和推理類Benchmark上均取得了同體量中的最強表現。

訓練框架

訓練中，Prime Intellect使用了以下核心組件：

PRIME-RL：自研的分布式RL框架，支持監督微調和大規模MoE模型的強化學習。
Verifiers 與 Environments Hub：統一的環境接口與生態，用于各類智能體式RL環境與評測。
Prime Sandboxes：高吞吐、安全的代碼執行系統，用于智能體代碼類環境。
算力編排：在64個互聯節點上的512張NVIDIA H200 GPU完成調度與管理。

INTELLECT-3完整使用PRIME-RL進行端到端訓練。

這套框架與Verifiers環境深度整合，支撐從合成數據生成、監督微調、強化學習到評估的整個后訓練體系。

通過與Environments Hub的緊密連接，訓練系統可以順暢訪問不斷擴展的環境與評測任務集合。

PRIME-RL最顯著的特點是全分布式（async-only）。

研究團隊在上一代INTELLECT-2時就已經確認：

RL的未來一定是分布式的，也就是始終處于輕微off-policy的狀態。

因為在長時序智能體rollout中，分布式是唯一能避免速度瓶頸、真正擴大訓練規模的方式。

過去6個月，研究團隊重點做了大量關于性能、穩定性和大規模效率的消融實驗，INTELLECT-3正是這些研究的成果。

Prime Intellect也將在即將上線的Lab平臺提供托管式PRIME-RL，訪問者無需處理復雜基礎設施就能進行大規模RL訓練。

訓練環境

INTELLECT-3的訓練環境由Verifiers庫構建，并托管于Environments Hub，這是Prime Intellect面向社區的RL環境與評測中心。

Verifiers是當前領先的開源工具，用來為模型構建RL環境與評測任務。

它提供模塊化、可擴展的組件，讓復雜環境邏輯也能以簡潔方式描述，同時保持極高性能與吞吐。

傳統的RL框架通常把環境強綁定在訓練倉庫里，使得版本管理、消融與外部貢獻都不方便。

Environments Hub則把基于Verifiers的環境作為獨立、可鎖定版本的Python模塊發布，并統一入口點，讓任務可以獨立版本化、共享與持續迭代。

INTELLECT-3使用的所有環境和評測，均已公開在Environments Hub。

為了支持強化學習，Prime Intellect大幅擴展并升級了自研的Sandboxes基礎設施。

在幾千條并發rollout中安全執行外部代碼，需要一個具備亞秒級啟動、毫秒級執行延遲的容器編排層。

雖然Kubernetes提供了底層能力，但常規架構并無法滿足這種高速度的訓練需求。

Prime Sandboxes可以繞過Kubernetes控制面板，通過Rust直接與pod通信，做到接近本地進程的延遲；即使在大規模并發下也能在10秒內啟動，且每個節點可穩定運行數百個隔離沙箱。

在Verifiers中，研究人員將沙箱啟動與模型首輪推理并行，從而完全消除代碼執行前的可感知等待時間。

算力調度

研究人員在64個互聯節點上部署了512張NVIDIA H200 GPU。

最大工程挑戰是如何在可能出現硬件故障的分布式系統里保持確定性與同步。

資源準備：使用Ansible做基礎設施即代碼、自動發現硬件，并進行InfiniBand預檢以隔離慢節點或故障節點。
調度：通過Slurm + cgroup v2確保任務可以干凈退出，不會留下占用GPU顯存的殘留進程。
存儲：用Lustre提供高吞吐訓練I/O，用NVMe NFS作為快速元數據與便捷SSH存儲。
可觀測性：通過DCGM + Prometheus監控，能在問題擴大前快速發現并下線不穩定節點。

訓練方案

INTELLECT-3主要分兩階段：

基于GLM-4.5-Air的監督微調，以及大規模RL訓練。

兩個階段以及多輪消融實驗都在512張H200 GPU上運行，總共持續兩個月。

研究人員訓練了覆蓋數學、代碼、科學、邏輯、深度研究、軟件工程等類別的多樣化RL環境，用來提升模型的推理與智能體能力。

所有環境均已在Environments Hub上公開。

所有基準測試也都提供了標準化且驗證過的實現。

未來，Prime Intellect的工作重點包括：

擴展智能體式RL：研究人員將繼續訓練，并更強調智能體環境，預計能在更多任務上獲得進一步提升。
更豐富的RL環境：Environments Hub已擁有 500+ 任務，涵蓋研究、電腦使用、定理證明、自動化和專業領域。INTELLECT-3 只用到了其中一小部分，下一步是讓RL覆蓋更多、更高質量的社區任務。
長時序智能體：研究人員正在讓模型能夠自我管理上下文（如裁剪上下文、分支推理、維護輕量外部記憶），從而讓長時序行為真正可通過RL訓練。未來也會探索專門獎勵長時序推理的環境。

Prime Intellect正在構建開放的超級智能技術棧，把訓練前沿模型的能力交到每個人手里。

INTELLECT-3 也證明：即使不是大實驗室，也可以訓練出與頂尖團隊同臺競技的模型。

參考資料：

https://www.primeintellect.ai/blog/intellect-3

秒追ASI

?點贊、轉發、在看一鍵三連?

點亮星標，鎖定新智元極速推送！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.