<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      智譜GLM-5技術全公開!完全適配華為等國產芯片,美國網友酸了

      0
      分享至

      • 金磊 發自 凹非寺
        量子位 | 公眾號 QbitAI

      GLM-5是怎么煉成的?

      現在,它背后的論文終于完全公開了。



      論文的名字也很直接:告別Vibe Coding,邁入智能體工程(Agentic Engineering)。

      也正如我們之前實測的那般,它可以自己連續跑代碼超過24小時、700次工具調用、800次上下文切換,從零直接手搓一個Game Boy Advance(GBA)模擬器。

      一言蔽之,GLM-5把開源AI拽進了長任務時代。

      外國網友直呼“GLM-5是最好的開源模型”:



      并且還認為“極大拉小了和Claude Opus 4.6之間的距離”



      除此之外,資本市場的表現也是可以從側面印證一家大模型公司的實力。

      畢竟春節期間,智譜股價飆升的程度,毋庸置疑,大家有目共睹。

      現如今,這份長達40頁的論文,徹底揭開了它背后的一切技術秘密。亮點如下:

      • 架構方面:在上一代經過驗證的ARC(智能體、推理與編程)能力和MoE之上,引入DeepSeek同款稀疏注意力(DSA);成本大幅打下來了的同時,長上下文能力卻一點沒丟。
      • 后訓練方面:全新構建的異步強化學習基礎設施,把生成和訓練解耦,加上獨創的異步智能體RL算法,讓效率大幅提升。
      • 芯片適配方面:GLM-5完成了與華為昇騰、摩爾線程、海光、寒武紀、昆侖芯、沐曦以及燧原等國產芯片的全棧適配

      這也讓不少網友在看完論文之后直呼:

      • 在成本效率方面,美國的AI趕不上中國。



      接下來,就讓我們一起深入扒一扒這篇讓外國網友羨慕的技術論文。

      GLM-5的三大關鍵技術

      在深入技術之前,我們需要先理解GLM-5在技術發展當下所面臨的難題,即大模型需要真正開始干復雜的難活兒了

      因為在GLM-4.5時代,智譜已經證明了將ARC能力融合進單一MoE架構是完全可行的。

      但當模型真正投入到復雜的軟件工程、長周期多輪對話的真實業務中時,算力成本和真實環境適應性成為了老大難的問題。




      GLM-5 的整體訓練流程

      GLM-5要解決的就是這些瓶頸。因此,它在核心技術方面祭出了三把板斧。

      第一板斧:引入DeepSeek同款稀疏注意力機制

      在Transformer架構中,傳統的密集注意力計算復雜度是隨著上下文長度呈平方級(O(N2))增長的。

      當上下文窗口擴展至200K甚至更長時,計算成本將變得極其昂貴,這成為限制智能體處理復雜任務的主要瓶頸。

      GLM-5的解法是引入DSA這個動態稀疏注意力機制,它的核心理念是用動態的細粒度選擇機制替換傳統的密集注意力。與固定的滑動窗口模式不同,DSA 會“審視”內容,動態決定哪些Token是重要的。

      然而,直接訓練一個基于DSA的超大模型無異于走鋼絲,很容易因為稀疏化帶來的信息丟失而導致梯度爆炸或模型崩塌。

      因此,GLM-5團隊采取了一種極其巧妙的繼續預訓練策略,主要包含兩個步驟:

      1. 稠密預熱(Dense Warm-up):模型并非一上來就搞稀疏。在預訓練的初始階段,模型依然使用相對稠密的注意力機制(類似于MLA的變體),讓模型先看全所有的信息,建立起全局的、穩固的語義表征能力。這就好比一個人在學習速讀之前,必須先扎扎實實地精讀。
      2. 平滑過渡與稀疏訓練(Sparse Training):當模型具備了良好的基礎后,開始逐步提高稀疏度。DSA的核心邏輯是:在計算當前Token的注意力時,不再關注歷史上的所有Token,而是通過一個動態的路由機制(Routing Mechanism),只挑選出與之最相關的Top-K個Token進行計算。




      MLA與DSA訓練的SFT損失曲線對比

      根據技術報告披露的數據,這一板斧砍下去,效果是立竿見影的:

      • KV Cache開銷驟降75%:這意味著同樣的顯卡,現在可以支撐4倍以上的并發請求,或者處理長達4倍的上下文。
      • 推理速度提升3倍:注意力計算的FLOPS被大幅削減,首字響應時間(TTFT)和每秒生成Token數(TPS)都達到了行業頂尖水平。
      • 長文本能力幾乎無損:這是最令人不可思議的一點。在著名的大海撈針以及諸如RULER等長文本復雜推理評測中,引入DSA的GLM-5與全稠密模型相比,性能下降微乎其微(小于0.5%)。

      第二板斧:異步多任務強化學習

      如果說DSA解決的是推理成本問題,那么GLM-5的第二板斧,解決的就是訓練效率問題,尤其是決定模型最終智商的后訓練階段。

      當前業界主流的強化學習對齊算法依然是PPO(近端策略優化)。

      標準的PPO是一個高度同步的過程,涉及到四個模型,即Actor生成模型、Reference參考模型、Critic評論家模型、Reward獎勵模型在多臺GPU上的協同。

      這種“走一步,停一下”的同步機制,導致整個集群的GPU利用率經常徘徊在20%-30%左右,大部分算力都浪費在等待網絡通信和進程同步上了。

      為了打破這個瓶頸,智譜基于4.5時代的Slime框架,為GLM-5從底層重寫了一套異步強化學習基礎設施(Asynchronous RL Infrastructure)

      它的核心設計是將訓練引擎和推理引擎解耦到不同的GPU設備上。推理引擎持續生成軌跡,一旦生成數量達到預定閾值,這批數據就被發送到訓練引擎更新模型。為減少策略滯后并保持訓練的近似同策略性,推理引擎的模型權重會定期與訓練側同步。

      這種完全異步的訓練范式,通過減少Agent rollout期間的“氣泡”時間,顯著提升了GPU利用率和訓練效率。

      但要支撐這種異步架構,還有幾個關鍵技術難題需要解決:

      第一,Token-in-Token-out(TITO)代替Text-in-Text-out。

      在RL rollout設置中,TITO意味著訓練流程直接消費推理引擎生成的精確tokenization和解碼token流來構建學習軌跡。相比之下,Text-in-Text-out將rollout引擎視為返回最終文本的黑箱,訓練器需要重新tokenization重建軌跡。

      這個看似微小的選擇實際上影響巨大:重新tokenization可能在token邊界、空白處理、截斷或特殊token放置上引入細微不匹配,從而影響對單個token采樣概率的估計。GLM-5實現了一個TITO網關,攔截rollout任務的所有生成請求并記錄每個軌跡的tokenID和元數據,將繁瑣的tokenID處理從下游Agent rollout邏輯中隔離出來。

      第二,直接雙側重要性采樣解決離策略偏差。

      在異步設置中,rollout引擎可能在單個軌跡生成過程中經歷多次更新,這使得追蹤歷史訓練側模型的精確行為概率在計算上不可行——維護多個歷史模型權重顯然不現實。

      研究團隊采用簡化方案:將rollout期間生成的對數概率作為直接行為代理,通過計算重要性采樣比rt(θ) = πθ/πrollout,丟棄傳統的πθ_old,消除單獨舊策略推理的計算開銷。同時采用雙側校準token級掩碼策略,將信任域限制在[1-ε_l, 1+ε_h],對落在此區間之外的token完全屏蔽梯度計算。

      第三,DP感知路由加速長上下文推理。

      在多輪Agent工作負載中,來自相同rollout的順序請求共享相同前綴。研究團隊提出通過一致性哈希將每個rollout ID映射到固定數據并行(DP)rank,并結合哈希空間上的輕量級動態負載重新平衡。這避免了冗余的預填充計算,無需跨DP rank的KV同步,隨著rollout長度增加,預填充成本仍與增量token成正比。

      這套異步RL基礎設施支撐了GLM-5在多領域的混合RL訓練:數學、科學、代碼和工具集成推理(TIR)。數據來源包括開源數據集、與外部標注供應商共同構建的STEM問題、Codeforces及TACO等代表性數據集。訓練中為各領域分配專屬裁判模型或評估系統生成二元結果獎勵,四個領域的整體混合大致保持平衡。

      第三板斧:投喂真實世界數據

      傳統SFT數據往往依賴標準答案,但真實世界是復雜多變的。

      為了讓模型具備真正的工程能力,GLM-5的第三板斧,就是構建大量可驗證的真實世界環境數據

      整個SFT語料庫涵蓋三大類別:通用對話、推理、編程與Agent。

      值得注意的是,GLM-5在SFT階段將最大上下文長度擴展至202752個token,并支持三種不同的思考特征:

      • 交錯思考:模型在每次響應和工具調用前進行思考,提升指令遵循和生成質量;
      • 保留思考:在Coding Agent場景中,模型自動在多輪對話中保留所有思考塊,復用已有推理而非重新推導,減少信息丟失和不一致性;
      • 輪級思考:支持在會話中對每輪推理進行精細控制,輕量級請求可禁用思考降低延遲,復雜任務可啟用思考提升精度和穩定性。



      為了支持Agent RL,研究團隊還構建了大規模的、可驗證的可執行環境:

      • 軟件工程環境:基于真實世界的Issue-PR對,采用RepoLaunch框架自動分析倉庫安裝和依賴設置,構建可執行環境并生成測試命令。最終跨數千個倉庫、涵蓋9種編程語言(Python、Java、Go、C、C++、JavaScript、TypeScript、PHP、Ruby),構建了超過10000個可驗證環境。
      • 終端環境:采用三階段Agent數據合成流程——任務草稿生成、具體任務實現、迭代任務優化。從種子任務出發,利用LLM生成可驗證的終端任務草稿,由構建Agent在Harbor格式中實例化為具體任務(結構化任務描述、Docker化執行環境、測試腳本),再由精煉Agent迭代優化。整體流程產出數千個多樣化終端環境,Docker構建精度超過90%。
      • 搜索任務:構建Web知識圖譜,以低至中頻實體為種子節點擴展多跳鄰域,將每個子圖轉化為隱式編碼多實體關系鏈的問題。再經過三階段過濾(刪除無工具推理模型能答對的、過濾早期Agent能幾步解決的、雙向驗證拒絕非唯一答案或不一致證據的),最終獲得高質量、高難度的多跳問答對。



      • PPT生成:采用多層級獎勵機制——第1級關注靜態標記屬性(定位、間距、顏色、字體等),第2級評估運行時渲染屬性(元素寬高、邊界框等),第3級引入視覺感知特征(異常空白模式等)。最終生成的頁面中嚴格符合16:9寬高比的比例從40%提升至92%,頁面溢出顯著減少。



      大模型的測試也更難了

      技術的進步最終需要經受評測的檢驗。

      GLM-5的論文不僅展示了其在傳統榜單上的成績,更揭示了一個趨勢:大模型的測試正在變得更難、更貼近真實。

      在Humanity’s Last Exam(HLE)、SWE-bench Verified、BrowseComp等關鍵榜單上,數據顯示,GLM-5在SWE-bench Verified上得分77.8%,在開源模型中達到SOTA,優于Gemini 3 Pro,并與Claude Opus 4.5相當。

      在HLE(含工具)測試中,GLM-5得分50.4,優于Claude Opus 4.5和Gemini 3 Pro。



      在Artificial Analysis Intelligence Index v4.0中,GLM-5得到50分,成為新的開源SOTA模型,這是開放權重模型首次在該指數中達到50分。

      然而,智譜團隊認為,傳統的SWE-bench已經不夠看了。

      因為它是一個靜態、公開且發布超過2年的測試集,模型可能存在記憶效應。

      為此,GLM-5團隊推出了CC-Bench-V2,一個完全自動化的、模擬真實軟件開發的評測集,涵蓋前端、后端和長程任務。

      在前端評估中,團隊引入了Agent-as-a-Judge技術,通過GUI Agent模擬用戶交互,驗證生成項目的功能正確性。



      結果顯示,GLM-5的構建成功率(BSR)達到98.0%,在檢查項成功率(CSR)上與Claude Opus 4.5具備競爭力。



      在后端評估中,GLM-5在真實開源項目上的Pass@1達到25.8%,與Claude Opus 4.5相當,顯著領先于GLM-4.7。

      更值得一提的是長程任務評估。CC-Bench-V2通過挖掘已合并的Pull Request構建多步鏈式任務,評估模型在增量開發中的上下文跟蹤與規劃能力。

      雖然GLM-5在此項上較GLM-4.7有顯著提升,但與Claude Opus 4.5仍有差距。團隊坦言,這是因為鏈式任務中錯誤會累積放大,縮小這一差距需要在長上下文一致性和長程自糾錯方面繼續突破。

      這一系列評測結果釋放了兩個明確信號:

      • 第一,GLM-5 是開源界的第一個“全站工程師”,讓 AI 能自主執行超長、超復雜的任務;
      • 第二,通過單體MoE架構統一Agent、推理與代碼能力的可行性得到了驗證,同時證明了RL在復雜代碼生成中的巨大潛力。這對閉源模型而言,無疑是一種巨大的沖擊。

      One More Thing

      在論文的最后,團隊透露了一個有趣的彩蛋——Pony Alpha實驗

      在論文公開前,GLM-5曾以Pony Alpha為代號,匿名發布在OpenRouter平臺上。隱去品牌信息后,模型憑借卓越的性能在社區引發轟動。

      初步統計顯示,25%的用戶推測它是Claude Sonnet 5,20%認為是Grok的新版本,僅有部分用戶猜中了GLM-5。



      這次匿名測試打破了先入為主的地緣偏見,讓社區的認可回歸到了“好用與否”這一最純粹的技術本質。

      最終確認Pony Alpha真身即是GLM-5,這對團隊是一次巨大的鼓舞,也有力回擊了長期以來外界對中國本土模型技術水準的質疑。

      不僅如此,這次GLM-5論文公布之后,在海外已經有不少人當教程來學習了。



      若是你也對此感興趣,論文放下面了,一起學習一下吧~

      GLM-5論文地址:
      https://arxiv.org/abs/2602.15763

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “就是死,也要和家人死一起!”伊朗教練為家人辭職歸國,中國老板送上機票與祝福

      “就是死,也要和家人死一起!”伊朗教練為家人辭職歸國,中國老板送上機票與祝福

      觀威海
      2026-03-09 09:47:05
      亞足聯嚴懲!中國女足贏朝鮮后,2個重大誤判被曝光,足協應上訴

      亞足聯嚴懲!中國女足贏朝鮮后,2個重大誤判被曝光,足協應上訴

      侃球熊弟
      2026-03-09 19:47:04
      騰訊QClaw官網上線:可一鍵部署“龍蝦”,兼容QQ、微信

      騰訊QClaw官網上線:可一鍵部署“龍蝦”,兼容QQ、微信

      PChome電腦之家
      2026-03-09 14:37:39
      多家外媒:5名伊朗女足球員逃離球隊,現由澳大利亞警方庇護

      多家外媒:5名伊朗女足球員逃離球隊,現由澳大利亞警方庇護

      懂球帝
      2026-03-09 22:21:07
      沒人生娃了?上海一產科醫生稱:從一晚上8個剖腹產到現在1個沒有

      沒人生娃了?上海一產科醫生稱:從一晚上8個剖腹產到現在1個沒有

      離離言幾許
      2026-03-09 19:09:31
      中國男子在中東教漢語,娶三位本地姑娘,生下混血,卻直言養不起

      中國男子在中東教漢語,娶三位本地姑娘,生下混血,卻直言養不起

      暗香暗香
      2026-03-09 21:07:32
      2-1!澳大利亞隊悲劇了,挑選中國女足,卻遇亞洲第2,進4強難了

      2-1!澳大利亞隊悲劇了,挑選中國女足,卻遇亞洲第2,進4強難了

      何老師呀
      2026-03-09 19:48:19
      一張圖看懂:穆杰塔巴有哪些親屬在美以襲擊中喪生

      一張圖看懂:穆杰塔巴有哪些親屬在美以襲擊中喪生

      網易新聞出品
      2026-03-09 22:07:03
      24小時戰局突變!伊朗導彈斷崖式下降,美彈藥庫告急耗空家底

      24小時戰局突變!伊朗導彈斷崖式下降,美彈藥庫告急耗空家底

      命運自認幽默
      2026-03-09 16:01:07
      特朗普賭更大的!四個最新動向決定中東戰事走勢

      特朗普賭更大的!四個最新動向決定中東戰事走勢

      補壹刀
      2026-03-09 19:00:06
      Windows 11系統OpenClaw(龍蝦)安裝教程|保姆級一步到位

      Windows 11系統OpenClaw(龍蝦)安裝教程|保姆級一步到位

      星哥說事
      2026-03-08 23:47:27
      網傳山東煉油廠的供應鏈:伊朗原油洗白后運來煉制,再賣到非洲掙大錢

      網傳山東煉油廠的供應鏈:伊朗原油洗白后運來煉制,再賣到非洲掙大錢

      三言四拍
      2026-03-09 08:13:42
      網友吐槽別糊弄老百姓了,又是天才少年發國際論文,誰家的公子?

      網友吐槽別糊弄老百姓了,又是天才少年發國際論文,誰家的公子?

      眼光很亮
      2026-03-08 01:43:40
      王思懿在采訪里親口承認,當年拍水滸時和演武松的丁海峰真動了心

      王思懿在采訪里親口承認,當年拍水滸時和演武松的丁海峰真動了心

      小椰的奶奶
      2026-03-10 00:42:19
      李延賀煽動分裂國家破壞國家統一 被定罪判刑

      李延賀煽動分裂國家破壞國家統一 被定罪判刑

      閃電新聞
      2026-03-09 17:46:01
      顯微鏡下的人體結構,看完以后,你還覺得人類是進化而來的嗎?

      顯微鏡下的人體結構,看完以后,你還覺得人類是進化而來的嗎?

      深度報
      2026-03-08 22:36:08
      3月9日俄烏最新:荷蘭首相的告別款

      3月9日俄烏最新:荷蘭首相的告別款

      西樓飲月
      2026-03-09 19:52:09
      劉美賢談退役復出后奪冠:如果我沒有跌落谷底,我就不可能爬上來

      劉美賢談退役復出后奪冠:如果我沒有跌落谷底,我就不可能爬上來

      互聯網大觀
      2026-03-09 12:49:35
      騰訊QClaw內測!個人微信接入龍蝦了,普通人能抄的5個變現路子

      騰訊QClaw內測!個人微信接入龍蝦了,普通人能抄的5個變現路子

      商悟社
      2026-03-09 14:50:03
      比短劇還精彩!四人感情太擁擠:全員不道德,監控畫面流出

      比短劇還精彩!四人感情太擁擠:全員不道德,監控畫面流出

      溫柔看世界
      2026-03-09 17:26:53
      2026-03-10 06:59:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12253文章數 176412關注度
      往期回顧 全部

      科技要聞

      OpenClaw更新,"養蝦"再也不會犯健忘癥了

      頭條要聞

      媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

      頭條要聞

      媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

      體育要聞

      36連勝終結!大魔王也是可以戰勝的

      娛樂要聞

      薛之謙老婆懷二胎,現身產檢心情愉快

      財經要聞

      油價破100美元年內漲80% 全球市場劇震

      汽車要聞

      對標奔馳小號G級 路虎小型衛士最新消息曝光

      態度原創

      藝術
      教育
      親子
      數碼
      時尚

      藝術要聞

      扎哈·哈迪德事務所未來或更名

      教育要聞

      “趕緊把你兒子放生了吧!”8天花了3w,換來兒子34分,母親崩潰

      親子要聞

      為何外國媽媽帶娃如此輕松?網友的反駁讓人意外!

      數碼要聞

      蘋果iPhone17e體驗:加量不加價,值不值得入手呢?

      今年最流行的5條半裙,怎么搭都好看!

      無障礙瀏覽 進入關懷版