<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GLM-5技術報告精讀:多步任務強化學習,如何訓出最好的開源編程Agent

      0
      分享至

      智譜最近站在了風口浪尖上。

      1月8日港股上市,45天市值漲了超500%,一度突破3200億港元。


      資本市場的熱度還沒消化完,技術社區又炸了——智譜GLM-5技術報告公開,40頁,把這款模型如何從「AI輔助寫代碼」進化到「自主完成工程任務」的底層路徑,完整交出來了。

      a16z最近發了一張圖,表示開源模型和閉源模型的差距正在快速縮小,GLM-5作為現階段最好的開源模型,已經極大拉小了和Claude Opus 4.6的距離。


      說起來,過去兩個月我寫了四篇論文解讀——全是DeepSeek的。R1從22頁擴到86頁那篇、mHC殘差連接那篇、Engram記憶論文那篇、OCR 2視覺因果流那篇。寫到后來我自己都在想,是不是要改名叫「DeepSeek論文博主」了。

      所以這次換一家。2月17日,智譜發了GLM-5的技術報告,40頁,標題挺有意思:「GLM-5: from Vibe Coding to Agentic Engineering」——從氛圍編程到智能體工程。


      之前我寫過一篇GLM-5的體驗文章(從GLM-4.5到GLM-5,我見證了一個模型從碼農晉升為架構師),聊的是使用感受。這次不一樣,我想認認真真地把這40頁論文拆開,看看里面到底寫了什么。

      先看成績單

      GLM-5的規格:744B總參數,MoE架構,256個專家每次激活8個,實際推理時活躍參數約40B。預訓練數據28.5T tokens,成績確實猛。

      Artificial Analysis的Intelligence Index拿了50分,開源模型首次達到這個水平。


      SWE-bench Verified 77.8%,開源最高。BrowseComp(聯網檢索,配合上下文管理)75.9%和MCP-Atlas(工具調用)67.8%,論文稱是全模型最高——不是開源最高,是包括Opus、GPT、Gemini在內所有模型里的最高。


      論文里還有一個自研的CC-Bench-V2評測,包含前端開發、后端開發和長周期Agent三類任務。在這個基準上,GLM-5整體和Claude Opus 4.5接近。論文很坦誠地承認了一些不如Opus的地方——比如需要極強審美判斷的前端任務。這種坦誠在技術報告里不多見,至少說明數據可信度比較高。

      成績單到這里,一個問題自然冒出來:資本市場和技術社區為什么同時這么看好GLM-5?

      我覺得有兩個層面。

      第一個是定位。論文標題說得很直白:from Vibe Coding to Agentic Engineering。翻譯過來就是,從「程序員用AI輔助寫代碼」變成「Agent 7×24小時自主完成工程任務」。之前的AI編程是人在循環里——人提需求、AI寫代碼、人檢查、人修改。Agentic Engineering是把人從循環里拿出來,Agent自己規劃、自己寫、自己測、自己改bug。

      這個轉變意味著什么?意味著AI消耗token的方式從「一次性對話」變成了「持續運轉」。一個Coding Agent跑一個SWE-bench任務可能要消耗幾萬甚至幾十萬token。當Agent成為主要的token消費者,誰的模型最適合做Agent,誰就占據了最大的商業想象力。GLM-5就是沖著這個定位去的。

      第二個是技術。讀完40頁論文,我發現GLM-5的創新主要集中在兩個階段:預訓練階段有兩個巧妙的工程改進,后訓練階段有一套完整的Agent RL訓練體系。后者是重頭戲,但前者也值得先說。


      預訓練:兩個巧妙的工程改進

      第一個:讓兩個好工具一起工作。

      GLM-5同時用了兩項技術:MLA(一種壓縮記憶的方法,省顯存)和Muon(一種更快的訓練優化器)。各自都是好東西,但放在一起會打架。

      打個比方:MLA的工作方式是把所有信息打包成一個壓縮包,整體處理。Muon的工作方式是把信息拆開,一份一份獨立優化。一個要打包,一個要拆包,硬放一起訓練效果就變差。

      智譜的解法很樸素——在中間加一步:先把壓縮包拆開讓Muon逐份優化,優化完再打包回去給MLA用。論文里管這個叫Muon Split。實驗數據顯示,這一拆一合確實改善了訓練效果。


      第二個:共享參數的多步預測。

      MTP是一種加速推理的技術——讓模型一次預測接下來的多個詞,而不是一個一個蹦。DeepSeek用1個預測層來做這件事。GLM-5更大膽:用3個預測層,但讓這3層共享同一套參數。

      直覺上,3個獨立的預測層應該更強——各自專精嘛。但共享參數的方案逼著模型學會一種更通用的「多步預測能力」。就像下棋,一個人用同一套棋理連想三步,比三個人各想一步更連貫。

      測試數據也證實了這一點:同樣的推理步數下,GLM-5每次預測被接受的詞數比DeepSeek多約8%,推理更快。

      這兩個改進都不是會上頭條的大突破。但做法本身說明一件事:光用好技術不夠,還得讓這些技術在一起配合得好。

      后訓練的重頭戲:Slime異步Agent RL

      預訓練的改進偏「小而美」。后訓練階段才是GLM-5真正的主戰場,其中最核心的創新是異步Agent RL框架,智譜內部叫「Slime」。


      如果說DeepSeek的GRPO讓整個行業記住了一種新的強化學習優化方式,那Slime要解決的問題更往前一步——不是「怎么優化RL」,而是「怎么讓Agent RL大規模跑得起來」。這可能是整篇論文里信息密度最高、也最有行業價值的部分。

      先解釋為什么Agent RL特別難。

      傳統的RL訓練是這樣的:模型生成一段文本(比如做一道數學題),環境給個分數,模型根據分數調整參數。整個過程很快,因為「生成答案」和「打分」都可以在GPU集群內部完成。

      但Agent RL不一樣。模型不是在做一道題,而是在執行一個完整的任務——比如修復GitHub上的一個bug。這意味著模型需要讀代碼、寫代碼、運行測試、看報錯信息、再修改。這個過程可能需要幾十輪對話,每輪都要調用外部工具(代碼編輯器、終端、瀏覽器)。

      一個SWE-bench任務的rollout(從頭到尾跑完一個任務)可能要花幾分鐘甚至幾十分鐘。而傳統的數學推理RL,一次rollout只要幾秒。

      這就造成了一個嚴重的效率問題。在Agent RL場景下,絕大部分訓練時間都花在了rollout generation上。GPU集群的大部分時間都在等——等外部工具返回結果。

      傳統的同步RL框架(比如OpenRLHF、verl)解決不了這個問題,因為它們假設生成和訓練是緊耦合的:生成一批、訓練一批、再生成一批。當生成要等幾十分鐘時,整個訓練流水線就卡住了。

      智譜的解法是完全解耦生成和訓練。

      Slime框架的架構是這樣的:

      Rollout服務器集群:一堆獨立的服務器,每臺負責執行一個Agent任務(讀代碼、調終端、跑測試)。它們有自己獨立的GPU做推理,任務跑完就把trajectory(完整的執行軌跡)發回來。

      訓練集群:另一堆GPU,只負責根據收到的trajectory做參數更新。不等,有數據就訓練。

      TITO網關(Token-In-Token-Out):這是一個很巧妙的中間層。它接收外部服務器發來的文本,用當前版本的分詞器轉成token,再發給模型。模型返回的token也由它轉回文字。

      TITO為什么重要?因為在異步RL里,rollout服務器上跑的模型版本可能和訓練集群上的不一樣——你生成的時候是v1.3,等你的數據到了訓練集群,模型可能已經更新到v1.5了。如果直接拿v1.3的token去給v1.5的模型訓練,分詞器都可能對不上(比如v1.5新加了特殊token),就會出錯。

      TITO網關通過統一的文本中間層解決了這個問題:不管你哪個版本生成的,我都先轉成文本,再用當前訓練版本的分詞器重新編碼。保證token永遠和模型版本匹配。

      另一個問題是off-policy數據的穩定性。因為生成和訓練不同步,訓練集群收到的數據可能來自好幾個歷史版本的模型。用歷史版本的數據訓練當前版本的模型,如果不加處理,訓練會不穩定甚至崩潰。

      智譜用了一個叫「雙側重要性采樣」的方法來處理。傳統重要性采樣只用一個比率(舊策略vs新策略的概率比),Slime用兩個:一個控制token級別的重要性權重,一個控制整個樣本級別的。兩個一起用,既保證了數據利用效率,又不會因為某個極端樣本把訓練帶跑偏。

      這整套系統不是論文里隨便寫寫的。智譜已經把Slime框架開源了(github.com/THUDM/slime) ,任何團隊都可以直接用。

      拆開來看,Slime的貢獻其實是兩層的:底層是異步RL基礎設施——把生成和訓練徹底解耦,讓GPU不再干等;上層是異步Agent RL算法——TITO網關和雙側重要性采樣,讓異步訓練在數學上也站得住腳。基礎設施解決「跑得起來」,算法解決「跑得穩當」。

      我覺得這是GLM-5論文里最值得關注的創新。所有想做Agent的團隊都知道Agent RL效果好,但傳統同步框架讓訓練效率低到不可接受。Slime給出了第一個系統級的解法。這件事的意義,可能要等更多團隊用上這個框架之后才能完全顯現。

      三階段RL:順序決定命運

      異步RL解決了效率問題。但還有一個更根本的問題:你要讓模型學什么?

      GLM-5的RL訓練分三個階段,順序很講究:

      第一階段:Reasoning RL——教模型「想」。用MATH、AIME、代碼競賽這些有明確對錯的任務來訓練。這個階段的目標是建立基礎推理能力。

      第二階段:Agentic RL——教模型「做」。用SWE任務(修復真實GitHub bug)、終端任務、多跳搜索任務這些長周期Agent任務來訓練。這個階段用的就是前面說的Slime框架。

      第三階段:General RL——教模型「當人」。用開放對話、創意寫作、角色扮演這些任務來訓練。這個階段讓模型不只是一臺推理機器,還是一個有品味、有性格的對話伙伴。


      為什么順序重要?

      因為后面的階段會讓模型忘掉前面學到的東西。這個問題在機器學習里叫「災難性遺忘」。你訓練模型學會了修bug,再訓練它聊天寫作,它修bug的能力就可能退化。

      就像一個人去學了烹飪,不代表他會忘記開車。但對于神經網絡來說,這種遺忘是真實存在的。

      GLM-5的解法叫「On-Policy Cross-Stage Distillation」(在線跨階段蒸餾)。做法是:在第二階段訓練時,同時用第一階段的最佳模型作為「老師」,讓學生模型在學新技能的同時保持舊技能。第三階段同理。

      論文里給了具體數據:沒有蒸餾時,從Agentic RL進入General RL階段后,SWE-bench得分從77.8%掉到73.2%。用了跨階段蒸餾后,基本不掉分。

      這個技巧挺實用的。我之前寫DeepSeek R1論文解讀時提到過,R1團隊也遇到了RL訓練導致能力退化的問題,他們的做法是在訓練數據里混入歷史數據。GLM-5的蒸餾方案更系統——不只是混數據,而是讓當前模型持續向歷史最佳版本學習。

      Agent場景下的三種思考模式

      RL訓練之外,GLM-5在推理策略上也有自己的設計。

      傳統的「思考型模型」(比如DeepSeek R1、o1)在回答之前會先做一段長長的內部推理,放在 標簽里。這種模式對數學題和編程題很有效。

      但Agent任務不一樣。Agent需要執行很多輪對話——讀文件、改代碼、跑測試、看結果、再改。如果每一輪都做一大段思考,上下文窗口很快就被撐爆了。

      GLM-5設計了三種思考模式來應對不同場景:

      Interleaved Thinking(交錯思考):每輪對話都思考,但思考內容比較短。適合需要持續推理的場景。

      Preserved Thinking(保留思考):只在第一輪做深度思考,后續輪次直接執行。思考內容會保留在上下文中供后續參考。適合任務明確、執行步驟多的場景。

      Turn-level Thinking(輪次級思考):每輪獨立思考,但不保留歷史思考內容——上一輪的 在下一輪會被清除。適合上下文緊張的長任務。


      這三種模式的切換是通過系統提示詞來控制的。論文里給了一個有意思的實驗:在SWE-bench任務上,Turn-level Thinking的效果比Interleaved Thinking好約2個百分點。原因是SWE-bench需要很多輪交互,Interleaved模式的思考內容太多會擠占真正有用的代碼和報錯信息。

      這種設計挺實用的。核心不是「思考越多越好」,而是「什么時候該想、什么時候該干活,得分場景」。

      一個有意思的細節

      論文里還有一個有趣的案例值得單獨拎出來。

      幻燈片生成的多層獎勵。GLM-5能生成PPT幻燈片(通過寫HTML/CSS再渲染)。訓練這個能力時,獎勵函數的設計分了三層:

      第一層是靜態檢查——HTML代碼有沒有語法錯誤、CSS屬性用得對不對。

      第二層是渲染檢查——渲染出來的頁面字有沒有溢出、元素有沒有重疊。這需要用Playwright把HTML渲染成圖片再檢查。

      第三層是視覺感知——用另一個VLM(視覺語言模型)來評價渲染結果好不好看。

      但這里出了一個經典的reward hacking問題:模型學會了一種「作弊」方式來騙取高分——用純黑背景加白色文字。因為純黑背景上白字的對比度最高,VLM評判時容易給高分。但生成出來的PPT全是黑底白字,完全沒有設計感。

      智譜的修復方案是在第三層獎勵里引入參考幻燈片對比——不只是問「好不好看」,而是問「跟優秀案例比怎么樣」。

      這種reward hacking的故事在RL文獻里很常見,但每次看到具體案例還是覺得有趣。它說明了一件事:訓練AI的難度不在于讓它「做到」,而在于讓它「做對」。

      國產芯片適配:不只是一句口號

      論文里有一章專門寫了國產芯片適配。GLM-5從發布之初就原生適配了國產GPU生態,覆蓋7家主流芯片平臺:華為昇騰、摩爾線程、海光、寒武紀、昆侖芯、沐曦、燧原。

      不少媒體在報道這件事時就寫了一句「全棧國產」然后帶過。但論文里的細節比這豐富得多。

      以華為昇騰Atlas系列為例,智譜做了從量化到推理引擎的全鏈路優化——W4A8混合精度量化讓單臺服務器裝下750B參數,定制融合算子解決稀疏注意力的計算瓶頸,深度適配vLLM-Ascend和SGLang兩大推理引擎。最終效果是:GLM-5在單臺國產算力節點上的推理性能,足以媲美兩臺國際主流GPU集群。

      7家芯片的架構各不相同,指令集不同,編程模型不同。要在7個平臺上都能跑GLM-5,意味著很多底層算子得重寫7遍。這不是什么「突破性創新」,但它是實打實的工程苦活。

      我之前寫DeepSeek論文解讀時提過一個觀察:DeepSeek的很多技術突破其實是「工程驅動」而非「理論驅動」的——他們不是先想到一個新理論再去實驗,而是在工程實踐中遇到問題、被迫想出解決方案。

      智譜在國產芯片上的適配也是同樣的邏輯。你也可以說是「不得不用」,但這個約束倒逼出了一套跨芯片的工程能力,長遠來看反而是競爭優勢。

      回到開頭的問題:GLM-5到底做了什么創新?

      預訓練階段,Muon Split讓MLA和Muon優化器兼容工作,共享參數MTP把推理速度往上拉了一截。后訓練階段是真正的重頭戲——Slime異步RL框架解決了Agent訓練的效率瓶頸,三階段RL配合跨階段蒸餾防止能力遺忘,三種思考模式適配不同Agent場景。這些創新指向同一個方向:怎么把一個好底座訓成一個好Agent。

      這恰好是2025-2026年整個行業的核心戰場。架構層面趨同之后,真正拉開差距的是Post-Training——怎么做RL、怎么訓Agent、怎么防遺忘、怎么設計獎勵函數。GLM-5在這個戰場上拿出了自己的解法,而且把核心框架Slime開源了出去,下一個團隊可以直接站在這個起點出發。

      744B參數,28.5T tokens訓練,原生適配國產芯片生態,核心創新開源回饋社區。這篇40頁的技術報告,值得認真讀。

      論文鏈接:https://arxiv.org/abs/2602.15763

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      寶玉和襲人同房多次,為何一直都沒懷孕?黛玉一句調侃道出真相

      寶玉和襲人同房多次,為何一直都沒懷孕?黛玉一句調侃道出真相

      談史論天地
      2026-02-06 17:30:03
      阿根廷攝影師曬梅西訓練照:這或許是他最后一次在這訓練

      阿根廷攝影師曬梅西訓練照:這或許是他最后一次在這訓練

      懂球帝
      2026-03-31 14:47:47
      回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

      回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

      素衣讀史
      2026-03-25 21:05:22
      敗退臺灣的蔣介石,看到上甘嶺戰報,含淚說出了15個字的高度評價

      敗退臺灣的蔣介石,看到上甘嶺戰報,含淚說出了15個字的高度評價

      史韻流轉
      2026-03-30 09:22:48
      周德強任中共成都市青羊區委書記

      周德強任中共成都市青羊區委書記

      愛看頭條
      2026-03-31 17:12:07
      被指瞞報比率近88%!鞠婧祎被曝半年收入不少于5000萬

      被指瞞報比率近88%!鞠婧祎被曝半年收入不少于5000萬

      極目新聞
      2026-03-31 10:14:25
      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      可樂談情感
      2026-03-29 15:16:24
      拔掉高德網線!比亞迪這招“釜底抽薪”,砸了誰的飯碗?

      拔掉高德網線!比亞迪這招“釜底抽薪”,砸了誰的飯碗?

      藍色海邊
      2026-03-30 12:14:59
      志愿軍功臣槍決現場,朝鮮姑娘沖進去拼死抱住,彭總:成全他們吧

      志愿軍功臣槍決現場,朝鮮姑娘沖進去拼死抱住,彭總:成全他們吧

      歷史龍元閣
      2026-03-31 10:05:13
      屬雞的:這幾天有人跟你對著干,其實這是今年最大的“硬福”來了

      屬雞的:這幾天有人跟你對著干,其實這是今年最大的“硬福”來了

      刺頭體育
      2026-03-31 16:30:28
      淄博市醫療保障局黨組成員,市醫療保障服務中心黨總支書記、主任郝旗峰被查

      淄博市醫療保障局黨組成員,市醫療保障服務中心黨總支書記、主任郝旗峰被查

      中國山東網
      2026-03-31 16:24:37
      馬筱梅產后一個月瘦到47公斤!害怕像大S當年胖到79公斤被汪嫌棄

      馬筱梅產后一個月瘦到47公斤!害怕像大S當年胖到79公斤被汪嫌棄

      觀魚聽雨
      2026-03-28 18:54:07
      中東大變局!土耳其攤牌了:準備加入伊朗陣營,硬剛美以!

      中東大變局!土耳其攤牌了:準備加入伊朗陣營,硬剛美以!

      荷蘭豆愛健康
      2026-03-31 11:49:33
      舉人、秀才、榜眼、探花、進士、狀元,相當于今天的什么水平?

      舉人、秀才、榜眼、探花、進士、狀元,相當于今天的什么水平?

      長風文史
      2026-03-30 16:21:58
      梁靖崑不敵王勵勤,世界杯首個冷門誕生

      梁靖崑不敵王勵勤,世界杯首個冷門誕生

      格斗聯盟
      2026-03-31 15:45:28
      42歲男子長期被職場PUA抱住醫生大哭,稱一到公司門口就開始心慌,醫生:他把領導的評價,當成對自己全部價值的判斷

      42歲男子長期被職場PUA抱住醫生大哭,稱一到公司門口就開始心慌,醫生:他把領導的評價,當成對自己全部價值的判斷

      大風新聞
      2026-03-28 21:28:03
      老婆婚內出軌這陰影會籠罩男人一輩子嗎 網友說寫下我的真實感受

      老婆婚內出軌這陰影會籠罩男人一輩子嗎 網友說寫下我的真實感受

      侃神評故事
      2026-03-31 17:20:03
      活久見!奶奶從集市買回小雞,要先用火烤一烤,網友怒斥“兇狠”

      活久見!奶奶從集市買回小雞,要先用火烤一烤,網友怒斥“兇狠”

      火山詩話
      2026-03-29 07:05:31
      緬甸副總統已全部選舉產生,3人將角逐產生總統

      緬甸副總統已全部選舉產生,3人將角逐產生總統

      界面新聞
      2026-03-31 15:51:58
      4月即將上市的7款重磅新車,最后一款大概率涼涼?

      4月即將上市的7款重磅新車,最后一款大概率涼涼?

      汽車天涯
      2026-03-29 10:51:42
      2026-03-31 17:55:00
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      169文章數 83關注度
      往期回顧 全部

      科技要聞

      尚未正式宣發,國行蘋果AI半夜"意外閃現"

      頭條要聞

      00后女孩回國當職業掃墓人:每天鞠躬上百次 月薪4千多

      頭條要聞

      00后女孩回國當職業掃墓人:每天鞠躬上百次 月薪4千多

      體育要聞

      縣城修車工,用20年成為世界冠軍

      娛樂要聞

      絲芭傳媒舉報鞠婧祎:瞞報收入竟達85%

      財經要聞

      高薪內推藏陷阱!"招轉培"騙局盯上求職者

      汽車要聞

      騰勢Z9GT到底GT在哪?

      態度原創

      教育
      房產
      旅游
      藝術
      公開課

      教育要聞

      你們知道孩子最想聽的話是什么嗎?

      房產要聞

      14億!電競巨頭出手,海棠灣“超級運動綜合體”來了!

      旅游要聞

      體育旅游高端智庫聯盟成立 “貴陽指數”發布

      藝術要聞

      石濤『野色冊』

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版