![]()
機器之心編輯部
我們每天都在見證「全球大模型第一股」智譜的歷史新高。
![]()
2026 年的春節檔,注定將被寫入中國 AI 的發展史。
過去半個月,AI 社區被兩顆「超新星」徹底點燃:一顆是字節跳動發布的Seedance 2.0,它用震撼的視頻生成能力橫掃了全球社交網絡,代表了 AI 在感性與創意維度的大爆發;而另一顆,則是這幾天讓開發者們徹夜未眠的智譜 GLM-5
可以說,Seedance 2.0 讓世界看到了中國 AI 驚艷的「想象力」,而 GLM-5 則是在向世界展示中國 AI 扎實的「執行力」。
這恰恰構成了 2026 年 AI 賽道的「雙子星」格局:一條是通往物理世界模擬的視頻航道,一條是通往數字世界構建的 Coding 航道。
在 Seedance 2.0 爆火之后,GLM-5 在 Coding 領域的開源與實戰表現,釋放了一個極其重要的信號:中國 AI 正在從炫技的青春期,正式邁向成熟穩重的成年期 —— 這就是國產 AI 的「成人禮」。我們不再滿足于生成一個漂亮的網頁,而是開始真正接管系統內核、重構復雜架構,去解決那些最硬核的生產力難題。
這種跨越級的躍遷意味著中國 AI 終于真正拿到了屬于自己的技術王座。而市場對這位「新王」的反應,可以用「狂熱」來形容。
自從前天晚上代號「Pony Alpha」的智譜 GLM-5 顯露真名以來,其受到的贊譽也被迅速轉化成了購買欲,不僅 Ollama、Modal、Poe、硅基流動等諸多平臺商提供了 Day-0 支持,智譜官方每天限額的 GLM Coding Plan 即使漲價 30% 也是秒空,沒能上車的開發者也只能每天 10:00 蹲點搶。
![]()
甚至就連 Ollama 的云服務也在上線 GLM-5 之后被擠爆了。
![]()
很多沒能及時搶到 GLM Coding Plan 名額的開發者大喊:

這種瘋狂的背后,其實是一個信號:開源社區苦「玩具模型」久矣。
既然閉源的 Claude Opus 4.6 和 GPT-5.3 已經證明了 AI 具備系統工程能力,那大家就更受不了手邊的開源模型只能寫寫貪吃蛇、畫個 SVG 這種程度的水平了。開發者們在等,等一個開源界真正能干臟活、累活、大工程的「包工頭」。
而 GLM-5,似乎就是那個帶著安全帽、扛著圖紙進場的角色。
別再迷信 Vibe Coding 了
這是「系統工程」的時代
在 2026 年初的今天,AI 編程的門檻已被降至歷史最低點。無論是生成一個帶有粒子特效的著陸頁,還是用 SVG 繪制圖標,都已經成為各大模型的基礎技能。這種被著名 AI 大牛 Andrej Karpathy 命名為「氛圍編程(Vibe Coding)」的開發模式確實能讓非技術人員快速上手,產出令人眼花繚亂的 Demo。
這很酷,但對真正的軟件工程來說,這遠遠不夠。
前段時間,Claude Opus 4.6 與 GPT-5.3 Codex 的出現,悄然改變了頂級閉源模型的競爭維度。它們不再單純強調「One Shot」的單次生成效果,轉而開始比拼Agentic 能力。這意味著模型需要具備長程規劃、多步執行以及處理復雜系統工程的能力
這一次,Karpathy 同樣給出了非常不錯的總結。他寫到:「通過 LLM agent 來編程,正在逐漸成為專業人士的默認工作流,只是伴隨著更多的監督和審查。目標是在不犧牲軟件質量的前提下,最大化利用 agent 帶來的杠桿效應。」
![]()
在此背景下,GLM-5 的發布顯得尤為關鍵。它沒有選擇繼續在「前端審美」這條賽道上與其它優秀的開源模型內卷,轉而選擇了一條更為陡峭的技術路徑:成為開源界首個「系統架構師」級模型。(當然,GLM-5 的前端審美依然非常在線。)
正如著名 AI 研究者 Simon Willison 在博客中評論的那樣,GLM-5 可被稱為「用 LLM 構建的專業軟件工程師」,看到智譜選擇「Agentic Engineering」這個詞來形容這種范式是「很有意思的」。
這種差異化的定位的直接體現是解決問題的深度。是的,GLM-5 能解決更加困難的系統級問題了!
如果你需要快速搭建一個視覺效果炸裂的網頁原型,市場上已有眾多模型可供選擇。但如果你面對的是后端架構重構、復雜算法實現或是操作系統內核級的開發任務,GLM-5 很可能是目前開源社區的唯一可選項。
口說無憑,我們決定給它上點強度。
我們沒有讓它寫游戲,而是扔給它一個極度硬核的任務:從零構建一個基于 Rust 的高并發分布式算力調度系統。
![]()
從這個提示詞可以看出,完成這個任務將需要 GLM-5 具備系統架構級理解與重構、并發模型的理解與掌控、分布式調度與算法設計、Agentic 規劃與工程分解、全棧協同、工程防御等多種能力。
如果換做以前的模型,大概率會給你生成一段漂亮的 Python 代碼,然后在大并發下直接崩盤。但 GLM-5 的表現,確實讓我們產生了一種「坐在高級架構師旁邊結對編程」的錯覺。
![]()
它沒有急著寫代碼,而是先畫圖。它否定了單體架構,設計了 Gossip 協議做節點發現,上了 Raft 做共識,甚至考慮到了網絡分區時的 CP/AP 取舍。
![]()
在隨后的 40 分鐘里,看著它用 Tokio 重寫異步邏輯,自己處理 Rust 那個讓人頭大的所有權機制,甚至自己發現編譯錯誤自己修,這種「它真的在思考,而不是在概率匹配」的感覺非常強烈。
![]()
GLM-5 在執行過程中自動驗證和修復
最終,它不僅交出了代碼,還順手寫了一個防 DDoS 的壓力測試腳本。說實話,這種工程防御意識,很多初級人類工程師都未必具備。
![]()
最終結果證明,該架構能夠在高壓下主動拒絕無效請求,同時保障有效任務的成功率。
![]()
我們還成功嘗試了另一個非常有趣的實測案例,讓配置了 GLM-5 的 Claude Code 編寫了一個全棧式生命游戲。我們使用了這樣一個提示詞:
![]()
很顯然,這個任務既需要 AI 了解算法與數學邏輯,也需要全棧工程架構以及可視化與圖形編程能力。
這一次,GLM-5 足足運行了 2 小時 33 分鐘,最終得到了這樣一個相當復雜的系統:
![]()
同樣地,這一次的執行過程也充滿了大量驗證和修改 —— 就像一個真正的軟件工程師,最終給出的結果也是直接可用的。不過由于我們沒有在提示詞中明確指出,GLM-5 給出的初始結果并沒有自動運行能力,但沒有關系,我們只是簡單增加了一句提示詞「增加一個自動運行功能,可以比如一秒前進一步」,GLM-5 僅用 4 分鐘就解決了這個問題,給出了讓人滿意的結果。這是我們以前面的提示詞截圖為種子運行得到的效果:
![]()
最后,我們還用 GLM-5 構建一個非常實用的標題推薦器。使用我們 2025 年之前的 5086 個標題,我們讓 GLM-5 仔細分析后構建了一個標題推薦 Skill。提示詞如下:
讀取 機器之心文章列表.md,分析里面的所有標題,為我編寫一個文章標題推薦 Skill,讓我可以貼入文章,讓 AI 每次為我建議 10 個不同標題。
最終,我們得到了一個相當不錯的 Skill,能為我們推薦 10 個不同風格的標題:
![]()
我們找了一篇近期的文章來實驗,效果可以說是出人意料了,有好幾個標題都可以直接使用:
![]()
GLM-5 甚至還為我們創建了一個細節到各個關節都能獨立運動的人體模擬器:
![]()
從這些項目體驗中,我們感受到:開源模型代碼能力已經實現了代際跨越。我們相信這也是智譜將 GLM 系列的模型的版本號提升到 5 的底氣。
GLM-5 證明了開源模型已經具備了處理復雜任務的能力。它不再僅僅是一個輔助寫代碼的 Copilot,更像是一個能夠獨立承擔系統級任務的 AutoPilot。對于開發者而言,這意味著在構建高并發電商庫存系統、設計 Redis 緩存策略或是處理遺留代碼屎山時,終于擁有了一個成本可控且邏輯嚴密的開源選擇。
基于此,我們可以做出這樣的判斷:GLM-5 標志著開源模型真正做好了迎接 Agentic 大任務時代的準備
為 Agentic Engineering 而生的 GLM-5
GLM-5 從「Vibe Coding」向「Agentic Engineering」的跨越并非偶然。智譜官方披露的技術細節顯示,這是一款為穩定交付生產結果而重構的基座模型。
為了提升通用智能水平,GLM-5 將參數規模從上一代的 355B(激活 32B)大幅擴展至 744B(激活 40B),預訓練數據量也提升至 28.5T。更關鍵的是,為了解決大模型在長程任務中 Token 消耗巨大的痛點,GLM-5 首次集成了稀疏注意力(Sparse Attention)機制。這使得模型在維持長文本效果無損的同時,大幅降低了部署成本與推理延遲。
在訓練層面,智譜構建了全新的異步強化學習基礎設施 Slime 框架。配合異步智能體強化學習算法,GLM-5 能夠在海量的長程交互中持續學習。這種大規模強化學習(RL)的介入,正是它能夠像資深工程師一樣進行自我反思與規劃的根本原因。
這些技術突破直接體現在了硬核基準測試成績上。
代碼能力上,在業內公認的主流基準測試中,GLM-5 表現強勁。在全球權威的 Artificial Analysis 智能水平榜單上,GLM-5 位居全球第四、開源第一
![]()
而在 Artificial Analysis 的 Agentic 榜單上,GLM-5 的排名還更加靠前,超過了 GPT-5.2 (xhigh) 和 Claude Opus 4.5,僅次于兩個 Claude Opus 4.6,位列全球第三。
![]()
是的,GLM-5 能力上已經比肩昂貴的新版 Claude Opus 和 GPT,但它是開源的。
更具體來看,在 SWE-bench-Verified 和 Terminal Bench 2.0 基準上,GLM-5 分別斬獲 77.8 和 56.2 的高分,不僅刷新了開源模型記錄,更在性能表現上超越了 Gemini 3.0 Pro,與 Claude Opus 4.5 處于同一梯隊。
![]()
Code Arena 分享了一個 SVG 生成結果的對比視頻,讓我們可以更直觀地看到 GLM-5 與 Claude Opus 4.6 和 Gemini 3.0 Pro 相差無幾的水平:
![]()
https://x.com/arena/status/2021732547349344690
而在智譜內部的 Claude Code 評估集合上,GLM-5 在前端、后端、長程任務等編程開發任務上顯著超越上一代的 GLM-4.7(平均增幅超過 20%),能夠以極少的人工干預自主完成 Agentic 長程規劃與執行、后端重構和深度調試等系統工程任務。智譜表示,GLM-5 的「使用體感逼近 Opus 4.5」。
![]()
GLM-5 的長程任務執行能力也達到了 SOTA 級別。比如其在 MCP-Atlas(工具調用和多步驟任務執行)和 τ2-Bench(復雜多工具場景下的規劃和執行)等基準上均達到了前沿水平,在 BrowseComp(聯網檢索與信息理解)上更是有著顯著領先優勢(超過第二名 8.1 分)。
舉個例子,在衡量模型經營能力的Vending Bench 2中,GLM-5 獲得開源模型第一表現。該基準要求模型在一年期內經營一個模擬的自動售貨機業務,GLM-5 最終賬戶余額達到 4432 美元,經營表現接近 Claude Opus 4.5,展現出出色的長期規劃和資源管理能力。
![]()
這種能力已經開始轉化為真實的生產力。
在 OpenRouter 匿名上線 Pony 版本后,我們觀察到了一個極具代表性的用戶案例:一位開發者使用 GLM-5 端到端開發了一個「學術版抖音」。從開源項目的改造、API 批處理、后端取數邏輯到前端渲染,GLM-5 獨立完成了全流程開發。目前,這個 App 已經提交 App Store 申請,即將正式上線。
![]()
為了讓更多開發者擁有這種能力,配套的工具鏈也迎來了重構。
智譜同步推出了 Z Code。這是一個全新的開發環境,用戶只需通過自然語言描述需求,模型即可自動拆解任務,并調度多智能體并發完成代碼編寫、調試、預覽及提交。更令人興奮的是,Z Code 打通了移動端與桌面端的邊界,你甚至可以用手機遠程指揮桌面端的 Agent,解決那些以往必須坐在電腦前才能完成的工程任務。
此外,針對桌面級自動化任務,AutoGLM 版本的 OpenClaw 也已上線。它就像一個駐留在電腦里的智能實習生,能夠 7x24 小時幫助用戶完成網頁搜索、資訊整理甚至跨應用操作。
GLM-5 的交付能力甚至延伸到了代碼之外。它現在可以直接輸出產品需求文檔(PRD)、電子表格和財務報告等格式文件(.docx、.xlsx、.pdf)。此外,智譜還推出了原生適配 Excel 環境的 AI 插件。可以說,GLM-5 真正實現了從工程開發到文檔交付的全流程閉環。
![]()
GLM-5 生成的 .docx 文檔
順帶一提,GLM-5 在 AA-Omniscience 基準上的幻覺率也是最低的。
![]()
從底層模型到上層工具,GLM-5 展示了一個完整的 Agentic 生態:它不再滿足于在對話框里輸出代碼片段,而是要接管鍵盤與鼠標,替人類完成那些繁瑣的系統工程。
國產 AI 軟硬體系的「會師」
昨天智譜 GLM-5 正式發布后,GLM Coding Plan 的使用量立刻爆滿,官方不得不開始限售。不過對于廣大 AI 應用的用戶來說,算力不足只是暫時的。
一眾國產芯片也宣布了對于該模型的 0Day 適配。據介紹,目前 GLM-5 已完成與華為昇騰、摩爾線程、寒武紀、昆侖芯、沐曦、燧原、海光等國產算力平臺的深度推理適配。通過底層算子優化與硬件加速,GLM-5 在國產芯片集群上已經實現高吞吐、低延遲的穩定運行。
![]()
我們有理由相信,GLM-5 只是一個序章,它證明中國 AI 已經準備好去定義未來。
隨著國產算力底座的日益堅實,大模型落地的最后一塊拼圖已被補齊。接下來的 2026,不僅是技術的角斗場,更是應用生態的爆發年 —— 而這把開啟新時代的鑰匙,現在就在我們手中。
現在,唯一的懸念就是:擴容后的 GLM Coding Plan,你搶到了嗎?
文中視頻鏈接:https://mp.weixin.qq.com/s/YSpqght5O_CzO0-QCoCN1w
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.