網易首頁 > 網易號 > 正文申請入駐

編程超越 Gemini 3 Pro？GLM-5 性能實測對齊 Opus 4.6，智譜市值突破1700億港元

2026-02-12 13:02:12　來源: AI前線

北京舉報

分享至

整理 | 華衛

臨近春節，智譜 AI 發布了其最新旗艦大模型 GLM-5。自 1 月初在香港進行備受關注的 IPO 之后，這是該公司推出的首款重磅大模型。

據稱，GLM-5 標志著人工智能開發從“Vibe Coding”變革為“Agentic Engineering”，即更大規模的 AI 自動化編程，其代碼能力實現跨越式提升。該公司的內部測試顯示，GLM-5 在代碼能力、智能體表現等關鍵領域的開源模型評分中取得 SOTA 表現，在真實編程場景的使用體感逼近 Claude Opus 4.5，擅長復雜系統工程與長程 Agent 任務。

目前，這款新模型已在智譜官網上線，并在 GitHub 和 Hugging Face 平臺開源，模型權重遵循 MIT License。

GitHub：https://github.com/zai-org/GLM-5

Hugging Face：https://huggingface.co/zai-org/GLM-5

OpenRouter：http://openrouter.ai/z-ai/glm-5

值得一提的是，智譜在官宣帖中特意注明“GLM-5 在 OpenRouter 上的前稱是 Pony Alpha”。就在幾天前，全球模型服務平臺 OpenRouter 上一款代號為“Pony Alpha”的神秘模型，因卓越性能和一系列令人驚艷的實測表現走紅。當時，該平臺合作方 Kilo Code 透露，Pony Alpha 是“某個全球實驗室最受歡迎的開源模型的專項進化版”。

之后，Pony Alpha 被眾人猜測可能是 Anthropic 的 Claude Sonnet 5、DeepSeek-V4 或者 GLM-5 的提前試水。現在，答案終于被“正主”揭曉。

官宣 GLM-5 后，智譜的股價連續暴漲。截止發稿前，智譜的市值突破 1700 億港元。

自封“系統架構師”，

性能超過 Gemini 3 Pro

一個多月前，智譜才剛剛更新到 GLM?4.7 。據介紹，GLM-5 的參數規模是上一代 GLM-4.7 的兩倍，從 3550 億提升至 7440 億，訓練數據量從 23 萬億增至 28.5 萬億 tokens，更大規模的預訓練算力顯著提升了模型的通用智能水平。

并且，該模型構建了全新的“Slime”框架，支持更大模型規模及更復雜的強化學習任務，提升強化學習后訓練流程效率；提出異步智能體強化學習算法，使模型能夠持續從長程交互中學習，充分激發預訓練模型的潛力。

此外，GLM-5 還采用了由 DeepSeek 率先提出的全新架構 DeepSeek 稀疏注意力機制，在維持長文本效果無損的同時，大幅降低模型部署成本，旨在最大化計算效率與成本效益。

在編程能力上，GLM-5 實現了對齊 Claude Opus 4.5，在業內公認的主流基準測試中取得開源模型 SOTA。在 SWE-bench-Verified 和 Terminal Bench 2.0 中分別獲得 77.8 和 56.2 的開源模型最高分數，性能超過 Gemini 3 Pro。

在內部 Claude Code 評估集合中，GLM-5 在前端、后端、長程任務等編程開發任務上顯著超越上一代的 GLM-4.7（平均增幅超過 20%），能夠以極少的人工干預自主完成 Agentic 長程規劃與執行、后端重構和深度調試等系統工程任務，使用體感逼近 Opus 4.5。用智譜的話說，GLM-5 是一個“系統架構師”，不僅為開發精美的 Demo 而生，更為穩定交付生產結果而生。

在 Agent 能力上，GLM-5 實現開源 SOTA，在多個評測基準中取得開源第一，在 BrowseComp（聯網檢索與信息理解）、MCP-Atlas（大規模端到端工具調用）和 τ2-Bench（復雜場景下自動代理的工具規劃和執行）均取得最高表現。在衡量模型經營能力的 Vending Bench 2 中，GLM-5 獲得開源模型第一表現。Vending Bench 2 要求模型在一年期內經營一個模擬的自動售貨機業務，GLM-5 最終賬戶余額達到 4432 美元，經營表現接近 Claude Opus 4.5。

不過，該公司自行公布的分數也顯示，在各項代碼基準測試中，這款模型仍全面落后于 Anthropic 的 Claude。

“價格簡直離譜”，

實測被評最優秀開源模型之一

此前，在 OpenRouter 匿名上線時，就有許多開發者使用 GLM-5 完成了真正能用、能玩、能上線的應用，例如橫版解謎游戲、Agent 交互世界、論文版“抖音”等應用。如今公開推出后，又迎來一波開發者的積極試用。

“GLM-5 現在已經能和 Opus 4.6 同臺競技了。”一位開發者表示，“我一整個上午都在編程任務和游戲環境里折騰 GLM-5。整體來說，它在某些任務上執行得很快，表現不錯，但碰到更復雜的場景，對我而言 Claude 依然是王者。”

另一位開發者則稱，GLM-5 表現得很完美，絕對是目前發布的最優秀開源模型之一。“我在 Ollama 命令行和 Claude Code 里都跑了一遍。我發現 Claude Code 里有個缺陷，但找到了臨時解決辦法。我的 GLM-5 對話會話達到了和 Opus 4.6 同一水準的自我認知 / 理解深度。”

還有開發者評價道，“GLM-5 可能真的是我第一次在前端任務上更傾向于選擇非 Gemini 模型。”

“價格簡直離譜”，有開發者算完后表示，GLM5 的輸入成本比 Opus 便宜 6 倍，輸出成本便宜 10 倍。

依托國產芯片，

“把每一塊芯片用到極限”

值得注意的是，智譜在發布公告中表示，GLM-5 可基于一批中國半導體企業的國產芯片部署，包括華為、摩爾線程、寒武紀、百度昆侖芯、沐曦集成電路、燧原科技及海光信息。而本次 GLM-5 的上線，也是依托眾多國產芯片有力保障了線上服務的穩定和高效。

去年年初，智譜被美國列入實體清單。近幾個月來，智譜已宣布致力于在純國產硬件體系上研發前沿大模型。不過，受限于算力資源，智譜也被迫限制其旗艦產品在國際市場的應用。這一情況在 GLM-5 上仍在延續。

“算力非常緊張。即便在 GLM?5 發布前，我們為了支撐推理服務，已經把每一塊芯片都用到極限。”智譜表示，因 “算力容量有限”，將逐步向代碼訂閱用戶開放 GLM?5，并提醒用戶，使用新模型可能會更快耗盡使用額度。

智譜也宣布，基于實際使用情況與資源投入變化對 GLM Coding Plan 套餐價格體系進行結構性調整，包括：取消首購優惠，保留按季按年訂閱優惠；套餐價格進行結構性調整，整體漲幅自 30% 起；已訂閱用戶價格保持不變。

當前，中國幾乎所有前沿大模型開發者都在農歷新年前密集發布重磅產品，復刻了去年 DeepSeek 借此一舉成名全球的打法。同樣在香港上市的 MiniMax，也在昨天官宣了其重磅新模型 M2.5，并已在官網開放試用。

與此同時，DeepSeek 剛剛對其模型進行小幅升級，將對話上下文窗口擴展至 100 萬 tokens 以上，其備受期待的全新旗艦模型尚未發布。讓我們拭目以待。

https://z.ai/blog/glm-5

聲明：本文為 AI 前線整理，不代表平臺觀點，未經許可禁止轉載。

會議推薦

InfoQ 2026 全年會議規劃已上線！從 AI Infra 到 Agentic AI，從 AI 工程化到產業落地，從技術前沿到行業應用，全面覆蓋 AI 與軟件開發核心賽道！集結全球技術先鋒，拆解真實生產案例、深挖技術與產業落地痛點，探索前沿領域、聚焦產業賦能，獲取實戰落地方案與前瞻產業洞察，高效實現技術價值轉化。把握行業變革關鍵節點，搶占 2026 智能升級發展先機！

今日薦文

你也「在看」嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.