網易首頁 > 網易科技 > 網易科技 > 正文

10倍速的一夜：智譜GLM-5官宣，MiniMax與DeepSeek的暗戰

2026-02-12 13:15:18　來源: 態℃

北京舉報

分享至

出品 |《態度》欄目

作者 | 袁寧

編輯 | 丁廣勝

2月11日深夜到12日清晨，短短幾個小時內，中國三家知名的大模型公司幾乎同時完成了一輪關鍵更新：

智譜正式發布 GLM-5，MiniMax M2.5在產品中悄然上線體驗，DeepSeek 也啟動新一輪能力升級。

智譜 GLM-5：從“寫代碼”到“搞工程”

2月12日，智譜正式官宣上線并開源新模型 GLM-5。同時確認：此前在 OpenRouter 上爆火的匿名模型 Pony Alpha，正是 GLM-5。

在匿名測試階段，這個模型已經被全球開發者當作真實生產工具使用。有人用它做橫版解謎游戲，有人搭建 Agent 交互世界，也有人直接基于它開發出論文版“抖音”等完整應用形態。模型在沒有品牌背書的情況下完成真實市場驗證，本身已經說明了能力層級的變化。

智譜對 GLM-5的定位非常明確：它不是一個聊天模型，而是一個 Agentic Engineering 基座模型。

過去兩年，大模型的主流敘事是“寫代碼”“寫前端”；而現在，行業共識正在轉向：模型需要完成完整工程與復雜任務，即從「Vibe Coding」走向「Agentic Engineering」。GLM-5正是這一階段的代表產物。

與上一代相比，GLM-5不再滿足于生成一個漂亮 demo 或一段 Python 腳本，而是為穩定交付生產級結果而生。在真實編程場景的使用體感上，GLM-5已經被認為逼近當前行業天花板 Claude Opus 4.5。

在底層能力上，GLM-5進行了全面擴展：

● 參數規模：從上一代的355B（激活32B）擴展至744B（激活40B）。

● 數據量級：預訓練數據從23T 提升至28.5T。

● 架構創新：首次集成了 DeepSeek Sparse Attention 機制。這一技術在維持長文本效果無損的同時，大幅降低了模型部署成本，提升了 Token 的生成效率。

● 異步強化學習：構建了全新的“Slime”框架，讓模型能夠在長程交互中持續學習，不再是“聊幾句就忘”。

在全球權威的 Artificial Analysis 榜單中，GLM-5位居全球第四、開源第一。

GLM-5在編程能力上實現了對 Claude Opus 4.5的對齊，在工程師最看重的 SWE-bench-Verified（軟件工程基準測試）中，GLM-5拿下了77.8的高分；在 Terminal Bench 2.0（終端操作能力）中達到了56.2。這兩個分數不僅是開源模型的 SOTA（State Of The Art），更直接超越了 Google 的 Gemini 3 Pro。

在智譜內部的 Claude Code 評估集合中，GLM-5在后端重構和深度調試等“硬骨頭”任務上，比 GLM-4.7平均提升了超過20%。

GLM-5在 Agent 能力上實現開源 SOTA，在多個評測基準中取得開源第一。

更有意思的是 Vending Bench 2的測試結果。這個測試要求模型在一年期內經營一個模擬的自動售貨機業務。GLM-5最終的賬戶余額達到了4432美元。這意味著它不僅會寫代碼，還懂得資源管理和長期規劃，這種“經營能力”是邁向 AGI 的關鍵一步。

同一夜：MiniMax 與 DeepSeek

就在智譜官宣的同時，另外兩家巨頭的布局也在進行。

昨晚，細心的用戶發現，在 MiniMax Agent 產品中，底層模型選項里悄然出現了一個新名字——MiniMax M2.5。

雖然公司尚未正式官宣，但這顯然是一次在產品端的“實彈演習”。據早期測試用戶反饋，“M2.5 Agent能力炸裂”，“編程和工具調用又強又便宜”。

據我們了解，MiniMax M2.5定位為全球首個為Agent場景原生設計的生產級模型。其編程與智能體性能 (Coding & Agentic)比肩國際頂尖模型，直接對標 Claude Opus 4.6，支持PC、App、跨端應用的全棧編程開發，尤其在 Excel高階處理、深度調研、PPT等Office核心生產力場景中處于SOTA地位。

同時，M2.5模型激活參數量僅 10B，在顯存占用和推理能效比上優勢明顯，支持 100 TPS 超高吞吐量。

此外，就在眾人還在猜測DeepSeek V4何時到來時，DeepSeek也在悄然更新。

我們在昨晚嘗試詢問 DeepSeek 的最新狀態，在關閉“深度思考”和“聯網搜索”后查詢模型信息時發現，其上下文長度已提升至1M Token（此前為128K），知識庫截止日期更新至2025年5月。