網易首頁 > 網易號 > 正文申請入駐

這個春節，千問、階躍、Gemini打響2026年「3.5模型大戰」

2026-02-06 14:49:58　來源: 雷科技

廣東舉報

分享至

2026 開年沒多久，大模型圈就又要熱到火起來了。

僅僅是 2 月前后這幾天，Kimi 2.5、Qwen3-Max-Thinking、Step 3.5 Flash 就接連發布。Qwen3-Max-Thinking 直接對標 GPT-5.2-Thinking、Claude-Opus-4.5 和 Gemini 3 Pro 等旗艦推理模型，Kimi 2.5、Step 3.5 Flash 則瞄準了 Agent 時代的模型升級。

今天（2 月 6 日）凌晨，OpenAI、Anthropic 也幾乎同時推出了小版本迭代的 GPT-5.3-Codex 和 Claude Opus 4.6。

但這一切還是剛開始，阿里 Qwen 研究員鄭楚杰在 Qwen3-Max-Thinking 發布時強調這是 Qwen 迄今為止最好的模型，同時又透露「Qwen 3.5 的發布也指日可待」。

圖片來源：X

指日可待的不只是 Qwen 3.5。

1 月初智譜上市，智譜首席科學家唐杰就在內部信中透露即將推出新一代模型 GLM-5，最近南華早報的披露把發布時間進一步縮小至「春節前」。而以「海螺 AI」出圈的 MiniMax，也會同期推出新一代大模型 MiniMax M2.2。

稍早前幾天，The Information 不僅進一步佐證了 Qwen 3.5 的即將發布，還援引內部人士報道稱，字節跳動將于 3 月推出下一代模型矩陣，包括大語言模型 Doubao 2.0、圖像生成模型 Seedream 5.0，以及視頻生成模型 SeedDance 2.0。

至于去年春節期間引爆全球 AI 圈的 DeepSeek，其下一代模型 DeepSeek V4 是否繼續在春節期間發布發布還存疑，南華早報的消息是繼續更新 DeepSeek V3 系列。

圖片來源：DeepSeek

但無論 DeepSeek 下不下場，這場春節前后的大戰都會是空前的。除了小版本迭代的 GPT-5.3-Codex 和Claude Opus 4.6，內測代號「Snow Bunny」的 Gemini 3.5 以及代號「Fennec」的 Claude（Sonnet）5 也都流出了部分基準成績和測試表現。

簡言之，中美頭部玩家幾乎在同時推進一場大版本迭代。它們所競爭的，也不再只是參數規?；虬駟闻琶?，而是誰能定義 2026 年的 AI。

一切為了 Agent，新一代模型的三大升級

如果把過去兩年的大模型競爭總結為「更大、更強、更全」，那么 2026 年這一輪更新，方向已經明顯變了。

從目前披露的信息看，不論是國內的 Qwen、GLM、DeepSeek，還是海外的 Gemini、Claude，新一代模型的升級重點明顯有所不同，一方面是 RL 強化學習的再引入，另一方面則是大家不再滿足于「能力」，而是更多「實用」。

第一，推理不再是少數旗艦型號的專屬賣點，而正在成為下一代基礎模型的默認能力。

智譜在上市后釋放的信號非常清晰：GLM-5 不再強調參數規模，而是強調復雜任務的一致性完成能力，包括長鏈路推理、跨文檔理解以及工具調用的穩定性。這意味著推理不再是「多想一步」，而是模型默認的工作方式。

2 月剛發布的階躍星辰開源模型 Step 3.5 Flash，更是明確了這一點，在 196B（激活 11B）的參數規模下不僅實現了更強的推理，還能做到秒回應。一個核心的技術關鍵是，Step 3.5 Flash 采用了 MTP-3（三路多 Token 預測）技術，模型在生成當前內容時，就能同時預測后續多個 Token。

右上角為 Step 3.5 Flash，圖片來源：階躍星辰

在海外，內測代號為 Gemini 3.5 同樣被曝出強化了深度推理模式，并允許在速度與深度之間動態切換。這類設計背后的共識是：推理能力如果不能按需調用，永遠只是榜單能力。

第二，長上下文也仍然基礎模型的升級重點。

2 月 3 日，騰訊混元后，騰訊混元團隊發布了姚順雨擔任首席 AI 科學家后的首篇論文，推出了 CL-bench 基準測試，核心就是瞄準了大模型在「上下文學習」（現學現賣）上的痛點。

DeepSeek V4 雖然還沒發布，但在 1 月剛剛發布了一篇關鍵論文，提出了全新的「Engram 條件記憶」機制，能在計算量較 MoE 減少 18% 的情況下，在 32768 個 token 的長上下文任務中，反超同參數量的 MoE 模型。

圖片來源：DeepSeek

同樣的邏輯也體現在 GLM-5 與 Gemini 3.5 的設計傳聞中：長上下文被更多用于真實工作場景，比如跨文件代碼分析、多文檔合并推理、長時間 Agent 任務，而不是一次性塞滿文本。

這意味著，長上下文正在從「指標」變成「系統能力」。

第三，Agent 不再是 Demo，而是 AI 系統的核心。

盡管我們已經看到了豆包手機助手引發的熱議，以及 AutoGLM 的開源熱潮，但 2025 年的 Agent 更多還會停留在展示階段。不過 2026 年，Agent 正在重新定義基礎模型，并進一步改變 AI 體驗。

Qwen、智源以及 DeepSeek 之前的論文都反復提及工具調用能力和多步驟任務。這背后指向的是同一個問題：模型是否能在較少人工干預的情況下，完成一個完整任務，而不是中途崩潰。

階躍星辰的 Step 3.5 Flash 更是「為 Agent 而生」，打造了新的基礎模型結構，大量升級也是圍繞「從推理到執行」的閉環進行優化，強調模型的規劃、調用工具、執行長流程任務的能力，還有很快的是輸出表現。

包括代號 Fennec 的 Claude 5 也被曝出一種「蜂群模式」，強化了多 Agent 協作與長任務保持能力。相比單次回答是否聰明，Claude 5 更關注在復雜工作流中，模型是否能保持角色、目標和上下文的一致。

圖片來源：APIYI

這類能力一旦成熟，模型的形態就不再只是「對話框里的助手」，而更多會成為嵌入各種系統的「發動機」。

春節將至，這場模型大戰在看什么？

為什么偏偏集中在 2026 年春節前后？原因其實不復雜。

一方面，去年春節 DeepSeek 的意外爆發，已經證明這個時間窗口可以承載巨大的技術關注度；另一方面，新一輪強化學習與推理訓練周期在 2025 年底基本成熟，多家廠商的下一代模型自然在年初進入集中釋放階段。再疊加上市、融資與全球競爭節奏，春節反而成了一個罕見的「同步窗口」。

但時間點只是背景。真正讓人在意的，這場春節模型大戰會發生什么？

從從目前各方釋放的節奏看，這不會是一兩款模型的發布，而更像一輪連續出牌。這意味著，從春節前一兩周到 3 月初，行業很可能進入一個罕見的「連續發布」：每隔數天，就會有一家頭部廠商放出新模型或關鍵能力更新。

但這種節奏也意味著，單一模型很難長時間吸引廣泛的注意力，仍然只會有少數模型可能成為絕對的討論熱點，這對模型本身以及各家的營銷都是一個很大的考驗。

圖片來源：DeepSeek

而與過去不同，這一輪模型發布后，很可能不會經歷漫長的評測周期。原因很簡單，大多數新模型都會在發布同時開放 API 或產品入口，開發者與普通用戶幾乎可以即時上手。再加上推理、Agent、長上下文等能力本身就容易被直接體驗，模型之間的差距會迅速在真實使用中被放大。

換言之，春節期間很可能會出現不同模型在相同任務下被大規模橫向對比。不是基準測試，而是寫代碼、寫方案、做多步驟任務、調用工具等真實場景的對比。一旦這種對比在社區和社交媒體擴散，模型的優劣排序會在極短時間內形成共識。

換句話說，這一輪大戰的第一階段，很可能不是發布本身，而是發布后的實際使用反饋。

當然，并不是每一輪模型更新都會帶來代際變化。過去兩年，很多版本升級更像是性能線性提升：更快、更準、更長。但從目前各方釋放的信號看，2026 年這一輪更新，可能第一次同時涉及訓練方式、推理模式與模型定位的變化。

如果多個廠商的新模型都在強化學習、推理架構、工具調用與系統整合上完成切換，那么這一輪更新帶來的，將不只是能力提升，而是模型工作方式的變化。

對于開發者來說，這意味著調用方式與應用結構可能需要重寫；對于廠商來說，這意味著模型可以從「功能組件」變成「系統底座」；對于行業來說，這才是真正意義上的代際躍遷。

春節前后是否會出現這種躍遷，是這場大戰最值得觀察的長期變量。

模型發布本身的熱度只能持續數天，但入口的占據卻會持續數月甚至更久。過去一年里，無論是 ChatGPT、Gemini 還是豆包，真正拉開差距的并不是模型本身，而是它們進入用戶與開發者日常使用的速度。

因此，這場春節大戰的真正勝負，很可能不取決于誰先發布，而取決于誰能在發布后被更多用起來，進入辦公軟件、進入開發工具，甚至進入操作系統。

模型能力的差距，可能只會存在幾周，但入口與調用習慣一旦形成，差距就會被放大。

從這個角度看，今年這場春節前后的更新大戰，可能影響未來一年的全球大模型格局。誰能在能力之外率先完成落地，誰才更有機會在這一輪大升級中占據主動。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.