去年,DeepSeek在春節前夕發布了R1模型,讓硅谷震撼,讓華爾街不安。它為中國大模型廠商重新埋頭研究與訓練驗證了路徑,也開啟了中國開源模型陣營狂飆突進的一年。
春節已經成為新的一年的前哨戰。近期,Kimi、智譜、MiniMax與豆包,都先后趕在春節前,發布自己的旗艦模型。外界不免揣測,它們都擔心一旦遲到,在品牌形象與市場競爭中都落后一程。
前沿模型“智能”水平排名
![]()
(按照ArtificialAnalysis,目前美國最強模型來自Anthropic,中國來自智譜)
如今,壓力給到了DeepSeek。市場期待它繼續成為春節的英雄,以及承擔中國AI生態的“救世主”角色。它該如何回應市場對它的期待,又或者,它必須回應嗎?
DeepSeek確實正在醞釀些什么。全新長文本模型結構測試正在中,支持最高100萬token上下文。它會是市場等待了DeepSeek-V4嗎?事實上,去年5月、8月、10月與12月,市場就這么期待過。最終,DeepSeek交付了DeepSeek-R1-0528、DeepSeek-V3.1、DeepSeek-V3.2-Exp與DeepSeek-V3.2。
期間,DeepSeek還嘗試了UE8M0 FP8、DSA、上下文光學壓縮、mHC與Engram等方向的探索。它們的核心思路之一就是“稀疏化”,讓“專家”、“精度”、“注意力”與“記憶”變得更為稀疏。人們相信在即將到來的V4上,能夠繼續找到這些改良的技術的影子。
然而,市場的聚光燈已經轉向智能體(AI Agent),更確切地說,是智能體化(Agentic AI)。后者開始追求自主決策、長期任務規劃、智能體間交互,以及端到端執行的新范式。Anthropic稱,AI已經能寫出90%的代碼,再往前一步,就是完成90%端到端的軟件工程(SWE)。火爆的OpenClaw讓人相信,在獲得足夠權限后,Agentic應用會變得多么強大與危險。
2026年的旗艦大模型,將主要是原生Agentic大模型。在美國,Anthropic的Claude Opus 4.6與OpenAI的GPT-5.3-Codex相繼上線,尤其是OpenAI推出1000token/秒的Codex-Spark,將編碼競爭推向白熱化。在國內,月之暗面的Kimi-K2.5、智譜的GLM-5、稀宇科技的MiniMax-M2.5,以及今天字節跳動的Doubao-Seed-2.0,都在宣傳自己的智能體能力。
其中,Kimi-K2.5引入了智能體集群(Agent Swarm)技術,并提出并行智能體強化學習(PARL),準確率更高,用時更少;GLM-5在編程能力上實現了與Claude Opus 4.5對齊,又提出異步智能體強化學習算法,使模型能夠持續從長程交互中學習,以極少的人工干預自主完成 Agentic 長程規劃與執行。MiniMax-M2.5則號稱是第一個不需要考慮使用成本可以無限使用的前沿模型,“1萬美元可以讓4個Agent連續工作一年”。
DeepSeek-V3.1早已宣告邁向Agent時代,但又會如何定義撲面而來的Agentic時代。它能否憑借推理效率、工具集成、記憶機制與極致經濟性,在落地體驗中再度確立新的標桿?
也許,DeepSeek未必還需要一個單獨的“R系列”。R象征推理與認知,對標OpenAI的o系列模型;而Agentic時代,更強調執行與工程,更需要對標OpenAI的Codex。DeepSeek原本就擁有Coder與Math系列模型,編碼與數理證明,都是通往AGI(通用人工智能)的“元能力”,它們二者共同構成模型的自我改進系統,加速遞歸式進化。
市場同樣期待DeepSeek繼續驗證國產算力生態協同的潛力。長期以來,它對此的探索主線,一直都是如何在有限的資源下通過架構創新,最大程度上地提升訓練與推理的效率。去年年底,DeepSeek-V3.2用新架構DSA,在長上下文場景中實現了端到端的顯著加速;今年年初,Engram的條件記憶有望“成為下一代稀疏大模型中不可或缺的基礎建模范式”。
OpenAI的Codex-Spark證明,響應速度至關重要,是創造價值的關鍵。它運行在Cerebras晶圓級引擎上,這又正是國內推理生態所缺乏的。DeepSeek能否用“算法”換“算力”,抹平這種硬件級別的差距?
而且,從算法上著手,精簡步驟,不僅能夠提升響應速度,尤其是部分必須高速精準響應的場景,還能夠減輕上下文的壓力。此前,中國開源模型常被詬病,“冗長思考”不受制約,消耗token過高,將逐步侵蝕成本優勢。此前,DeepSeek提到,會在未來的工作中,聚焦于提升模型推理鏈的智能密度,以改善效率。
比推理更重要的是訓練,預訓練仍然是后訓練的起點。英偉達的Blackwell架構正在成為美國AI基礎設施中的訓練主力,谷歌的TPUv7也將在Gemini 4的訓練中發揮關鍵作用。即使H200能盡快在國內部署,短期內中國大模型訓練的算力來源,也仍處于Hopper時代。目前,國內AI芯片廠商的性能敘事仍主要圍繞Hopper架構展開,而在大規模集群場景下的穩定性與綜合效率表現,尚未形成充分的實踐數據支持。
DeepSeek在論文中承認,由于訓練算力不足,DeepSeek-V3.2在世界知識的覆蓋廣度上,仍落后于領先的專有閉源模型。該團隊計劃在后續迭代中,通過擴大預訓練算力規模,來彌補這一知識差距。不必懷疑,當DeepSeek-V4發布的時候,國產AI芯片會Day0深度全棧適配;但市場更期待它的預訓練會基于國產AI芯片,并再一次改寫市場對英偉達敘事的定價。
人們欣賞DeepSeek精致的研究,市場也期待原生多模態的DeepSeek-V4。Gemini 3已經是原生支持文本、圖像、音頻和視頻輸入的大模型,Kimi-2.5也強調文本與視覺的聯合優化。要繼續對標谷歌、OpenAI,似乎DeepSeek必須有所動作。
但是,技術創新必須站在可驗證的物理邊界上,而不是情緒邊界上。芯片、能源、網絡,以及算法等整套生態,決定了算力的上限。而算力正在限制中國開源模型進一步追趕的后勁,在預訓練和后訓練方面已經表現出來。任何“算法樂觀主義”,在特定時間內,都只能在這個邊界內優化。而AGI更是一項系統工程,遠超單一大模型的參數規模或版本更新。
DeepSeek的使命是探索AGI。只做大模型是無法實現AGI的,尤其是只做語言大模型,它的局限性也越來越明顯。現在更接近現實的AGI形態,是知行合一的,它有認知能力、執行能力、長期約束、現實反饋閉環,等等。Claude大模型經常被中國的開源模型集體刷榜碾壓,但它的收入以每年十倍的速度增長,在編程這一通用功能領域的突破,為通往AGI開辟了一條蹊徑。
或許,真正長期主義的期待,是允許DeepSeek繼續深度求索,而不是讓市場的所有焦慮與愿望,都在某一個時刻集中投射到同一個名字之上。在公司創始人梁文鋒看來,創新就是昂貴且低效的,有時候伴隨著浪費,它需要盡可能少的干預和管理,讓每個人有自由發揮的空間和試錯機會。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.