網易首頁 > 網易號 > 正文申請入駐

剛剛，DeepSeek V4基準測試泄露！疑似明天發布，全場驚呼新王歸來

2026-02-16 20:10:28　來源: 呼呼歷史論

遼寧舉報

分享至

編輯：Aeneas kingHZ

【新智元導讀】DeepSeek V4，據說明天就要上線了？這是首個匹敵頂尖閉源模型的開源模型，被網友評為「一鯨落萬物生」。泄露的基準測試顯示，它在SWE-bench Verified上取得了83.7%，已經超越Opus 4.5和GPT-5.2！

就在剛剛，一張圖在全網瘋狂刷屏了！

據說，DeepSeek V4的基準測試已經泄露，整個AI圈都震了。

有大V總結道：AI編程大戰，已經達到了新的高峰。

泄露信息顯示，DeepSeek V4在SWE-bench Verified上取得了驚人的83.7%，超過了Claude Opus 4.5（80.9%）和GPT-5.2（80%）。

可以說，100萬+上下文長度+Engram記憶機制=真正的全倉庫級推理能力。

他驚呼：閉源模型占據主導的時代，是否正在走向終結？

同時泄露的，還有下面這一張圖。

其中，它的SWE-Bench Verified得分，達到了83.7%。如果這個數字最終被確認，將直接改寫當前「最強代碼模型」排名！

相比之下，其他模型的得分都比較落后——

DeepSeek V3.2 Thinking：73.1%
GPT-5.2 High：80.0%
Kimi K2.5 Thinking：76.8%
Gemini 3.0 Pro：76.2%

這不是小幅領先，而是直接躍升到第一梯隊頂端！

不僅如此，真正令人警惕的，并不只有編程能力，V4的其他分數也很驚人。

AIME 2026：99.4%
IMO Answer Bench：88.4%
FrontierMath Tier 4：23.5% （直接達到GPT-5.2的11倍）

這意味著什么？

如果這些數據屬實，DeepSeek V4不是「又一個強模型」，而是一次能力曲線的陡峭抬升！

它可能會同時在代碼、競賽數學、前沿數學推理三個高難度維度上，刷新現有天花板。

還有網友綜合了全網DeepSeek V4消息，不僅在HumanEval、SWE_bench、上下文和成本上刷新成績，而且發布時間預計在春節，也就是明天！

HumanEval：約90%（來自Reddit社區泄露 + Skywork AI總結）SWE-bench：進入「>80%」區間（在Wavespeed對比帖中引用，根據 Claude Opus 基準推測得出）上下文長度：高達 100 萬 token（在Reddit AI Insider和博客總結帖中反復出現的傳聞）成本：據稱比OpenAI便宜20到40倍（根據DeepSeek V3/R1 API 定價與前沿模型層級的對比推算）預計發布時間：2月17日（農歷新年期間，泄露文章中廣泛報道)

如果是真的，DeepSeek將又一次改變游戲規則。

總之，DeepSeek V4的發布時間，很可能是周一。據說，這是首個不落后于閉源頂尖模型，甚至能與之匹敵甚至超越的模型。

有人說，以DeeepSeek-V4為代表的開源模型需要跨越的差距越來越大了！

很期待，當V4等中國開源模型發布后，這一差距會如何隨著時間演變。

被打假了？

不過，這幾張流傳出來的基準測試，很快被懷疑是假的。

比如在官方評分系統下，不可能有模型達到99.4%的分數。最高分只能是119/120（99.2%）或 120/120（100%）。

另一個證據，就更加增加了這幾張基準測試的可疑性。

Epoch AI也確認，FrontierMath的數據是偽造的，因為只有他們和OpenAI有權對該數據集進行評估。至少有兩個基準測試被打假，證明這些圖可信度確實不高。

而且，據說DeepSeek新模型的官方發布時間，已經被推遲到了三月底。

如果模型本體還在封閉開發階段，那么所謂83.7%的 SWE-Bench Verified，是基于哪個版本跑出來的？是內部原始checkpoint？還是已經定型的最終權重？

另外，對于如今的大模型，分數本身并不是終點，「收據」才是關鍵。

這個83.7%的分數是怎么跑出來的？是否做了pass@k報告？軟件工程實驗臺的工具棧如何配置？使用了什么版本的harness？是否基于最新數據集版本評估？有沒有做污染檢查？失敗案例如何分解？

如果沒有這些細節，所謂的第一名，也只是一個數字而已。

另外，就算泄露的分數很驚人，但真正有說服力的，是可復現的運行細節。

比如，精確的評測線束、配線組、不穩定測試如何處理、SWE實驗臺上工具調用失敗如何重試？基礎模型本身的能力貢獻有多少？代理框架又放大了多少性能？

否則，這種所謂的刷新排行榜，就只是更像一次市場營銷行為。

還有人提出，技術基準測試得分提高，也不意味著能駕馭現實中混亂的代碼庫。很多所謂更聰明的模型，在上下文窗口被塞滿后，就迅速崩潰了。

有趣的是，即便是假的，這也說明DeepSeek的確「深得人心」，網上的夸大其詞的「泄露」就是DeepSeek成功最大的標志。

不過，DeepSeek V4的上下文，一定是一個殺手锏。

100萬長上下文來了，

其他還會遠嗎？

最近，已經沉寂已久的DeepSeek，忽然在官網和移動應用上推出了新模型的灰度測試。

根據流傳的信息，該默寫的參數可能僅為200B，且未采用DeepSeek與北大聯合開發的Engram條件記憶機制。

但只要通過簡單的測試就會發現，這個新版本有一個大突破——超長的上下文窗口，包含100萬個token，可以一次性處理《三體》三部曲體量的長文本。

奇怪的是，API文檔并沒有更新，上下文長度依然為128K。

Hugging Face、GitHub上，DeepSeek完全沒有更新任何消息。

業內普遍猜測，DeepSeek很可能在測試V4-lite版。

在DeepSeek V3的基礎上，國產模型已經刷新了開源最好成績。

深入研究代碼后，Meta科學家Zhuokai Zhao得出觀察結論：

LLM架構的前沿探索已基本收斂。 …… MLA + sigmoid =稀疏專家（MoE）+ 共享專家 + 無輔助損失 + DSA + MTP正成為前沿稀疏專家模型的標準配方。 …… 設計空間已被充分探索。

而DeepSeek不僅更新了上下文，在V3.2版本之后，在模型架構、記憶和視覺推理上，持續輸出，不斷創新：

100萬上下文長度，很可能就是DeepSeek的另一個絕招。

這次的低調測試，或許就是DeepSeek大更新的「試點」，是招「妙手」。

100萬token上下文都來了，其他還會遠嗎？

總之，大家對DeepSeek V4充滿期待：

DeepSeek V4，

全新編程之王！

另外，在一個overchat.ai的網站上，我們也發現了不少關于DeepSeek V4的蛛絲馬跡。

根據這個網站的信息，DeepSeek V4預計將在2026年2月17日發布，配合春節發布。（什么逆天操作）

DeepSeek員工的內部測試顯示，V4 在編碼任務方面可能超越Anthropic的Claude和 OpenAI的GPT系列。關鍵的基準是SWE-bench，Claude Opus 4.5目前以80.9%的得分領先。

DeepSeek預計將以開放權重模型形式發布V4，延續一貫的開源傳統。

DeepSeek V4提供倉庫層級推理——能夠理解一個文件中的變化如何影響項目中其他文件，這對處理大型代碼庫或復雜分布式系統的開發者尤其有價值。

另外，DeepSeek V4還引入了新的Engram條件存儲系統，實現近乎無限的上下文檢索，使其能夠處理極長的編碼提示，并在大型代碼庫中保持上下文。

網站介紹說，DeepSeek V4自詡為專業的“編程之王”挑戰者。

DeepSeek之前的模型，尤其是V3和R1，證明了開源AI模型可以以極低成本與專有模型競爭。V4預計將在這一成功基礎上，擁有更令人印象深刻的編碼能力。

四大核心突破，成為游戲規則巔峰者

除了上下文更新外，DeepSeek手里還有這些牌——Engram、mHC、DAS 2.0……

不知道DeepSeek V4能帶來哪些新的驚喜！

上個月初，Information爆料稱，DeepSeek計劃在2月中旬，也正是春節前后，正式發布下一代V4模型。

V4的最大提升，就是在編程能力上。它的編碼實力，據說可以趕超Claude、ChatGPT等頂尖閉源模型。

而以下四個方向，就是它實現的核心突破，堪稱game changer的級別。

編程能力：劍指Claude王座

2025開年，Claude一夜之間成為公認的編程之王。無論是代碼生成、調試還是重構，幾乎沒有對手。但現在，這個格局可能要變了。

知情人士透露，DeepSeek內部的初步基準測試顯示，V4在編程任務上的表現已經超越了目前的主流模型，包括Claude系列、GPT系列。

如果消息屬實，DeepSeek將從追趕者一步躍升為領跑者——至少在編程這個AI應用最核心的賽道上。

超長上下文代碼處理

V4的另一個技術突破在于，處理和解析極長代碼提示詞的能力。

對于日常寫幾十行代碼的用戶來說，這可能感知不強。但對于真正在大型項目中工作的軟件工程師來說，這是一個革命性的能力。

想象一下：你有一個幾萬行代碼的項目，你需要AI理解整個代碼庫的上下文，然后在正確的位置插入新功能、修復bug或者進行重構。以前的模型往往會忘記之前的代碼，或者在長上下文中迷失方向。

V4在這個維度上取得了技術突破，能夠一次性理解更龐大的代碼庫上下文。

這對于企業級開發來說，是真正的生產力革命。

算法提升，不易出現衰減

據透露，V4在訓練過程的各個階段，對數據模式的理解能力也得到了提升，并且不容易出現衰減。

AI訓練需要模型從海量數據集中反復學習，但學到的模式/特征可能會在多輪訓練中逐漸衰減。

通常來說，擁有大量AI芯片儲備的開發者可以通過增加訓練輪次來緩解這一問題。

推理能力提升：更嚴密、更可靠

知情人士還透露了一個關鍵細節：用戶會發現V4的輸出在邏輯上更加嚴密和清晰。

這不是一個小改進。這意味著模型在整個訓練流程中對數據模式的理解能力有了質的提升，而且更重要的是——性能沒有出現退化。

在AI模型的世界里，沒有退化是一個非常高的評價。很多模型在提升某些能力時，會不可避免地犧牲其他維度的表現。V4似乎找到了一個更優的平衡點。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.