網易首頁 > 網易號 > 正文申請入駐

實測在DeepSeek-V4上燒1000萬token，我發現了3個驚喜和1個意外

2026-04-24 19:01:13　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達
編輯心緣

智東西4月24日報道，今天，DeepSeek-V4開源并火速沖上Hugging Face模型榜首，號稱推理和智能體編程性能沖到開源模型第一、比肩先進閉源模型。為了驗證兩款模型的真實效果，我們進行了多維度的深度體驗。

▲DeepSeek-V4-Pro登頂Hugging Face熱榜第一（圖源：Hugging Face）

我們的這次實測累計消耗超過1000萬token。總體來看，DeepSeek-V4系列，尤其是Pro版本，展現出強大的自主規劃與執行能力；但在部分極限任務和輕量級場景中，也存在一些有趣的短板。以下是我們提煉出的核心體驗要點：

（1）智能體編程提升明顯，長程任務能力驚艷：DeepSeek-V4-Pro能夠連續自主編程60分鐘以上，無需人工干預，完成復雜的數據庫設計和安卓模擬器開發等工程任務，展現出強大的長程規劃、自我糾錯和工具調用能力。

（2）復雜推理有亮點也有短板：模型在海龜湯等邏輯題上表現出色，但在IMO數學難題和部分輕量級測試中陷入死循環或給出錯誤答案，推理穩定性還有提升空間。

（3）輕量級任務表現意外翻車：簡單問題（如洗車店問題）上，Pro版有時反而因為“過度思考”無法給出正確答案，而Flash版更為直接高效。

（4）價格有所上漲，但緩存機制降低部分成本：相比DeepSeek-V3.2，V4系列API價格上調，但在長任務中借助緩存，總賬單的增長沒有API漲幅那么明顯。

以下是我們的完整實測：

一、智能體編程能力明顯提升，實測連續干活60分鐘無需干預

DeepSeek-V4的官方博客，尤其強調模型的Agentic Coding能力。這次實測中，我們讓DeepSeek-V4-Pro與Claude Code打配合，執行了兩個較為復雜的工程任務。

任務1：連續編程60分鐘，打造完整記賬系統

在數據庫設計任務中，我們的提示詞并未給模型提供過多的約束，這考察了其自主規劃任務的能力

拿到任務后，DeepSeek-V4-Pro先是思考了一會兒，然后輸出了一個完整的數據庫設計方案，包含8個核心功能模塊和6張數據表，目標是實現記賬、流水統計等功能。

此外，它還規劃了開發流程，除了打造每個具體組件之外，DeepSeek-V4-Pro也計劃在開發結束后自主進行驗證，并列出10項驗證的清單，考慮得較為周到。

之后，我們就完全放手讓DeepSeek-V4-Pro自主執行任務，它連續編程了接近60分鐘，期間沒有出現中斷或者死循環，也沒有遺漏關鍵步驟，完全按照此前的規劃執行。

DeepSeek-V4-Pro的開發結果如下，從前端的角度來看，這一數據庫在美感層面稍有欠缺，但所有核心功能都運轉正常。我們試著添加了一條數據，沒有出現報錯信息。

在前端中，用戶可以直接完成各種自定義操作，比如新增分類，刪改數據等等。而此前我們體驗的部分模型在這種任務上可能會把所有設置都寫死，這影響了后續的可擴展性。

查看后端數據庫也可以發現，我們在前端輸入的新數據可以正常同步到數據庫后臺，下圖最后兩行數據，就是手動添加的。這證明前后端之間的數據交互接口與數據傳輸鏈路均處于正常、可用的狀態。

總體來看，在復雜數據庫開發這種綜合考察模型長程規劃能力、自我糾錯能力、長上下文能力和推理能力的任務上，DeepSeek-V4-Pro的表現可以說遠遠超過了DeepSeek-V3.2。

不過，需要注意的是，與此前DeepSeek的旗艦級模型相比，DeepSeek-V4-Pro的價格有一定幅度的上漲，跑完上述這一任務的token消耗量大概在20萬個左右（大部分為輸入token），換算為API賬單大概是5塊錢，由于緩存機制的介入，價格還算可以接受。

任務2：從零開始打造安卓模擬器，代碼、環境全程包辦

我們的下一個任務挑戰更大：讓DeepSeek-V4-Pro從零開始打造一個安卓模擬器。

這一任務的復雜程度似乎已經超出DeepSeek-V4-Pro的知識范圍了，于是它決定開啟聯網搜索，查詢配套工具、參考架構等等，進行了18次工具調用。

在足足思考了11分鐘之后，DeepSeek-V4-Pro才開始動筆寫開發計劃，它還自我評價道：“很好，Plan Agent輸出了很全面的架構，我現在開始寫完整架構?！贝藭r，已經燒了8000多個token。

不過這種token消耗并非浪費，通過更為全面的規劃，DeepSeek-V4-Pro讓我們原本極為簡單的提示詞變得更加體系化，有助于后續的開發。

最終，DeepSeek-V4-Pro的計劃是七步走完成開發，包含框架搭建、圖像管理模塊設計、VNC顯示插件、完整GUI開發、APK安裝功能、打包和debug。

這一項目的規模確實有點大，DeepSeek-V4-Pro連續跑了50多分鐘才完成。

我把后續的調試和環境依賴安裝工作也交給了DeepSeek-V4-Pro。執行過程中，DeepSeek-V4-Pro缺了什么資源就會調動搜索工具，直接搜索到對應鏈接進行下載，也能通過命令行幫我解壓、安裝相關環境，徹底解放雙手。

DeepSeek-V4-Pro又工作了20多分鐘，把活全部都干完了。不過，最后這一模擬器未能成功運行，截至發稿，DeepSeek還在幫我debug。

二、實測復雜推理，被IMO難題打入死循環

除了智能體、編程能力之外，DeepSeek-V4在推理方面的提升也值得關注。

DeepSeek官方稱，DeepSeek-V4-Pro和DeepSeek-V4-Flash兩個模型的推理能力接近。在下方這幾道邏輯和推理題目中，我們便同時測試了兩個模型。

任務1：解答海龜湯，Pro反而比Flash要快？

我們向DeepSeek發送的題目如下。這種題目的考察難點主要不在“謎面有多復雜”，而在于模型如何突破常見的思維慣性。

先來看看DeepSeek-V4-Pro的解題過程。DeepSeek-V4-Pro用時33秒就便推理出正確答案，思考過程簡潔清晰。

DeepSeek-V4-Flash的推理速度反而更慢，耗時61秒，輸出的結果是正確的。DeepSeek-V4-Flash慢的原因是它的思維過程有些冗余，多了不少反復的確認與自我質疑。

任務2：實測IMO難題，Flash答錯、Pro死循環了

解答數學題也是DeepSeek的老傳統之一了。此次，DeepSeek稱V4-Pro的數學能力在測評中超過了所有已公開測評的開源模型，比肩世界頂級閉源模型。

我們拿去年IMO的題目考了考DeepSeek，關閉聯網開啟推理，讓模型完全靠自己解決問題。這張高糊的題目也考察了DeepSeek網頁服務中OCR的能力，我們檢查了下，識別結果都是正確的。

這道題目讓兩個模型都思考了很久很久，似乎陷入了無盡的循環。DeepSeek-V4-Flash最后給出答案，但是是錯誤的。DeepSeek-V4-Pro跑了10多分鐘，沒有明顯進展，最后我們手動中斷了思考。

三、輕量級測試題集錦：洗車店問題竟意外難倒V4-Pro

上述案例都比較硬核，接下來我們看幾個輕松點的案例。

首先是大家喜聞樂見的洗車難題。我們讓DeepSeek-V4-Flash、DeepSeek-V4-Pro在關閉聯網和思考的模式下解答。

DeepSeek-V4-Flash給出了正確答案，它覺得這個問題太簡單了，語氣中滿是嘲諷。

DeepSeek-V4-Pro的思路則有些清奇，它建議我們把車推過去，認為“這種方案對車最好，省去冷啟動磨損”，還補充道“推過去是愛車的極致表現，直接開過去是最不劃算的方式。”

后來我們又給了DeepSeek-V4-Pro幾次機會，它給出正確答案的概率還是高一些，但偶爾還是會因為過度思考而把自己繞進陷阱。

鵜鶘騎自行車的SVG，DeepSeek-V4-Flash就可以輕松拿下，結果基本完美：

像是網頁小游戲這樣的題目，DeepSeek-V4-Pro和DeepSeek-V4-Flash的表現其實都不太好，Flash打造的結果根本無法渲染，Pro打造的雖然渲染成功，但基本不可玩。

在這些“Toy Case”上，DeepSeek似乎沒有花太多精力進行針對性的優化。

結語：DeepSeek-V4，又一次定義開源模型的上限

DeepSeek-V4系列模型確實帶來了驚喜，尤其是在智能體編程方面，其長程規劃與執行能力令人印象深刻。其基準測試也基本回應了AI圈對DeepSeek的期待，拿下了多項開源SOTA。

DeepSeek的開源不只是把模型權重開放出來，在某種意義上，也是將訓練1.6T超大規模模型所需的算力、資金乃至工程經驗一并“開源”給了整個社區。這一選擇值得敬意。

可以預見，隨著后續迭代優化，DeepSeek-V4有望持續進化，成為開源AI生態中一個兼具性能與活力的基座模型。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

GPT5.5深夜炸場，這次OpenAI又行了

虎嗅APP 2026-04-25 05:47:05
7 跟貼 7
字節養的“蝦”與1500億賬本背后

鈦媒體APP 2026-04-25 16:44:18
0 跟貼 0

“不誘于譽，不恐于誹”！DeepSeek致謝近300名研發者，10名“已離職”大將赫然在列

每日經濟新聞 2026-04-25 22:28:14
325 跟貼 325

Anthropic實驗火了！Claude替人類做了186筆買賣，用Opus能多賺70%

新智元 2026-04-25 19:04:24
1 跟貼 1
DeepSeek靠近華為，英特爾先別樂

虎嗅APP 2026-04-26 01:17:06
2 跟貼 2

Token消耗砍半！神州數碼端出“養蝦”三件套，專治AI打工人

雷科技 2026-04-25 22:18:36
0 跟貼 0

支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

谷歌做了個論文專用版nano banana！頂會級Figure直出

機器之心Pro 2026-02-05 15:52:42
0 跟貼 0
AI自主監測寵物健康，涂鴉Hey Tuya打造全屋智能“超級入口”

量子位 2026-04-25 13:39:02
0 跟貼 0
這屆流量的情緒密碼是什么？

虎嗅APP 2026-04-26 03:46:12
0 跟貼 0
Deepseek V4第一波測評來了！

華爾街見聞官方 2026-04-24 16:51:56
84 跟貼 84
DeepSeek過于樸素了

虎嗅APP 2026-04-25 17:32:05
105 跟貼 105
蘇超最新積分榜出爐！

無錫博報 2026-04-25 21:51:59
87 跟貼 87
烏克蘭前線士兵骨瘦如柴照片披露被指最長斷糧17天

澎湃新聞 2026-04-25 14:48:31
26620 跟貼 26620
半掛模型玩具車買菜，要是超重了怎么辦，雷軍都不敢這么設計！

宇宙搞笑生活 2026-04-23 14:10:00
4 跟貼 4
簡直是霸王條款！男子花21999元網購三星三折疊手機被要求必須當面激活才能簽收

閃電新聞 2026-04-25 08:55:39
2222 跟貼 2222
美國富豪非洲打獵被5頭大象踩死

看看新聞Knews 2026-04-25 19:38:18
3420 跟貼 3420
商務部：取消對歐盟兩家金融機構相關反制措施

界面新聞 2026-04-24 22:08:41
568 跟貼 568
美能源出口創新高二戰以來首次接近成為原油凈出口國

紅星新聞 2026-04-25 12:32:20
8730 跟貼 8730
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
“手搓”應用全民化，大廠打響新一輪卡位戰

鈦媒體APP 2026-04-24 17:23:25
8 跟貼 8
內地旅客買6000港元蟲草磨粉后結賬竟變成7.1萬

看看新聞Knews 2026-04-25 19:24:12
3045 跟貼 3045
河南師傅，左手扳手，右手飛書，竟然能搞數據分析！

量子位 2026-04-23 22:38:19
0 跟貼 0
救人的哥走了50余輛出租車自發送行

極目新聞 2026-04-25 15:18:34
2479 跟貼 2479
賴清德竄訪斯威士蘭失敗背后的三重邏輯

井芹仁小菜 2026-04-26 02:57:51
0 跟貼 0
Google給Java開發者發了個"智能體工具箱"

薛定諤的BUG 2026-04-24 10:05:02
0 跟貼 0
泡泡瑪特：4月30日發售兩款Labubu冰箱，售價5999元，每款全球限量發售999臺

魯中晨報 2026-04-24 20:08:07
3307 跟貼 3307
制作直升機遙控模型，阿帕奇AH-64

制造科技 2026-04-22 16:29:03
0 跟貼 0
閃電快訊｜商湯絕影發布艙駕一體全場景智能體系列產品

電廠 2026-04-26 00:28:23
0 跟貼 0
程序員上班遭辭退，當場刪庫跑路讓公司癱瘓，這次不是賠錢的事了

歡樂小丑的舞臺 2026-04-25 16:42:49
1 跟貼 1
英偉達 CEO 黃仁勛：AI 智能體不會取代軟件公司，反而會使軟件需求暴增！

知了3C 2026-04-22 03:24:06
0 跟貼 0
2026北京車展丨地平線發布星空芯片與新系統開啟整車智能體時代

引擎YQ 2026-04-25 22:42:21
0 跟貼 0
從攤位被擋到全網撐腰，長沙后湖這個煎餅攤前隊伍越排越長，女攤主有個樸素簡單的愿望

瀟湘晨報 2026-04-25 21:02:19
1 跟貼 1
雪中送碳！中國向古巴捐贈超1.4萬件體育物資

看看新聞Knews 2026-04-25 10:44:15
18 跟貼 18
馬斯克豪擲600億美元收購AI編程神器Cursor

量子位 2026-04-23 11:44:16
0 跟貼 0
索尼新規落地！所有數字版游戲都要強制30天聯網驗權

游民星空 2026-04-25 18:12:04
7 跟貼 7
無錫一高校食堂的巧克力香蕉火了，被指外形抽象！回應：不切才能體現新鮮

南寧新聞網 2026-04-26 07:19:00
22 跟貼 22
PackingStar雙智能體博弈，攻克14維難題

量子位 2026-02-16 13:12:43
0 跟貼 0
爆火！把智能體當游戲角色來玩，一個人就是一個公司

機器之心Pro 2026-02-12 18:04:44
0 跟貼 0

智東西

智東西，AI產業新媒體，專注報道人工智能的前沿技術發展，和技術應用帶來的千行百業產業變革。

11685文章數 117047關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

數碼

家居

游戲

軍事航空

手機 / 數碼

房產 / 家居

實測在DeepSeek-V4上燒1000萬token，我發現了3個驚喜和1個意外

DeepSeek V4發布！黃仁勛預言的"災難"降臨

2萬海員在霍爾木茲海峽成"活靶子":或隨時被炸成灰燼

2萬海員在霍爾木茲海峽成"活靶子":或隨時被炸成灰燼

那一刻開始，兩支球隊的命運悄然改變了

《我們的爸爸2》第一季完美爸爸翻車了

90%訂單消失，中東旺季沒了

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

學校管理：“管”出規范，“理”出活力

OPPO手表6月推送新功能：身心狀態提醒、日照時長監測一應俱全

自然肌理 溫潤美學

索尼新規主機斷網不讓玩：內部人士回應了！

伊朗總統：不會在壓力、威脅下進行談判

實測在DeepSeek-V4上燒1000萬token，我發現了3個驚喜和1個意外

DeepSeek V4發布！黃仁勛預言的"災難"降臨

那一刻開始，兩支球隊的命運悄然改變了

2026款樂道L90亮相北京車展樂道L80正式官宣

學校管理：“管”出規范，“理”出活力

OPPO手表6月推送新功能：身心狀態提醒、日照時長監測一應俱全

自然肌理溫潤美學

索尼新規主機斷網不讓玩：內部人士回應了！

伊朗總統：不會在壓力、威脅下進行談判