<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      實測在DeepSeek-V4上燒1000萬token,我發(fā)現(xiàn)了3個驚喜和1個意外

      0
      分享至


      智東西
      作者 陳駿達
      編輯 心緣

      智東西4月24日報道,今天,DeepSeek-V4開源并火速沖上Hugging Face模型榜首,號稱推理和智能體編程性能沖到開源模型第一、比肩先進閉源模型。為了驗證兩款模型的真實效果,我們進行了多維度的深度體驗。


      ▲DeepSeek-V4-Pro登頂Hugging Face熱榜第一(圖源:Hugging Face)

      我們的這次實測累計消耗超過1000萬token。總體來看,DeepSeek-V4系列,尤其是Pro版本,展現(xiàn)出強大的自主規(guī)劃與執(zhí)行能力;但在部分極限任務(wù)和輕量級場景中,也存在一些有趣的短板。以下是我們提煉出的核心體驗要點:

      (1)智能體編程提升明顯,長程任務(wù)能力驚艷:DeepSeek-V4-Pro能夠連續(xù)自主編程60分鐘以上,無需人工干預(yù),完成復(fù)雜的數(shù)據(jù)庫設(shè)計和安卓模擬器開發(fā)等工程任務(wù),展現(xiàn)出強大的長程規(guī)劃、自我糾錯和工具調(diào)用能力。

      (2)復(fù)雜推理有亮點也有短板:模型在海龜湯等邏輯題上表現(xiàn)出色,但在IMO數(shù)學(xué)難題和部分輕量級測試中陷入死循環(huán)或給出錯誤答案,推理穩(wěn)定性還有提升空間。

      (3)輕量級任務(wù)表現(xiàn)意外翻車:簡單問題(如洗車店問題)上,Pro版有時反而因為“過度思考”無法給出正確答案,而Flash版更為直接高效。

      (4)價格有所上漲,但緩存機制降低部分成本:相比DeepSeek-V3.2,V4系列API價格上調(diào),但在長任務(wù)中借助緩存,總賬單的增長沒有API漲幅那么明顯。

      以下是我們的完整實測:

      一、智能體編程能力明顯提升,實測連續(xù)干活60分鐘無需干預(yù)

      DeepSeek-V4的官方博客,尤其強調(diào)模型的Agentic Coding能力。這次實測中,我們讓DeepSeek-V4-Pro與Claude Code打配合,執(zhí)行了兩個較為復(fù)雜的工程任務(wù)。

      任務(wù)1:連續(xù)編程60分鐘,打造完整記賬系統(tǒng)

      在數(shù)據(jù)庫設(shè)計任務(wù)中,我們的提示詞并未給模型提供過多的約束,這考察了其自主規(guī)劃任務(wù)的能力

      拿到任務(wù)后,DeepSeek-V4-Pro先是思考了一會兒,然后輸出了一個完整的數(shù)據(jù)庫設(shè)計方案,包含8個核心功能模塊和6張數(shù)據(jù)表,目標(biāo)是實現(xiàn)記賬、流水統(tǒng)計等功能。


      此外,它還規(guī)劃了開發(fā)流程,除了打造每個具體組件之外,DeepSeek-V4-Pro也計劃在開發(fā)結(jié)束后自主進行驗證,并列出10項驗證的清單,考慮得較為周到。

      之后,我們就完全放手讓DeepSeek-V4-Pro自主執(zhí)行任務(wù),它連續(xù)編程了接近60分鐘,期間沒有出現(xiàn)中斷或者死循環(huán),也沒有遺漏關(guān)鍵步驟,完全按照此前的規(guī)劃執(zhí)行。

      DeepSeek-V4-Pro的開發(fā)結(jié)果如下,從前端的角度來看,這一數(shù)據(jù)庫在美感層面稍有欠缺,但所有核心功能都運轉(zhuǎn)正常。我們試著添加了一條數(shù)據(jù),沒有出現(xiàn)報錯信息。

      在前端中,用戶可以直接完成各種自定義操作,比如新增分類,刪改數(shù)據(jù)等等。而此前我們體驗的部分模型在這種任務(wù)上可能會把所有設(shè)置都寫死,這影響了后續(xù)的可擴展性。


      查看后端數(shù)據(jù)庫也可以發(fā)現(xiàn),我們在前端輸入的新數(shù)據(jù)可以正常同步到數(shù)據(jù)庫后臺,下圖最后兩行數(shù)據(jù),就是手動添加的。這證明前后端之間的數(shù)據(jù)交互接口與數(shù)據(jù)傳輸鏈路均處于正常、可用的狀態(tài)。


      總體來看,在復(fù)雜數(shù)據(jù)庫開發(fā)這種綜合考察模型長程規(guī)劃能力、自我糾錯能力、長上下文能力和推理能力的任務(wù)上,DeepSeek-V4-Pro的表現(xiàn)可以說遠遠超過了DeepSeek-V3.2。

      不過,需要注意的是,與此前DeepSeek的旗艦級模型相比,DeepSeek-V4-Pro的價格有一定幅度的上漲,跑完上述這一任務(wù)的token消耗量大概在20萬個左右(大部分為輸入token),換算為API賬單大概是5塊錢,由于緩存機制的介入,價格還算可以接受。

      任務(wù)2:從零開始打造安卓模擬器,代碼、環(huán)境全程包辦

      我們的下一個任務(wù)挑戰(zhàn)更大:讓DeepSeek-V4-Pro從零開始打造一個安卓模擬器。

      這一任務(wù)的復(fù)雜程度似乎已經(jīng)超出DeepSeek-V4-Pro的知識范圍了,于是它決定開啟聯(lián)網(wǎng)搜索,查詢配套工具、參考架構(gòu)等等,進行了18次工具調(diào)用。


      在足足思考了11分鐘之后,DeepSeek-V4-Pro才開始動筆寫開發(fā)計劃,它還自我評價道:“很好,Plan Agent輸出了很全面的架構(gòu),我現(xiàn)在開始寫完整架構(gòu)。”此時,已經(jīng)燒了8000多個token。


      不過這種token消耗并非浪費,通過更為全面的規(guī)劃,DeepSeek-V4-Pro讓我們原本極為簡單的提示詞變得更加體系化,有助于后續(xù)的開發(fā)。


      最終,DeepSeek-V4-Pro的計劃是七步走完成開發(fā),包含框架搭建、圖像管理模塊設(shè)計、VNC顯示插件、完整GUI開發(fā)、APK安裝功能、打包和debug。


      這一項目的規(guī)模確實有點大,DeepSeek-V4-Pro連續(xù)跑了50多分鐘才完成。


      我把后續(xù)的調(diào)試和環(huán)境依賴安裝工作也交給了DeepSeek-V4-Pro。執(zhí)行過程中,DeepSeek-V4-Pro缺了什么資源就會調(diào)動搜索工具,直接搜索到對應(yīng)鏈接進行下載,也能通過命令行幫我解壓、安裝相關(guān)環(huán)境,徹底解放雙手。


      DeepSeek-V4-Pro又工作了20多分鐘,把活全部都干完了。不過,最后這一模擬器未能成功運行,截至發(fā)稿,DeepSeek還在幫我debug。


      二、實測復(fù)雜推理,被IMO難題打入死循環(huán)

      除了智能體、編程能力之外,DeepSeek-V4在推理方面的提升也值得關(guān)注。

      DeepSeek官方稱,DeepSeek-V4-Pro和DeepSeek-V4-Flash兩個模型的推理能力接近。在下方這幾道邏輯和推理題目中,我們便同時測試了兩個模型。

      任務(wù)1:解答海龜湯,Pro反而比Flash要快?

      我們向DeepSeek發(fā)送的題目如下。這種題目的考察難點主要不在“謎面有多復(fù)雜”,而在于模型如何突破常見的思維慣性。


      先來看看DeepSeek-V4-Pro的解題過程。DeepSeek-V4-Pro用時33秒就便推理出正確答案,思考過程簡潔清晰。


      DeepSeek-V4-Flash的推理速度反而更慢,耗時61秒,輸出的結(jié)果是正確的。DeepSeek-V4-Flash慢的原因是它的思維過程有些冗余,多了不少反復(fù)的確認與自我質(zhì)疑。


      任務(wù)2:實測IMO難題,F(xiàn)lash答錯、Pro死循環(huán)了

      解答數(shù)學(xué)題也是DeepSeek的老傳統(tǒng)之一了。此次,DeepSeek稱V4-Pro的數(shù)學(xué)能力在測評中超過了所有已公開測評的開源模型,比肩世界頂級閉源模型。

      我們拿去年IMO的題目考了考DeepSeek,關(guān)閉聯(lián)網(wǎng)開啟推理,讓模型完全靠自己解決問題。這張高糊的題目也考察了DeepSeek網(wǎng)頁服務(wù)中OCR的能力,我們檢查了下,識別結(jié)果都是正確的。


      這道題目讓兩個模型都思考了很久很久,似乎陷入了無盡的循環(huán)。DeepSeek-V4-Flash最后給出答案,但是是錯誤的。DeepSeek-V4-Pro跑了10多分鐘,沒有明顯進展,最后我們手動中斷了思考。


      三、輕量級測試題集錦:洗車店問題竟意外難倒V4-Pro

      上述案例都比較硬核,接下來我們看幾個輕松點的案例。

      首先是大家喜聞樂見的洗車難題。我們讓DeepSeek-V4-Flash、DeepSeek-V4-Pro在關(guān)閉聯(lián)網(wǎng)和思考的模式下解答。

      DeepSeek-V4-Flash給出了正確答案,它覺得這個問題太簡單了,語氣中滿是嘲諷。


      DeepSeek-V4-Pro的思路則有些清奇,它建議我們把車推過去,認為“這種方案對車最好,省去冷啟動磨損”,還補充道“推過去是愛車的極致表現(xiàn),直接開過去是最不劃算的方式。”

      后來我們又給了DeepSeek-V4-Pro幾次機會,它給出正確答案的概率還是高一些,但偶爾還是會因為過度思考而把自己繞進陷阱。


      鵜鶘騎自行車的SVG,DeepSeek-V4-Flash就可以輕松拿下,結(jié)果基本完美:


      像是網(wǎng)頁小游戲這樣的題目,DeepSeek-V4-Pro和DeepSeek-V4-Flash的表現(xiàn)其實都不太好,F(xiàn)lash打造的結(jié)果根本無法渲染,Pro打造的雖然渲染成功,但基本不可玩。


      在這些“Toy Case”上,DeepSeek似乎沒有花太多精力進行針對性的優(yōu)化。

      結(jié)語:DeepSeek-V4,又一次定義開源模型的上限

      DeepSeek-V4系列模型確實帶來了驚喜,尤其是在智能體編程方面,其長程規(guī)劃與執(zhí)行能力令人印象深刻。其基準(zhǔn)測試也基本回應(yīng)了AI圈對DeepSeek的期待,拿下了多項開源SOTA。

      DeepSeek的開源不只是把模型權(quán)重開放出來,在某種意義上,也是將訓(xùn)練1.6T超大規(guī)模模型所需的算力、資金乃至工程經(jīng)驗一并“開源”給了整個社區(qū)。這一選擇值得敬意。

      可以預(yù)見,隨著后續(xù)迭代優(yōu)化,DeepSeek-V4有望持續(xù)進化,成為開源AI生態(tài)中一個兼具性能與活力的基座模型。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      外交部:希望芬方理性客觀地看待中國同其他國家正常發(fā)展關(guān)系

      外交部:希望芬方理性客觀地看待中國同其他國家正常發(fā)展關(guān)系

      環(huán)球網(wǎng)資訊
      2026-04-24 15:48:11
      陣仗是不是太大了!國外博主曝光中國在南海集中龐大雙航母戰(zhàn)斗群

      陣仗是不是太大了!國外博主曝光中國在南海集中龐大雙航母戰(zhàn)斗群

      阿龍聊軍事
      2026-04-24 21:26:53
      島內(nèi)最新民調(diào),事關(guān)兩岸統(tǒng)一,蔣萬安鄭麗文支持率有驚人變化?

      島內(nèi)最新民調(diào),事關(guān)兩岸統(tǒng)一,蔣萬安鄭麗文支持率有驚人變化?

      DS北風(fēng)
      2026-04-23 15:56:17
      突發(fā)公告:董事長劉忠義不幸去世

      突發(fā)公告:董事長劉忠義不幸去世

      南方都市報
      2026-04-24 15:12:00
      秦皇島大姐逃單偷狗后續(xù):正臉曝光,被人認出已社死,攤主不和解

      秦皇島大姐逃單偷狗后續(xù):正臉曝光,被人認出已社死,攤主不和解

      奇思妙想草葉君
      2026-04-24 11:33:43
      紅綠燈倒計時取消!全國推行新規(guī),以后過路口記住這1句話

      紅綠燈倒計時取消!全國推行新規(guī),以后過路口記住這1句話

      阿振觀點
      2026-04-22 06:00:49
      DeepSeek-V4上線國家超算互聯(lián)網(wǎng)

      DeepSeek-V4上線國家超算互聯(lián)網(wǎng)

      界面新聞
      2026-04-24 19:25:45
      只要有陌生電話問你“您是不是本人”,這樣反問一句,防騙超實用

      只要有陌生電話問你“您是不是本人”,這樣反問一句,防騙超實用

      今日搞笑分享
      2026-04-23 18:21:05
      季后賽掉鏈子的三大全明星:頂薪打沒了,面子也丟光了!

      季后賽掉鏈子的三大全明星:頂薪打沒了,面子也丟光了!

      籃球小布丁
      2026-04-25 02:26:09
      靜候趙心童VS丁俊暉!墨菲轟4桿破百13-3肖國棟,晉級世錦賽八強

      靜候趙心童VS丁俊暉!墨菲轟4桿破百13-3肖國棟,晉級世錦賽八強

      全景體育V
      2026-04-24 19:45:38
      做電視的,去開酒店了……

      做電視的,去開酒店了……

      空間秘探
      2026-04-23 08:20:03
      梁文鋒歷史性一刻,DeepSeek已無法阻擋,終于明白黃仁勛為何發(fā)飆

      梁文鋒歷史性一刻,DeepSeek已無法阻擋,終于明白黃仁勛為何發(fā)飆

      王新喜
      2026-04-24 18:35:07
      王治郅和二婚妻子近照,亮相名人堂,為他生2娃,依舊美麗動人

      王治郅和二婚妻子近照,亮相名人堂,為他生2娃,依舊美麗動人

      大西體育
      2026-04-24 21:59:33
      剖析項英犧牲真相:為何多次拒絕毛澤東北上命令?因自己兩個私心

      剖析項英犧牲真相:為何多次拒絕毛澤東北上命令?因自己兩個私心

      阿胡
      2025-04-20 11:05:46
      薩姆納社媒感謝廣東隊,薩林杰或成廣東隊附加賽一大隱患,拉科塞維奇首秀驚艷!

      薩姆納社媒感謝廣東隊,薩林杰或成廣東隊附加賽一大隱患,拉科塞維奇首秀驚艷!

      廣東籃球掂
      2026-04-25 00:58:33
      向特朗普攤牌!委代總統(tǒng)撕破偽裝,親率幾十萬大軍,決意硬剛美國

      向特朗普攤牌!委代總統(tǒng)撕破偽裝,親率幾十萬大軍,決意硬剛美國

      而長終
      2026-04-24 12:04:37
      王中磊老婆王曉蓉,裸婚生倆兒女,如今華誼破產(chǎn),她已開啟新事業(yè)

      王中磊老婆王曉蓉,裸婚生倆兒女,如今華誼破產(chǎn),她已開啟新事業(yè)

      蕭狡科普解說
      2026-04-25 01:50:36
      DeepSeek 憋了一年半,終于交作業(yè)了。

      DeepSeek 憋了一年半,終于交作業(yè)了。

      差評XPIN
      2026-04-24 16:51:23
      大鬧亞航后續(xù):女子冒充空姐,正臉曝光已社死,寫保證書只是開始

      大鬧亞航后續(xù):女子冒充空姐,正臉曝光已社死,寫保證書只是開始

      社會日日鮮
      2026-04-24 07:15:27
      6億成本拖9年,《美人魚2》難產(chǎn),華誼申請破產(chǎn),周星馳也很無奈

      6億成本拖9年,《美人魚2》難產(chǎn),華誼申請破產(chǎn),周星馳也很無奈

      八卦南風(fēng)
      2026-04-24 17:50:24
      2026-04-25 03:28:49
      智東西 incentive-icons
      智東西
      智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
      11685文章數(shù) 117043關(guān)注度
      往期回顧 全部

      科技要聞

      DeepSeek V4牽手華為,價格依然"屠夫級"

      頭條要聞

      航班提前起飛10分鐘 大學(xué)生把海航告了

      頭條要聞

      航班提前起飛10分鐘 大學(xué)生把海航告了

      體育要聞

      上海男籃23連勝+主場全勝 姚明之后最強一季

      娛樂要聞

      停工16個月!趙露思證實接拍新劇

      財經(jīng)要聞

      LG財閥內(nèi)斗:百億美元商業(yè)帝國爭奪戰(zhàn)

      汽車要聞

      零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

      態(tài)度原創(chuàng)

      房產(chǎn)
      親子
      本地
      公開課
      軍事航空

      房產(chǎn)要聞

      新一輪教育大爆發(fā)來了!海口,開始瘋狂建學(xué)校!

      親子要聞

      小獅子也只是個大寶寶呀,看到小朋友的車車滿眼羨慕

      本地新聞

      云游中國|逛世界風(fēng)箏都 留學(xué)生探秘中國傳統(tǒng)文化

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美伊陷入互相封鎖僵局

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 午夜国产小视频| 精品国产中文一级毛片在线看| 一本色道久久加勒比综合| 中文字幕一区二区三区乱码不卡 | 亚洲色另类| 无码卡一卡二| 久久久无码人妻精品无码| 国精产品一品二品国精在线观看| 蜜桃视频网站| 国产品无码一区二区三区在线| 国产精品无码天天爽视频| 亚洲性爱视频在线观看| 中文国产不卡一区二区| 人妻熟妇乱子伦精品无码专区毛片| 日韩成人无码一区二区三区| 一本综合久久| 人妻无码人妻| 日韩av第一页在线播放| 国产免费拔擦拔擦8x高清在线人| 国产一区二区三区美女| 欧美高清性| 孕妇高潮太爽了在线观看免费| 免费无遮挡无码视频在线观看| 天天拍夜夜添久久精品大| 日本免费一区二区三区在线播放 | 国产高清精品在线91| 大色欧美| 国模吧双双大尺度炮交gogo| 亚洲17P| 日本肥老妇色xxxxx日本老妇| 国产精品白浆一区二小说| 国产激情无码一区二区三区| 日韩AV免费| 欧美精品一区二区三区中文字幕| 毛片a久久99亚洲欧美毛片| 欧美最新精品videossexohd| 免费男人和女人牲交视频全黄 | 天天综合久久| 人妻少妇精品无码专区二区| 欧美一区二区日韩国产| 艳妇乳肉豪妇荡乳av|