<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      實測在DeepSeek-V4上燒1000萬token,我發現了3個驚喜和1個意外

      0
      分享至


      智東西
      作者 陳駿達
      編輯 心緣

      智東西4月24日報道,今天,DeepSeek-V4開源并火速沖上Hugging Face模型榜首,號稱推理和智能體編程性能沖到開源模型第一、比肩先進閉源模型。為了驗證兩款模型的真實效果,我們進行了多維度的深度體驗。


      ▲DeepSeek-V4-Pro登頂Hugging Face熱榜第一(圖源:Hugging Face)

      我們的這次實測累計消耗超過1000萬token。總體來看,DeepSeek-V4系列,尤其是Pro版本,展現出強大的自主規劃與執行能力;但在部分極限任務和輕量級場景中,也存在一些有趣的短板。以下是我們提煉出的核心體驗要點:

      (1)智能體編程提升明顯,長程任務能力驚艷:DeepSeek-V4-Pro能夠連續自主編程60分鐘以上,無需人工干預,完成復雜的數據庫設計和安卓模擬器開發等工程任務,展現出強大的長程規劃、自我糾錯和工具調用能力。

      (2)復雜推理有亮點也有短板:模型在海龜湯等邏輯題上表現出色,但在IMO數學難題和部分輕量級測試中陷入死循環或給出錯誤答案,推理穩定性還有提升空間。

      (3)輕量級任務表現意外翻車:簡單問題(如洗車店問題)上,Pro版有時反而因為“過度思考”無法給出正確答案,而Flash版更為直接高效。

      (4)價格有所上漲,但緩存機制降低部分成本:相比DeepSeek-V3.2,V4系列API價格上調,但在長任務中借助緩存,總賬單的增長沒有API漲幅那么明顯。

      以下是我們的完整實測:

      一、智能體編程能力明顯提升,實測連續干活60分鐘無需干預

      DeepSeek-V4的官方博客,尤其強調模型的Agentic Coding能力。這次實測中,我們讓DeepSeek-V4-Pro與Claude Code打配合,執行了兩個較為復雜的工程任務。

      任務1:連續編程60分鐘,打造完整記賬系統

      在數據庫設計任務中,我們的提示詞并未給模型提供過多的約束,這考察了其自主規劃任務的能力

      拿到任務后,DeepSeek-V4-Pro先是思考了一會兒,然后輸出了一個完整的數據庫設計方案,包含8個核心功能模塊和6張數據表,目標是實現記賬、流水統計等功能。


      此外,它還規劃了開發流程,除了打造每個具體組件之外,DeepSeek-V4-Pro也計劃在開發結束后自主進行驗證,并列出10項驗證的清單,考慮得較為周到。

      之后,我們就完全放手讓DeepSeek-V4-Pro自主執行任務,它連續編程了接近60分鐘,期間沒有出現中斷或者死循環,也沒有遺漏關鍵步驟,完全按照此前的規劃執行。

      DeepSeek-V4-Pro的開發結果如下,從前端的角度來看,這一數據庫在美感層面稍有欠缺,但所有核心功能都運轉正常。我們試著添加了一條數據,沒有出現報錯信息。

      在前端中,用戶可以直接完成各種自定義操作,比如新增分類,刪改數據等等。而此前我們體驗的部分模型在這種任務上可能會把所有設置都寫死,這影響了后續的可擴展性。


      查看后端數據庫也可以發現,我們在前端輸入的新數據可以正常同步到數據庫后臺,下圖最后兩行數據,就是手動添加的。這證明前后端之間的數據交互接口與數據傳輸鏈路均處于正常、可用的狀態。


      總體來看,在復雜數據庫開發這種綜合考察模型長程規劃能力、自我糾錯能力、長上下文能力和推理能力的任務上,DeepSeek-V4-Pro的表現可以說遠遠超過了DeepSeek-V3.2。

      不過,需要注意的是,與此前DeepSeek的旗艦級模型相比,DeepSeek-V4-Pro的價格有一定幅度的上漲,跑完上述這一任務的token消耗量大概在20萬個左右(大部分為輸入token),換算為API賬單大概是5塊錢,由于緩存機制的介入,價格還算可以接受。

      任務2:從零開始打造安卓模擬器,代碼、環境全程包辦

      我們的下一個任務挑戰更大:讓DeepSeek-V4-Pro從零開始打造一個安卓模擬器。

      這一任務的復雜程度似乎已經超出DeepSeek-V4-Pro的知識范圍了,于是它決定開啟聯網搜索,查詢配套工具、參考架構等等,進行了18次工具調用。


      在足足思考了11分鐘之后,DeepSeek-V4-Pro才開始動筆寫開發計劃,它還自我評價道:“很好,Plan Agent輸出了很全面的架構,我現在開始寫完整架構?!贝藭r,已經燒了8000多個token。


      不過這種token消耗并非浪費,通過更為全面的規劃,DeepSeek-V4-Pro讓我們原本極為簡單的提示詞變得更加體系化,有助于后續的開發。


      最終,DeepSeek-V4-Pro的計劃是七步走完成開發,包含框架搭建、圖像管理模塊設計、VNC顯示插件、完整GUI開發、APK安裝功能、打包和debug。


      這一項目的規模確實有點大,DeepSeek-V4-Pro連續跑了50多分鐘才完成。


      我把后續的調試和環境依賴安裝工作也交給了DeepSeek-V4-Pro。執行過程中,DeepSeek-V4-Pro缺了什么資源就會調動搜索工具,直接搜索到對應鏈接進行下載,也能通過命令行幫我解壓、安裝相關環境,徹底解放雙手。


      DeepSeek-V4-Pro又工作了20多分鐘,把活全部都干完了。不過,最后這一模擬器未能成功運行,截至發稿,DeepSeek還在幫我debug。


      二、實測復雜推理,被IMO難題打入死循環

      除了智能體、編程能力之外,DeepSeek-V4在推理方面的提升也值得關注。

      DeepSeek官方稱,DeepSeek-V4-Pro和DeepSeek-V4-Flash兩個模型的推理能力接近。在下方這幾道邏輯和推理題目中,我們便同時測試了兩個模型。

      任務1:解答海龜湯,Pro反而比Flash要快?

      我們向DeepSeek發送的題目如下。這種題目的考察難點主要不在“謎面有多復雜”,而在于模型如何突破常見的思維慣性。


      先來看看DeepSeek-V4-Pro的解題過程。DeepSeek-V4-Pro用時33秒就便推理出正確答案,思考過程簡潔清晰。


      DeepSeek-V4-Flash的推理速度反而更慢,耗時61秒,輸出的結果是正確的。DeepSeek-V4-Flash慢的原因是它的思維過程有些冗余,多了不少反復的確認與自我質疑。


      任務2:實測IMO難題,Flash答錯、Pro死循環了

      解答數學題也是DeepSeek的老傳統之一了。此次,DeepSeek稱V4-Pro的數學能力在測評中超過了所有已公開測評的開源模型,比肩世界頂級閉源模型。

      我們拿去年IMO的題目考了考DeepSeek,關閉聯網開啟推理,讓模型完全靠自己解決問題。這張高糊的題目也考察了DeepSeek網頁服務中OCR的能力,我們檢查了下,識別結果都是正確的。


      這道題目讓兩個模型都思考了很久很久,似乎陷入了無盡的循環。DeepSeek-V4-Flash最后給出答案,但是是錯誤的。DeepSeek-V4-Pro跑了10多分鐘,沒有明顯進展,最后我們手動中斷了思考。


      三、輕量級測試題集錦:洗車店問題竟意外難倒V4-Pro

      上述案例都比較硬核,接下來我們看幾個輕松點的案例。

      首先是大家喜聞樂見的洗車難題。我們讓DeepSeek-V4-Flash、DeepSeek-V4-Pro在關閉聯網和思考的模式下解答。

      DeepSeek-V4-Flash給出了正確答案,它覺得這個問題太簡單了,語氣中滿是嘲諷。


      DeepSeek-V4-Pro的思路則有些清奇,它建議我們把車推過去,認為“這種方案對車最好,省去冷啟動磨損”,還補充道“推過去是愛車的極致表現,直接開過去是最不劃算的方式。”

      后來我們又給了DeepSeek-V4-Pro幾次機會,它給出正確答案的概率還是高一些,但偶爾還是會因為過度思考而把自己繞進陷阱。


      鵜鶘騎自行車的SVG,DeepSeek-V4-Flash就可以輕松拿下,結果基本完美:


      像是網頁小游戲這樣的題目,DeepSeek-V4-Pro和DeepSeek-V4-Flash的表現其實都不太好,Flash打造的結果根本無法渲染,Pro打造的雖然渲染成功,但基本不可玩。


      在這些“Toy Case”上,DeepSeek似乎沒有花太多精力進行針對性的優化。

      結語:DeepSeek-V4,又一次定義開源模型的上限

      DeepSeek-V4系列模型確實帶來了驚喜,尤其是在智能體編程方面,其長程規劃與執行能力令人印象深刻。其基準測試也基本回應了AI圈對DeepSeek的期待,拿下了多項開源SOTA。

      DeepSeek的開源不只是把模型權重開放出來,在某種意義上,也是將訓練1.6T超大規模模型所需的算力、資金乃至工程經驗一并“開源”給了整個社區。這一選擇值得敬意。

      可以預見,隨著后續迭代優化,DeepSeek-V4有望持續進化,成為開源AI生態中一個兼具性能與活力的基座模型。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      兩個賽季狂轟33球 19歲鋒線神童橫空出世 開價6000萬鎊 8豪門瘋搶

      兩個賽季狂轟33球 19歲鋒線神童橫空出世 開價6000萬鎊 8豪門瘋搶

      零度眼看球
      2026-04-26 07:15:19
      劉祝潤配進國家隊!楊希油炸丸子技驚四座,海港有無一將判若兩隊

      劉祝潤配進國家隊!楊希油炸丸子技驚四座,海港有無一將判若兩隊

      刀鋒體育
      2026-04-25 23:47:39
      廣東夫妻辦完離婚揮手告別,妻子轉身蹲地大哭,下一秒結局神反轉

      廣東夫妻辦完離婚揮手告別,妻子轉身蹲地大哭,下一秒結局神反轉

      新時代的兩性情感
      2026-04-26 04:57:00
      DeepSeek聯手華為掀桌子后,黃仁勛給英偉達下達了死命令

      DeepSeek聯手華為掀桌子后,黃仁勛給英偉達下達了死命令

      南宗歷史
      2026-04-25 10:12:48
      國家電網第二批錄了10500人,清華才7個,一所你沒聽過的學校進了444人

      國家電網第二批錄了10500人,清華才7個,一所你沒聽過的學校進了444人

      老滿說高考
      2026-04-24 20:13:49
      “見過最廉價的兜底”,一份山姆燒雞,讓低認知母子淪為全網笑柄

      “見過最廉價的兜底”,一份山姆燒雞,讓低認知母子淪為全網笑柄

      妍妍教育日記
      2026-04-15 09:30:09
      14場打入12球!羅馬2500萬歐元買來鋒線支柱,荷蘭鋒霸即將破紀錄

      14場打入12球!羅馬2500萬歐元買來鋒線支柱,荷蘭鋒霸即將破紀錄

      體壇老球迷
      2026-04-26 08:32:05
      湖人vs火箭G4傷病報告:東契奇傷停 里夫斯杜蘭特均出戰成疑

      湖人vs火箭G4傷病報告:東契奇傷停 里夫斯杜蘭特均出戰成疑

      醉臥浮生
      2026-04-26 06:20:13
      驚天內幕!1984年中美黑鷹交易只交付24架,真相竟是戰略失誤!

      驚天內幕!1984年中美黑鷹交易只交付24架,真相竟是戰略失誤!

      人生錄
      2026-04-25 15:13:17
      天津4-2 贏球不可怕 可怕的是于根偉賽后一席話 兩三個人都拼到抽筋

      天津4-2 贏球不可怕 可怕的是于根偉賽后一席話 兩三個人都拼到抽筋

      劉哥談體育
      2026-04-26 03:12:41
      再見,曼聯!9000萬“大核”決定離隊!斥資2.4億簽下“新中軸”

      再見,曼聯!9000萬“大核”決定離隊!斥資2.4億簽下“新中軸”

      頭狼追球
      2026-04-25 13:27:55
      “替父出征”夏卡武與洪森“心亂如麻”:柬埔寨王位暗戰終局將至

      “替父出征”夏卡武與洪森“心亂如麻”:柬埔寨王位暗戰終局將至

      民間平淡生活
      2026-04-25 03:02:36
      廣東下一波暴雨,時間確定!

      廣東下一波暴雨,時間確定!

      羊城攻略
      2026-04-25 23:23:56
      赫塔費0-2巴塞羅那,賽后評分:不是拉什福德第1,巴薩5號第一

      赫塔費0-2巴塞羅那,賽后評分:不是拉什福德第1,巴薩5號第一

      凌空倒鉤
      2026-04-26 00:20:01
      從源頭說,我軍打仗有兩種打法,一是毛主席打法,二是徐向前打法

      從源頭說,我軍打仗有兩種打法,一是毛主席打法,二是徐向前打法

      品點歷史
      2026-04-26 06:45:11
      北控出局賽后,京媒罕見點名批評1人,京迷喊話:集體給張帆道歉

      北控出局賽后,京媒罕見點名批評1人,京迷喊話:集體給張帆道歉

      后仰大風車
      2026-04-25 07:10:13
      63 歲李玲玉近照曝光!海南度假長相年輕,直言老人不該幫帶娃

      63 歲李玲玉近照曝光!海南度假長相年輕,直言老人不該幫帶娃

      東方不敗然多多
      2026-04-26 08:15:58
      蔣萬安發出強硬警告,"中國臺灣省"走向國際,10國選擇明智應對

      蔣萬安發出強硬警告,"中國臺灣省"走向國際,10國選擇明智應對

      福建睿平
      2026-04-25 11:54:44
      兩家孩子被醫院抱錯5年,家長含淚換子,孩子的回答看哭了!

      兩家孩子被醫院抱錯5年,家長含淚換子,孩子的回答看哭了!

      莫地方
      2026-04-26 02:00:03
      廣東3消息!胡明軒正式發聲,徐昕回應直面杜鋒,徐杰獲MVP候選

      廣東3消息!胡明軒正式發聲,徐昕回應直面杜鋒,徐杰獲MVP候選

      多特體育說
      2026-04-25 11:24:28
      2026-04-26 09:07:00
      智東西 incentive-icons
      智東西
      智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
      11685文章數 117047關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4發布!黃仁勛預言的"災難"降臨

      頭條要聞

      2萬海員在霍爾木茲海峽成"活靶子":或隨時被炸成灰燼

      頭條要聞

      2萬海員在霍爾木茲海峽成"活靶子":或隨時被炸成灰燼

      體育要聞

      那一刻開始,兩支球隊的命運悄然改變了

      娛樂要聞

      《我們的爸爸2》第一季完美爸爸翻車了

      財經要聞

      90%訂單消失,中東旺季沒了

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      教育
      數碼
      家居
      游戲
      軍事航空

      教育要聞

      學校管理:“管”出規范,“理”出活力

      數碼要聞

      OPPO手表6月推送新功能:身心狀態提醒、日照時長監測一應俱全

      家居要聞

      自然肌理 溫潤美學

      索尼新規主機斷網不讓玩:內部人士回應了!

      軍事要聞

      伊朗總統:不會在壓力、威脅下進行談判

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚东县| 99国产三级| 亚洲成人av在线系列| 精品人妻国产| 亚洲人成色77777在线观看| 性色av一区二区三区无码| 乱码午夜-极品国产内射| 四虎影视一区二区精品| 亚洲最大的成人网站| 99在线精品国自产拍不卡| 差差差很依人| 福利在线不卡| 欧美日本激情| 精品免费看国产一区二区| 国产在线不卡精品网站| 少妇被粗大的猛烈进出视频| 亚洲欧洲av无码专区| 亚洲第一福利网站在线观看| 天堂中文字幕观看| 宁陕县| 亚洲国产精品自在拍在线播放蜜臀| 久夜色精品国产噜噜| 国产人妖乱国产精品人妖| 久久精品亚洲中文字幕无码网站| 无码精品视频一区二区三区| 日韩av裸体在线播放| 91在线网址| 特级无码毛片免费视频尤物| 国产av精品一区二区三区| 亚洲精品aa| 凸凹人妻人人澡人人添| 人妻熟人中文字幕一区二区| 99精品国产在热久久婷婷| AV资源站| 中文乱码免费一区二区三区| 亚洲精品久久久av无码专区| 国产色网站| 欧美日韩中文国产一区发布| 野花韩国高清电影| jizz麻豆| 69老司机精品视频免费观看|