網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek V3.1 終極版拆解：“人類(lèi)最后測(cè)試”表現(xiàn)提升36.5%，或?yàn)?V4/R2 模型序曲

2025-09-24 20:36:29　來(lái)源: 搜狐科技

北京舉報(bào)

分享至

出品｜搜狐科技

作者｜鄭松毅

編輯｜楊錦

DeepSeek新發(fā)“終極版”模型！

幾小時(shí)前，DeepSeek官宣發(fā)布最新升級(jí)模型DeepSeek-V3.1-Terminus（Terminus拉丁語(yǔ)意為終點(diǎn)），并隨后宣布模型開(kāi)源。

目前，官方App、網(wǎng)頁(yè)端、小程序與DeepSeek API模型均已同步更新為DeepSeek-V3.1-Terminus。

據(jù)官方介紹，此次更新是基于原有模型能力，著重改進(jìn)了語(yǔ)言一致性問(wèn)題，并進(jìn)一步優(yōu)化了Code Agent與Search Agent的表現(xiàn)。

“人類(lèi)最后測(cè)試”表現(xiàn)提升36.5%

躍升至全球第三

值得一提的是，距離上次DeepSeek-V3.1模型更新僅過(guò)了一個(gè)月，新模型DeepSeek-V3.1-Terminus在多個(gè)專(zhuān)業(yè)基準(zhǔn)測(cè)試中的表現(xiàn)均有提升。

在非Agent（Thinking）模式下， DeepSeek-V3.1-Terminus在MMLU-Pro（廣泛學(xué)科知識(shí)）、GPQA-Diamond（頂尖專(zhuān)業(yè)科學(xué)難題）等方面表現(xiàn)較舊版本更優(yōu)。其中在Humanity‘s Last Exam（人類(lèi)最后測(cè)試）中表現(xiàn)提升高達(dá)36.5%，目前已超越Gemini 2.5 Pro模型來(lái)到全球排行榜第三位，該測(cè)試主要考察模型在多種極端困難任務(wù)上的整體表現(xiàn)。

而在Agent測(cè)評(píng)中，DeepSeek-V3.1-Terminus的網(wǎng)頁(yè)瀏覽、編程能力和問(wèn)答表現(xiàn)均得到小幅提升。

實(shí)測(cè)：被吐槽的兩大bug修復(fù)，終于不再“迷糊”

今年8月，在DeepSeek-V3.1發(fā)布后，有不少用戶(hù)反饋新模型有兩個(gè)嚴(yán)重Bug值得關(guān)注。其一是模型會(huì)出現(xiàn)語(yǔ)言不一致問(wèn)題，輸出的回答經(jīng)常中、英、法等語(yǔ)言混用，令用戶(hù)費(fèi)解。另一方面在于用API調(diào)用模型時(shí)，會(huì)不受控地隨機(jī)輸出“極”、“extreme”字樣，影響代碼正常運(yùn)行。

有開(kāi)發(fā)者在開(kāi)源社區(qū)吐槽，“調(diào)試時(shí)滿(mǎn)屏都是‘極’字，仿佛在玩文字游戲。”

針對(duì)第一個(gè)問(wèn)題，有網(wǎng)友在讓DeepSeek-V3.1幫忙分析紅樓夢(mèng)的文學(xué)價(jià)值時(shí)，輸出的答案會(huì)突然插一句“這個(gè)metaphor運(yùn)用得極其精妙”，讓用戶(hù)哭笑不得。

搜狐科技在新模型DeepSeek-V3.1-Terminus測(cè)試發(fā)現(xiàn)，語(yǔ)言混雜的問(wèn)題得到了緩解，并且語(yǔ)意表述較之前更為通順。

另有網(wǎng)友提到，此前翻譯小語(yǔ)種時(shí)DeepSeek-V3.1出現(xiàn)多國(guó)語(yǔ)言混雜問(wèn)題更加嚴(yán)重。搜狐科技也對(duì)此進(jìn)行了測(cè)試，把一長(zhǎng)段西班牙語(yǔ)喂給DeepSeek-V3.1-Terminus，并要求用7國(guó)語(yǔ)言進(jìn)行轉(zhuǎn)譯，未發(fā)現(xiàn)語(yǔ)言混雜問(wèn)題出現(xiàn)。

我們也對(duì)之前網(wǎng)傳“極你太美”的Bug進(jìn)行了測(cè)試：

之前會(huì)在輸出代碼中出現(xiàn)“time.Se極”等異常字符，尤其是在用Go和Python語(yǔ)言編寫(xiě)時(shí)出現(xiàn)概率很高。但在新模型上經(jīng)多次測(cè)試，均未再出現(xiàn)類(lèi)似異常。

DeepSeek-V3.1系列，已走到終點(diǎn)？

自V3.1版本模型發(fā)布以來(lái)，DeepSeek官方將其稱(chēng)為“邁向 Agent 時(shí)代的第一步”，并持續(xù)深入在 AI Agent 領(lǐng)域的布局。如今強(qiáng)調(diào)DeepSeek-V3.1-Terminus在Agent能力上的優(yōu)化，進(jìn)一步證實(shí)了這一戰(zhàn)略重心。

據(jù)多方消息爆料，DeepSeek 目前正緊鑼密鼓開(kāi)發(fā)具備更強(qiáng)大 AI Agent 能力的全新模型，計(jì)劃于 2025 年第四季度重磅推出。

此次對(duì)于“Terminus（終點(diǎn)）”的模型命名，一度引發(fā)網(wǎng)友猜測(cè)。有業(yè)內(nèi)人士表示，“雖然DeepSeek并未官宣這是V3系列的最后一次更新，但其名稱(chēng)確實(shí)表明了這一點(diǎn)。預(yù)計(jì)下一版本的發(fā)布會(huì)是一個(gè)全新的架構(gòu)，并會(huì)在Agent方面展示更多驚喜。”

另有開(kāi)發(fā)者也表達(dá)了相似觀點(diǎn)，“這極有可能代表V3.1的技術(shù)架構(gòu)，到這里已經(jīng)打磨的差不多了，DeepSeek-V3.1-Terminus就是這個(gè)系列的收官之作，恰好也是下一代模型的起點(diǎn)。”

海內(nèi)外社交平臺(tái)已經(jīng)頻現(xiàn)網(wǎng)友催更：DeepSeek-V4/DeepSeek-R2，是不是就要來(lái)了？

運(yùn)營(yíng)編輯 |曹倩審核｜孟莎莎

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.