![]()
![]()
出品|搜狐科技
作者|鄭松毅
編輯|楊 錦
DeepSeek新發(fā)“終極版”模型!
幾小時(shí)前,DeepSeek官宣發(fā)布最新升級(jí)模型DeepSeek-V3.1-Terminus(Terminus拉丁語(yǔ)意為終點(diǎn)),并隨后宣布模型開(kāi)源。
目前,官方App、網(wǎng)頁(yè)端、小程序與DeepSeek API模型均已同步更新為DeepSeek-V3.1-Terminus。
據(jù)官方介紹,此次更新是基于原有模型能力,著重改進(jìn)了語(yǔ)言一致性問(wèn)題,并進(jìn)一步優(yōu)化了Code Agent與Search Agent的表現(xiàn)。
![]()
“人類(lèi)最后測(cè)試”表現(xiàn)提升36.5%
躍升至全球第三
值得一提的是,距離上次DeepSeek-V3.1模型更新僅過(guò)了一個(gè)月,新模型DeepSeek-V3.1-Terminus在多個(gè)專(zhuān)業(yè)基準(zhǔn)測(cè)試中的表現(xiàn)均有提升。
![]()
在非Agent(Thinking)模式下, DeepSeek-V3.1-Terminus在MMLU-Pro(廣泛學(xué)科知識(shí))、GPQA-Diamond(頂尖專(zhuān)業(yè)科學(xué)難題)等方面表現(xiàn)較舊版本更優(yōu)。其中在Humanity‘s Last Exam(人類(lèi)最后測(cè)試)中表現(xiàn)提升高達(dá)36.5%,目前已超越Gemini 2.5 Pro模型來(lái)到全球排行榜第三位,該測(cè)試主要考察模型在多種極端困難任務(wù)上的整體表現(xiàn)。
而在Agent測(cè)評(píng)中,DeepSeek-V3.1-Terminus的網(wǎng)頁(yè)瀏覽、編程能力和問(wèn)答表現(xiàn)均得到小幅提升。
![]()
實(shí)測(cè):被吐槽的兩大bug修復(fù),終于不再“迷糊”
今年8月,在DeepSeek-V3.1發(fā)布后,有不少用戶(hù)反饋新模型有兩個(gè)嚴(yán)重Bug值得關(guān)注。其一是模型會(huì)出現(xiàn)語(yǔ)言不一致問(wèn)題,輸出的回答經(jīng)常中、英、法等語(yǔ)言混用,令用戶(hù)費(fèi)解。另一方面在于用API調(diào)用模型時(shí),會(huì)不受控地隨機(jī)輸出“極”、“extreme”字樣,影響代碼正常運(yùn)行。
![]()
有開(kāi)發(fā)者在開(kāi)源社區(qū)吐槽,“調(diào)試時(shí)滿(mǎn)屏都是‘極’字,仿佛在玩文字游戲。”
針對(duì)第一個(gè)問(wèn)題,有網(wǎng)友在讓DeepSeek-V3.1幫忙分析紅樓夢(mèng)的文學(xué)價(jià)值時(shí),輸出的答案會(huì)突然插一句“這個(gè)metaphor運(yùn)用得極其精妙”,讓用戶(hù)哭笑不得。
搜狐科技在新模型DeepSeek-V3.1-Terminus測(cè)試發(fā)現(xiàn),語(yǔ)言混雜的問(wèn)題得到了緩解,并且語(yǔ)意表述較之前更為通順。
![]()
另有網(wǎng)友提到,此前翻譯小語(yǔ)種時(shí)DeepSeek-V3.1出現(xiàn)多國(guó)語(yǔ)言混雜問(wèn)題更加嚴(yán)重。搜狐科技也對(duì)此進(jìn)行了測(cè)試,把一長(zhǎng)段西班牙語(yǔ)喂給DeepSeek-V3.1-Terminus,并要求用7國(guó)語(yǔ)言進(jìn)行轉(zhuǎn)譯,未發(fā)現(xiàn)語(yǔ)言混雜問(wèn)題出現(xiàn)。
![]()
我們也對(duì)之前網(wǎng)傳“極你太美”的Bug進(jìn)行了測(cè)試:
之前會(huì)在輸出代碼中出現(xiàn)“time.Se極”等異常字符,尤其是在用Go和Python語(yǔ)言編寫(xiě)時(shí)出現(xiàn)概率很高。但在新模型上經(jīng)多次測(cè)試,均未再出現(xiàn)類(lèi)似異常。
![]()
![]()
![]()
DeepSeek-V3.1系列,已走到終點(diǎn)?
自V3.1版本模型發(fā)布以來(lái),DeepSeek官方將其稱(chēng)為“邁向 Agent 時(shí)代的第一步”,并持續(xù)深入在 AI Agent 領(lǐng)域的布局。如今強(qiáng)調(diào)DeepSeek-V3.1-Terminus在Agent能力上的優(yōu)化,進(jìn)一步證實(shí)了這一戰(zhàn)略重心。
據(jù)多方消息爆料,DeepSeek 目前正緊鑼密鼓開(kāi)發(fā)具備更強(qiáng)大 AI Agent 能力的全新模型,計(jì)劃于 2025 年第四季度重磅推出。
此次對(duì)于“Terminus(終點(diǎn))”的模型命名,一度引發(fā)網(wǎng)友猜測(cè)。有業(yè)內(nèi)人士表示,“雖然DeepSeek并未官宣這是V3系列的最后一次更新,但其名稱(chēng)確實(shí)表明了這一點(diǎn)。預(yù)計(jì)下一版本的發(fā)布會(huì)是一個(gè)全新的架構(gòu),并會(huì)在Agent方面展示更多驚喜。”
另有開(kāi)發(fā)者也表達(dá)了相似觀點(diǎn),“這極有可能代表V3.1的技術(shù)架構(gòu),到這里已經(jīng)打磨的差不多了,DeepSeek-V3.1-Terminus就是這個(gè)系列的收官之作,恰好也是下一代模型的起點(diǎn)。”
海內(nèi)外社交平臺(tái)已經(jīng)頻現(xiàn)網(wǎng)友催更:DeepSeek-V4/DeepSeek-R2,是不是就要來(lái)了?
![]()
![]()
運(yùn)營(yíng)編輯 |曹倩審核|孟莎莎
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.