![]()
大數據文摘出品
昨日,Deepseek推出了V3.1-Terminus,據介紹,這是其混合AI模型Deepseek-V3.1的改進版本。
![]()
新模型首先解決了語言區分問題,能夠更準確地區分中文與英文,從而避免出現隨機特殊字符等低級錯誤。
同時,Deepseek對內置的代碼和搜索代理進行了調整,這讓模型在調用外部工具時的穩定性更高,結果也更可靠。
基準測試數據顯示,最顯著的提升出現在需要工具使用的任務中。在BrowseComp基準測試中,成績從30.0分提升到38.5分,在Terminal-bench上則從31.3分躍升到36.7分。
![]()
不過,圖表也揭示了一個微妙的權衡。模型在英語BrowseComp中的表現提升明顯,但在中文網絡上的BrowseComp-ZH卻出現小幅下滑。這說明,在優化英文任務的同時,中文任務的表現可能受到影響。
值得一提的是,對于不依賴工具的純推理任務,提升幅度較為有限,模型在思維能力上的進展沒有工具使用那樣突出。
模式與訓練
V3.1-Terminus延續了V3.1的“雙模式”設計。所謂的“思考模式”(Deepseek-reasoner)專門用于復雜的工具任務,而“非思考模式”(Deepseek-chat)則適合直接對話。
這兩種模式都支持長達128,000 tokens的上下文窗口,足以應對長文檔、復雜對話和跨領域任務。
新版本的訓練規模也進一步擴大。團隊在原有數據基礎上額外加入了8400億tokens,并配合全新的分詞器和更新后的提示模版。
在與國際競爭對手的對比中,Deepseek-V3.1已經展示出強勁的表現。它在多個混合模型的基準上超越了OpenAI和Anthropic的一些版本,同時也勝過了Deepseek自己研發的純推理模型R1。
除了功能上的提升,Deepseek也保持了此前的定價策略。輸出tokens的價格仍然是每百萬1.68美元,遠低于GPT-5的10美元,以及Claude Opus 4.1的最高75美元。
API的緩存機制同樣維持在低價水平,每百萬tokens的緩存命中收費0.07美元,緩存未命中則為0.56美元。這樣的定價明顯是為了吸引開發者和企業在大規模部署時選擇Deepseek。
此外,V3.1-Terminus不僅可以通過App和網頁端使用,也對外提供API,并且在Hugging Face上開源了模型權重,采用MIT許可協議。
模型已發布:Hugging Face:
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
注:頭圖AI生成
作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
點「贊」的人都變好看了哦!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.