DeepSee k宣布推出新一代開源大語言模型DeepSeek-V3.1,并將其權重和代碼在 GitHub等平臺上開放。
這一模型延續了DeepSeek-V3的強大能力,并在多個關鍵方面進行了升級。
![]()
01|模型參數與架構
DeepSeek-V3.1采用了改進的Transformer架構,總參數規模達到約6850億。
其中采用了Mixture-of-Experts(MoE)稀疏專家方案,每個token推理時激活約370億參數。
值得一提的是,DeepSeek-V3.1取消了傳統MoE所需的負載均衡損失,避免了額外開銷。
同時引入多token預測訓練目標,進一步增強模型性能。
在訓練過程中,DeepSeek團隊使用了FP8混合精度和自研的DualPipe流水線并行算法,在2048張NVIDIA H800 GPU上完成了14.8萬億token的預訓練,整個過程穩定高效,沒有出現不可恢復的損失激增。
![]()
02|上下?窗?擴展
DeepSeek-V3.1最大的改進在于上下文長度的顯著擴展。
新版本將模型的上下文窗口提升到128K tokens(約相當于300頁文本)。
這意味著模型在一次交互中可以處理和記憶遠超以往的信息量,能夠支持更長的對話和更大規模的文檔分析。
為了實現超長上下文,DeepSeek采用了名為YaRN(Yet another Random Noise)的位置編碼擴展方案。
通過在長上下文訓練中引入隨機噪聲擾動,模型在保持長程依賴建模能力的同時,有效緩解了長序列訓練的不穩定問題。
實際測試顯示,DeepSeek-V3.1在不同長度上下文下表現穩健,即使輸入長達128K tokens時依然能夠準確定位關鍵信息。
03|性能表現
憑借更大的參數規模和優化的訓練策略,DeepSeek-V3.1在各項基準測試中表現優異。
綜合評估顯示,它不僅超越了此前所有開源模型的水平,而且在許多任務上達到了與領先閉源模型相當的性能。
![]()
例如, 在知識問答和推理測試(MMLU-Pro等) 上, DeepSeek-V3.1的準確率達到75.9%。
在數學和代碼領域,該模型更是展現出強大實力:在MATH數學題基準上準確率超過90%。
在Codeforces編程競賽評測中,其解題能力達到前51.6百分位,大幅領先其他開源模型。
在長文檔理解的“大海撈針”(NeedleInAHaystack)測試中,DeepSeek-V3.1在不同長度上下文下均能保持高準確率,展現了擴展至128K后的穩健表現。
總體而言,DeepSeek-V3.1被認為是目前最強大的開源大模型。
![]()
04|開源與獲取?式
DeepSeek-V3.1延續了DeepSeek一貫的開放策略,將模型權重和代碼完全開源發布。
開發者可以在GitHub、Hugging Face等平臺獲取模型權重及推理代碼。
DeepSeek官方還提供了多種本地部署方案和推理工具,包括輕量級的FP8/BF16推理演示、社區優化的推理框架(如LMDeploy、 vLLM等)以及分布式推理實現。
對于不具備大規模算力的用戶,DeepSeek在其官方平臺上提供了在線體驗和API接口。用戶現在可以通過網頁端、對V3.1模型進行使用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.