據快科技報道,4月24日,普林斯頓大學博士生Yifan Zhang在X平臺公開了DeepSeek V4的完整技術規格。
DeepSeek V4將分為兩個版本,完整版參數量達1.6萬億,V4 Lite參數量為2850億。在注意力機制方面,V4采用了DSA2,融合了DeepSeek V3/R1中的DSA機制,以及今年初DeepSeek論文中提出的NSA兩種稀疏注意力機制。MoE混合專家技術采用融合方案,使用Mega內核,每層384個專家,每次激活6個專家。殘差連接采用此前論文中提出的Hyper-Connections,DeepGemm更新中也有提及。
在后端訓練及優化方面,優化器為Muon,RL強化學習使用GRPO及KL散度修正,預訓練的32K上下文最終擴展到了1M上下文。不過爆料顯示V4依然是純文本大模型,而非此前暗示的多模態模型。
需要指出的是,Yifan Zhang并非DeepSeek公司研發人員,其爆料內容真實性尚待確認,相關技術細節很多在網上已有蛛絲馬跡。DeepSeek R1發布至今已超過15個月,距離V3.2最終版也過去5個月,V4面臨的壓力不小。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.