每逢節(jié)假日,DeepSeek 往往發(fā)布新品,也幾乎成了 AI 圈的「固定節(jié)目」。
據(jù) The Information 最新報(bào)道,DeepSeek 計(jì)劃在未來幾周內(nèi)發(fā)布新一代 AI 模型 V4,預(yù)計(jì)發(fā)布時(shí)間在 2 月中旬(春節(jié))前后,但具體時(shí)間仍可能調(diào)整。
報(bào)道稱,根據(jù) DeepSeek 內(nèi)部基準(zhǔn)測試結(jié)果,V4 在編程任務(wù)上的表現(xiàn)超越了目前市場上的主流模型,包括 Anthropic 的 Claude 和 OpenAI 的 GPT 系列。
知情人士透露,該模型在處理和解析超長編程提示方面取得重大突破,這對開發(fā)復(fù)雜軟件項(xiàng)目的程序員具有重要價(jià)值。
此外,V4 在訓(xùn)練過程中對數(shù)據(jù)模式的理解能力顯著提升,且不會隨著訓(xùn)練次數(shù)增加而出現(xiàn)性能衰退,解決了 AI 模型訓(xùn)練中的常見難題。
其中一位知情人士表示,用戶將能明顯感受到 V4 的回答更有條理,這說明新版本的推理能力更強(qiáng),對于處理復(fù)雜任務(wù)也更可靠。
從近期動向來看,DeepSeek 的技術(shù)發(fā)布節(jié)奏也有所加快。
上周,DeepSeek 發(fā)布了一篇由 CEO 梁文峰參與撰寫的研究論文,提出名為 mHC (流形約束超連接)的新架構(gòu)。該研究致力于解決傳統(tǒng)超連接在大規(guī)模模型訓(xùn)練中的不穩(wěn)定性問題,同時(shí)保持其顯著的性能增益。(圖二)
此外,DeepSeek 本周也在 arXiv 低調(diào)把 R1 論文從 22 頁擴(kuò)充到 86 頁(v2 版),一口氣公開了訓(xùn)練全流程、超參數(shù)、失敗嘗試和完整評測。(圖三)
而針對上述 V4 的報(bào)道,截至發(fā)稿前,DeepSeek 未對此事作出回應(yīng)。
附上原報(bào)道地址:
https://www.theinformation.com/articles/deepseek-release-next-flagship-ai-model-strong-coding-ability?rc=qmzset
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.