甫一發(fā)布便成為外界焦點(diǎn)的DeepSeek V4開(kāi)啟限時(shí)折扣。
4月26日,澎湃新聞?dòng)浾攉@悉,DeepSeek最新發(fā)布的DeepSeek-V4-Pro模型API開(kāi)啟2.5折價(jià)格特惠,輸入(緩存命中)價(jià)格為0.25元/百萬(wàn)Tokens,輸入(緩存未命中)價(jià)格為3元/百萬(wàn)Tokens,輸出價(jià)格為6元/百萬(wàn)Tokens,優(yōu)惠期截至5月5日。
而據(jù)Open Router數(shù)據(jù)顯示,最新推出的海外知名AI大模型GPT-5.5 Pro加權(quán)平均輸入價(jià)格為30美元/百萬(wàn)Token,輸出價(jià)格為180美元/百萬(wàn)Token,從輸入價(jià)格就和DeepSeek V4 Pro相差超700倍,此外,GPT-5.5標(biāo)準(zhǔn)版加權(quán)平均輸入價(jià)格為5美元/百萬(wàn)Token,輸出價(jià)格為30美元/百萬(wàn)Token,包括Anthropic Claude Opus系列、OpenAI GPT-5.4,以及谷歌Gemini 3.1 Pro系列大模型的輸出價(jià)格在12-25美元之間,均和調(diào)價(jià)后的DeepSeek V4 Pro拉開(kāi)較大差距。
值得注意的是,在今年AI行業(yè)整體算力集體漲價(jià)的背景下,DeepSeek V4再次將“AI降價(jià)”的理念貫徹到底,進(jìn)一步打響業(yè)內(nèi)的“價(jià)格戰(zhàn)。
此前4月13日,阿里云宣布,旗下大數(shù)據(jù)開(kāi)發(fā)治理平臺(tái)DataWorks對(duì)標(biāo)準(zhǔn)版、專(zhuān)業(yè)版用戶取消每日調(diào)用API的數(shù)量限制,本次變更從2026年4月14日起逐步發(fā)布。其中,DataWorks標(biāo)準(zhǔn)版調(diào)用API的免費(fèi)額度調(diào)整為10萬(wàn)次/月,DataWorks專(zhuān)業(yè)版調(diào)用API的免費(fèi)額度調(diào)整為50萬(wàn)次/月,超出部分采用OpenAPI按量付費(fèi)的方式。
3月18日,百度智能云官網(wǎng)發(fā)布公告稱(chēng),受全球AI應(yīng)用快速發(fā)展影響,算力需求持續(xù)攀升,核心硬件及相關(guān)基礎(chǔ)設(shè)施成本出現(xiàn)顯著上漲。為保障平臺(tái)長(zhǎng)期穩(wěn)定運(yùn)行與服務(wù)質(zhì)量,4月18日起,AI算力相關(guān)產(chǎn)品服務(wù)上調(diào)約5%至30%,并行文件存儲(chǔ)等上調(diào)約30%。
今年以來(lái),騰訊云也連續(xù)兩次宣布漲價(jià)。繼3月11日對(duì)部分模型啟動(dòng)正式收費(fèi)及漲價(jià)后,4月9日,騰訊云稱(chēng)鑒于全球AI算力需求持續(xù)激增,核心硬件供應(yīng)鏈成本大幅上漲,將于2026年5月9日起,對(duì)AI算力、容器服務(wù)及彈性MapReduce(EMR)相關(guān)產(chǎn)品刊例價(jià)進(jìn)行調(diào)整。
除了云端之外,下游模型端同時(shí)出現(xiàn)價(jià)格上修信號(hào)。國(guó)產(chǎn)大模型廠商智譜已在年內(nèi)進(jìn)行三次API價(jià)格上調(diào)。2月12日,智譜對(duì)GLM Coding Plan套餐實(shí)施結(jié)構(gòu)性調(diào)價(jià),整體漲幅自30%起。智譜在價(jià)格調(diào)整函中明確表示,漲價(jià)源于“市場(chǎng)需求持續(xù)強(qiáng)勁增長(zhǎng),用戶規(guī)模與調(diào)用量快速提升”。
3月16日,智譜發(fā)布專(zhuān)為智能體“龍蝦”(OpenClaw)場(chǎng)景深度優(yōu)化的通用大模型GLM-5-Turbo,并上調(diào)其API價(jià)格,漲幅為20%。4月8日,智譜正式發(fā)布GLM-5.1,再度提價(jià)10%。調(diào)價(jià)后,GLM-5.1在Coding場(chǎng)景的緩存命中Token價(jià)格已接近Anthropic旗下Claude Sonnet 4.6水平。
此次DeepSeek在全球范圍內(nèi)再次廣受關(guān)注,除了創(chuàng)新性的技術(shù)架構(gòu),核心在于對(duì)于國(guó)產(chǎn)芯片的全面適配,實(shí)現(xiàn)國(guó)產(chǎn)AI算力的快速崛起。華為計(jì)算發(fā)布信息稱(chēng),昇騰超節(jié)點(diǎn)產(chǎn)品全面支持DeepSeek V4。本次通過(guò)雙方芯模技術(shù)緊密協(xié)同,實(shí)現(xiàn)昇騰超節(jié)點(diǎn)全系列產(chǎn)品支持DeepSeek V4系列模型。
在DeepSeek V4發(fā)布后,寒武紀(jì)也在第一時(shí)間宣布,基于vLLM推理框架完成了對(duì)此次DeepSeek-V4-flash和DeepSeek-V4-Pro兩個(gè)版本的Day 0適配,適配代碼已開(kāi)源到GitHub社區(qū)。
其中,昇騰950通過(guò)融合kernel和多流并行技術(shù)降低Attention計(jì)算和訪存開(kāi)銷(xiāo),大幅提升推理性能,結(jié)合多種量化算法,實(shí)現(xiàn)了高吞吐、低時(shí)延的DeepSeek V4模型推理部署。昇騰A3超節(jié)點(diǎn)系列產(chǎn)品也全面適配,同時(shí)為便于用戶快速微調(diào),提供了基于昇騰A3超節(jié)點(diǎn)的訓(xùn)練參考實(shí)現(xiàn)。
據(jù)DeepSeek的技術(shù)論文披露,DeepSeek V4的核心創(chuàng)新叫做"混合注意力架構(gòu)",由兩種機(jī)制交替疊加構(gòu)成:CSA(壓縮稀疏注意力)和HCA(重度壓縮注意力)。兩種機(jī)制交替出現(xiàn)在模型的不同層:CSA處理精細(xì)的中程信息,HCA處理粗粒度的超長(zhǎng)程信息。同時(shí),每個(gè)注意力層還保留了一個(gè)"滑動(dòng)窗口注意力分支",專(zhuān)門(mén)負(fù)責(zé)最近128個(gè)token的近鄰局部信息,彌補(bǔ)壓縮機(jī)制容易丟失局部細(xì)節(jié)的缺陷。
在100萬(wàn)token的超長(zhǎng)上下文場(chǎng)景下,與上一代V3.2相比:V4-Pro的推理計(jì)算量(FLOPs)只需 27%,KV緩存(模型的"工作記憶")只需 10%;V4-Flash更極端,推理計(jì)算量降至 10%,KV緩存降至 7%。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.