24日,DeepSeek-V4 的“突然”發布,沒有再次驚嚇華爾街。
當晚,英偉達股價上漲超過 4%,市值穩穩站上5萬億美元。而在15個月前,DeepSeek-R1曾讓它單日暴跌17%。
市場的平靜宣告了,從推理時代到智能體時代,中國與美國,已經形成兩套不同的“token經濟學”與AI敘事。一種圍繞圍繞成本效率擴展,受算力約束;另一種盯著能力上限定價,以稀缺為前提。雙方各自走上了一條無法輕易掉頭的路——
真的如此嗎?
落后3-6個月
DeepSeek將這次發布稱為“預覽”。在技術報告中,團隊自稱目前的架構,仍然不夠優雅,還有很多積極探索并沒有來得及融入進來。
“預覽版”包括兩款, “性能比肩頂級閉源模型”的DeepSeek-V4-Pro,為1.6T總參數、49B激活參數;“更快捷高效的經濟之選”的DeepSeek-V4-Flash,為284B總參數、13B激活參數。兩者均原生支持百萬token上下文,但仍然不支持多模態。
僅從參數規模而言,DeepSeek-V4就仍然明顯落后于當前最前沿的閉源模型。DeepSeek自己也承認,演進軌跡落后美國前沿3-6個月,Agentic Coding的實際體驗,優于Sonnet 4.5,但距離Opus 4.6思考模式存在差距。
在通用基準日漸飽和,個人測評相對主觀的環境下,DeepSeek團隊在技術報告的最后,點名感謝了DollyDeng的測評意見。后者認為V4-Pro在編程上的特點在于,廣泛的編程知識、長上下文的低幻覺、偶發性的注意力失焦、不講究的架構與UI;V4 Pro的max和high檔位,都有著相當高的可用性。
而海外研究機構semianalysis在測評后,也仍然稱其為“卓越的工程版本”,緊貼SOTA水平,將成為閉源模型的最低成本替代方案。
![]()
相較于上一代模型,DeepSeek-V4在“工程”領域的核心進步,在于上下文窗口的擴展。在百萬 token上下文場景下,V4-Pro的單token推理FLOPs,僅為DeepSeek-V3.2的27%,KV緩存大小僅為10%;V4-Flash的效率提升更為激進,FLOPs僅為 10%,KV緩存僅為7%。這比上個月市場熱炒的谷歌TurboQuant論文,影響更為深遠。
DeepSeek將“邁向高效百萬token上下文智能”,視為當下最迫切解決的問題。它為高效處理超長序列的能力開啟了測試時擴展的新前沿,為深入研究長時任務鋪平了道路,并為探索在線學習等未來范式奠定了必要基礎。
但是,隨著上下文長度達到極端規模,注意力機制的計算瓶頸問題愈發凸顯。由于客觀上的算力約束,優化注意力機制,長期以來都是DeepSeek等中國開源模型廠商的關鍵任務。這次,DeepSeek-V4在繼承了此前DSA與mHC創新的基礎上,吸收了月之暗面對Muon優化器的驗證,進一步提出了CSA(壓縮稀疏注意力)與HCA(重壓縮注意力)等的混合注意力機制。
2026/01/14 完整閱讀 >
簡言之,CSA以4:1的壓縮率將KV緩存壓縮成一個條目,隨后采用稀疏注意力加速;而HCA則將壓縮率大幅提升至128:1,但壓縮后的KV緩存,全部參與后續計算。兩種機制交替進行,既保證全局感知,又保證精細檢索。
按照DeepSeek的規劃,未來,團隊將在DeepSeek-V4的基礎上,除了更“稀疏”的專家和注意力架構外,還將在更多維度上探索模型的稀疏性,包括Engram所要解決的“記憶”的稀疏化,后者相當于模型內部的“存算解耦”,有效繞過了GPU的HBM限制,為激進的參數擴展鋪平了道路。DeepSeek還在努力將多模態能力融入模型。
昇騰Day 0適配
在DeepSeek-V4發布后,華為與寒武紀第一時間宣布實現了Day 0支持。這意味著至少在推理協同上,它已與國產芯片深度協同優化。
到目前為止,中國開源模型仍然選擇兼顧英偉達與國產芯片。據semianalysis分析,這款模型的參數設計,剛好能容納在8塊H20在FP4精度下的內存容量之內。而H20在中國的存量規模足夠龐大,短期內仍是推理主力。盡管如此,該機構還是相信,該模型的推理服務,“相當可觀的一部分”將由昇騰(Ascend)來承載。
2026/04/05 完整閱讀 >
據昇騰CANN的介紹,基于16卡昇騰950DT的算力基礎設施,DeepSeek-V4-Pro在多并發吞吐下,可以在單請求延遲20ms的情況下,實現388TPS(tokens per second)的吞吐速度。DeepSeek-V4-Flash更是高達4722TPS。昇騰950DT將于下半年全面上市,這是一款兼顧推理Decode階段與訓練的芯片。
![]()
在技術報告的正文中,DeepSeek一共提及華為(Huawei)1次,英偉達(Nvidia)2次。最關鍵的一句話是“我們在 英偉達GPU和華為昇騰NPU平臺上對細粒度EP方案進行了驗證。”這實際上指向MegaMoE核心算子與MXFP4低精度數據路徑的適配能力。
這都是DeepSeek-V4在正式開源前一周,已經悄悄向社區開源的。MegaMoE的核心在于對專家并行(MoE)中的計算與通信進行更細粒度的重排,兩者重疊(overlap)以在執行過程中“隱藏”通信延遲,從而緩解互連帶寬帶來的瓶頸。而向FP4精度要效率,將大幅降低降低數據搬運成本,提升計算單元利用率并逼近理論峰值性能。
一度,市場也因此懷疑,DeepSeek-V4就是在英偉達的Blackwell架構上訓練的。此前,英偉達為Hopper架構引入創新的NVFP8精度格式,Blackwell則進一步推出NVFP4。英偉達對未來需求的主動預見,是代際性領先的。早在2024年,黃仁勛介紹Blackwell的時候,市場仍將FP4視為一種營銷手段。其他AI芯片公司,后來才對需求做出反應。
但是,向低精度要效率,已是行業趨勢。谷歌第八代TPU也在嘗試原生FP4訓練與推理,而去年華為發布昇騰950系列,也早已預告了支持業界標準FP8/MXFP8/MXFP4。不過,報告指出,在訓練階段,仍然是“無縫復用現有的FP8混合精度框架”。
現在,DeepSeek正在扮演對未來需求做出指引的關鍵角色。技術報告鼓勵,在下一代硬件設計可以更多地考慮計算-通信比(C-C Ratio)、功率預算(Power Budget)、通信原語(Communication Primitives)與激活函數(Activation Function)。尤其是基于MegaMoE工程實踐,得出每1GBps互聯帶寬足以支撐6.1 TFLOP/s計算的判斷,可能是整篇論文產業影響最深遠的數據點。
AGI屬于每個人
軟硬件協同的方向,指向算力自由,也指向AI普惠。DeepSeek-V4發布當天,DeepSeek研究員陳德里在社交媒體平臺X上,“謙卑”、“始終”地表態,AGI屬于每個人。
一旦今年下半年昇騰950超節點規模上線,以及DeepSeek-V4的持續優化,它的單位token成本還會持續下降。團隊還進一步指出,該模型采用的FP4×FP8運算,盡管在現有硬件上,只能跑出與FP8×FP8相同的峰值FLOPS,但是理論上,未來的硬件可以進一步實現1/3的效率提升。
而美國對于AGI的敘事,在經歷去年對“泡沫”的恐慌后,現在幾乎已經被Anthropic所主導。AI即將吃掉軟件,并由此通往吃掉全世界的AGI。誰占有越多最先進的算力,就越有可能研發出最高智能的前沿模型(及其智能體執行環境),進而匹配最高的價格,因為它在解決最有價值的任務。而Mythos強到只能由Anthropic指定極少數使用者。
2026/04/25 完整閱讀 >
英偉達、亞馬遜、谷歌,以及OpenAI與xAI,都開始被這一AI敘事所俘獲。這是一條自我強化的路徑。模型變得越來越昂貴,但仍然有人爭先恐后地買單;Anthropic推出哪一個垂直領域的智能體工具,那些上市公司的股價就開始狂跌。自從用上了Claude Code,Uber今年的全年AI預算,短短4個月就已經耗盡。
但是,即使在美國,這套敘事也并非完美。大多數生產工作負載,都不會觸及智能的上限;而正在恐慌式嘗試智能體的軟件企業,它的AI投入能否在終端市場轉化為規模擴展持續性收入,也仍有待驗證。
云廠商CloudFlare就認為,個人智能體和編碼智能體的興起,意味著成本不再是次要問題,這是擴展規模的主要障礙。編碼軟件公司Replit首席執行官Amjad Masad也說,中國研究者實際上公開分享了真正的人工智能突破,惠及所有人,包括小型(甚至可能是大型)美國實驗室。HuggingFace的CEO在下面表示認同。編碼軟件公司Cline創始人Saoud Rizwan則調侃說,如果把這筆預算分配給DeepSeek-V4-Pro,就足夠燒84個月。
![]()
黃仁勛的破防
即使再過3-6個月,中國開源模型也無法追平閉源模型的水平。差距客觀存在。年初,EpochAI統計顯示,自2023年以來,中國模型平均落后美國7個月,最小差距4個月,最大差距14個月。
DeepSeek曾承認,訓練算力約束了旗艦模型在世界知識上的覆蓋廣度。DeepSeek-V4同時跑在華為與英偉達芯片上,相當于在為未來的切換做“基準測試”。畢竟,英偉達用十幾年建起的CUDA生態,不是一朝一夕就能超越的。
這也不是單純的技術追趕。美國艾倫實驗室的研究員Nathan Lambert認為,數據與訓練環境是真正的護城河。而在當前AI敘事聚焦于智能體,尤其是編程智能體的時候,美國的閉源模型擁有壓倒性的優勢。中國的軟件行業仍然缺乏積累,這是蒸餾所無法替代的;中國金融、法律與醫療行業,也缺乏美國這樣如此慷慨的支付能力。
但這種優勢,并非不可動搖。不同能力方向,對應著完全不同的訓練數據與后訓練方式。Nathan Lambert總結道,AI敘事的重點大約每12–18個月就會發生一次轉移。從對話到推理再到智能體,如果下一個強化學習環境恰好是中國積累最深的領域,杠桿就在中國這邊。DeepMind創始人哈薩比斯也相信,AGI還需要幾個Transformer級的重大發現,在5-10年之后才有可能實現。窗口期依然存在。
2026/04/17 完整閱讀 >
Android并非因為優于iOS而勝出。而是因為其更低的門檻與更廣的可及性。前者代表高價值與高溢價能力,后者則代表規模與普及。目前,DeepSeek-V4針對FP4的推理優化,客觀上有利于這些美國創業者在英偉達芯片上低成本嵌入中國開源模型。
但更深的長期邏輯在于,隨著英偉達下一代Rubin系列,受到愈發嚴苛的供應鏈管制,DeepSeek將越來越難以針對性地放大英偉達GPU的性能優勢。除了美國最有錢的那批企業,更多的應用開發者將繼續跑在中國開源模型的船上;然后,中國算力硬件在性能逐步提升的情況下,深度參與協同優化,一塊塊替換掉底層的美國技術棧。等船靠岸時,可能沒有一塊板子是原來的英偉達了,而船上的人,從未離開。
很多人,仍然沒有在這個意義上,真正理解黃仁勛面對芯片管制時的破防。
DeepSeek的壓力在于,如何在更低單位token價格的情況下,讓自己堅持走到“AGI普惠”的目的地。這也意味著,它必須在一條更慢、更難、也更不被資本市場即時獎勵的道路上前行。這也是為何在發布DeepSeek-V4時,團隊以“不誘于譽,不恐于誹,率道而行,端然正己”作結。
如今,DeepSeek終于不再否認融資傳聞。希望它的投資人,也能理解這句話的分量。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.