Claude擋不住DeepSeek，國產(chǎn)算力革命已經(jīng)引爆，靜悄悄的AI突圍戰(zhàn)到了下半場

2025-09-30 10:20:14　來源: 刀哥聊AI

北京舉報

分享至

志明與春嬌，AI看小刀，大家好，我是刀哥，今天給大家講講DeepSeek V3.2不為人知的秘密

昨天下午DeepSeek V3.2發(fā)布，今天凌晨Claude Sonnet 4.5發(fā)布，大家很關心技術細節(jié)。其實Claude 4.5領先的那一點點編程上的技術優(yōu)勢，不出3個月就會被國產(chǎn)后來者趕超。

而DeepSeek V3.2 發(fā)布公告里邊的一段話卻非常非常重要，不得不說，從V3.1開始的伏筆，已經(jīng)開始大展宏圖！

咱們從2025年初到現(xiàn)在，按時間線捋一捋。

春節(jié)突襲

大年初四，華為云和硅基流動把基于昇騰云的DeepSeek服務上線了。意思很直白：模型到算力，盡量用國產(chǎn)堆起來。

結果一上線就擠爆。原本準備的910B卡很快頂滿，只能連夜緊急加卡，才把服務穩(wěn)住。那天之后，很多人第一次直觀感受到：國貨之光來了，國產(chǎn)大模型第一次熱起來了。

從2023年，李彥宏說文心一言離GPT4只差一兩個月的笑柄，到DeepSeek的迎頭追上，我們用了兩年時間！

適配優(yōu)化，蟄伏期

2025年3月初，華為CloudMatrix 384超節(jié)點上線，384張昇騰卡互聯(lián)，初期吞吐指標不漂亮，大家一邊踩坑一邊補齊軟硬件配合，芯片—算子—框架—調(diào)度一層層摳。

4月10日的發(fā)布會上（華為云生態(tài)大會），對外報了一組關鍵數(shù)字：在50ms時延約束下單卡Decode吞吐突破1920 Tokens/s ，對比初期提升顯著，有對標H100的意思。

同時還有一條更“現(xiàn)實”的：在910B上推理的單位成本，按官方給的口徑明顯壓下來了，量級級別的下降，至于有人說到“每百萬token 0.27美元”這種超細數(shù)字。

協(xié)同優(yōu)化：模型從設計期就盯國產(chǎn)芯片特性

8月，DeepSeek發(fā)了V3.1。思路很清楚：推理時支持“思考/非思考”兩種模式，配合混合推理策略；底層精度上更多用FP8/低精度量化方案，目標就是在不明顯損傷效果的前提下，把吞吐、時延和成本繼續(xù)壓。

最關鍵的一句：這套設計從一開始就對國產(chǎn)芯片的算力特點做了適配。換句話說，不是先做個通用版再硬塞到國產(chǎn)芯片上跑，而是“模型-框架-芯片”一起調(diào)。這個路徑對國產(chǎn)生態(tài)很重要。

這次的V3.2 ，第一段只說了效率優(yōu)化和新機制引入

其實大招在后邊！

“使用高級語言 TileLang 進行快速原型開發(fā)，以支持更深入的探索。在最后階段，以 TileLang 作為精度基線，逐步使用底層語言實現(xiàn)更高效的版本。”

這里必須介紹下 TileLang。 TileLang是一門主要面向AI計算的開源編程語言，它的核心目標是讓開發(fā)者能更輕松、高效地編寫出高性能的AI算子（即計算核心），從而解放生產(chǎn)力。

在2025年華為全聯(lián)接大會上，北京大學團隊展示的TileLang成果已成功應用于華為的昇騰（Ascend）AI芯片平臺。我們不跟英偉達玩了，華為昇騰香起來了！

DeepSeek發(fā)布完半小時，華為官宣：

華為宣布昇騰已快速基于 vLLM/SGLang 等推理框架完成適配部署，實現(xiàn) DeepSeek-V3.2-Exp 0day 支持，并面向開發(fā)者開源所有推理代碼和算子實現(xiàn)。

這不是明擺著，事先就準備好的公關稿，事先就適配好了新模型嗎？

生態(tài)發(fā)力：不是一家獨唱，而是一起上牌桌

9月開始，國產(chǎn)算力這邊的新聞密度明顯提高。

阿里平頭哥在通用并行處理/AI方向的自研芯片有新進展，媒體報道里多次提到“對標高端GPU檔位、強調(diào)成本優(yōu)化”。號稱“超過A800/比肩H20、降本40%”
華為給出了昇騰路線的更清晰節(jié)奏，軟硬件配套在國內(nèi)場景里落地速度在加快。
GPU創(chuàng)業(yè)公司摩爾線程IPO進程的推進和審核節(jié)奏明顯提速。用市場行為說話：資金對“國產(chǎn)算力能跑起來”這件事，愿意下注。

這不是“替代”的單點突破，而是“可用-好用-便宜可規(guī)模”的系統(tǒng)工程開始見效。

格局變化：從“備胎”到“優(yōu)選”

梁文峰與最高領導人的會面，被外界解讀為國家層面對其技術路線和發(fā)展方向的高度認可。這不僅是個人的榮光，更是整個行業(yè)的強心劑。

過去一年最大的變化，是認知層面的：越來越多團隊在產(chǎn)品方案評審里，會優(yōu)先按國產(chǎn)芯片的特性來做模型/工程設計，而不是“能不能先用國外方案救急”。

多家機構的測算都在強調(diào)一個趨勢：NVIDIA在國內(nèi)的份額在回落，本土AI芯片份額抬到“約三成區(qū)間”已是普遍預期。
規(guī)模這塊，行業(yè)預測2025年的國內(nèi)“智能算力”總量會邁過“千EFLOPS”門檻。

1 EFLOPS = 每秒100億億次計算（1后面跟著18個零，即 101? 次浮點運算）。

所以，1037.3 EFLOPS = 每秒能完成 1037.3 × 101? 次計算。

一張RTX 4090在AI常用精度（如FP8）下的理論算力約 1.3 PFLOPS（即0.0013 EFLOPS）。要達到1037.3 EFLOPS，理論上需要約80萬張RTX 4090 同時滿負荷運行——還不算通信、調(diào)度、軟件損耗。現(xiàn)實中，可能需要超過100萬張才能穩(wěn)定輸出這個水平。

從“有沒有”到“好不好用、貴不貴”，國產(chǎn)算力正在進入“比性價比、比可獲得性”的階段。

后記

君不見，碼農(nóng)炒股群里，從言必稱FAANG，美股七姐妹，到現(xiàn)在中際旭創(chuàng)、新易盛、勝宏、寒武紀聊得飛起，重倉科創(chuàng)，中國公司再不是當年的吳下阿蒙，不是緬A，大家開始了價值投資。

世界大舞臺，中美同臺競技，中國不再落后挨打。

從模仿到自立，從追趕到協(xié)同，我們正在書寫屬于自己的AI新篇章！

后臺回復【deepseek】，一起聊聊DeepSeek的這次更新。

不刷短視頻，讀我的公眾號長文還讀完了?您真是一股清流！如果覺得寫得不錯，歡迎點贊、在看、關注。如果有不同看法，歡迎在評論區(qū)或者后臺留言討論。

我是刀哥，大廠工作過幾年，現(xiàn)在是出海創(chuàng)業(yè)者，深入研究AI工具和AI編程。關注我，了解更多AI知識！我們下期再見！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.