志明與春嬌,AI看小刀,大家好,我是刀哥,今天給大家講講DeepSeek V3.2不為人知的秘密
昨天下午DeepSeek V3.2發(fā)布,今天凌晨Claude Sonnet 4.5發(fā)布,大家很關心技術細節(jié)。其實Claude 4.5領先的那一點點編程上的技術優(yōu)勢,不出3個月就會被國產(chǎn)后來者趕超。
而DeepSeek V3.2 發(fā)布公告里邊的一段話卻非常非常重要,不得不說,從V3.1開始的伏筆,已經(jīng)開始大展宏圖!
咱們從2025年初到現(xiàn)在,按時間線捋一捋。
春節(jié)突襲
大年初四,華為云和硅基流動把基于昇騰云的DeepSeek服務上線了。意思很直白:模型到算力,盡量用國產(chǎn)堆起來。
結果一上線就擠爆。原本準備的910B卡很快頂滿,只能連夜緊急加卡,才把服務穩(wěn)住。那天之后,很多人第一次直觀感受到:國貨之光來了,國產(chǎn)大模型第一次熱起來了。
從2023年,李彥宏說文心一言離GPT4只差一兩個月的笑柄,到DeepSeek的迎頭追上,我們用了兩年時間!
![]()
適配優(yōu)化,蟄伏期
2025年3月初,華為CloudMatrix 384超節(jié)點上線,384張昇騰卡互聯(lián),初期吞吐指標不漂亮,大家一邊踩坑一邊補齊軟硬件配合,芯片—算子—框架—調(diào)度一層層摳。
4月10日的發(fā)布會上(華為云生態(tài)大會),對外報了一組關鍵數(shù)字: 在50ms時延約束下單卡Decode吞吐突破1920 Tokens/s ,對比初期提升顯著,有對標H100的意思。
同時還有一條更“現(xiàn)實”的:在910B上推理的單位成本,按官方給的口徑明顯壓下來了,量級級別的下降,至于有人說到“每百萬token 0.27美元”這種超細數(shù)字。
協(xié)同優(yōu)化:模型從設計期就盯國產(chǎn)芯片特性
8月,DeepSeek發(fā)了V3.1。思路很清楚:推理時支持“思考/非思考”兩種模式,配合混合推理策略;底層精度上更多用FP8/低精度量化方案,目標就是在不明顯損傷效果的前提下,把吞吐、時延和成本繼續(xù)壓。
最關鍵的一句:這套設計從一開始就對國產(chǎn)芯片的算力特點做了適配。換句話說,不是先做個通用版再硬塞到國產(chǎn)芯片上跑,而是“模型-框架-芯片”一起調(diào)。這個路徑對國產(chǎn)生態(tài)很重要。
這次的V3.2 ,第一段只說了效率優(yōu)化和新機制引入
![]()
其實大招在后邊!
“使用高級語言 TileLang 進行快速原型開發(fā),以支持更深入的探索。在最后階段,以 TileLang 作為精度基線,逐步使用底層語言實現(xiàn)更高效的版本。”
![]()
這里必須介紹下 TileLang。 TileLang是一門主要面向AI計算的開源編程語言,它的核心目標是讓開發(fā)者能更輕松、高效地編寫出高性能的AI算子(即計算核心),從而解放生產(chǎn)力。
在2025年華為全聯(lián)接大會上,北京大學團隊展示的TileLang成果已成功應用于華為的昇騰(Ascend)AI芯片平臺。我們不跟英偉達玩了,華為昇騰香起來了!
DeepSeek發(fā)布完半小時,華為官宣:
華為宣布昇騰已快速基于 vLLM/SGLang 等推理框架完成適配部署,實現(xiàn) DeepSeek-V3.2-Exp 0day 支持,并面向開發(fā)者開源所有推理代碼和算子實現(xiàn)。
![]()
這不是明擺著,事先就準備好的公關稿,事先就適配好了新模型嗎?
生態(tài)發(fā)力:不是一家獨唱,而是一起上牌桌
9月開始,國產(chǎn)算力這邊的新聞密度明顯提高。
阿里平頭哥在通用并行處理/AI方向的自研芯片有新進展,媒體報道里多次提到“對標高端GPU檔位、強調(diào)成本優(yōu)化”。號稱“超過A800/比肩H20、降本40%”
華為給出了昇騰路線的更清晰節(jié)奏,軟硬件配套在國內(nèi)場景里落地速度在加快。
GPU創(chuàng)業(yè)公司摩爾線程IPO進程的推進和審核節(jié)奏明顯提速。用市場行為說話:資金對“國產(chǎn)算力能跑起來”這件事,愿意下注。
這不是“替代”的單點突破,而是“可用-好用-便宜可規(guī)模”的系統(tǒng)工程開始見效。
格局變化:從“備胎”到“優(yōu)選”
梁文峰與最高領導人的會面,被外界解讀為國家層面對其技術路線和發(fā)展方向的高度認可。這不僅是個人的榮光,更是整個行業(yè)的強心劑。
過去一年最大的變化,是認知層面的:越來越多團隊在產(chǎn)品方案評審里,會優(yōu)先按國產(chǎn)芯片的特性來做模型/工程設計,而不是“能不能先用國外方案救急”。
多家機構的測算都在強調(diào)一個趨勢:NVIDIA在國內(nèi)的份額在回落,本土AI芯片份額抬到“約三成區(qū)間”已是普遍預期。
規(guī)模這塊,行業(yè)預測2025年的國內(nèi)“智能算力”總量會邁過“千EFLOPS”門檻。
1 EFLOPS = 每秒100億億次計算(1后面跟著18個零,即 101? 次浮點運算)。
所以,1037.3 EFLOPS = 每秒能完成 1037.3 × 101? 次計算。
一張RTX 4090在AI常用精度(如FP8)下的理論算力約 1.3 PFLOPS(即0.0013 EFLOPS)。要達到1037.3 EFLOPS,理論上需要 約80萬張RTX 4090 同時滿負荷運行——還不算通信、調(diào)度、軟件損耗。現(xiàn)實中,可能需要超過100萬張才能穩(wěn)定輸出這個水平。
從“有沒有”到“好不好用、貴不貴”,國產(chǎn)算力正在進入“比性價比、比可獲得性”的階段。
后記
君不見,碼農(nóng)炒股群里,從言必稱FAANG,美股七姐妹,到現(xiàn)在中際旭創(chuàng)、新易盛、勝宏、寒武紀聊得飛起,重倉科創(chuàng),中國公司再不是當年的吳下阿蒙,不是緬A,大家開始了價值投資。
世界大舞臺,中美同臺競技,中國不再落后挨打。
![]()
從模仿到自立,從追趕到協(xié)同,我們正在書寫屬于自己的AI新篇章!
后臺回復【deepseek】,一起聊聊DeepSeek的這次更新。
不刷短視頻,讀我的公眾號長文還讀完了?您真是一股清流!如果覺得寫得不錯,歡迎點贊、在看、關注。如果有不同看法,歡迎在評論區(qū)或者后臺留言討論。
我是刀哥,大廠工作過幾年,現(xiàn)在是出海創(chuàng)業(yè)者,深入研究AI工具和AI編程。關注我,了解更多AI知識!我們下期再見!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.