在華為昇騰950 PR芯片一季度實現商用化之后,很快就傳出消息,DeepSeek-V4也即將推出。
V4的推理將運行在950 PR上,其異構計算架構CANN Next將兼容CUDA。不過,V4的訓練仍然使用英偉達先進的GPU。
去年底,我們對2026年的AI做出了十個展望,第一條就是:在中國的算力基礎設施上,訓練出中國的下一代前沿模型。
2026年是中國走向自主算力的元年,海外AI芯片在中國市場上份額顯著下降,自主設計、制造和封裝的AI芯片將占據市場主流,國產萬卡乃至十萬卡集群出現。芯片算力系統與中國本土的前沿大模型協同設計,形成中國的AI生態,最重要的標志,是用中國本土基礎設施,訓練出前沿模型。 未盡研究,公眾號:未盡研究
這個使命由誰來完成,應該是不言而喻的。華為去年也公布了昇騰芯片的路線圖,預計年底推出可媲美H200的、面向訓練與深度學習場景的昇騰950 DT。
![]()
過年前后,人們千呼萬喚,DeepSeek-V4沒有發布。它在想什么?它在干一件更大的事情,比發布一個模型更厲害:
只想做模型而不做應用的DeepSeek,最重要的可能還真不是就簡單發布DeepSeek-4。單個模型而言,在中國也無擺脫商品化,關鍵是它在中國的AI計算與應用生態中發揮的作用。 DeepSeek主動適配國產芯片,就等于在給整條國產算力供應鏈做背書和激活。每一個基于DeepSeek開源版本做應用的中國開發者,都會把算力需求導向國產硬件。這對華為昇騰、海光、寒武紀、摩爾線程、燧原等公司的價值不可估量。 DeepSeek-4,的確要花點時間。 未盡研究,公眾號:未盡研究
去年初DeepSeek-R1推出后,主要部署在H20系統上,今年AI智能體應用的爆發,在GPU出現短缺和服務漲價的市場上,即使算上H200,也給中國本土的算力供應商打開了空前的機會窗口。
DeepSeek之前與英偉達密切協同,每年都派代表在GTC大會上發言,但是,今年DeepSeek拒絕了英偉達提前獲取V4內核的權限。在GTC上發言的,是月之暗面創始人楊植麟。
業內猜測DeepSeek-V4發布的日期,又延伸到了4月份。正如上表顯示,V4與PR的發布看起來是合拍的。
科技媒體Information,稱其找到了5位消息人士,證實了四月中旬可能是V4發布的時間窗口,并且運行在昇騰950 PR上。
消息還稱:“為迎接V4的發布,包括阿里巴巴集團、字節跳動和騰訊控股在內的中國科技巨頭已向華為訂購了數十萬顆即將上市的芯片。他們計劃通過云服務銷售DeepSeek的新模型,并將其集成到自身的人工智能應用中。”
昇騰950 PR的使命,是超過H20。在華為中國合作伙伴大會期間,3月20日,昇騰計算業務總裁張迪煊透露了PR的一些性能信息:單卡算力可達業界(H20)的2.8倍以上,是目前國內唯一支mxFP4低精格式的推理產品。片上內存最大提升至112GB,達業界1.1倍以上。
950 PR搭載了華為首款自研高帶寬內存HiBL 1.0,容量達112 GB,帶寬 1.4 TB/s,擺脫了對外部供應鏈的依賴,也打破了產能瓶頸,為大規模交付提供了保障。
有關CANN Next兼容CUDA的情況,新增SIMT編程模型,可直接適配英偉達代碼環境,降低遷移門檻。CANN Next將CUDA視作編程標準,同時結合昇騰芯片的特性做了專項優化,相當于打造了一個近乎直接替代CUDA接口的方案,實現了軟硬件協同設計的可擴展性。
目前中國以昇騰950 PR為代表的中國AI訓練及推理芯片,水平在H100與H200之間,主要的瓶頸在產能。950 PR仍然是偏推理場景,預計今年底發布的950 DT,將面向訓練和深度學習場景。
如果DeepSeek在一兩年內做到推理和訓練都在昇騰上跑 ,編譯器、算子、通信庫、分布式訓練、推理框架都穩定,那么它的核心模型生產流程,就可以基本脫離 CUDA。
參考:
https://mp.weixin.qq.com/s/AdfsVY1W7wAIAbXKxglWCw
https://www.theinformation.com/articles/deepseeks-new-ai-model-will-victory-huawei?rc=je0cpk
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.