網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

老黃的老謀，DeepSeek的深算

2026-03-12 23:59:41　來(lái)源: 未盡研究

上海舉報(bào)

分享至

英偉達(dá)會(huì)建立一個(gè)開(kāi)源模型的新秩序嗎？

它發(fā)布了一個(gè)幾乎完全透明的開(kāi)源模型，公布了權(quán)重、數(shù)據(jù)集和配方。中國(guó)以DeepSeek為代表的開(kāi)源模型，僅開(kāi)放了權(quán)重。

GTC 2026即將于下周一舉辦，繼去年12月發(fā)布開(kāi)源模型Nemotron 3 Nano（Nano）之后，英偉達(dá)發(fā)布開(kāi)源模型Nemotron 3 Super (Super)，在開(kāi)放性上，壓倒了DeepSeek。

黃仁勛豁出去了。本周還非常罕見(jiàn)地發(fā)了一篇內(nèi)部博文《AI是個(gè)五層蛋糕》，即能源、芯片、基礎(chǔ)設(shè)施、模型、應(yīng)用。

他特意用一段話談到了開(kāi)源模型的重要性：“世界上大多數(shù)模型都是免費(fèi)的。研究人員、初創(chuàng)公司、企業(yè)乃至整個(gè)國(guó)家都依賴開(kāi)源模型來(lái)參與先進(jìn)的人工智能項(xiàng)目。當(dāng)開(kāi)源模型達(dá)到技術(shù)前沿時(shí)，它們不僅僅會(huì)改變軟件，還會(huì)激活整個(gè)技術(shù)棧的需求。”

他還以DeepSeek-R1為例：“它通過(guò)廣泛應(yīng)用強(qiáng)大的推理模型，加速了應(yīng)用層的普及，并增加了底層訓(xùn)練、基礎(chǔ)設(shè)施、芯片和能源的需求。” DeepSeek，目前在中國(guó)扮演著“激活整個(gè)技術(shù)棧”的角色。任重道遠(yuǎn)。

Nemotron 3系列的Super，還有接下來(lái)的Ultra，就寄托著老黃的期待。Super的總參數(shù)量是1200億，在MOE架構(gòu)下120億活躍參數(shù)。英偉達(dá)稱它可以應(yīng)對(duì)在軟件開(kāi)發(fā)、安全故障排查等多智能體應(yīng)用領(lǐng)域，實(shí)現(xiàn)最大效率和準(zhǔn)確性。

Super可以提供百萬(wàn)token上下文，支持智能體的長(zhǎng)期記憶，實(shí)現(xiàn)對(duì)齊和高精度的推理。英偉達(dá)稱，Super不僅僅是Nano的放大版，它引入了架構(gòu)創(chuàng)新，能平衡好高參數(shù)推理模型中典型的效率-準(zhǔn)確性問(wèn)題。

混合Mamba-Transformer主干網(wǎng)將Mamba層與Transformer層相結(jié)合，以提高序列效率并實(shí)現(xiàn)精確推理，從而提供更高的吞吐量，內(nèi)存和計(jì)算效率提高 4 倍。

Super在預(yù)訓(xùn)練期間的大部分浮點(diǎn)乘加運(yùn)算都使用英偉達(dá)的4位浮點(diǎn)格式NVFP4進(jìn)行。NVFP4針對(duì)Blackwell架構(gòu)進(jìn)行了優(yōu)化，與FP8相比，它顯著降低了內(nèi)存需求并加快了推理速度，同時(shí)保持了精度。

Super在多項(xiàng)智能體基準(zhǔn)測(cè)試中實(shí)現(xiàn)了領(lǐng)先的準(zhǔn)確率，在吞吐量上實(shí)現(xiàn)了碾壓。

英偉達(dá)公布了它訓(xùn)練數(shù)據(jù)集。預(yù)訓(xùn)練包括10萬(wàn)億個(gè)經(jīng)過(guò)整理的token，額外加入了100億推理token，以及1500萬(wàn)道編程題。后訓(xùn)練數(shù)據(jù)集包括4000萬(wàn)條新的監(jiān)督和對(duì)齊樣本，覆蓋推理、指令遵循、編程、安全以及多步驟智能體任務(wù)。這些數(shù)據(jù)用于監(jiān)督微調(diào)、偏好數(shù)據(jù)以及強(qiáng)化學(xué)習(xí)軌跡，其中大約700萬(wàn)條直接用于 SFT（監(jiān)督微調(diào)）。

英偉達(dá)還公布了強(qiáng)化學(xué)習(xí)任務(wù)與環(huán)境：在21種環(huán)境配置和37個(gè)數(shù)據(jù)集上進(jìn)行交互式強(qiáng)化學(xué)習(xí)訓(xùn)練（其中大約10個(gè)數(shù)據(jù)集將會(huì)發(fā)布），包括類似軟件工程師的智能體訓(xùn)練任務(wù)，以及帶工具增強(qiáng)的搜索和規(guī)劃任務(wù)。這使訓(xùn)練從靜態(tài)文本擴(kuò)展到動(dòng)態(tài)、可驗(yàn)證的執(zhí)行工作流，在訓(xùn)練過(guò)程中共生成了大約120萬(wàn)條環(huán)境 rollout。

英偉達(dá)發(fā)布了Nemotron 3 Super的完整訓(xùn)練和評(píng)估方案，涵蓋從預(yù)訓(xùn)練到對(duì)齊的整個(gè)流程。這使得開(kāi)發(fā)者能夠復(fù)現(xiàn)Super的訓(xùn)練過(guò)程，針對(duì)特定領(lǐng)域調(diào)整方案，或?qū)⑵渥鳛樽陨砘旌霞軜?gòu)研究的起點(diǎn)。

開(kāi)源模型分為權(quán)重開(kāi)放、數(shù)據(jù)透明度、訓(xùn)練流程開(kāi)放。一般來(lái)說(shuō)，如果公布了訓(xùn)練數(shù)據(jù)，在研究可復(fù)現(xiàn)性上，它的確代表更高水平的開(kāi)源。

開(kāi)放權(quán)重是指直接發(fā)布權(quán)重模型，任何人都可以下載運(yùn)行模型。但訓(xùn)練數(shù)據(jù)和訓(xùn)練流程通常都不公開(kāi)。中國(guó)的開(kāi)源模型公司采用的策略是生態(tài)擴(kuò)張優(yōu)先，開(kāi)放權(quán)重可以讓企業(yè)部署、開(kāi)發(fā)者微調(diào)，本地推理，可以快速形成應(yīng)用生態(tài)。在與閉源API競(jìng)爭(zhēng)時(shí)，開(kāi)放權(quán)重可以讓企業(yè)客戶實(shí)現(xiàn)本地部署、成本優(yōu)勢(shì)、自主可控。

提高數(shù)據(jù)透明度，涉及版權(quán)、網(wǎng)絡(luò)抓取、合作數(shù)據(jù)，公開(kāi)這些數(shù)據(jù)，必須要避免法律上和商業(yè)上的麻煩。

對(duì)比一下Nemotron與中國(guó)的DeepSeek們：

Nemotron是真正的開(kāi)源模型，而且它不僅是一個(gè)模型，它是一整套“開(kāi)源模型開(kāi)發(fā)平臺(tái)”。

從這個(gè)角度看，英偉達(dá)推出Nemotron并不只是做一個(gè)模型，而更像是在推動(dòng)一種圍繞GPU計(jì)算體系的AI生態(tài)。

首先要理解一點(diǎn)：英偉達(dá)的核心商業(yè)模式并不是賣模型，而是賣算力平臺(tái)。它的收入主要來(lái)自GPU、CUDA軟件棧、網(wǎng)絡(luò)互連和數(shù)據(jù)中心系統(tǒng)。只要全球AI的訓(xùn)練和推理規(guī)模持續(xù)擴(kuò)大，就會(huì)帶來(lái)更多GPU需求。因此，對(duì)英偉達(dá)來(lái)說(shuō)，最重要的不是某個(gè)模型是否領(lǐng)先，而是整個(gè)AI生態(tài)是否繼續(xù)依賴GPU計(jì)算體系。

在黃仁勛的五層蛋糕里，發(fā)布像Nemotron這樣的開(kāi)源模型有幾個(gè)戰(zhàn)略作用。

首先，把開(kāi)源作為GPU銷售的最強(qiáng)杠桿。這是最核心的一點(diǎn)。英偉達(dá)賣的不是模型，賣的是芯片和計(jì)算基礎(chǔ)設(shè)施。

Super通過(guò)NVIDIA NIM打包，可以從工作站到云端隨處運(yùn)行，并且支持vLLM、Google Cloud Vertex AI、Oracle Cloud、CoreWeave等眾多平臺(tái)。模型越開(kāi)放、部署越廣泛，跑模型所需的H100/H200/Blackwell GPU就賣得越多。

其次，用架構(gòu)創(chuàng)新綁定自家硬件。Super是Nemotron 3系列中首個(gè)結(jié)合了LatentMoE、多token預(yù)測(cè)（MTP）層和NVFP4預(yù)訓(xùn)練的模型。其中NVFP4是英偉達(dá)Blackwell架構(gòu)獨(dú)有的數(shù)值格式——原生NVFP4預(yù)訓(xùn)練專門為NVIDIA Blackwell優(yōu)化，大幅降低了內(nèi)存需求。

換句話說(shuō)，模型雖然開(kāi)源，但在英偉達(dá)GPU（尤其是最新Blackwell）上的性能遠(yuǎn)超其他平臺(tái)。開(kāi)源配方實(shí)際上在全球范圍內(nèi)"傳授"了一套天然向英偉達(dá)硬件傾斜的技術(shù)路線。

最后，以"比DeepSeek更開(kāi)放"搶占技術(shù)話語(yǔ)權(quán)。英偉達(dá)此時(shí)以極度透明的姿態(tài)入場(chǎng)，是在向全球開(kāi)發(fā)者社區(qū)發(fā)送信號(hào)：最領(lǐng)先的模型技術(shù)來(lái)自美國(guó)、來(lái)自英偉達(dá)生態(tài)。

Nemotron 3包含針對(duì)現(xiàn)實(shí)世界智能體任務(wù)的多環(huán)境強(qiáng)化學(xué)習(xí)，相關(guān)RL環(huán)境和數(shù)據(jù)集對(duì)開(kāi)發(fā)者開(kāi)放，用于領(lǐng)域定制和可復(fù)現(xiàn)性研究。這種透明度會(huì)快速聚攏全球研究者和企業(yè)開(kāi)發(fā)者，圍繞英偉達(dá)生態(tài)構(gòu)建論文、工具鏈、社區(qū)，形成對(duì)競(jìng)爭(zhēng)對(duì)手的軟性護(hù)城河。

開(kāi)源加快了模型的商品化，真正有價(jià)值的就變成了底層計(jì)算平臺(tái)和系統(tǒng)架構(gòu)，而這正是英偉達(dá)最擅長(zhǎng)、也最希望掌控的領(lǐng)域。

這也說(shuō)明AI產(chǎn)業(yè)正在從模型競(jìng)賽逐漸轉(zhuǎn)向平臺(tái)競(jìng)賽。未來(lái)的競(jìng)爭(zhēng)很可能不是誰(shuí)擁有一個(gè)最強(qiáng)模型，而是誰(shuí)能夠構(gòu)建一個(gè)完整、高效、可擴(kuò)展的 AI 計(jì)算與應(yīng)用生態(tài)系統(tǒng)。

這樣看來(lái)，只想做模型而不做應(yīng)用的DeepSeek，最重要的可能還真不是就簡(jiǎn)單發(fā)布DeepSeek-4，單個(gè)模型而言，在中國(guó)也無(wú)擺脫商品化，關(guān)鍵是它在中國(guó)的AI計(jì)算與應(yīng)用生態(tài)中發(fā)揮的作用。

DeepSeek主動(dòng)適配國(guó)產(chǎn)芯片，就等于在給整條國(guó)產(chǎn)算力供應(yīng)鏈做背書和激活。每一個(gè)基于DeepSeek開(kāi)源版本做應(yīng)用的中國(guó)開(kāi)發(fā)者，都會(huì)把算力需求導(dǎo)向國(guó)產(chǎn)硬件。這對(duì)華為昇騰、海光、寒武紀(jì)、摩爾線程、燧原等公司的價(jià)值不可估量。

DeepSeek-4，的確要花點(diǎn)時(shí)間。

參考：

https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/

https://blogs.nvidia.com/blog/ai-5-layer-cake/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.