英偉達(dá)會(huì)建立一個(gè)開(kāi)源模型的新秩序嗎?
它發(fā)布了一個(gè)幾乎完全透明的開(kāi)源模型,公布了權(quán)重、數(shù)據(jù)集和配方。中國(guó)以DeepSeek為代表的開(kāi)源模型,僅開(kāi)放了權(quán)重。
GTC 2026即將于下周一舉辦,繼去年12月發(fā)布開(kāi)源模型Nemotron 3 Nano(Nano)之后,英偉達(dá)發(fā)布開(kāi)源模型Nemotron 3 Super (Super),在開(kāi)放性上,壓倒了DeepSeek。
黃仁勛豁出去了。本周還非常罕見(jiàn)地發(fā)了一篇內(nèi)部博文《AI是個(gè)五層蛋糕》,即能源、芯片、基礎(chǔ)設(shè)施、模型、應(yīng)用。
他特意用一段話談到了開(kāi)源模型的重要性:“世界上大多數(shù)模型都是免費(fèi)的。研究人員、初創(chuàng)公司、企業(yè)乃至整個(gè)國(guó)家都依賴開(kāi)源模型來(lái)參與先進(jìn)的人工智能項(xiàng)目。當(dāng)開(kāi)源模型達(dá)到技術(shù)前沿時(shí),它們不僅僅會(huì)改變軟件,還會(huì)激活整個(gè)技術(shù)棧的需求。”
他還以DeepSeek-R1為例:“它通過(guò)廣泛應(yīng)用強(qiáng)大的推理模型,加速了應(yīng)用層的普及,并增加了底層訓(xùn)練、基礎(chǔ)設(shè)施、芯片和能源的需求。” DeepSeek,目前在中國(guó)扮演著“激活整個(gè)技術(shù)棧”的角色。任重道遠(yuǎn)。
Nemotron 3系列的Super,還有接下來(lái)的Ultra,就寄托著老黃的期待。Super的總參數(shù)量是1200億,在MOE架構(gòu)下120億活躍參數(shù)。英偉達(dá)稱它可以應(yīng)對(duì)在軟件開(kāi)發(fā)、安全故障排查等多智能體應(yīng)用領(lǐng)域,實(shí)現(xiàn)最大效率和準(zhǔn)確性。
Super可以提供百萬(wàn)token上下文,支持智能體的長(zhǎng)期記憶,實(shí)現(xiàn)對(duì)齊和高精度的推理。英偉達(dá)稱,Super不僅僅是Nano的放大版,它引入了架構(gòu)創(chuàng)新,能平衡好高參數(shù)推理模型中典型的效率-準(zhǔn)確性問(wèn)題。
混合Mamba-Transformer主干網(wǎng)將Mamba層與Transformer層相結(jié)合,以提高序列效率并實(shí)現(xiàn)精確推理,從而提供更高的吞吐量,內(nèi)存和計(jì)算效率提高 4 倍。
Super在預(yù)訓(xùn)練期間的大部分浮點(diǎn)乘加運(yùn)算都使用英偉達(dá)的4位浮點(diǎn)格式NVFP4進(jìn)行。NVFP4針對(duì)Blackwell架構(gòu)進(jìn)行了優(yōu)化,與FP8相比,它顯著降低了內(nèi)存需求并加快了推理速度,同時(shí)保持了精度。
Super在多項(xiàng)智能體基準(zhǔn)測(cè)試中實(shí)現(xiàn)了領(lǐng)先的準(zhǔn)確率,在吞吐量上實(shí)現(xiàn)了碾壓。
![]()
英偉達(dá)公布了它訓(xùn)練數(shù)據(jù)集。預(yù)訓(xùn)練包括10萬(wàn)億個(gè)經(jīng)過(guò)整理的token,額外加入了100億推理token,以及1500萬(wàn)道編程題。后訓(xùn)練數(shù)據(jù)集包括4000萬(wàn)條新的監(jiān)督和對(duì)齊樣本,覆蓋推理、指令遵循、編程、安全以及多步驟智能體任務(wù)。這些數(shù)據(jù)用于監(jiān)督微調(diào)、偏好數(shù)據(jù)以及強(qiáng)化學(xué)習(xí)軌跡,其中大約700萬(wàn)條直接用于 SFT(監(jiān)督微調(diào))。
英偉達(dá)還公布了強(qiáng)化學(xué)習(xí)任務(wù)與環(huán)境:在21種環(huán)境配置和37個(gè)數(shù)據(jù)集上進(jìn)行交互式強(qiáng)化學(xué)習(xí)訓(xùn)練(其中大約10個(gè)數(shù)據(jù)集將會(huì)發(fā)布),包括類似軟件工程師的智能體訓(xùn)練任務(wù),以及帶工具增強(qiáng)的搜索和規(guī)劃任務(wù)。這使訓(xùn)練從靜態(tài)文本擴(kuò)展到動(dòng)態(tài)、可驗(yàn)證的執(zhí)行工作流,在訓(xùn)練過(guò)程中共生成了大約120萬(wàn)條環(huán)境 rollout。
英偉達(dá)發(fā)布了Nemotron 3 Super的完整訓(xùn)練和評(píng)估方案,涵蓋從預(yù)訓(xùn)練到對(duì)齊的整個(gè)流程。這使得開(kāi)發(fā)者能夠復(fù)現(xiàn)Super的訓(xùn)練過(guò)程,針對(duì)特定領(lǐng)域調(diào)整方案,或?qū)⑵渥鳛樽陨砘旌霞軜?gòu)研究的起點(diǎn)。
開(kāi)源模型分為權(quán)重開(kāi)放、數(shù)據(jù)透明度、訓(xùn)練流程開(kāi)放。一般來(lái)說(shuō),如果公布了訓(xùn)練數(shù)據(jù),在研究可復(fù)現(xiàn)性上,它的確代表更高水平的開(kāi)源。
開(kāi)放權(quán)重是指直接發(fā)布權(quán)重模型,任何人都可以下載運(yùn)行模型。但訓(xùn)練數(shù)據(jù)和訓(xùn)練流程通常都不公開(kāi)。中國(guó)的開(kāi)源模型公司采用的策略是生態(tài)擴(kuò)張優(yōu)先,開(kāi)放權(quán)重可以讓企業(yè)部署、開(kāi)發(fā)者微調(diào),本地推理,可以快速形成應(yīng)用生態(tài)。在與閉源API競(jìng)爭(zhēng)時(shí),開(kāi)放權(quán)重可以讓企業(yè)客戶實(shí)現(xiàn)本地部署、成本優(yōu)勢(shì)、自主可控。
提高數(shù)據(jù)透明度,涉及版權(quán)、網(wǎng)絡(luò)抓取、合作數(shù)據(jù),公開(kāi)這些數(shù)據(jù),必須要避免法律上和商業(yè)上的麻煩。
對(duì)比一下Nemotron與中國(guó)的DeepSeek們:
![]()
Nemotron是真正的開(kāi)源模型,而且它不僅是一個(gè)模型,它是一整套“開(kāi)源模型開(kāi)發(fā)平臺(tái)”。
從這個(gè)角度看,英偉達(dá)推出Nemotron并不只是做一個(gè)模型,而更像是在推動(dòng)一種圍繞GPU計(jì)算體系的AI生態(tài)。
首先要理解一點(diǎn):英偉達(dá)的核心商業(yè)模式并不是賣模型,而是賣算力平臺(tái)。它的收入主要來(lái)自GPU、CUDA軟件棧、網(wǎng)絡(luò)互連和數(shù)據(jù)中心系統(tǒng)。只要全球AI的訓(xùn)練和推理規(guī)模持續(xù)擴(kuò)大,就會(huì)帶來(lái)更多GPU需求。因此,對(duì)英偉達(dá)來(lái)說(shuō),最重要的不是某個(gè)模型是否領(lǐng)先,而是整個(gè)AI生態(tài)是否繼續(xù)依賴GPU計(jì)算體系。
在黃仁勛的五層蛋糕里,發(fā)布像Nemotron這樣的開(kāi)源模型有幾個(gè)戰(zhàn)略作用。
首先,把開(kāi)源作為GPU銷售的最強(qiáng)杠桿。這是最核心的一點(diǎn)。英偉達(dá)賣的不是模型,賣的是芯片和計(jì)算基礎(chǔ)設(shè)施。
Super通過(guò)NVIDIA NIM打包,可以從工作站到云端隨處運(yùn)行,并且支持vLLM、Google Cloud Vertex AI、Oracle Cloud、CoreWeave等眾多平臺(tái)。 模型越開(kāi)放、部署越廣泛,跑模型所需的H100/H200/Blackwell GPU就賣得越多。
其次,用架構(gòu)創(chuàng)新綁定自家硬件。Super是Nemotron 3系列中首個(gè)結(jié)合了LatentMoE、多token預(yù)測(cè)(MTP)層和NVFP4預(yù)訓(xùn)練的模型。 其中NVFP4是英偉達(dá)Blackwell架構(gòu)獨(dú)有的數(shù)值格式——原生NVFP4預(yù)訓(xùn)練專門為NVIDIA Blackwell優(yōu)化,大幅降低了內(nèi)存需求。
換句話說(shuō),模型雖然開(kāi)源,但在英偉達(dá)GPU(尤其是最新Blackwell)上的性能遠(yuǎn)超其他平臺(tái)。開(kāi)源配方實(shí)際上在全球范圍內(nèi)"傳授"了一套天然向英偉達(dá)硬件傾斜的技術(shù)路線。
最后,以"比DeepSeek更開(kāi)放"搶占技術(shù)話語(yǔ)權(quán)。英偉達(dá)此時(shí)以極度透明的姿態(tài)入場(chǎng),是在向全球開(kāi)發(fā)者社區(qū)發(fā)送信號(hào):最領(lǐng)先的模型技術(shù)來(lái)自美國(guó)、來(lái)自英偉達(dá)生態(tài)。
Nemotron 3包含針對(duì)現(xiàn)實(shí)世界智能體任務(wù)的多環(huán)境強(qiáng)化學(xué)習(xí),相關(guān)RL環(huán)境和數(shù)據(jù)集對(duì)開(kāi)發(fā)者開(kāi)放,用于領(lǐng)域定制和可復(fù)現(xiàn)性研究。這種透明度會(huì)快速聚攏全球研究者和企業(yè)開(kāi)發(fā)者,圍繞英偉達(dá)生態(tài)構(gòu)建論文、工具鏈、社區(qū),形成對(duì)競(jìng)爭(zhēng)對(duì)手的軟性護(hù)城河。
開(kāi)源加快了模型的商品化,真正有價(jià)值的就變成了底層計(jì)算平臺(tái)和系統(tǒng)架構(gòu),而這正是英偉達(dá)最擅長(zhǎng)、也最希望掌控的領(lǐng)域。
![]()
這也說(shuō)明AI產(chǎn)業(yè)正在從模型競(jìng)賽逐漸轉(zhuǎn)向平臺(tái)競(jìng)賽。未來(lái)的競(jìng)爭(zhēng)很可能不是誰(shuí)擁有一個(gè)最強(qiáng)模型,而是誰(shuí)能夠構(gòu)建一個(gè)完整、高效、可擴(kuò)展的 AI 計(jì)算與應(yīng)用生態(tài)系統(tǒng)。
這樣看來(lái),只想做模型而不做應(yīng)用的DeepSeek,最重要的可能還真不是就簡(jiǎn)單發(fā)布DeepSeek-4,單個(gè)模型而言,在中國(guó)也無(wú)擺脫商品化,關(guān)鍵是它在中國(guó)的AI計(jì)算與應(yīng)用生態(tài)中發(fā)揮的作用。
DeepSeek主動(dòng)適配國(guó)產(chǎn)芯片,就等于在給整條國(guó)產(chǎn)算力供應(yīng)鏈做背書和激活。每一個(gè)基于DeepSeek開(kāi)源版本做應(yīng)用的中國(guó)開(kāi)發(fā)者,都會(huì)把算力需求導(dǎo)向國(guó)產(chǎn)硬件。這對(duì)華為昇騰、海光、寒武紀(jì)、摩爾線程、燧原等公司的價(jià)值不可估量。
DeepSeek-4,的確要花點(diǎn)時(shí)間。
參考:
https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/
https://blogs.nvidia.com/blog/ai-5-layer-cake/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.