這一全新開(kāi)放模型系列引入了開(kāi)放的混合 Mamba-Transformer MoE (mixture-of-experts) 架構(gòu),使多智能體系統(tǒng)能夠進(jìn)行快速長(zhǎng)上下文推理。
NVIDIA Nemotron 3 系列開(kāi)放模型 (Nano、Super、Ultra)、數(shù)據(jù)集和技術(shù)專(zhuān)為在新時(shí)代構(gòu)建專(zhuān)業(yè)代理式 AI 而設(shè)計(jì)。該系列引入了混合 Mamba-Transformer MoE 架構(gòu)、交互式環(huán)境強(qiáng)化學(xué)習(xí) (reinforcement learning, RL),以及原生 100 萬(wàn) token 上下文窗口,可為多智能體應(yīng)用提供高吞吐量、長(zhǎng)時(shí)推理能力。
![]()
- Nemotron 3 的核心技術(shù):Nemotron 3 將三種架構(gòu)整合成一個(gè)主干:
- Mamba 層:實(shí)現(xiàn)高效序列建模
- Transformer 層:保障推理精度
- MoE 路由:實(shí)現(xiàn)可擴(kuò)展計(jì)算效率
Mamba 層擅長(zhǎng)以極低顯存開(kāi)銷(xiāo)追蹤長(zhǎng)程依賴(lài),即使處理數(shù)十萬(wàn) token 仍能保持穩(wěn)定的性能。Transformer 層通過(guò)精細(xì)注意力機(jī)制對(duì)此進(jìn)行了補(bǔ)充,捕捉例如代碼操作、數(shù)學(xué)推理或復(fù)雜規(guī)劃等任務(wù)所需的結(jié)構(gòu)與邏輯關(guān)聯(lián)。
MoE 組件在不增加密集計(jì)算開(kāi)銷(xiāo)的前提下提升了有效參數(shù)數(shù)量。每個(gè) token 僅激活一部分專(zhuān)家,從而降低了延遲并提高了吞吐量。
![]()
圖 1:Nemotron 3 混合架構(gòu)。通過(guò)交錯(cuò)部署 Mamba-2 與 MoE 層,輔以少量自注意力層,在保持領(lǐng)先精度的同時(shí)實(shí)現(xiàn)推理吞吐量最大化。
為使 Nemotron 3 契合真實(shí)代理式行為,該模型在 NeMo Gym(一個(gè)用于構(gòu)建和擴(kuò)展 RL 環(huán)境的開(kāi)源庫(kù))中通過(guò)跨多種環(huán)境的強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練。這種基于軌跡的強(qiáng)化學(xué)習(xí)帶來(lái)了在多步驟工作流中表現(xiàn)穩(wěn)定的模型,減少推理漂移,并能處理代理式管道中常見(jiàn)的結(jié)構(gòu)化操作。
![]()
圖 2:Nemotron 3 Nano 通過(guò)混合 MoE 架構(gòu)實(shí)現(xiàn)極高的吞吐效率,并借助 NeMo Gym 的先進(jìn)強(qiáng)化學(xué)習(xí)技術(shù)達(dá)到領(lǐng)先精度
Nemotron 3 的 100 萬(wàn) token 上下文使其能夠在大型代碼庫(kù)、長(zhǎng)文檔、擴(kuò)展對(duì)話(huà)及聚合檢索內(nèi)容中進(jìn)行持續(xù)推理。智能體無(wú)需依賴(lài)碎片化的分塊啟發(fā)式方法,就可以在單個(gè)上下文窗口中完整保留證據(jù)集、歷史緩沖及多階段計(jì)劃。
- Nemotron 3 Super 與 Ultra 的核心技術(shù):Nemotron 3 Super 與 Ultra 引入了潛在 MoE,其中專(zhuān)家先在共享潛在表示中運(yùn)行,然后再將輸出結(jié)果投影回 token 空間。該方法使模型能夠在相同推理成本下調(diào)用多達(dá) 4 倍的專(zhuān)家,從而更好地圍繞微妙語(yǔ)義結(jié)構(gòu)、領(lǐng)域抽象或多跳推理模式實(shí)現(xiàn)專(zhuān)業(yè)化。
![]()
圖 3:標(biāo)準(zhǔn) MoE 與潛在 MoE 架構(gòu)對(duì)比。在潛在 MoE 中,token 被投影至更小的潛在維度進(jìn)行專(zhuān)家路由與計(jì)算,在降低通信成本的同時(shí)支持更多專(zhuān)家參與,并提高每字節(jié)精度。
多 token 預(yù)測(cè) (MTP) 使模型能夠在一次前向傳播中預(yù)測(cè)多個(gè)未來(lái) token,從而顯著提高長(zhǎng)推理序列和結(jié)構(gòu)化輸出的吞吐量。
![]()
圖 4:多 token 預(yù)測(cè)(源自論文《通過(guò)多 token 預(yù)測(cè)實(shí)現(xiàn)更優(yōu)更快的大語(yǔ)言模型》)可同時(shí)預(yù)測(cè)多個(gè)未來(lái) token,在訓(xùn)練階段將精度提高約 2.4%,在推理階段實(shí)現(xiàn)了推測(cè)性解碼加速。
Super 與 Ultra 模型采用 NVFP4 精度進(jìn)行預(yù)訓(xùn)練,NVIDIA 的 4 位浮點(diǎn)格式可為訓(xùn)練與推理提供業(yè)界領(lǐng)先的成本精度比。我們?yōu)?Nemotron 3 設(shè)計(jì)了更新版 NVFP4 方案,確保在 25 萬(wàn)億 token 預(yù)訓(xùn)練數(shù)據(jù)集上能夠?qū)崿F(xiàn)精準(zhǔn)且穩(wěn)定的預(yù)訓(xùn)練。預(yù)訓(xùn)練過(guò)程中的大部分浮點(diǎn)乘加運(yùn)算均采用 NVFP4 格式。
以上為摘要內(nèi)容,點(diǎn)擊鏈接閱讀完整內(nèi)容:深入解析 NVIDIA Nemotron 3:使其高效精準(zhǔn)的技術(shù)、工具與數(shù)據(jù) - NVIDIA 技術(shù)博客
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.