我之前的文章,測試 N 多開源模型,尤其是本地部署系列,評論區永遠有一個高頻問題:能不能接入 OpenClaw(小龍蝦)?
大多數其實都不行,理由也很簡單——模型能力不足是最核心、最致命的短板。Agent 的自動化、工具調用、多步驟任務執行能力,全都建立在大模型的基礎能力之上。模型不行,Agent 就是個花瓶。
打開 PinchBench 排行榜()就知道了,排在前面的清一色是旗艦閉源模型。你用一個小模型跑 Agent,和用筷子喝湯差不多,工具不對。
最近英偉達有個開源模型 Nemotron-3-Super 殺進 PinchBench 前五
直接看排行榜:
![]()
**85.6% 的成功率超越了 Claude Opus 4.5(85.4%),只比 GPT-5.4 低了 0.4 個百分點。
最關鍵的一點:前五里面,它是唯一的開源模型。另外四個全是 Anthropic 和 OpenAI 的閉源旗艦,都是拿錢砸出來的。
而且,它這個數據還是被CREATIVE脫了后腿的,它沒有文生圖的能力
![]()
Basic、Calendar、Coding、File Ops都是100%Data Analysis到了98%Research是90%Comprehension是91%Organization是89%但
Creativity只有18%Memory甚至只有0%Context這一項也只有70%
這模型的強項非常像一個“干活型” Agent 大腦:寫腳本、改文件、跑流程、處理任務,確實強;但你要它靠長期上下文記憶、或者靠創意型表達去吃分,它就沒那么驚艷。
換句話說,它更像一個靠譜的工程經理加執行助手,不太像一個文藝青年。
PinchBench 測的是什么?
可能有同學不了解這個榜單。
簡單說,PinchBench 測的是模型驅動 AI Coding Agent 執行真實編碼任務的能力。不是做選擇題,不是寫作文,而是:
文件讀寫操作
代碼修改和重構
工具調用和 API 交互
多步驟復雜任務
出錯后的自我修復
這些恰恰是 OpenClaw 這類 AI Coding Agent 的核心能力。所以 PinchBench 的排名非常實在——它基本決定了模型驅動 Agent 的實際表現。
這也是為什么我之前一直說:與小龍蝦最搭配的大模型,大多都是旗艦模型。
這貨憑什么這么強?
先上硬參數:
指標
數值
總參數量
120B
激活參數量
僅 12B
架構
LatentMoE(Mamba-2 + MoE + Attention 混合)
上下文窗口
1M tokens
最低 GPU 需求
1× B200-80GB 或 1× DGX Spark
推理模式
支持推理開/關(enable_thinking=True/False)
量化精度
NVFP4(訓練即量化,不是后量化)
Nemotron 3 Super 120B A12B 不是“窮人版 Opus”,它更像是 NVIDIA 親自下場,給 Agent 賽道遞了一張旗艦級入場券。
架構設計有點東西
Nemotron-3-Super 不是傳統的純 Transformer,而是一個三合一混合體:
Mamba-2(狀態空間模型):擅長處理長序列,線性復雜度。這也是它能支持 1M 上下文的關鍵——傳統 Transformer 的注意力機制在超長序列上會被二次復雜度卡死。
MoE(混合專家):120B 參數里每次只激活 12B。用的是 LatentMoE,先把 token 投射到更小的潛在維度做路由,精度更高、開銷更低。
Attention 層:在關鍵位置保留注意力機制,保證關鍵信息不丟。
三者配合,NVIDIA 管這叫 LatentMoE 架構。又快又準。
還有一個彩蛋:Multi-Token Prediction(MTP)。模型訓練時不只預測下一個 token,而是同時預測后面好幾個 token。推理的時候可以做 speculative decoding,生成速度直接起飛。
NVFP4 量化,幾乎零損失,畢竟就是英偉達獨創的
下面這張圖是官方的基準對比:
![]()
Nemotron-3-Super 基準精度對比圖
基準
BF16 原版
FP8
NVFP4
MMLU-Pro
HMMT Feb25(含工具)
GPQA(無工具)
LiveCodeBench v6
IFBench
Arena-Hard-V2
RULER-500 @128k
有意思吧?NVFP4 版本在 HMMT、GPQA、IFBench 上甚至反超了 BF16 原版。這不是傳統的"訓完再量化",而是訓練的時候就在 FP4 精度下跑,模型天然適配低精度推理。
這才是真正的實用主義工程——精度不丟,顯存還省。
訓練方法論:這次是真開源
NVIDIA 這次把"開源"兩個字做到了實處:
預訓練數據:25T+ tokens,全部公開(Nemotron Pre-Training Datasets)
后訓練數據:SFT + RL 數據集,全部公開(Nemotron Post-Training v3)
訓練配方:完整訓練腳本在 GitHub 上
評估工具:NeMo Evaluator SDK,可以復現所有 benchmark 結果
RL 環境:NeMo Gym,異步 GRPO 多環境強化學習
訓練三大階段:預訓練 → SFT(合成代碼、工具調用、指令跟隨等) → RL(數學、代碼、科學、工具使用等多環境 GRPO)。
怎么體驗?
方式一:NVIDIA API(最快上手)
直接去build.nvidia.com注冊,免費額度直接用。
在線對話體驗,零門檻。
![]()
![]()
方式二:OpenRouter 等第三方 API
很多 API 平臺已經上架了。但是要注意:PinchBench 上免費版nemotron-3-super-120b-a12b:free只拿了 75.0%,和付費版 85.6% 差了超過 10 個百分點。省錢和效果之間,得想清楚。
方式三:本地部署(硬核玩家)
支持 vLLM 和 SGLang,單卡 B200-80GB 即可運行:
# vLLM 部署
vllm serve $MODEL_CKPT \
--async-scheduling \
--served-model-name nvidia/nemotron-3-super \
--dtype auto \
--kv-cache-dtype fp8 \
--tensor-parallel-size 1 \
--trust-remote-code \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser-plugin "./super_v3_reasoning_parser.py" \
--reasoning-parser super_v3
推理參數官方建議:temperature=1.0,top_p=0.95,所有場景通用。
部署后暴露的是 OpenAI 兼容 API,可以直接接入 OpenCode 等終端 Agent:
{
"model": "local/nvidia-nemotron-3-super",
"provider": {
"local": {
"npm": "@ai-sdk/openai-compatible",
"options": {
"baseURL": "http://localhost:8000/v1",
"apiKey": "EMPTY"
}
}
}
}
HuggingFace 模型頁(含完整部署指南):https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4
說完好的,說說現實問題:
GPU 門檻還是高。B200-80GB 不是消費級顯卡,你的 4090 跑不了,或許可以等等Unsloth對極致量化版。DGX Spark 是 NVIDIA 推的桌面方案,但價格也不便宜。對大多數個人開發者來說,API 調用更現實。
Benchmark ≠ 實戰。PinchBench 85.6% 很好看,但實際項目中的復雜度、特定語言框架支持、長時間多輪對話的穩定性,都得實測才知道。
開源 Agent 模型的格局正在變
Qwen 3.5-122B-A10B 也值得關注——同樣是 MoE 架構,122B 總參數 / 10B 激活,和 Nemotron 思路非常接近。兩家不約而同選了 100B+ 總參數、10B 級別激活的 MoE 路線,這不是巧合。
MoE + 混合架構正在成為開源 Agent 模型的主流技術路線。用小激活量撬動大參數量,在效率和能力之間找到一個甜點。
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.