網易首頁 > 網易號 > 正文申請入駐

英偉達發力了，新模型在 OpenClaw 成功率排行榜殺進前五，目前免費用

2026-03-13 19:00:00　來源: Ai學習的老章

北京舉報

分享至

我之前的文章，測試 N 多開源模型，尤其是本地部署系列，評論區永遠有一個高頻問題：能不能接入 OpenClaw（小龍蝦）？

大多數其實都不行，理由也很簡單——模型能力不足是最核心、最致命的短板。Agent 的自動化、工具調用、多步驟任務執行能力，全都建立在大模型的基礎能力之上。模型不行，Agent 就是個花瓶。

打開 PinchBench 排行榜（）就知道了，排在前面的清一色是旗艦閉源模型。你用一個小模型跑 Agent，和用筷子喝湯差不多，工具不對。

最近英偉達有個開源模型 Nemotron-3-Super 殺進 PinchBench 前五

直接看排行榜：

**85.6% 的成功率超越了 Claude Opus 4.5（85.4%），只比 GPT-5.4 低了 0.4 個百分點。

最關鍵的一點：前五里面，它是唯一的開源模型。另外四個全是 Anthropic 和 OpenAI 的閉源旗艦，都是拿錢砸出來的。

而且，它這個數據還是被CREATIVE脫了后腿的，它沒有文生圖的能力

Basic、Calendar、Coding、File Ops都是100%
Data Analysis到了98%
Research是90%
Comprehension是91%
Organization是89%
但Creativity只有18%
Memory甚至只有0%
Context這一項也只有70%

這模型的強項非常像一個“干活型” Agent 大腦：寫腳本、改文件、跑流程、處理任務，確實強；但你要它靠長期上下文記憶、或者靠創意型表達去吃分，它就沒那么驚艷。

換句話說，它更像一個靠譜的工程經理加執行助手，不太像一個文藝青年。

PinchBench 測的是什么？

可能有同學不了解這個榜單。

簡單說，PinchBench 測的是模型驅動 AI Coding Agent 執行真實編碼任務的能力。不是做選擇題，不是寫作文，而是：

文件讀寫操作
代碼修改和重構
工具調用和 API 交互
多步驟復雜任務
出錯后的自我修復

這些恰恰是 OpenClaw 這類 AI Coding Agent 的核心能力。所以 PinchBench 的排名非常實在——它基本決定了模型驅動 Agent 的實際表現。

這也是為什么我之前一直說：與小龍蝦最搭配的大模型，大多都是旗艦模型。

這貨憑什么這么強？

先上硬參數：

指標

數值

總參數量

120B

激活參數量

僅 12B

架構

LatentMoE（Mamba-2 + MoE + Attention 混合）

上下文窗口

1M tokens

最低 GPU 需求

1× B200-80GB 或 1× DGX Spark

推理模式

支持推理開/關（enable_thinking=True/False）

量化精度

NVFP4（訓練即量化，不是后量化）

Nemotron 3 Super 120B A12B 不是“窮人版 Opus”，它更像是 NVIDIA 親自下場，給 Agent 賽道遞了一張旗艦級入場券。

架構設計有點東西

Nemotron-3-Super 不是傳統的純 Transformer，而是一個三合一混合體：

Mamba-2（狀態空間模型）：擅長處理長序列，線性復雜度。這也是它能支持 1M 上下文的關鍵——傳統 Transformer 的注意力機制在超長序列上會被二次復雜度卡死。

MoE（混合專家）：120B 參數里每次只激活 12B。用的是 LatentMoE，先把 token 投射到更小的潛在維度做路由，精度更高、開銷更低。

Attention 層：在關鍵位置保留注意力機制，保證關鍵信息不丟。

三者配合，NVIDIA 管這叫 LatentMoE 架構。又快又準。

還有一個彩蛋：Multi-Token Prediction（MTP）。模型訓練時不只預測下一個 token，而是同時預測后面好幾個 token。推理的時候可以做 speculative decoding，生成速度直接起飛。

NVFP4 量化，幾乎零損失，畢竟就是英偉達獨創的

下面這張圖是官方的基準對比：

Nemotron-3-Super 基準精度對比圖

基準

BF16 原版

FP8

NVFP4

MMLU-Pro

HMMT Feb25（含工具）

GPQA（無工具）

LiveCodeBench v6

IFBench

Arena-Hard-V2

RULER-500 @128k

有意思吧？NVFP4 版本在 HMMT、GPQA、IFBench 上甚至反超了 BF16 原版。這不是傳統的"訓完再量化"，而是訓練的時候就在 FP4 精度下跑，模型天然適配低精度推理。

這才是真正的實用主義工程——精度不丟，顯存還省。

訓練方法論：這次是真開源

NVIDIA 這次把"開源"兩個字做到了實處：

預訓練數據：25T+ tokens，全部公開（Nemotron Pre-Training Datasets）
后訓練數據：SFT + RL 數據集，全部公開（Nemotron Post-Training v3）
訓練配方：完整訓練腳本在 GitHub 上
評估工具：NeMo Evaluator SDK，可以復現所有 benchmark 結果
RL 環境：NeMo Gym，異步 GRPO 多環境強化學習

訓練三大階段：預訓練 → SFT（合成代碼、工具調用、指令跟隨等） → RL（數學、代碼、科學、工具使用等多環境 GRPO）。

怎么體驗？

方式一：NVIDIA API（最快上手）

直接去build.nvidia.com注冊，免費額度直接用。

在線對話體驗，零門檻。

方式二：OpenRouter 等第三方 API

很多 API 平臺已經上架了。但是要注意：PinchBench 上免費版nemotron-3-super-120b-a12b:free只拿了 75.0%，和付費版 85.6% 差了超過 10 個百分點。省錢和效果之間，得想清楚。

方式三：本地部署（硬核玩家）

支持 vLLM 和 SGLang，單卡 B200-80GB 即可運行：

# vLLM 部署
vllm serve $MODEL_CKPT \
  --async-scheduling \
  --served-model-name nvidia/nemotron-3-super \
  --dtype auto \
  --kv-cache-dtype fp8 \
  --tensor-parallel-size 1 \
  --trust-remote-code \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --reasoning-parser-plugin "./super_v3_reasoning_parser.py" \
  --reasoning-parser super_v3

推理參數官方建議：temperature=1.0，top_p=0.95，所有場景通用。

部署后暴露的是 OpenAI 兼容 API，可以直接接入 OpenCode 等終端 Agent：

{
  "model": "local/nvidia-nemotron-3-super",
  "provider": {
    "local": {
      "npm": "@ai-sdk/openai-compatible",
      "options": {
        "baseURL": "http://localhost:8000/v1",
        "apiKey": "EMPTY"
      }
    }
  }
}

HuggingFace 模型頁（含完整部署指南）：https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

說完好的，說說現實問題：

GPU 門檻還是高。B200-80GB 不是消費級顯卡，你的 4090 跑不了，或許可以等等Unsloth對極致量化版。DGX Spark 是 NVIDIA 推的桌面方案，但價格也不便宜。對大多數個人開發者來說，API 調用更現實。

Benchmark ≠ 實戰。PinchBench 85.6% 很好看，但實際項目中的復雜度、特定語言框架支持、長時間多輪對話的穩定性，都得實測才知道。

開源 Agent 模型的格局正在變

Qwen 3.5-122B-A10B 也值得關注——同樣是 MoE 架構，122B 總參數 / 10B 激活，和 Nemotron 思路非常接近。兩家不約而同選了 100B+ 總參數、10B 級別激活的 MoE 路線，這不是巧合。

MoE + 混合架構正在成為開源 Agent 模型的主流技術路線。用小激活量撬動大參數量，在效率和能力之間找到一個甜點。

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.