<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      英偉達發力了,新模型在 OpenClaw 成功率排行榜殺進前五,目前免費用

      0
      分享至

      我之前的文章,測試 N 多開源模型,尤其是本地部署系列,評論區永遠有一個高頻問題:能不能接入 OpenClaw(小龍蝦)?

      大多數其實都不行,理由也很簡單——模型能力不足是最核心、最致命的短板。Agent 的自動化、工具調用、多步驟任務執行能力,全都建立在大模型的基礎能力之上。模型不行,Agent 就是個花瓶。

      打開 PinchBench 排行榜()就知道了,排在前面的清一色是旗艦閉源模型。你用一個小模型跑 Agent,和用筷子喝湯差不多,工具不對。

      最近英偉達有個開源模型 Nemotron-3-Super 殺進 PinchBench 前五

      直接看排行榜:


      **85.6% 的成功率超越了 Claude Opus 4.5(85.4%),只比 GPT-5.4 低了 0.4 個百分點。

      最關鍵的一點:前五里面,它是唯一的開源模型。另外四個全是 Anthropic 和 OpenAI 的閉源旗艦,都是拿錢砸出來的。

      而且,它這個數據還是被CREATIVE脫了后腿的,它沒有文生圖的能力



      • BasicCalendarCodingFile Ops都是100%

      • Data Analysis到了98%

      • Research90%

      • Comprehension91%

      • Organization89%

      • Creativity只有18%

      • Memory甚至只有0%

      • Context這一項也只有70%

      這模型的強項非常像一個“干活型” Agent 大腦:寫腳本、改文件、跑流程、處理任務,確實強;但你要它靠長期上下文記憶、或者靠創意型表達去吃分,它就沒那么驚艷。

      換句話說,它更像一個靠譜的工程經理加執行助手,不太像一個文藝青年。

      PinchBench 測的是什么?

      可能有同學不了解這個榜單。

      簡單說,PinchBench 測的是模型驅動 AI Coding Agent 執行真實編碼任務的能力。不是做選擇題,不是寫作文,而是:

      • 文件讀寫操作

      • 代碼修改和重構

      • 工具調用和 API 交互

      • 多步驟復雜任務

      • 出錯后的自我修復

      這些恰恰是 OpenClaw 這類 AI Coding Agent 的核心能力。所以 PinchBench 的排名非常實在——它基本決定了模型驅動 Agent 的實際表現。

      這也是為什么我之前一直說:與小龍蝦最搭配的大模型,大多都是旗艦模型。

      這貨憑什么這么強?

      先上硬參數:

      指標

      數值

      總參數量

      120B

      激活參數量

      僅 12B

      架構

      LatentMoE(Mamba-2 + MoE + Attention 混合)

      上下文窗口

      1M tokens

      最低 GPU 需求

      1× B200-80GB 或 1× DGX Spark

      推理模式

      支持推理開/關(enable_thinking=True/False

      量化精度

      NVFP4(訓練即量化,不是后量化)

      Nemotron 3 Super 120B A12B 不是“窮人版 Opus”,它更像是 NVIDIA 親自下場,給 Agent 賽道遞了一張旗艦級入場券。

      架構設計有點東西

      Nemotron-3-Super 不是傳統的純 Transformer,而是一個三合一混合體:

      Mamba-2(狀態空間模型):擅長處理長序列,線性復雜度。這也是它能支持 1M 上下文的關鍵——傳統 Transformer 的注意力機制在超長序列上會被二次復雜度卡死。

      MoE(混合專家):120B 參數里每次只激活 12B。用的是 LatentMoE,先把 token 投射到更小的潛在維度做路由,精度更高、開銷更低。

      Attention 層:在關鍵位置保留注意力機制,保證關鍵信息不丟。

      三者配合,NVIDIA 管這叫 LatentMoE 架構。又快又準。

      還有一個彩蛋:Multi-Token Prediction(MTP)。模型訓練時不只預測下一個 token,而是同時預測后面好幾個 token。推理的時候可以做 speculative decoding,生成速度直接起飛。

      NVFP4 量化,幾乎零損失,畢竟就是英偉達獨創的

      下面這張圖是官方的基準對比:


      Nemotron-3-Super 基準精度對比圖

      基準

      BF16 原版

      FP8

      NVFP4

      MMLU-Pro

      HMMT Feb25(含工具)

      GPQA(無工具)

      LiveCodeBench v6

      IFBench

      Arena-Hard-V2

      RULER-500 @128k

      有意思吧?NVFP4 版本在 HMMT、GPQA、IFBench 上甚至反超了 BF16 原版。這不是傳統的"訓完再量化",而是訓練的時候就在 FP4 精度下跑,模型天然適配低精度推理。

      這才是真正的實用主義工程——精度不丟,顯存還省。

      訓練方法論:這次是真開源

      NVIDIA 這次把"開源"兩個字做到了實處:

      • 預訓練數據:25T+ tokens,全部公開(Nemotron Pre-Training Datasets)

      • 后訓練數據:SFT + RL 數據集,全部公開(Nemotron Post-Training v3)

      • 訓練配方:完整訓練腳本在 GitHub 上

      • 評估工具:NeMo Evaluator SDK,可以復現所有 benchmark 結果

      • RL 環境:NeMo Gym,異步 GRPO 多環境強化學習

      訓練三大階段:預訓練 → SFT(合成代碼、工具調用、指令跟隨等) → RL(數學、代碼、科學、工具使用等多環境 GRPO)。

      怎么體驗?

      方式一:NVIDIA API(最快上手)

      直接去build.nvidia.com注冊,免費額度直接用。

      在線對話體驗,零門檻。



      方式二:OpenRouter 等第三方 API

      很多 API 平臺已經上架了。但是要注意:PinchBench 上免費版nemotron-3-super-120b-a12b:free只拿了 75.0%,和付費版 85.6% 差了超過 10 個百分點。省錢和效果之間,得想清楚。

      方式三:本地部署(硬核玩家)

      支持 vLLM 和 SGLang,單卡 B200-80GB 即可運行:

      # vLLM 部署
      vllm serve $MODEL_CKPT \
      --async-scheduling \
      --served-model-name nvidia/nemotron-3-super \
      --dtype auto \
      --kv-cache-dtype fp8 \
      --tensor-parallel-size 1 \
      --trust-remote-code \
      --enable-auto-tool-choice \
      --tool-call-parser qwen3_coder \
      --reasoning-parser-plugin "./super_v3_reasoning_parser.py" \
      --reasoning-parser super_v3

      推理參數官方建議:temperature=1.0top_p=0.95,所有場景通用。

      部署后暴露的是 OpenAI 兼容 API,可以直接接入 OpenCode 等終端 Agent:

      {
      "model": "local/nvidia-nemotron-3-super",
      "provider": {
      "local": {
      "npm": "@ai-sdk/openai-compatible",
      "options": {
      "baseURL": "http://localhost:8000/v1",
      "apiKey": "EMPTY"
      }
      }
      }
      }
      HuggingFace 模型頁(含完整部署指南):https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

      說完好的,說說現實問題:

      GPU 門檻還是高。B200-80GB 不是消費級顯卡,你的 4090 跑不了,或許可以等等Unsloth對極致量化版。DGX Spark 是 NVIDIA 推的桌面方案,但價格也不便宜。對大多數個人開發者來說,API 調用更現實。

      Benchmark ≠ 實戰。PinchBench 85.6% 很好看,但實際項目中的復雜度、特定語言框架支持、長時間多輪對話的穩定性,都得實測才知道。

      開源 Agent 模型的格局正在變

      Qwen 3.5-122B-A10B 也值得關注——同樣是 MoE 架構,122B 總參數 / 10B 激活,和 Nemotron 思路非常接近。兩家不約而同選了 100B+ 總參數、10B 級別激活的 MoE 路線,這不是巧合。

      MoE + 混合架構正在成為開源 Agent 模型的主流技術路線。用小激活量撬動大參數量,在效率和能力之間找到一個甜點。

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國運來了擋不住!我國發現世界最大"超巨型金礦床"、價值6000億

      國運來了擋不住!我國發現世界最大"超巨型金礦床"、價值6000億

      愛競彩的小周
      2026-04-02 12:32:25
      收到中方賀電,金正恩很高興,回電感謝并做出重要決定。

      收到中方賀電,金正恩很高興,回電感謝并做出重要決定。

      張嘴說財經
      2026-04-01 22:24:17
      太突然!他倆宣布離婚

      太突然!他倆宣布離婚

      廣州生活美食圈
      2026-04-01 19:01:31
      今麥郎董事長回應“手打掛面的‘手打’是商標”:該商標已用了20年,4月2日凌晨起停產相關產品

      今麥郎董事長回應“手打掛面的‘手打’是商標”:該商標已用了20年,4月2日凌晨起停產相關產品

      封面新聞
      2026-04-02 05:07:12
      中方奉陪到底!沒等來日本道歉,高市卻掀桌了,突然亮出獠牙!

      中方奉陪到底!沒等來日本道歉,高市卻掀桌了,突然亮出獠牙!

      娛樂的宅急便
      2026-04-01 14:42:42
      福建福州振興鄉村集團有限公司董事長陳志武接受審查調查

      福建福州振興鄉村集團有限公司董事長陳志武接受審查調查

      界面新聞
      2026-04-02 08:36:22
      66歲陳永貴,退休后對秘書發脾氣,李先念下令:不許再給他送文件

      66歲陳永貴,退休后對秘書發脾氣,李先念下令:不許再給他送文件

      簡史檔案館
      2026-04-02 11:05:03
      特朗普剛表態認輸,不到24小時,美債遭遇大規模拋售,美國失算了

      特朗普剛表態認輸,不到24小時,美債遭遇大規模拋售,美國失算了

      深析古今
      2026-04-01 21:52:44
      金價徹底爆了!

      金價徹底爆了!

      新浪財經
      2026-04-02 10:04:40
      現在教育最大的問題是:大多數學生根本就不想學習。

      現在教育最大的問題是:大多數學生根本就不想學習。

      李老師講最真教育
      2026-04-01 22:07:16
      山西柳林一飯店發現3人死亡 疑似煤氣中毒

      山西柳林一飯店發現3人死亡 疑似煤氣中毒

      新京報
      2026-04-02 12:21:11
      李榮浩抄襲案逆轉? 網揪「時間軸證據」質疑說謊:版權公司根本沒倒

      李榮浩抄襲案逆轉? 網揪「時間軸證據」質疑說謊:版權公司根本沒倒

      ETtoday星光云
      2026-04-02 16:50:10
      女生主動起來有多黏人?網友:這些女的太開放了

      女生主動起來有多黏人?網友:這些女的太開放了

      帶你感受人間冷暖
      2026-01-27 00:20:06
      鄭麗文強援已到!美國竄訪團抵臺當天,北京出手,大陸來撐腰了

      鄭麗文強援已到!美國竄訪團抵臺當天,北京出手,大陸來撐腰了

      混沌錄
      2026-04-01 20:37:15
      不能錯過!4月2日下午14:00比賽!中央5套CCTV5、CCTV5+直播表

      不能錯過!4月2日下午14:00比賽!中央5套CCTV5、CCTV5+直播表

      皮皮觀天下
      2026-04-02 13:52:19
      社交潛規則:沒有人有義務透過你邋遢的外表,去發現你優秀的內在

      社交潛規則:沒有人有義務透過你邋遢的外表,去發現你優秀的內在

      清風拂心
      2026-03-18 10:08:19
      香港演員施明去世,終年74歲,曾出演《倚天屠龍記》紫衫龍王,精通武術曾做史泰龍保鏢

      香港演員施明去世,終年74歲,曾出演《倚天屠龍記》紫衫龍王,精通武術曾做史泰龍保鏢

      大象新聞
      2026-03-31 14:49:05
      天氣轉暖,醫生提醒冠心病患者:寧可多看看電視,也別隨意做5事

      天氣轉暖,醫生提醒冠心病患者:寧可多看看電視,也別隨意做5事

      岐黃傳人孫大夫
      2026-03-30 23:30:03
      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      可樂談情感
      2026-03-29 15:16:24
      晚飯七分飽被推翻了?醫生調查:過了56歲,吃飯盡量要做到這5點

      晚飯七分飽被推翻了?醫生調查:過了56歲,吃飯盡量要做到這5點

      蜉蝣說
      2026-02-03 15:00:19
      2026-04-02 17:28:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3303文章數 11122關注度
      往期回顧 全部

      科技要聞

      三年虧20億,最新估值58億,Xreal沖刺港股

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      體育要聞

      這六個字,代表了邵佳一的新國足

      娛樂要聞

      宋寧峰帶女兒出軌,張婉婷找董璇哭訴

      財經要聞

      電商售械三水光針 機構倒貨or假貨猖獗?

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態度原創

      藝術
      健康
      家居
      親子
      教育

      藝術要聞

      故人西辭黃鶴樓,煙花三月下揚州

      干細胞抗衰4大誤區,90%的人都中招

      家居要聞

      歲月靜好 典雅新章

      親子要聞

      輔酶q10備孕怎么吃?高齡備孕吃什么提高卵泡數量?

      教育要聞

      天府新區調整劃片后,利好不止這個片區

      無障礙瀏覽 進入關懷版