網易首頁 > 網易號 > 正文申請入駐

商湯絕影發布端側多模態智能體基座大模型Sage ，PinchBench 實測 94% 最佳任務完成率領跑主流大模型

2026-04-22 12:38:13　來源: 雷峰網

北京舉報

分享至

2026 年 4 月 22 日——商湯絕影正式發布端側多模態智能體基座大模型 Sage。Sage 采用 MoE 架構，總參數量為 32B，激活參數僅 3B ，是行業內首款在車端實現復雜智能體能力的基座大模型，在 PinchBench 上性能領跑全球一線云端大模型，已在英偉達 Orin X 端側平臺實現部署。

AI 全面進入智能體時代，而汽車的復雜智能體能力依賴云端，端側模型受算力與參數限制，僅能實現簡單指令響應。智能座艙因此陷入兩難，依賴云端則有延遲與高 Token 成本，堅守端側則缺失真正智能體能力。Sage 的發布打破這一格局，首次將云端級智能體能力落地端側。

作為端側智能體基座，Sage 可接入 OpenClaw、Hermes 等主流 Agent 框架，為更多端側智能體落地提供核心支撐，可覆蓋出行、家庭等全場景。

Sage 的實力，已在國際公開評測中得到印證。在公開 Agent 評測基準 PinchBench 中，Sage 端側大模型最佳任務完成率達到 94%，超越Claude-Opus-4.6（93.3%）、Claude-Sonnet-4.6（88.0%）、GPT-5.4（90.5%）、Google-Gemini-3（87.0%）、Google-Gemma-4（83.9%）、Qwen3.5-27B（90.0%）、MiniMax-M2.7（89.8%）、MiMo-v2-Pro（87.4%）等國際主流云側和端側大模型。

Sage 以僅3B激活的小參數量，超越眾多大參數量云側旗艦，打破 “只有大模型才能做好智能體任務” 的慣性認知，彰顯端側原生技術路線的高效優勢。以小米MiMo-v2-Pro 為例，其激活參數為 42B、總參數規模超 1T，而 Sage 激活參數僅 3B，所需激活算力僅為其 1/14；若按模型權重規模近似估算，顯存占用約為其 1/31，但在 PinchBench 上的最佳任務完成率仍高出 6.6 個百分點。

PinchBench 是龍蝦之父Peter Steinberger推薦的公開 Agent 評測基準。作為面向真實 Agent工作流的評測榜單，PinchBench 不依賴固定不變的靜態題庫，而是隨著公開任務庫持續擴充和版本迭代不斷演進。其公開任務庫覆蓋寫作、研究、編碼、分析、郵件、文件處理、日程管理、記憶與技能調用等典型場景，重點考察模型在工具調用、多步推理和任務閉環執行中的綜合能力。

與此同時，PinchBench 評測要求模型完成真實任務執行，并綜合衡量成功率、速度與成本，因此測試周期更長、資源消耗更高，單任務token消耗就可達數十萬量級。正因如此，模型在 PinchBench 上取得的精度表現，更能體現其在復雜真實場景中的綜合能力與穩定性。

在北京車展期間，商湯絕影將正式推出搭載 Sage 端側多模態智能體基座大模型的Sage Box，為汽車邁入超級智能體時代筑牢核心根基。

憑借兩大黑科技，Sage 讓座艙從“聽懂指令”到“說到做到”

Sage 端側大模型在 PinchBench跑贏一眾國際主流云/端大模型背后真正的功臣，是商湯絕影圍繞 Sage 后訓練階段自研的兩項關鍵技術：SCOUT 和 ERL。

以 SCOUT 和 ERL 為核心的后訓練技術體系，一項讓模型"學得又快又省"，一項讓模型"做事不出錯"，重點突破智能體在學習效率、訓練成本和復雜任務穩定執行上的行業挑戰，解決了讓車載大模型從"能聽懂指令"進化到"能獨立辦成一件復雜的事"的行業公認難題。

SCOUT：讓大模型學復雜任務，省 60% 算力

SCOUT（Sub-Scale Collaboration On Unseen Tasks，分級協同學習框架）技術重點解決大模型學習復雜出行場景任務時成本高、試錯慢的問題，在復雜任務能力注入過程中可節省約 60% 的 GPU 小時消耗。

很多任務涉及空間規劃、設備聯動、多步決策，直接讓大模型自己試錯學習，既慢又燒算力。SCOUT 的思路是"探路與吸收解耦"——先派一個輕量小模型快速在任務里跑一遍，把走得通的路徑篩出來，再把這些高價值經驗喂給大模型學習，形成"小模型先探路，大模型再吸收"的學習機制，在降低訓練成本的同時，也能夠快速掌握更多真實用車場景技能。

（上述技術成果論文已上傳arXiv：https://arxiv.org/abs/2601.21754）

ERL：讓模型自己擦掉錯誤步驟，任務成功率提升 20%

已被機器學習頂級會議 ICLR 2026 收錄的ERL（Erasable Reinforcement Learning，可擦除強化學習）技術，聚焦復雜任務鏈路中的錯誤識別與糾偏。用戶在真實使用中提出的需求，往往需要模型跨多個步驟完成推理和執行，中間一旦某一步出現偏差，整個任務流程就可能失效。

ERL 讓模型能夠自動識別推理過程中的錯誤步驟，對錯誤內容進行擦除并重新生成，從源頭阻斷偏差擴散，就像給模型裝上了"邊想邊糾錯"的能力。這項技術讓 Sage 在多跳復雜推理基準上較此前 SOTA 取得顯著提升，裝車后 Sage 在復雜任務上的完成率提升了 20%。

（上述技術成果論文已上傳arXiv：https://arxiv.org/abs/2510.00861）

SCOUT 和 ERL 兩項技術前后協同共同推動 Sage 從語言大模型演進為能夠獨立完成復雜任務的智能體。疊加一體化多模態架構與原生訓練數據的優勢，Sage 在能力、成本與量產可行性之間取得了平衡，為打造智能體中樞提供了核心 AI 支撐。

端側跑出全球領先能力，Sage 定義智能上限

如果說 PinchBench 94% 的任務完成率證明了 Sage 能"辦成復雜的事"，那么真正決定座艙體驗的，是模型在各個專業維度上是不是都"夠用、夠穩、夠聰明"。不同能力維度的公開基準上，Sage 全面領先本月最新發布的同量級端側旗艦模型 Google-Gemma4，把端側模型的能力天花板抬到了一個新的水位。

MMLU Pro（跨學科專業知識）測試中，Sage 獲 76 分，領先同級端側模型約 10%，證明端側模型具備云端級通用知識密度；GPQA Diamond（研究生級專業推理）測試中，Sage 獲得 77 分，提升 33%，凸顯復雜推理深度；Human Semantic Understanding（座艙語義與視覺理解）測試中獲 91 分，提升 32%，依托原生數據建立獨特優勢。

在重點考察任務執行能力的 τ2-bench（工具調用與任務閉環）基準上，Sage 以 80 分的成績相較 Gemma 4 實現 38% 的提升，接近翻倍領先。這項基準專門評估模型調用工具、走完多步任務的實戰能力，也是區分"會聊天的模型"與"會辦事的智能體"的關鍵分水嶺。τ2-bench 上近一倍的領先，直接印證了 Sage 作為端側智能體基座在真實任務執行環節上的絕對優勢。

從專業基準到場景體驗：Sage 真正"懂場景、會思考、能服務"

這些專業能力落到真實車艙，轉化為一組直接影響用戶體驗的指標：Sage 場景推理精度超過 90%，長鏈路工具調用、邏輯規劃、環境感知任務成功率分別達 92%、89%、94%，復雜指令遵循率提升 40%。

在 Orin X 平臺部署下，Sage 可實現首字響應（TTFT）約0.5秒、單 Token 推理延遲（TPOT）低至0.03秒、生成吞吐達到80 tk/S，平均任務時長優于主流API 模型，為座艙智能體提供穩定、實時、可持續在線的運行能力。

模型可以一次性解析用戶的復合指令，自動聯動空調、影音、導航等車載系統完成任務閉環；結合傳感器對乘員狀態與路況的感知，還能主動提供兒童模式、智能路線調整等服務。

Sage 不再是"被動喚醒、單次響應"的語音助手，而是一個真正懂場景、會思考、能服務的出行伙伴。

商湯絕影 Sage 端側多模態智能體基座大模型為艙駕一體方案打通了量產可行的模型路徑，打破了技術與落地之間的壁壘，推動智能座艙從基礎交互向高階艙駕融合智能體服務跨越。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.