網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

3B激活參數(shù)！商湯絕影Sage登頂PinchBench，端側(cè)第一

2026-04-22 13:03:13　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：YHluck

【新智元導(dǎo)讀】一個(gè)3B激活參數(shù)的端側(cè)模型，在全球Agent權(quán)威評(píng)測(cè)中，以94%任務(wù)完成率，超越了Claude、GPT-5.4、Gemini等國際主流云側(cè)和端側(cè)大模型。商湯絕影Sage來了，它不是「更聰明的語音助手「，而是第一個(gè)真正能在車?yán)铩皋k成復(fù)雜事「的智能體基座。

有人可能不信。

一個(gè)部署在車端的小模型，憑什么在Agent評(píng)測(cè)上贏過Claude、GPT-5.4？

數(shù)字?jǐn)[在這里——在公開Agent評(píng)測(cè)基準(zhǔn)PinchBench上，商湯絕影Sage端側(cè)大模型最佳任務(wù)完成率：94%。

同場(chǎng)較量的對(duì)手？Claude-Opus-4.6（93.3%）、GPT-5.4（90.5%）、Google-Gemini-3（87.0%）、Qwen3.5-27B（90.0%）……全部落后。

這不是一場(chǎng)「以大打大」的勝利。

Sage的激活參數(shù)只有3B，總參數(shù)量32B（MoE架構(gòu)）。而小米MiMo-v2-Pro的激活參數(shù)是42B、總參數(shù)規(guī)模超1T——Sage所需激活算力僅為其1/14，顯存占用約為其1/31，但在PinchBench上的任務(wù)完成率仍高出6.6個(gè)百分點(diǎn)。

1/14的算力，多出6.6個(gè)百分點(diǎn)。

這是什么概念？

這意味著一件事被徹底證明了：「只有大模型才能做好Agent任務(wù)」，這個(gè)判斷，錯(cuò)了。

從「聽懂指令「到「說到做到」

座艙缺的從來不是語音

先說說這個(gè)問題的背景。

今天的智能座艙，卡在哪兒？

不是沒有AI，是AI「太淺了」。

用戶說「幫我訂今晚回北京的高鐵，順便把車內(nèi)溫度調(diào)低兩度」——現(xiàn)有的語音助手，大概率會(huì)拆解成兩件事分開問你確認(rèn)，甚至直接說「我不太明白您的意思」。

這叫「能聽懂指令」，但不叫「能辦成一件復(fù)雜的事」。

真正的Agent能力，需要模型跨越多個(gè)步驟、多個(gè)工具、多輪推理，最終完成任務(wù)閉環(huán)。這種能力，過去只存在于云端大模型里。

原因很直接：車端芯片算力有限，大參數(shù)模型跑不動(dòng)；小模型又沒有足夠的推理深度。

智能座艙因此陷入兩難：

依賴云端：有延遲、有成本、有斷網(wǎng)風(fēng)險(xiǎn)；堅(jiān)守端側(cè)：有響應(yīng)速度，但沒有真正的智能體能力。

Sage的發(fā)布，第一次打破了這個(gè)僵局。

效果先看

Sage在車?yán)锬堋父伞故裁?/strong>

空談技術(shù)路線，不如先看能力。

場(chǎng)景一：復(fù)合指令一次解析，多系統(tǒng)自動(dòng)聯(lián)動(dòng)

用戶說：「今晚出門晚，車內(nèi)預(yù)熱一下，幫我把導(dǎo)航設(shè)回家，音樂切換到輕松一點(diǎn)的。」

Sage不需要用戶一句一句確認(rèn)。

它一次性解析復(fù)合指令，自動(dòng)聯(lián)動(dòng)空調(diào)、導(dǎo)航、音樂三個(gè)系統(tǒng)，完成任務(wù)閉環(huán)——整個(gè)流程，首字響應(yīng)約0.5秒，用戶幾乎感覺不到「等待」。

場(chǎng)景二：主動(dòng)感知，不等喚醒

后排坐著孩子，傳感器檢測(cè)到，Sage主動(dòng)觸發(fā)兒童模式：鎖定車窗控制權(quán)、切換適齡內(nèi)容、調(diào)整音量上限。

沒有人喚醒它，它已經(jīng)做了。

場(chǎng)景三：實(shí)時(shí)路況判斷，主動(dòng)提出方案

進(jìn)入擁堵路段，結(jié)合實(shí)時(shí)路況感知，Sage主動(dòng)問：「當(dāng)前路段預(yù)計(jì)延誤23分鐘，是否切換到備選路線？」

不只是回答，而是主動(dòng)發(fā)起。

這三個(gè)場(chǎng)景，指向同一個(gè)能力轉(zhuǎn)變：Sage不再是「被動(dòng)喚醒、單次響應(yīng)」的語音助手，而是一個(gè)真正懂場(chǎng)景、會(huì)主動(dòng)思考的出行伙伴。

在OrinX平臺(tái)部署下，Sage可實(shí)現(xiàn)首字響應(yīng)（TTFT）約0.5秒、單Token推理延遲（TPOT）低至0.03秒、生成吞吐達(dá)到80tk/s，平均任務(wù)時(shí)長優(yōu)于主流API模型，保證座艙體驗(yàn)的穩(wěn)定性和實(shí)時(shí)感。

兩項(xiàng)黑科技

一個(gè)讓它「學(xué)得快」

一個(gè)讓它「做事不出錯(cuò)」

Sage在PinchBench跑贏一眾大模型的背后，真正的功臣是商湯絕影自研的兩項(xiàng)后訓(xùn)練技術(shù)：SCOUT和ERL。

SCOUT：省60%算力，讓車載AI快速「學(xué)會(huì)」復(fù)雜出行任務(wù)

全稱：Sub-Scale Collaboration on Unseen Tasks（分級(jí)協(xié)同學(xué)習(xí)框架）。

它解決的是一個(gè)工程現(xiàn)實(shí)問題——讓大模型學(xué)習(xí)復(fù)雜任務(wù)，太貴了。

出行場(chǎng)景涉及空間規(guī)劃、多設(shè)備聯(lián)動(dòng)、多步?jīng)Q策，直接讓大模型在真實(shí)任務(wù)中自己反復(fù)試錯(cuò)，既慢又燒算力。

SCOUT的思路是「探路與吸收解耦」：先派一個(gè)輕量小模型快速跑一遍，把走得通的路徑篩出來，再把這些高價(jià)值經(jīng)驗(yàn)喂給大模型學(xué)習(xí)。

用類比來說，就是「小模型先探路、踩雷、找通道，大模型再吸收精華、直接上手」。

結(jié)果是：在復(fù)雜任務(wù)能力注入過程中，GPU小時(shí)消耗節(jié)省約60%，同時(shí)快速掌握更多真實(shí)用車場(chǎng)景技能。

技術(shù)論文已上傳arXiv：https://arxiv.org/abs/2601.21754

ERL：讓模型「邊想邊糾錯(cuò)」，任務(wù)完成率提升20%

全稱：Erasable Reinforcement Learning（可擦除強(qiáng)化學(xué)習(xí)）。

這項(xiàng)技術(shù)已被機(jī)器學(xué)習(xí)頂級(jí)會(huì)議ICLR 2026收錄。

它解決的核心問題是：復(fù)雜任務(wù)鏈路里，一步出錯(cuò)，全盤崩。

用戶說一句話，模型可能需要10步推理和執(zhí)行。哪怕第7步偏了一點(diǎn)，前面6步的努力就白費(fèi)，整個(gè)任務(wù)流程失效。

ERL讓模型能夠自動(dòng)識(shí)別推理過程中的錯(cuò)誤步驟，對(duì)錯(cuò)誤內(nèi)容進(jìn)行擦除并重新生成，從源頭阻斷偏差擴(kuò)散——就像給推理過程裝上了「實(shí)時(shí)橡皮擦」。

這項(xiàng)技術(shù)讓Sage在多跳復(fù)雜推理基準(zhǔn)上較此前SOTA取得顯著提升，裝車后復(fù)雜任務(wù)完成率提升20%。

技術(shù)論文已上傳arXiv：https://arxiv.org/abs/2510.00861

SCOUT負(fù)責(zé)學(xué)習(xí)效率，ERL負(fù)責(zé)執(zhí)行穩(wěn)定性，兩項(xiàng)技術(shù)前后協(xié)同，共同推動(dòng)Sage從語言大模型演進(jìn)為能獨(dú)立完成復(fù)雜任務(wù)的智能體。

能力天花板

Sage和同級(jí)端側(cè)旗艦的差距有多大

PinchBench上的94%是綜合結(jié)果，具體能力維度上，Sage和行業(yè)參照點(diǎn)的差距更直觀。

對(duì)比對(duì)象：Google-Gemma4——本月最新發(fā)布的同量級(jí)端側(cè)旗艦。

跨學(xué)科專業(yè)知識(shí)（MMLUPro）：Sage 76分，領(lǐng)先同級(jí)端側(cè)模型約10%。端側(cè)模型，已具備云端級(jí)通用知識(shí)密度。

研究生級(jí)專業(yè)推理（GPQA Diamond）：Sage 77分，提升33%。這是考察深度推理的維度，也是Agent能否應(yīng)對(duì)復(fù)雜決策的關(guān)鍵。

座艙語義與視覺理解（Human Semantic Understanding）：Sage 91分，提升32%。依托原生車載數(shù)據(jù)建立的差異化優(yōu)勢(shì)，直接影響真實(shí)座艙體驗(yàn)。

工具調(diào)用與任務(wù)閉環(huán)（τ2-bench）：Sage 80分，較Gemma4提升38%，接近翻倍領(lǐng)先。

最后這個(gè)數(shù)字值得單獨(dú)說一下。

τ2-bench，專門評(píng)估模型調(diào)用工具、走完多步任務(wù)的實(shí)戰(zhàn)能力——也就是「會(huì)聊天」和「會(huì)辦事」之間的分水嶺。

接近翻倍的領(lǐng)先，直接印證了Sage作為端側(cè)智能體基座在真實(shí)任務(wù)執(zhí)行上的核心優(yōu)勢(shì)。

市場(chǎng)轉(zhuǎn)折點(diǎn)

汽車AI的上半場(chǎng)，靠指令

下半場(chǎng)，靠Agent

為什么「端側(cè)Agent基座」這件事，現(xiàn)在重要？

先看一組行業(yè)現(xiàn)實(shí)。

當(dāng)前搭載了「智能語音」的汽車，普遍存在同一個(gè)用戶體驗(yàn)瓶頸：語音助手能聽，但不能想；能應(yīng)答，但不能執(zhí)行；能單步，但不能多步。

這不是某一家車企的問題，是整個(gè)行業(yè)在AI算力、模型能力和車端部署之間的結(jié)構(gòu)性矛盾。

依賴云端方案的代價(jià)在放大：每次對(duì)話都要消耗Token，單任務(wù)token消耗就可達(dá)數(shù)十萬量級(jí)；網(wǎng)絡(luò)抖動(dòng)就會(huì)影響體驗(yàn)；數(shù)據(jù)隱私也是潛在風(fēng)險(xiǎn)。

端側(cè)部署才是量產(chǎn)落地的唯一可行路徑——但端側(cè)模型的能力天花板，一直是整個(gè)行業(yè)的卡脖子問題。

Sage的出現(xiàn)，正好踩在這個(gè)時(shí)間窗口。

Sage可接入OpenClaw、Hermes等主流Agent框架，不只是一個(gè)座艙大模型，而是一個(gè)為更多端側(cè)智能體落地提供核心支撐的基座——可覆蓋出行、家庭等全場(chǎng)景智能體部署。

北京車展期間，商湯絕影將正式推出搭載Sage端側(cè)多模態(tài)智能體基座大模型的SageBox，為汽車邁入超級(jí)智能體時(shí)代打下技術(shù)底座。

這意味著，車企在引入端側(cè)Agent能力時(shí)，有了一套經(jīng)過全球評(píng)測(cè)驗(yàn)證的量產(chǎn)方案。

商湯絕影

從「懂AI」到「懂車AI」的技術(shù)積累

Sage不是一款從零起步的產(chǎn)品。

它背后是商湯絕影多年在汽車AI領(lǐng)域的技術(shù)沉淀——從智能駕駛感知到座艙語義理解，再到今天的端側(cè)智能體基座，每一步都在向「真正懂車、懂人、懂場(chǎng)景」靠近。

Sage之所以能在Human Semantic Understanding（座艙語義與視覺理解）上拿到91分、提升32%，正是原生車載數(shù)據(jù)訓(xùn)練的結(jié)果。

通用大模型的訓(xùn)練數(shù)據(jù)里，沒有「車內(nèi)乘員狀態(tài)感知」，沒有「駕駛場(chǎng)景多步?jīng)Q策」，沒有「空調(diào)+導(dǎo)航+影音聯(lián)動(dòng)」這種出行場(chǎng)景特有的任務(wù)鏈路。

Sage有。

這種原生優(yōu)勢(shì)，不是靠刷榜刷出來的，是靠在真實(shí)出行場(chǎng)景里長期訓(xùn)練出來的。

智能座艙

正在迎來它真正的「奇點(diǎn)時(shí)刻」

回頭看汽車AI的發(fā)展歷程。

第一階段：語音識(shí)別，能聽懂人話。

第二階段：語音助手，能應(yīng)答簡單指令。

第三階段：大模型接入，能對(duì)話、能聊天。

現(xiàn)在，第四階段來了——

能獨(dú)立規(guī)劃、能多步執(zhí)行、能主動(dòng)感知、能在車端實(shí)時(shí)完成復(fù)雜任務(wù)的端側(cè)智能體。

Sage代表的技術(shù)方向，不只是「更聰明的語音助手」，而是從根本上改變?nèi)伺c汽車的協(xié)作方式。

用戶不再需要把一件事拆成十個(gè)指令說給汽車聽，汽車開始真正理解「你想要什么」，然后想辦法幫你做到。

3B激活參數(shù)贏過了一眾云端旗艦，這個(gè)結(jié)果告訴行業(yè)：智能座艙的上限，不在云端，在端側(cè)原生技術(shù)路線上還有更多可能。

SageBox即將亮相北京車展。

下一代汽車AI的樣子，已經(jīng)在那里了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.