網易首頁 > 網易號 > 正文申請入駐

開源新王炸！10B多模態小模型屠榜，性能媲美20倍巨無霸

2026-01-20 23:17:30　來源: 智東西

北京舉報

分享至

智東西
作者程茜
編輯李水青

智東西1月20日報道，今日下午，階躍星辰開源多模態模型Step3-VL-10B。該模型參數量為10B，在視覺感知、邏輯推理、數學競賽以及通用對話等一系列基準測試中均達到同規模SOTA水平。

階躍星辰的多項測評顯示，Step3-VL-10B的性能可以媲美甚至超越規模大10-20倍的開源模型，如GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B以及閉源旗艦模型，如Gemini 2.5 Pro、Seed-1.5-VL。

這一輕量級模型的性能表現，也意味著手機、電腦、工業嵌入式設備也可以運行GUI操作、復雜文檔解析、高精度計數等復雜多模態推理任務。

從技術層面看，Step3-VL-10B的性能突破得益于三個關鍵設計，分別是高質量多模態語料庫上進行統一預訓練、縮放多模態強化學習、并行協調推理機制。

目前，階躍星辰已開源Step3-VL-10B系列的Base模型和Thinking模型。

Hugging Face開源地址：https://huggingface.co/collections/stepfun-ai/step3-vl-10b

ModelScope開源地址：https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B

體驗地址：https://huggingface.co/spaces/stepfun-ai/Step3-VL-10B

技術報告鏈接：https://arxiv.org/pdf/2601.09668

一、從GUI感知到視覺識別和推理，Step3-VL-10B思路清晰

階躍星辰在官方公眾號里放出了Step3-VL-10B在多模推理能力方面的真實案例。

首先是關于摩爾斯編碼的推理，可以看到模型的思考過程思路清晰，先拆解字母再逐個查表，最后拼接，流程正確，并且對大部分字母如S、T、E、F、U、N的定位和編碼描述準確。

其次是GUI感知能力，模型需要識別標簽頁中以章節開頭.tex結尾的文件標簽，可以看到其思考過程采用了識別標簽、排除非目標、統計數量的步驟進行了準確分析，并有效規避了干擾選項。

第三個是關于圖推理的案例，模型需要在連線非常復雜的圖片中準確識別中長度最短的圖有幾條，從思考過程可以看到，其先確認了最小權重的邊長度是1，然后再統計所有權重為1的邊。

二、拿下開源SOTA，數學競賽測試題超94分

Step3-VL-10B具備三大核心亮點：

視覺感知精度更高：在同參數量級中展現出頂尖的識別與感知精度，研究人員為其引入PaCoRe（并行協調推理）機制，模型在復雜計數、高精度OCR及空間拓撲理解等高難度任務上的可靠性提升。

深層邏輯推演與長程推理：得益于規模化強化學習（RL）的持續迭代，Step3-VL-10B在10B規模上能應對競賽級數學難題、真實編程環境、視覺邏輯謎題。

端側Agent交互：基于海量GUI（圖形用戶界面）專用預訓練數據，模型能夠精準識別并操作復雜界面。

階躍星辰公開的多模態基準測試結果顯示，Step3-VL-10B是10B參數類別中最強大的開源模型。

具體來看，在多模態推理能力上，Step3-VL-10B在部分測試集上超越了GLM-4.6V、Qwen3-VL等模型，其性能優于10倍至20倍大的模型。

數學能力方面，該模型在AIME 25/24等數學競賽測試題上得分超過94分，這意味著其在邏輯嚴密性上甚至優于許多千億級模型。

2D、3D空間推理能力上，模型在BLINK上表現出66.79%的涌現式空間意識，在All-Angles-Bench上達到57.21%，意味著該模型在具身智能應用方面具有強大的潛力。

最后是編程能力，在真實、動態編程環境下，Step3-VL-10B超越GLM-4.6V、Qwen3-VL等模型。

此外，該模型的開源主頁顯示，研究人員在Qwen3VL-8B相關的基準測試中出現了不準確數據，例如AIME、HMMT、LCB，目前正在修復。這些錯誤是由于其在大規模評估過程中max_tokens設置錯誤造成，他們將重新運行測試，并在下一版技術報告中提供修正后的數據。

三、從感知到推理雙提升，三大關鍵設計加持

該模型的論文提到，Step3-VL-10B的性能突破得益于三個關鍵設計：

一是在高質量多模態語料庫上進行統一預訓練：研究人員采用單階段、完全解凍的訓練策略，在1.2T token的多模態語料庫上進行訓練，重點關注兩大基礎能力：推理和感知，例如通用知識和教育中心任務等推理能力，定位、計數、OCR和GUI交互等感知能力。

通過聯合優化感知編碼器和Qwen3-8B解碼器，STEP3-VL-10B建立了內在的視覺-語言協同效應。

二是縮放多模態強化學習：通過一個嚴格的后訓練流程解鎖了前沿能力，該流程包括兩階段監督微調（SFT）以及超過1400次的強化學習迭代，結合可驗證獎勵（RLVR）和人類反饋（RLHF）。

三是并行協調推理機制：研究人員采用并行協調推理（PaCoRe），支持推理階段的動態算力擴展。通過并行探索多個感知假設并進行多維證據聚合，該機制顯著提升了模型在競賽級數學、復雜OCR識別、精準物體計數及空間拓撲推理中的準確度。

階躍星辰的官方公眾號提到，得益于“三位一體”架構，Step3-VL-10B證明智能水平并不完全取決于參數規模。這也意味著：世界一流的多模態能力有望以更低成本、更少算力獲得；與此同時，過去主要集中在云端超級智能將逐步向端側下沉，推動終端走向“主動理解與可執行交互”。

結語：Step3-VL-10B或成端側AI新選擇

從Step3-VL-10B的實測可以看出，該模型憑借10B輕量化參數體量，通過高質量多模態語料統一預訓練、千余次強化學習迭代及并行協調推理機制，實現了對超大規模模型的跨級性能追趕。

并且具體到GUI交互、精準計數、競賽級數學推理等任務，該模型也展現出較大應用潛力，未來有望降低在工業質檢、本地文檔分析、基層醫療輔助等場景的部署門檻。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

DeepSeek-R2要來了？

新智元 2026-01-21 09:57:59
66 跟貼 66
智譜新模型也用DeepSeek的MLA，蘋果M5就能跑

量子位 2026-01-20 17:17:42
2 跟貼 2

R1一周年，DeepSeek Model 1悄然現身

機器之心Pro 2026-01-21 10:11:16
1 跟貼 1

代碼泄密！DeepSeek下一代“王炸”模型架構曝光

智東西 2026-01-21 13:06:16
69 跟貼 69
馬斯克罕見低頭：開源推薦算法，自嘲“很爛”不過未來月更

量子位 2026-01-21 12:30:26
1 跟貼 1

從平面幾何出發：形式化驗證如何驅動MLLM的推理能力躍遷

機器之心Pro 2026-01-20 19:17:51
0 跟貼 0

Node.js之父官宣：人類手寫代碼時代真的結束了！

新智元 2026-01-21 13:16:35
74 跟貼 74
非Transformer架構新突破，液態神經網絡推理小模型只用900M內存

機器之心Pro 2026-01-21 18:08:27
3 跟貼 3

碼農只剩6個月？Anthropic CEO斷言AI接管一切代碼，爆沖諾獎級智能！

新智元 2026-01-21 13:17:15
58 跟貼 58
拒絕DeepSeek的清華學霸，如何拿捏OpenAI的最新大模型？

智東西 2026-01-20 22:49:06
13 跟貼 13
王炸喜劇《四大才子》，小沈陽宋曉峰比文招親，包袱一個比一個響

薰衣草的美麗 2026-01-22 02:30:09
1 跟貼 1
我沒停穩憑啥收費？這邏輯也是醉了

朋哥說劇 2026-01-20 11:05:46
3 跟貼 3
田忌賽馬新解：象棋版策略，如何巧妙避害絆敵？！

難寄期許w 2026-01-21 06:34:21
0 跟貼 0
15%全量Attention！「RTPurbo」阿里Qwen3長文本推理5倍壓縮方案

機器之心Pro 2025-12-23 12:52:34
0 跟貼 0
AI用3年時光，來了解你！首個AI Clone長期記憶基準

新智元 2026-01-21 18:28:29
0 跟貼 0
當豆包“看懂”畢加索：一次美術館的AI解說實驗，如何成為多模態競爭的試金石？

每日經濟新聞 2026-01-21 22:03:07
0 跟貼 0
摩爾線程AIBOOK一周實測：開箱即訓的「AI Native」體驗

新智元 2026-01-21 15:08:06
0 跟貼 0
西門子NX：全開發周期的集成設計方案揭曉

EDEM不懂就來問 2026-01-21 11:59:48
0 跟貼 0
《太平年》定檔央一！白宇朱亞文搭檔王炸配角

往史過眼云煙 2026-01-21 19:29:32
26 跟貼 26
索尼宣布將剝離電視機業務，與中國TCL成立合資公司，TCL持股51%

魯中晨報 2026-01-20 21:47:04
4075 跟貼 4075
這邏輯滿分

憨憨愛影視 2026-01-18 00:36:00
0 跟貼 0
《突然的喜歡》定檔！陳星旭搭檔王玉雯，俊男靚女，鵝廠王炸來了

娛樂圈十三太保 2026-01-21 15:28:52
5 跟貼 5
沙特帶頭勸美不要動武，伊朗才醒悟，中方策略是對的

軍武時間線 2026-01-20 13:46:57
0 跟貼 0
1斤315元水果新“刺客”銷售暴漲產區多在山東四川

大象新聞 2026-01-21 13:45:03
478 跟貼 478
毛豆吐槽美食直播，一開口得罪無數人，王炸包袱差點笑吐血！

王觪曉 2026-01-22 00:28:44
1 跟貼 1
江敦濤，被罷免

新京報政事兒 2026-01-21 09:13:31
220 跟貼 220
這家上海國企王炸好牌，打成了爭議局？

房地產營銷總 2026-01-21 17:27:51
0 跟貼 0
深圳官方明確：中小學期末不統考！

南方都市報 2026-01-21 19:21:23
492 跟貼 492
2026年，大模型訓練的下半場屬于「強化學習云」

機器之心Pro 2026-01-12 14:03:47
0 跟貼 0
西秀區開展師生數字素養提升實踐活動創意編程培訓

金臺資訊 2026-01-21 14:51:41
0 跟貼 0
南部空軍：從今以后絕不允許有人對我大聲說話

環球時報 2026-01-22 01:30:54
98 跟貼 98
西安一男子無償獻血2.2萬毫升，持優待卡到指定景區旅游卻被告知不免票，男子將景區告上法庭。（大河報）

觀威海 2026-01-21 16:21:44
156 跟貼 156
為支付安置項目工程款，13戶村民“被貸款”；當地回應：情況較復雜，正設法解決

大風新聞 2026-01-21 20:46:04
611 跟貼 611
馬克龍喊話中國對歐增加投資外交部回應

澎湃新聞 2026-01-21 15:40:55
48 跟貼 48
成都七中學生在下課后模仿博主“貓爺”，不僅會玩還是個學霸，數學能考140那種

營天下 2026-01-19 12:25:05
1 跟貼 1
SOLO Coder 在現有項目基礎上繼續完善功能、修復問題

機器之心Pro 2025-11-13 14:18:40
0 跟貼 0
三維空間太難懂？2

機器之心Pro 2025-12-31 13:49:19
0 跟貼 0
賺了一百萬的外賣員

中國青年報 2026-01-21 07:14:51
0 跟貼 0
特變電工：黃金年產量約2.5-3噸

財聯社 2026-01-21 15:47:08
355 跟貼 355
城市公園驚現鱷魚，游客誤認是模型，結果嚇得眾人腿軟

嘻哈搞笑局 2026-01-19 00:00:00
0 跟貼 0

智東西

聚焦智能變革，服務產業升級。

11101文章數 116943關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

藝術

本地

時尚

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
中國最正宗的紋飾是什么？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

開源新王炸！10B多模態小模型屠榜，性能媲美20倍巨無霸

給機器人做仿真訓練 這家創企年營收破億

特朗普稱“美國擁有無人知曉的武器” 克宮回應

特朗普稱“美國擁有無人知曉的武器” 克宮回應

只會防守反擊？不好意思，我們要踢決賽了

首位捐款的明星 苗圃現身嫣然醫院捐款

丹麥打響第一槍 歐洲用資本保衛格陵蘭島

2026款上汽大眾朗逸正式上市 售價12.09萬起

態度原創

《FF7RE》N2版M站均分90分：無一差評質量夯爆了

你絕對想不到，他的油畫美得如此驚人！

云游遼寧｜漫步千年小城晨昏，“康”復好心情

締造仙女夢的人，去了天堂繼續縫制星光?

給機器人做仿真訓練這家創企年營收破億

首位捐款的明星苗圃現身嫣然醫院捐款

丹麥打響第一槍歐洲用資本保衛格陵蘭島

2026款上汽大眾朗逸正式上市售價12.09萬起