![]()
智東西
作者 程茜
編輯 李水青
智東西1月20日報道,今日下午,階躍星辰開源多模態模型Step3-VL-10B。該模型參數量為10B,在視覺感知、邏輯推理、數學競賽以及通用對話等一系列基準測試中均達到同規模SOTA水平。
階躍星辰的多項測評顯示,Step3-VL-10B的性能可以媲美甚至超越規模大10-20倍的開源模型,如GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B以及閉源旗艦模型,如Gemini 2.5 Pro、Seed-1.5-VL。
![]()
這一輕量級模型的性能表現,也意味著手機、電腦、工業嵌入式設備也可以運行GUI操作、復雜文檔解析、高精度計數等復雜多模態推理任務。
從技術層面看,Step3-VL-10B的性能突破得益于三個關鍵設計,分別是高質量多模態語料庫上進行統一預訓練、縮放多模態強化學習、并行協調推理機制。
目前,階躍星辰已開源Step3-VL-10B系列的Base模型和Thinking模型。
Hugging Face開源地址:https://huggingface.co/collections/stepfun-ai/step3-vl-10b
ModelScope開源地址:https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B
體驗地址:https://huggingface.co/spaces/stepfun-ai/Step3-VL-10B
技術報告鏈接:https://arxiv.org/pdf/2601.09668
一、從GUI感知到視覺識別和推理,Step3-VL-10B思路清晰
階躍星辰在官方公眾號里放出了Step3-VL-10B在多模推理能力方面的真實案例。
首先是關于摩爾斯編碼的推理,可以看到模型的思考過程思路清晰,先拆解字母再逐個查表,最后拼接,流程正確,并且對大部分字母如S、T、E、F、U、N的定位和編碼描述準確。
![]()
其次是GUI感知能力,模型需要識別標簽頁中以章節開頭.tex結尾的文件標簽,可以看到其思考過程采用了識別標簽、排除非目標、統計數量的步驟進行了準確分析,并有效規避了干擾選項。
![]()
第三個是關于圖推理的案例,模型需要在連線非常復雜的圖片中準確識別中長度最短的圖有幾條,從思考過程可以看到,其先確認了最小權重的邊長度是1,然后再統計所有權重為1的邊。
![]()
二、拿下開源SOTA,數學競賽測試題超94分
Step3-VL-10B具備三大核心亮點:
視覺感知精度更高:在同參數量級中展現出頂尖的識別與感知精度,研究人員為其引入PaCoRe(并行協調推理)機制,模型在復雜計數、高精度OCR及空間拓撲理解等高難度任務上的可靠性提升。
深層邏輯推演與長程推理:得益于規模化強化學習(RL)的持續迭代,Step3-VL-10B在10B規模上能應對競賽級數學難題、真實編程環境、視覺邏輯謎題。
端側Agent交互:基于海量GUI(圖形用戶界面)專用預訓練數據,模型能夠精準識別并操作復雜界面。
階躍星辰公開的多模態基準測試結果顯示,Step3-VL-10B是10B參數類別中最強大的開源模型。
![]()
具體來看,在多模態推理能力上,Step3-VL-10B在部分測試集上超越了GLM-4.6V、Qwen3-VL等模型,其性能優于10倍至20倍大的模型。
![]()
數學能力方面,該模型在AIME 25/24等數學競賽測試題上得分超過94分,這意味著其在邏輯嚴密性上甚至優于許多千億級模型。
![]()
2D、3D空間推理能力上,模型在BLINK上表現出66.79%的涌現式空間意識,在All-Angles-Bench上達到57.21%,意味著該模型在具身智能應用方面具有強大的潛力。
![]()
最后是編程能力,在真實、動態編程環境下,Step3-VL-10B超越GLM-4.6V、Qwen3-VL等模型。
![]()
此外,該模型的開源主頁顯示,研究人員在Qwen3VL-8B相關的基準測試中出現了不準確數據,例如AIME、HMMT、LCB,目前正在修復。這些錯誤是由于其在大規模評估過程中max_tokens設置錯誤造成,他們將重新運行測試,并在下一版技術報告中提供修正后的數據。
三、從感知到推理雙提升,三大關鍵設計加持
該模型的論文提到,Step3-VL-10B的性能突破得益于三個關鍵設計:
一是在高質量多模態語料庫上進行統一預訓練:研究人員采用單階段、完全解凍的訓練策略,在1.2T token的多模態語料庫上進行訓練,重點關注兩大基礎能力:推理和感知,例如通用知識和教育中心任務等推理能力,定位、計數、OCR和GUI交互等感知能力。
通過聯合優化感知編碼器和Qwen3-8B解碼器,STEP3-VL-10B建立了內在的視覺-語言協同效應。
二是縮放多模態強化學習:通過一個嚴格的后訓練流程解鎖了前沿能力,該流程包括兩階段監督微調(SFT)以及超過1400次的強化學習迭代,結合可驗證獎勵(RLVR)和人類反饋(RLHF)。
三是并行協調推理機制:研究人員采用并行協調推理(PaCoRe),支持推理階段的動態算力擴展。通過并行探索多個感知假設并進行多維證據聚合,該機制顯著提升了模型在競賽級數學、復雜OCR識別、精準物體計數及空間拓撲推理中的準確度。
階躍星辰的官方公眾號提到,得益于“三位一體”架構,Step3-VL-10B證明智能水平并不完全取決于參數規模。這也意味著:世界一流的多模態能力有望以更低成本、更少算力獲得;與此同時,過去主要集中在云端超級智能將逐步向端側下沉,推動終端走向“主動理解與可執行交互”。
結語:Step3-VL-10B或成端側AI新選擇
從Step3-VL-10B的實測可以看出,該模型憑借10B輕量化參數體量,通過高質量多模態語料統一預訓練、千余次強化學習迭代及并行協調推理機制,實現了對超大規模模型的跨級性能追趕。
并且具體到GUI交互、精準計數、競賽級數學推理等任務,該模型也展現出較大應用潛力,未來有望降低在工業質檢、本地文檔分析、基層醫療輔助等場景的部署門檻。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.