<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      開源新王炸!10B多模態小模型屠榜,性能媲美20倍巨無霸

      0
      分享至


      智東西
      作者 程茜
      編輯 李水青

      智東西1月20日報道,今日下午,階躍星辰開源多模態模型Step3-VL-10B。該模型參數量為10B,在視覺感知、邏輯推理、數學競賽以及通用對話等一系列基準測試中均達到同規模SOTA水平

      階躍星辰的多項測評顯示,Step3-VL-10B的性能可以媲美甚至超越規模大10-20倍的開源模型,如GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B以及閉源旗艦模型,如Gemini 2.5 Pro、Seed-1.5-VL。


      這一輕量級模型的性能表現,也意味著手機、電腦、工業嵌入式設備也可以運行GUI操作、復雜文檔解析、高精度計數等復雜多模態推理任務。

      從技術層面看,Step3-VL-10B的性能突破得益于三個關鍵設計,分別是高質量多模態語料庫上進行統一預訓練、縮放多模態強化學習、并行協調推理機制。

      目前,階躍星辰已開源Step3-VL-10B系列的Base模型和Thinking模型。

      Hugging Face開源地址:https://huggingface.co/collections/stepfun-ai/step3-vl-10b

      ModelScope開源地址:https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B

      體驗地址:https://huggingface.co/spaces/stepfun-ai/Step3-VL-10B

      技術報告鏈接:https://arxiv.org/pdf/2601.09668

      一、從GUI感知到視覺識別和推理,Step3-VL-10B思路清晰

      階躍星辰在官方公眾號里放出了Step3-VL-10B在多模推理能力方面的真實案例。

      首先是關于摩爾斯編碼的推理,可以看到模型的思考過程思路清晰,先拆解字母再逐個查表,最后拼接,流程正確,并且對大部分字母如S、T、E、F、U、N的定位和編碼描述準確。


      其次是GUI感知能力,模型需要識別標簽頁中以章節開頭.tex結尾的文件標簽,可以看到其思考過程采用了識別標簽、排除非目標、統計數量的步驟進行了準確分析,并有效規避了干擾選項。


      第三個是關于圖推理的案例,模型需要在連線非常復雜的圖片中準確識別中長度最短的圖有幾條,從思考過程可以看到,其先確認了最小權重的邊長度是1,然后再統計所有權重為1的邊。


      二、拿下開源SOTA,數學競賽測試題超94分

      Step3-VL-10B具備三大核心亮點:

      視覺感知精度更高:在同參數量級中展現出頂尖的識別與感知精度,研究人員為其引入PaCoRe(并行協調推理)機制,模型在復雜計數、高精度OCR及空間拓撲理解等高難度任務上的可靠性提升。

      深層邏輯推演與長程推理:得益于規模化強化學習(RL)的持續迭代,Step3-VL-10B在10B規模上能應對競賽級數學難題、真實編程環境、視覺邏輯謎題。

      端側Agent交互:基于海量GUI(圖形用戶界面)專用預訓練數據,模型能夠精準識別并操作復雜界面。

      階躍星辰公開的多模態基準測試結果顯示,Step3-VL-10B是10B參數類別中最強大的開源模型。


      具體來看,在多模態推理能力上,Step3-VL-10B在部分測試集上超越了GLM-4.6V、Qwen3-VL等模型,其性能優于10倍至20倍大的模型。


      數學能力方面,該模型在AIME 25/24等數學競賽測試題上得分超過94分,這意味著其在邏輯嚴密性上甚至優于許多千億級模型。


      2D、3D空間推理能力上,模型在BLINK上表現出66.79%的涌現式空間意識,在All-Angles-Bench上達到57.21%,意味著該模型在具身智能應用方面具有強大的潛力。


      最后是編程能力,在真實、動態編程環境下,Step3-VL-10B超越GLM-4.6V、Qwen3-VL等模型。


      此外,該模型的開源主頁顯示,研究人員在Qwen3VL-8B相關的基準測試中出現了不準確數據,例如AIME、HMMT、LCB,目前正在修復。這些錯誤是由于其在大規模評估過程中max_tokens設置錯誤造成,他們將重新運行測試,并在下一版技術報告中提供修正后的數據。

      三、從感知到推理雙提升,三大關鍵設計加持

      該模型的論文提到,Step3-VL-10B的性能突破得益于三個關鍵設計:

      一是在高質量多模態語料庫上進行統一預訓練:研究人員采用單階段、完全解凍的訓練策略,在1.2T token的多模態語料庫上進行訓練,重點關注兩大基礎能力:推理和感知,例如通用知識和教育中心任務等推理能力,定位、計數、OCR和GUI交互等感知能力。

      通過聯合優化感知編碼器和Qwen3-8B解碼器,STEP3-VL-10B建立了內在的視覺-語言協同效應。

      二是縮放多模態強化學習:通過一個嚴格的后訓練流程解鎖了前沿能力,該流程包括兩階段監督微調(SFT)以及超過1400次的強化學習迭代,結合可驗證獎勵(RLVR)和人類反饋(RLHF)。

      三是并行協調推理機制:研究人員采用并行協調推理(PaCoRe),支持推理階段的動態算力擴展。通過并行探索多個感知假設并進行多維證據聚合,該機制顯著提升了模型在競賽級數學、復雜OCR識別、精準物體計數及空間拓撲推理中的準確度。

      階躍星辰的官方公眾號提到,得益于“三位一體”架構,Step3-VL-10B證明智能水平并不完全取決于參數規模。這也意味著:世界一流的多模態能力有望以更低成本、更少算力獲得;與此同時,過去主要集中在云端超級智能將逐步向端側下沉,推動終端走向“主動理解與可執行交互”。

      結語:Step3-VL-10B或成端側AI新選擇

      從Step3-VL-10B的實測可以看出,該模型憑借10B輕量化參數體量,通過高質量多模態語料統一預訓練、千余次強化學習迭代及并行協調推理機制,實現了對超大規模模型的跨級性能追趕。

      并且具體到GUI交互、精準計數、競賽級數學推理等任務,該模型也展現出較大應用潛力,未來有望降低在工業質檢、本地文檔分析、基層醫療輔助等場景的部署門檻。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      79年張國燾凍死,許世友坦言:要不是毛主席,可能沒人是他的對手

      79年張國燾凍死,許世友坦言:要不是毛主席,可能沒人是他的對手

      元哥說歷史
      2026-01-21 08:20:03
      100多年里,中國的10次國運,只要走錯了一次,就有可能身死國滅

      100多年里,中國的10次國運,只要走錯了一次,就有可能身死國滅

      牛牛叨史
      2025-03-24 15:11:17
      大批人開始返鄉!很多老人已經感覺到:不出5年農村會越來越熱鬧

      大批人開始返鄉!很多老人已經感覺到:不出5年農村會越來越熱鬧

      三農雷哥
      2026-01-05 19:36:11
      機構預測凈利大增超10倍的周期股,10股上榜

      機構預測凈利大增超10倍的周期股,10股上榜

      數據寶
      2026-01-21 12:48:21
      酒色人間,才是生命鮮活的來頭

      酒色人間,才是生命鮮活的來頭

      青蘋果sht
      2026-01-16 05:36:37
      499山姆羽絨服賣爆,1萬的加拿大鵝滯銷:這屆中產不為溢價買單了

      499山姆羽絨服賣爆,1萬的加拿大鵝滯銷:這屆中產不為溢價買單了

      金融八卦女
      2026-01-21 13:53:23
      小面罩引爆TikTok市場,一周狂銷80萬,賣家發財了

      小面罩引爆TikTok市場,一周狂銷80萬,賣家發財了

      跨境派Pro
      2026-01-19 14:12:10
      社會運行邏輯:窮人不生孩子,富人的階層就會倒退

      社會運行邏輯:窮人不生孩子,富人的階層就會倒退

      舒山有鹿
      2026-01-19 09:02:09
      科學研究發現:睡覺愛做夢的人,健康指數是不做夢者的數倍?

      科學研究發現:睡覺愛做夢的人,健康指數是不做夢者的數倍?

      風信子的花
      2025-12-12 16:32:46
      洛城德比!小卡傷情不明,哈登硬剛湖人東詹,雙方都是排名卡位戰

      洛城德比!小卡傷情不明,哈登硬剛湖人東詹,雙方都是排名卡位戰

      一登侃球
      2026-01-21 22:39:07
      白小白直播中突然質問梁源:你寫過什么歌?梁源當場回懟:我寫過什么你搜一下就知道了

      白小白直播中突然質問梁源:你寫過什么歌?梁源當場回懟:我寫過什么你搜一下就知道了

      可樂談情感
      2026-01-21 02:46:25
      2026年醫保劃入標準,退休人員年滿70歲,醫保返款能有2000元嗎?

      2026年醫保劃入標準,退休人員年滿70歲,醫保返款能有2000元嗎?

      阿纂看事
      2026-01-04 18:36:35
      在性生活前,怎么判斷對象有無性病?2個常見方法,了解保護自己

      在性生活前,怎么判斷對象有無性病?2個常見方法,了解保護自己

      蜉蝣說
      2026-01-18 19:32:57
      人民日報再批西貝!賈國龍認錯:反思改進!21塊的饅頭能降價嗎?

      人民日報再批西貝!賈國龍認錯:反思改進!21塊的饅頭能降價嗎?

      樂悠悠娛樂
      2026-01-21 10:17:34
      攤牌!安東尼奧輪換6名主力原因找到,日本隊想奪冠難了?

      攤牌!安東尼奧輪換6名主力原因找到,日本隊想奪冠難了?

      何老師呀
      2026-01-21 21:00:17
      北青:安東尼奧在隊風隊紀方面很嚴,備戰期間禁止球員點外賣

      北青:安東尼奧在隊風隊紀方面很嚴,備戰期間禁止球員點外賣

      懂球帝
      2026-01-21 17:31:06
      馬斯克一語成真 全球搶購的不是芯片 而是中國20萬一臺變壓器

      馬斯克一語成真 全球搶購的不是芯片 而是中國20萬一臺變壓器

      閱識
      2026-01-21 16:58:32
      美國中產斬殺線,到底誰在幸災樂禍

      美國中產斬殺線,到底誰在幸災樂禍

      冰川思想庫
      2025-12-29 10:56:56
      全球不到300只!2017年,2只被賣到蘇州,黑市1只賣上百萬元

      全球不到300只!2017年,2只被賣到蘇州,黑市1只賣上百萬元

      萬象硬核本尊
      2025-12-24 17:28:42
      美國總統特朗普不查不知道,一查才知道他是美國史上最有錢的總統

      美國總統特朗普不查不知道,一查才知道他是美國史上最有錢的總統

      達文西看世界
      2026-01-01 21:21:27
      2026-01-22 04:16:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      11101文章數 116943關注度
      往期回顧 全部

      科技要聞

      給機器人做仿真訓練 這家創企年營收破億

      頭條要聞

      特朗普稱“美國擁有無人知曉的武器” 克宮回應

      頭條要聞

      特朗普稱“美國擁有無人知曉的武器” 克宮回應

      體育要聞

      只會防守反擊?不好意思,我們要踢決賽了

      娛樂要聞

      首位捐款的明星 苗圃現身嫣然醫院捐款

      財經要聞

      丹麥打響第一槍 歐洲用資本保衛格陵蘭島

      汽車要聞

      2026款上汽大眾朗逸正式上市 售價12.09萬起

      態度原創

      游戲
      藝術
      本地
      時尚
      公開課

      《FF7RE》N2版M站均分90分:無一差評質量夯爆了

      藝術要聞

      你絕對想不到,他的油畫美得如此驚人!

      本地新聞

      云游遼寧|漫步千年小城晨昏,“康”復好心情

      締造仙女夢的人,去了天堂繼續縫制星光?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: aaa午夜级特黄日本大片| 南安市| 中文字幕熟妇无码专区| 无码中文字幕热热久久| 国产精品自产拍在线观看中文| 欧洲熟妇色xxxx欧美老妇软件| 欧美乱大交xxxxx疯狂俱乐部| 天堂俺去俺来也www色官网| 中文国产| 亚洲精品成人a?v| 99视频在线| 欧美乱强伦xxxxx| 精品伊人久久久香线蕉| 久久久久国产精品人妻aⅴ天堂| 精品国产人妻一区二区三区| 瑞金市| 人妻 日韩精品 中文字幕| 婷婷五月AV| 国精产品一品二品国精在线观看| 麻豆色漫| 干日本少妇| 人妻精品视频| 伊人色亚洲| 狠狠躁天天躁中文字幕无码| 亚洲AV乱码毛片在线播放| 日韩伦人妻无码| 野外少妇被弄到喷水在线观看| 国产va| 亚洲av成人午夜电影在线观看| 一区二区三区内射美女毛片| 伊人福利导航| 亚洲另类激情专区小说婷婷久| 国产精品爽黄69天堂a| 国产太嫩了在线观看| 密山市| 最新免费视频一区二区三区| 伊伊色妹子在线视频| 亚洲色偷拍区另类无码专区| 精品素人AV无码不卡在线观看| 粉嫩导航| 99久久综合精品五月天|