![]()
智東西
作者 王涵
編輯 心緣
智東西2月2日報道,今日,階躍星辰Step 3.5 Flash開源并上線,該模型在Agent場景和數學任務上能力逼近閉源模型,能夠勝任復雜、長鏈條任務,是階躍星辰迄今最強的開源基座模型。
![]()
▲Step 3.5 Flash開源頁面(來源:Hugging Face)
就在上周,階躍星辰宣布由曠視科技聯合創始人、千里科技董事長印奇正式出任董事長,并完成華勤、騰訊等參投的超50億元B+輪融資。這也是印奇履新后,階躍星辰在開源模型領域的首個大動作。
在智能密度對比圖中可以看出,Step 3.5 Flash以約200B的參數量,取得了81.0的分數,在所有模型中智能密度最高。在單請求代碼類任務中,Step 3.5 Flash的推理速度最高可達到350TPS。
![]()
▲智能密度對比圖
Step 3.5 Flash采用稀疏MoE架構,每個token僅激活約110億個參數(總計1960億參數),在保證模型能力的同時提升推理效率。
包括華為昇騰、沐曦股份、壁仞科技、燧原科技、天數智芯、阿里平頭哥在內的多家芯片廠商,已率先完成對Step 3.5 Flash的適配。
開源地址:
GitHub:
https://github.com/stepfun-ai/Step-3.5-Flash/tree/main
Hugging Face:
https://huggingface.co/stepfun-ai/Step-3.5-Flash
一、性能全面逼近閉源大模型,最高推理速度達350TPS
在基準測試成績上,推理能力方面,Step 3.5 Flash在AIME 2025、IMOAnswerBench、HMMT 2025等數學競賽級任務中分別取得了97.3、88.8、96.2的分數,均排名第二,Step 3.5 Flash開啟Parallel Thinking后的增強性能排名第一。
在編碼能力上,Step 3.5 Flash在LiveCodeBench-V6測試中得分86.4,排名第三,開啟Parallel Thinking后,其僅次于Gemini 3.0 Pro。
在智能Agent能力上,Step 3.5 Flash在BrowseComp測試中得分69.0,僅次于kimi K2.5;在xbench-DeepSearch測試得分54.0,僅次于GPT-5.2 xhigh。
![]()
▲基準測試成績
該模型采用稀疏混合專家(MoE)架構,總參數量達1960億,單個token僅需激活約110億參數。
針對長文本處理場景,Step 3.5 Flash三路多Token預測(MTP-3)技術,Step 3.5 Flash在典型使用場景中實現了每秒100-300個token的生成吞吐量,在單請求代碼類任務中峰值可達350TPS。
在長上下文任務中,模型僅聚焦關鍵信息區域,降低冗余計算開銷,可支撐256K長度的長文本理解與生成。
據官方介紹,Step 3.5 Flash專為智能體任務構建,集成了可擴展的強化學習框架以實現持續的自我改進。
該模型通過采用3:1滑動窗口注意力(SWA)比例,即每層全注意力層配以三層SWA層。這種混合方法確保模型在處理海量數據或長代碼庫時性能穩定,同時降低了標準長上下文模型通常所需的計算開銷。
針對可訪問性優化,Step 3.5 Flash可以在高端消費級硬件,如Mac Studio M4 Max、NVIDIA DGX Spark等上安全運行,確保數據私密性的同時不犧牲性能。
二、幾秒算出等差數列,還能一句話搭建可視化平臺
智東西第一時間上手體驗,首先數學方面,我們先考考Step 3.5 Flash一個把很多大模型都難倒了的問題:9.9和9.11誰大?Step 3.5 Flash幾乎立刻就給出了思考過程和正確答案,但是在回答中出現了將9.9誤輸出為99.9的錯誤。
![]()
▲9.9和9.11比大小
那再復雜一些的數學題呢?階躍星辰官方給出案例,Step 3.5 Flash可以快速計算復雜數學題并輸出正確答案。
Prompt:請在不使用外部工具的情況下,依次計算并列出以下等差數列的和:從第1項開始,首項為100,公差為-3的前50項和;13+23+…+103的和;1!+2!+3!+4!+5!的和;2^10+3^5的和;√144+?125+?√16的和。
▲快速計算復雜數學題
在智能體編程方面,Step 3.5 Flash可以基于一段文字prompt自動編程輸出可視化平臺結果。
我們讓Step 3.5 Flash生成一個模擬海浪平臺,可以看到,其生成的可視化平臺可以調節海浪的頻率和形態,還可以調整攝像頭的位置,生成效果基本符合要求。
▲生成模擬海浪平臺
官方給出了一個生成氣象情報儀表盤的例子:
Prompt:氣象情報儀表盤——一款受飛行駕駛艙啟發的三維地球可視化平臺,專為高密度數據環境設計。其搭載的定制WebGL 2.0引擎,可實時處理超過15000個動態節點及WebSocket遙測數據流。
生成結果顯示,Step 3.5 Flash展現出了構建低延遲數據管道與高性能地理空間可視化系統的能力。
▲生成氣象情報儀表盤
Step 3.5 Flash也原生支持多智能體架構,其中一個主智能體通過自主規劃和動態路由來協調復雜任務。
這個分層框架會派遣專門的“搜索”和“驗證”智能體,通過并行工具調用循環來處理信息檢索和事實核查。為確保精確性,一個“總結”智能體會將每個子智能體的執行軌跡整合為結構化反饋,使主智能體能夠綜合生成最終連貫的響應。
![]()
▲多智能體深度研究
Step 3.5 Flash還可以端云結合,簡化本地端執行流程。例如,用戶提出對比Mac Mini M4在各平臺的價格。
Step 3.5 Flash作為“云端大腦”,將這一復雜需求拆解為針對淘寶、京東和拼多多的具體子任務。隨后Step 3.5 Flash匯總結果,識別出拼多多為最低價平臺,并提供購買指南。
這種云端規劃顯著降低了本地Step-GUI的執行難度,使其在從各應用抓取實時數據時獲得更高成功率。
▲對比Mac Mini M4在各平臺的價格
結語:Agent能力成為新戰場
無論是階躍星辰Step 3.5 Flash的開源,還是此前月之暗面Kimi K2.5的發布,都指向了Agent的能力,階躍星辰官方還透露已經開啟Step 4模型的訓練,同樣是Agent基礎模型。
Agent要求模型具備深度的邏輯推理、任務拆解、規劃執行和工具調用能力,對模型“大腦”的性能要求更高。
模型大腦的技術迭代加速了AI技術的實用化進程,或將催生更強大的生產力工具,并可能圍繞智能體形成新的競爭格局。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.