如果一個模型既能很好地實現 Agent(智能體)的能力,還能跑得足夠快,不會在多輪推理中途「卡殼」,又有很低的幻覺率,會發生什么事情?答案是:
一線的開發者和用戶很快就會用真金白銀的 Token「投票」。
這就是全球 AI 圈正在發生的事情。階躍星辰開源模型 Step 3.5 Flash 發布后迅速走紅全球,不僅首日在 OpenRouter 沖上 Fastest Models 全球最快模型之列,更是兩天登頂 Trending 全球趨勢榜第一。
![]()
圖片來源:OpenRouter
不是基準跑分,也不是媒體評測。OpenRouter 作為全球 AI 模型聚合平臺,聚集了全球幾乎所有叫得上名字的開源和閉源模型,還有大量的全球 AI 開發者和用戶,再加之榜單數據來自開發者和用戶的真實 API 調用,過去一年越來越成為大模型最重要的「試金石」。
尤其是最重要的 Trending 全球趨勢榜,不關心「參數最大」或者「跑分最強」的模型,只關注開發者和用戶調用模型的實際情況,或者說是:哪個模型更有用、更好用?
這也不難看出 Step 3.5 Flash 這回「全球第一」的含金量。
不迷信跑分的開發者,只認「高分高能」
2 月 2 日,階躍星辰發布開源模型 Step 3.5 Flash,很快就點燃了行業的集體關注,第一反應是看它的「智能密度」。
根據基準測試,Step 3.5 Flash 在數學推理(AIME 2025 評分 97.3)和代碼修復(SWE-bench Verified 達到 74.4%)上的表現,PaCoRe 強化版甚至將 AIME 2025 的成績提高到幾近滿分的 99.9。
但對于開發者來說,更有殺傷力的是它的「以巧見大」。
階躍星辰公開了Step 3.5 Flash 的技術報告,詳盡地介紹了其在模型結構上的創新設計。首先就是采用了稀疏混合專家(MoE)架構,在保持較為精巧的 1960 億總參數量的同時,處理每一個 Token 時,會動態選擇最適合的「專家」,僅需 110 億激活參數即可實現前沿級智能。
打個比方,這就像一個擁有 196 名頂尖專家的智囊團,當接到一個具體的代碼任務時,系統能瞬間精準地挑出最專業的 11 個人進場干活。對于開發者和用戶來說,你付的是 11B 模型的時間和成本,換回來的卻是 196B 模型的思考深度,性能媲美 GPT-5.2 xHigh、Gemini 3 Pro 等前沿模型。
![]()
圖片來源:階躍星辰
同時為了解決長上下文的瓶頸,Step 3.5 Flash 還通過 3:1 滑動窗口與全局注意力混合架構(SWA+Full Attention)實現 256K 長上下文的高效處理,能極大節省顯存。這些都在一定程度上,為 Agent 時代解決了成本與效果的倒掛難題。
但 Step 3.5 Flash 的「巧」不止如此。測試顯示 Step 3.5 Flash 不僅支持 100–300 TPS(每秒 Token 數)的生成吞吐量,部分場景下甚至可以做到最高 350 TPS,遠超去年 50-100 TPS 的主流水平。
![]()
圖片來源:OpenRouter
而做到這一點的關鍵還在于 MTP-3(三路多 Token 預測) 技術。
傳統的模型的推理更像「蹦豆子」,說一個詞想一個詞。MTP-3 允許模型在生成當前內容時,就能同時預測后續多個 Token。不僅僅是單純的速度提升,它也在某種程度上改變了模型的思考邏輯——讓模型在開口說話之前,就已經預判了后面幾步的路。
在多輪工具調用的 Agent 場景下,這種「連貫性」更為關鍵,大大減少了模型在復雜邏輯中途的「卡頓」和「失憶」,讓原本斷斷續續的 AI 操作,可以變得又快又順滑。
但實際表現又如何呢?
在 YouTube 科技博主 Bijan Bowen 的實測中,Step 3.5 Flash 能夠準確還原瑞典設計與紐約金融風格的差異,從字體、布局到交互邏輯都能持續迭代優化。甚至,Step 3.5 Flash 還生成了一個功能完備的瀏覽器操作系統(WebOS),并且還是博主測試的多個模型中唯一能正常運行經典游戲「Memory Game」的模型。
![]()
圖片來源:Youtube@Bijan Bowen
這種能力,也可以說是模型知識容量、推理與執行能力疊加后的直接體現。
另一方面,Discord 上還有網友在 128GB 內存的 Mac(M3 Max)上本地部署運行 Step 3.5 Flash,實際效果遠超預期,性能可以達到硬件理論效率的 70%。他也指出,Step 3.5 Flash 不僅模型幻覺率很低,可以輸出可靠的回答和行為,在中英等多語言混用場景下也有很低的錯誤率。
![]()
圖片來源:Discord
更靈活的部署優勢,更低的推理成本,更重要的還有實際 AI 使用場景下的強大和好用,都讓 Step 3.5 Flash 的爆火成了一種順其自然的結果。
尤其是在 OpenRouter 上,開發者和用戶見多了「高分低能」的模型,比起跑分數據和脫離實際的測試,最關心的還是模型在 AI 應用和系統中跑起來的實際表現。在 Agent、深度研究、自動化工作流等場景中,模型遷移成本并不低,開發者和用戶集體選擇 Step 3.5 Flash,足以說明對模型的「好用」。
另一方面,今天開發者和用戶的選擇,也是 Agent 時代的關鍵側面。
階躍星辰,在做 Agent 時代的發動機
Step 3.5 Flash 發布后,階躍星辰 CTO 朱亦博在知乎上提到,團隊在 Step 2 階段仍然沿著更大參數、更強對話能力的路線推進,但很快又意識到這條路并不成立。
「不同智能階段需要不一樣的基模(基礎模型)結構。」痛定思痛下,他也想明白了 L1 Chatbot 時代設計的基礎結構并不適用于 L2 Reasoner(推理模型),而 L3 Agent 時代更需要新的基模結構。
在這個背景下,Step 3.5 Flash 的訓練目標一開始就錨定了足夠強的邏輯、真正可用的長上下文高效率處理以及快速的推理能力。這些直接決定了模型是否可用、好用,包括模型的糾錯與自我改進能力。
因為在 Agent 場景下,用戶不再關注輸出過程,而是看重完成任務的速度、準確和穩定性。
Bijan Bowen 在測試 AI 生成飛行模擬、賽車游戲的時候就發現,Step 3.5 Flash 給出的初始版本雖然還有一些瑕疵,但通過提示詞的反饋后,模型能夠在原有基礎上進行迭代優化,游戲開發質量也有會爆發式提高。
![]()
圖片來源:Youtube@Bijan Bowen
這也就不難理解 Step 3.5 Flash 在結構設計上做出一系列選擇:MoE 用來把推理成本壓到可部署的范圍內,MTP-3 用來提升連續生成效率,長上下文采用更偏工程化的方案而不是單純追求理論極限。這些都不是為了追逐跑分成績,而是為了讓模型在復雜的多輪任務中持續工作,不掉速、不失憶、不亂編。
Chatbot 做不到,所以我們需要 Agent。
這背后,也是整個行業重心的移動。過去大模型的主戰場是對話,但從 2025 年開始,模型開始大規模引入工作流,token 對于開發者來說變得更加重要,用戶滿足的也不再只是問答,而是希望 AI 能夠直接處理復雜的任務——改更大規模的代碼,處理復雜的跨平臺流程。
在這種時候,一線開發者和用戶的選擇,往往比任何 benchmark 都更有說服力。
Step 3.5 Flash 發布后的反響,也印證了這一點。從國內到海外,更多開發者和用戶聚焦 Step 3.5 Flash 穩定跑 Agent、多輪推理不中斷、靈活部署以及低成本的優勢,OpenRouter Trending 全球趨勢榜的第一,也直接說明了開發者和用戶的 Step 3.5 Flash 的「偏愛」。
寫在最后
2022 年底以來,生成式 AI 的爆發已經證明了一件事:大模型可以改變內容生產、信息獲取,甚至改變人與軟件的交互方式。從寫作、編程到搜索、辦公,它已經進入日常。
但 Agent 時代的真正到來,也帶來了不同。我們更多將生活、工作中的任務交給 AI 進行協作甚至完成,比起說得對不對,更看重 AI「干活」的表現,不管是跨平臺對比 Mac Mini(M4)的價格,還是對大型代碼庫的修改。
階躍星辰的開源模型 Step 3.5 Flash 做到了,所以在 OpenRouter 這種現實賽場上成功了,被全球開發者和用戶調用。
說到底,AI 的成功不該取決于它看起來有多聰明,而取決于它能幫我們人類提高多少效率。在這個意義上,Step 3.5 Flash 的火爆更能說明大模型必須褪去「炫技」的華麗外殼,變成一種真正好用的生產力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.