<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      階躍Step 3.5 Flash :春節 AI 混戰殺出的黑馬,正在 Agent 時代彎道超車

      0
      分享至


      今年的 AI 圈,有點像 2008 年的智能手機市場,所有人都知道觸摸屏是未來,但廠商們都在做「帶觸摸屏的諾基亞」。

      Agent 時代已經來了,這是共識。而怎么做一個好用的 Agent 模型?按照慣性思維,或許還是一樣,更多的參數,更深更廣的網絡結構,還有更大的數據集。


      300B 不夠就 1T,1T 不夠就 10T。仿佛只要把模型做得足夠大,Agent 能力就會自然涌現,就像只要把諾基亞的屏幕做得足夠大,iPhone 就會自己出現一樣。

      大參數模型確實帶來了更博學的知識面和更穩健的底座,但這種一味在上一代模型上「優化 」的方法,顯然不能讓我們手里的 Agent 更好用,Agent 時代需要 Agentic 的模型

      那有沒有一條更高效的、真正顛覆性思維的路線,不靠堆參數,靠架構優化;不需要云端服務器獨占,本地也能跑;既是全能選手的同時,又有定向優化。


      ▲模型參數規模與智能對比圖,Step 3.5 Flash 總參數在圖中最少,但智能得分排名第二

      2 月 2 日,階躍星辰發布并開源了最新基座模型 Step 3.5 Flash,這是一個讓 Agent 更高效的底層支撐模型,采用稀疏 MoE 架構,總計 1960 億參數,但每個 token 僅激活約 110 億個參數。

      這是大模型行業里一個十分反常識的數據,在一眾卷向萬億參數的競爭對手面前。似乎顯得有些「掉隊」。然而就是這個看似「掉隊」的選擇,可能藏著 Agent 時代最大的秘密。

      L3 時代的模型,不能再沿著 L1 的梯子爬

      如果這放在半年前,階躍星辰可能還在做著另一件事。

      階躍星辰聯合創始人兼 CTO 朱亦博在最新的博客中提到,Step 2 模型時代,他們也曾是 Scaling Law(規模定律)的忠實信徒。和當時所有的模型廠商一樣,他們認真地爬著那座名為參數的梯子,設計了比 DeepSeek V3 還要大的參數量,甚至比對方早訓練了好幾個月。

      結果是,雖然跑分一度輝煌,但在 DeepSeek R1 的推理范式面前,傳統的堆料邏輯還是遭遇了降維打擊

      原因很簡單,DeepSeek R1 是一個時代的跨越,從 L1 的 Chatbot 到 L2 的 Reasoner,繼續用 Chatbot 的思維去做推理模型,不一定會失敗,但注定要碰壁。

      這不僅是階躍星辰的復盤,更是整個行業的縮影。痛定思痛后,他們發現了一個被忽略的真相:L1 時代的 Chatbot(聊天機器人)和 L3 時代的 Agent(智能體),需要的是兩種不同的模型


      ▲OpenAI 的五級框架,從第一級的聊天機器人,到推理、智能體、創新者和第五級的組織體

      按照 OpenAI 的五級架構,我們正在經歷從 L2 Reasoner(推理) 邁入 L3 Agent(智能體) 的跨越。

      L1 Chatbot 時代:核心需求是對話流暢度,模型只要能快速響應、自然表達就夠了。我們需要的可能是一個會背百科全書的「文科生」,它足夠博學,能隨口復刻魯迅風。此時,每秒 20-30 個 token 的輸出速度,剛好適配人類的閱讀習慣 。

      L2 Reasoner 時代:長思維鏈出現,我們需要模型展現完整的深度思考。看著長長的思考過程,我們覺得它聰明,甚至愿意為了更準確的結果等待數十秒 。


      L3 Agent 時代:特征徹底變了。工作場景的上下文常駐 32K-128K 區間,我們不再逐字閱讀輸出,只盯著「什么時候能交付結果」。

      在這種場景下,繼續沿用 L2 時代的重型參數模型,打個比方可以說是,帶著鰲太線的裝備去爬佘山「滬太線」,雖然儲備充足,但效率變低,且算力代價極其昂貴 。

      Agent 在某種程度上,甚至可以說不再是給用戶看的,而是給任務用的。它需要長上下文的高效運行,能輕松處理幾十萬 token 的代碼庫;以及速度的提升,這能直接決定用戶體驗;而核心還是規劃和工具調用。

      如果繼續用 L1 時代的重型模型去跑 L3 的任務,就像開著法拉利去送外賣——不僅貴,而且在擁堵的「長上下文」路況里,根本跑不起來。

      這也解釋了為什么階躍敢于反其道而行,掏出 Step 3.5 Flash這個「新物種」,專注于「快」與「強邏輯」。這種取舍乍看之下與行業格格不入,卻有了更多的可能性。

      天下武功,唯快不破:Agent 時代的「暴力美學」

      Agent 時代,「快」不再是一種錦上添花,直接是模型生死線。

      朱亦博指出了一個極易被忽視的細節,在 Chatbot 時代,模型輸出只要快過人類閱讀速度(20-30 tokens/s)就夠了,再快我們也讀不過來。但在 Agent 時代,這個標準完全失效

      為什么?因為用戶根本不想看過程。當 AI 幫我們寫代碼、查資料、訂機票時,我們不會盯著屏幕看它一個字一個字往外蹦,我們只想要結果。

      在這個階段,速度不再是體驗,而是生產力本身,直接決定了任務交付的效率。

      為了實現這種極致的「快」,階躍星辰在技術路線上做了一次豪賭。


      ▲Step 3.5 Flash 整體架構,Step 3.5 Flash 是一款采用稀疏混合專家(MoE)架構的大語言模型,其架構由模型-系統協同設計定義,并且將推理成本和速度作為核心架構約束。

      在同行都在盲目跟風 Linear Attention(線性注意力機制)時,Step 3.5 Flash 堅持選擇了SWA(滑動窗口注意力)架構。這種混合注意力布局,一方面能更快的處理 Token 計算,另一方面也解決了長上下文處理的二次瓶頸。

      簡單來說,它不是死記硬背 256K 的全文,而是像人類一樣,有重點、有節奏地分配注意力。這讓它在處理海量數據時,不僅不降智,還能大幅降低算力開銷。

      看起來是一種「逆行」,其實正是 Agent 時代「以巧見大」的精算。因為在當前的硬件條件下,SWA 對投機采樣(Speculative Sampling)最為友好。這種技術上的取舍,直接將單請求代碼類任務的推理速度干到了最高350 tokens/s

      快如閃電的「瞬殺」,是直接將 AI 從「玩具」變成生產力工具的決定性瞬間在 Step 3.5 Flash 發布首日,就登上 OpenRouter Fastest Models 榜單


      ▲根據 OpenRouter 最新發布的 Fastest Models 排名顯示, Step 3.5 Flash 的生成速率達到 167 Tokens/s,位列全球最快模型之列。

      拒絕「背題家」,高智商才是第一生產力

      跑得快不能以「降智」為代價,衡量一個模型適不適合做 Agent,「高智商」也是必不可少。

      無論是我們用戶還是大多數模型廠,普遍的共識都是:參數越大,能力越強。但 Step 3.5 Flash 在數學領域的屠榜表現,用合適尺寸 + 極致后訓練,也得到了不輸大參數模型的效果。


      • AIME 2025(美國數學邀請賽)中,它拿下了97.3 分
      • IMOAnswerBench(國際數學奧林匹克題基準)中斬獲85.4 分
      • HMMT 2025(哈佛 - 麻省理工數學競賽)中更是飆到了96.2 分

      這是什么概念?這些分數均為國內頂級開源模型第一。

      如果開啟并行協同推理(PaCoRe)模式,它的得分甚至逼近滿分。這種「智商溢出」的現象背后,藏著一個極其隱晦但精準的行業真相:過去的模型像是個「背題家」,靠死記硬背海量數據來蒙混過關;而 Step 3.5 Flash 是個真正的「解題家」。


      ▲PaCoRe(Parallel Coordinated Reasoning)的推理流程。每一輪啟動廣泛的并行探索,將生成的軌跡壓縮成緊湊的信息,并將這些信息與問題一起傳遞,以協調下一輪。重復此過程 ? 次,可在遵守固定上下文限制的同時,實現數百萬標記的有效 TTC(測試時計算),最終壓縮的信息作為系統的答案。

      在 Agent 的工作流中,這種能力是致命的。因為真實世界的任務充滿了未知,我們要的不是一個只會復讀知識點的鸚鵡,而是一個能看懂復雜指令、能拆解任務邏輯、能自我糾錯的「超級大腦」。

      推理能力證明了智商在線,但 Agent 還需要干活靠譜。Step 3.5 Flash 在多個關鍵場景拿到了國內開源第一。

      代碼能力:全球第一梯隊

      • SWE-bench Verified: 74.4 分(真實開源項目的 bug 修復)
      • Terminal-Bench 2.0: 51 分(國內開源第一,終端任務自動化)
      • LiveCodeBench-V6: 86.4/88.9 分(國內開源第一,實時編碼調試)

      Agent 核心能力:多項國內開源第一

      • τ2-Bench: 88.2 分(國內開源第一,多步任務規劃)
      • xbench-DeepSearch: 54 分(國內開源第一,深度搜索與信息整合)
      • BrowseComp: 69 分(第一梯隊,網頁瀏覽與上下文管理)

      數據再漂亮,也得經得起真實場景的檢驗。在下面這幾個典型場景中,Step 3.5 Flash 也驗證了「以巧見大,快如閃電」不是口號。

      普遍常識里,用 Deep Research 寫分析報告,可能會覺得需要模型有引經據典的文采,但實際上還是依賴強大的邏輯推理和工具調用能力。

      給它一個模糊的課題,比如「0-3 歲嬰幼兒科學教育」,它不會直接胡編亂造,而是像一個真正的人類研究員一樣,拆解任務、規劃路徑、聯網搜索、反思修正,然后交給我們一份內容翔實、新手父母都能看懂的萬字報告。


      在 Scale AI 的 Research Rubrics 評測中,它的得分甚至壓過了 OpenAI 和 Gemini 的同類系統。這也進一步說明,它已經具備了獨立干活的「邏輯閉環」。


      Step 3.5 Flash 同樣能接入 Claude Code 環境,當要模型擔任一名專業數據分析師,面對復雜的數據分析任務時,它不僅能自己寫代碼清洗數據、協助日常數據流程、對齊數據格式,還能直接產出工作流報告。


      無論是做 Deep Research 還是 Vibe Coding 項目,這些要么在階躍的官網完成,要么就是調用 API 的方式,但 Step 3.5 Flash 的野心遠不止于從云端服務器拉取 AI 能力。

      朱亦博透露,為了跑模型,他甚至自掏腰包買了一臺設備。現在,Step 3.5 Flash 是目前能用 4-bit 量化,在128GB 內存的 MacBook上流暢運行 256K 超長上下文的最強模型,沒有之一

      這句沒有之一,確實凸顯了技術人的倔強。或許,這也暗示了階躍星辰「AI + 終端」的終極圖謀:最強的大腦,不應該只活在昂貴的 H100 集群里,它應該活在你的電腦里,甚至未來的手機里

      當其他廠商還在卷融資、卷估值時,階躍星辰已經默默地把高性能 Agent 的成本門檻,再一次降低。這正印證了那句戰略預判:大模型競爭的「表演賽」已經結束,行業正式步入決定生死的「淘汰賽」。

      春節 AI 大戰里,又一匹攪動大模型格局的黑馬

      在最近喧囂的 AI 發布混戰中,Step 3.5 Flash 這匹黑馬肯定其實有些被過于低估了,它不只是一個「高性價比」的模型,反而有點像一年前 DeepSeek 的突然出現,給 AI 行業趟出了一條新路:

      在算力并不是無限的現實世界里,誰能用更精巧的架構、更少的資源解決更復雜的問題,誰才是真正的贏家。

      那個靠堆參數就能騙到融資、靠刷榜單就能獲得掌聲的「草莽時代」已經一去不復返。接下來的戰爭,屬于那些不僅「腦子好使」,而且「手腳麻利」的物種。

      這種對「小型化、高效率」的堅持,本質上源于階躍星辰對 AGI 使命的執著。朱亦博曾感慨,堅持訓練基模的意義,除了商業優勢,就是為了那份 「一直以來的 AGI 夢想」。

      對階躍星辰來說,通往 AGI 的路徑不是靠賭一把大的,而是靠前瞻性的方法論,和對時代需求的精準判斷。正如階躍星辰新任董事長印奇在采訪中所談到的,「做好基模、探索整個智能的上限是階躍的使命。」

      從 Step 1 到 Step 3.5,從多模態到語音,從云端到終端,AI 與物理空間的結合、與終端硬件的深度布局,都是階躍星辰走向最終 AGI 的必經之路。


      當 AI 能力真正「飛入尋常百姓家」,技術競賽的終點也不再是算力軍備競賽,AI 開始更好地服務我們,每個人,中小企業、個人開發者、學生都能低成本,用得起頂級 Agent 能力,AGI 才不只是巨頭的游戲。

      以巧見大,快如閃電。 這是 Step 3.5 Flash 給出的答案,也是階躍星辰對 AGI 使命的又一次靠近。

      那些堅持夢想的人,終會走出自己的路。而這條路,已經越來越清晰。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      京東001號快遞員已退休,勤懇工作16年,劉強東承諾的房給了嗎?

      京東001號快遞員已退休,勤懇工作16年,劉強東承諾的房給了嗎?

      阿纂看事
      2025-12-10 15:38:14
      聶衛平臨終前最想見的人不是子女?孔令文:終于讀懂了父親的沉默

      聶衛平臨終前最想見的人不是子女?孔令文:終于讀懂了父親的沉默

      觀察鑒娛
      2026-01-21 10:08:06
      五位中央候補委員同日履新職

      五位中央候補委員同日履新職

      上觀新聞
      2026-02-02 16:59:19
      繼續開搶!美媒更新交易市場TOP12大魚:字母哥奪魁濃眉哥屈居第6

      繼續開搶!美媒更新交易市場TOP12大魚:字母哥奪魁濃眉哥屈居第6

      鍋子籃球
      2026-02-02 20:58:56
      乒乓亞洲杯:男單簽位出爐!王楚欽晉級壓力小,張本智和避開國乒

      乒乓亞洲杯:男單簽位出爐!王楚欽晉級壓力小,張本智和避開國乒

      全言作品
      2026-02-03 17:36:00
      “剛吃口肉就被割!”女演員曬收益:剛賺5萬又虧2萬!網友:多么痛的領悟

      “剛吃口肉就被割!”女演員曬收益:剛賺5萬又虧2萬!網友:多么痛的領悟

      上觀新聞
      2026-02-03 15:29:14
      薩達姆的地下情人,17歲起便被軟禁,晚年坦言:至今仍心有余悸

      薩達姆的地下情人,17歲起便被軟禁,晚年坦言:至今仍心有余悸

      寄史言志
      2026-02-02 00:16:14
      浙江臺州夫妻吃娃娃菜中毒反轉,是丈夫干的,在病房接受過采訪

      浙江臺州夫妻吃娃娃菜中毒反轉,是丈夫干的,在病房接受過采訪

      九方魚論
      2026-02-03 17:38:03
      曼聯6000萬廢鐵腰今夏難逃清洗!出場就狂丟球,五任主帥都救不活

      曼聯6000萬廢鐵腰今夏難逃清洗!出場就狂丟球,五任主帥都救不活

      羅米的曼聯博客
      2026-02-03 11:36:29
      長和港口被接管,丹麥成大贏家,中方只用一句話,讓巴拿馬輸慘了

      長和港口被接管,丹麥成大贏家,中方只用一句話,讓巴拿馬輸慘了

      原廣工業
      2026-02-03 16:20:48
      34歲東北姑娘拿下81歲全球首富,長的很漂亮,一年抱倆娃身價上億

      34歲東北姑娘拿下81歲全球首富,長的很漂亮,一年抱倆娃身價上億

      云舟史策
      2025-09-13 07:37:04
      “廢掉”一個孩子,就讓ta待在家里,一天到晚待在家里

      “廢掉”一個孩子,就讓ta待在家里,一天到晚待在家里

      行者馬生的筆記
      2026-01-27 21:15:41
      天道好輪回,老牛吃嫩草的張紀中,如今終于把自己活成了“笑話”

      天道好輪回,老牛吃嫩草的張紀中,如今終于把自己活成了“笑話”

      老吳教育課堂
      2026-02-02 00:14:47
      憤怒!曝40歲C羅堅信沙特金主不想讓他奪冠 考慮重返歐洲+美職聯

      憤怒!曝40歲C羅堅信沙特金主不想讓他奪冠 考慮重返歐洲+美職聯

      風過鄉
      2026-02-03 05:48:12
      養個奧迪A6L真的有那么恐怖嗎?網友:確實不少

      養個奧迪A6L真的有那么恐怖嗎?網友:確實不少

      另子維愛讀史
      2026-01-16 21:15:48
      國民黨訪團抵京,向賴清德作出保證,大陸盛情招待,得到了什么?

      國民黨訪團抵京,向賴清德作出保證,大陸盛情招待,得到了什么?

      小鬼頭體育
      2026-02-03 16:05:57
      剖腹產后被強接回家,19 歲女孩遭虐大出血離世! 丈夫正臉被扒!

      剖腹產后被強接回家,19 歲女孩遭虐大出血離世! 丈夫正臉被扒!

      云中浮生
      2026-01-21 16:36:42
      臺灣統一方式或出乎意料,特朗普才發現:中國真高明,自己學不來

      臺灣統一方式或出乎意料,特朗普才發現:中國真高明,自己學不來

      卷史
      2026-01-29 16:18:40
      熱搜爆了!網傳《英雄聯盟》世界冠軍選手結婚

      熱搜爆了!網傳《英雄聯盟》世界冠軍選手結婚

      游民星空
      2026-02-03 17:31:11
      韓媒:中國欠特朗普一聲謝謝!要不是美國打壓,中國芯不會那么強

      韓媒:中國欠特朗普一聲謝謝!要不是美國打壓,中國芯不會那么強

      互聯網.亂侃秀
      2026-02-03 10:27:19
      2026-02-03 20:27:00
      愛范兒 incentive-icons
      愛范兒
      消費科技第一媒體
      38388文章數 2600830關注度
      往期回顧 全部

      科技要聞

      1.25萬億美元!xAI員工贏麻了

      頭條要聞

      浙江一對夫妻"網購娃娃菜中毒":合謀意圖騙賠

      頭條要聞

      浙江一對夫妻"網購娃娃菜中毒":合謀意圖騙賠

      體育要聞

      “也許我的一小步,會成為中國足球的一大步”

      娛樂要聞

      小S致詞:感謝具俊曄陪伴大S的最后3年

      財經要聞

      中央一號文件:扎實推進鄉村全面振興

      汽車要聞

      上汽決定不再等那個“正確答案”了

      態度原創

      教育
      手機
      時尚
      健康
      本地

      教育要聞

      這些專業正在強勢逆襲!就業前景、學習路徑全解析

      手機要聞

      掌機電池“縮水”背后,官方補償了一臺新機

      冬天還是“羽絨服”最保暖!看看這些穿搭,簡單舒適又不老氣

      耳石癥分類型,癥狀大不同

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      無障礙瀏覽 進入關懷版