- 克雷西 發自 凹非寺
量子位 | 公眾號 QbitAI
來來來,狠角色來給春節AI大模型大戰升級了。
剛剛,螞蟻集團正式發布了全球首個開源混合線性架構萬億參數模型Ring-2.5-1T。
這次它在數學邏輯推理和長程自主執行能力上都練就了一身本領。
具體來說,它在IMO拿到了35分的金牌水平,CMO更是轟出105分遠超國家集訓隊線;任務執行方面,則在搜索、編碼這些復雜任務上都能獨當一面。
![]()
而且這次發布,打破了業界長期以來關于深度思考必然要犧牲推理速度和顯存的“不可能三角”。
以前大家默認模型要想邏輯嚴密、想得深,推理解碼就得慢成龜速,顯存開銷還得爆炸。
但Ring-2.5-1T靠架構創新,成功實現在生成長度拉到32K以上時,讓訪存規模直接降到了1/10以下,同時生成吞吐量暴漲了3倍多。
所以它現在身上掛著兩個極具反差感的標簽,既是“開源界最聰明”的奧數大神,又是“跑得最快”的萬億參數思考者。
目前它已適配Claude Code、OpenClaw這些主流智能體框架,模型權重和推理代碼也已經在Hugging Face、ModelScope等平臺同步開放了。
混合架構讓效率大幅提升
Ring-2.5-1T之所以能打破深度思考必然犧牲推理速度這一行業魔咒,主要是因為其底層采用了混合線性注意力架構。
這種架構基于Ring-flash-linear-2.0技術路線演進而來。具體來說,其采用了1:7的MLA(Multi-Head Latent Attention)配Lightning Linear Attention的混搭設計。
![]()
為了讓模型在保持強大推理能力的同時實現線性級的推理速度,團隊在訓練上采用了增量訓練的方式。
他們先把一部分原本的GQA(分組查詢注意力)層直接轉化為Lightning Linear Attention,這部分專門負責在長程推理場景下把吞吐量拉滿;然后為了極致壓縮KV Cache,再把剩下的GQA層近似轉換為MLA。
但這還不夠,為了防止模型表達能力受損,研究團隊又專門適配了QK Norm和Partial RoPE這些特性,確保模型性能不降級。
經過這一番底層架構的重構,Ring-2.5-1T直接利用線性時間復雜度的特性,完美解決了長窗口下顯存爆炸的難題。
改造后,Ring-2.5-1T的激活參數量從51B提升至63B,但其推理效率相比Ling 2.0仍實現了大幅提升。
這意味著長程推理不再是那種“燒錢又燒顯卡”的重資產操作,而是變得相當輕量化,徹底解決了深度思考模型通常推理慢、成本高的痛點。
![]()
當然,光跑得快沒用,邏輯還得嚴密。在思維訓練上,Ring-2.5-1T引入了密集獎勵機制。
這就像老師改卷子時不能只看最后的得數,還得死摳解題步驟里的每一個推導環節,會重點考察思考過程的嚴謹性,這讓模型大幅減少了邏輯漏洞,高階證明技巧也顯著提升。
在此基礎上,螞蟻團隊又給它上了大規模全異步Agentic RL訓練,顯著提升了它在搜索、編碼這些長鏈條任務上的自主執行能力,讓它從單純的“做題家”變成了能真正下場干活的實戰派。
Ring-2.5-1T實戰演練
接下來把Ring拉出來遛遛,我讓Gemini專門設計了一道能把人腦干燒的抽象代數證明題。
這道題目考察的是群論,要求模型在一個有限群里證明非交換群的階≥27,還得把中心階和正規子群的底細給摸清。
![]()
Ring-2.5-1T接招的姿勢也是相當專業。它先是反手掏出Cauchy定理,接著就開始有條不紊地排雷,把階為1、3、9這些只能是交換群的坑全給避開了。
而且它在證明非交換性的時候,不僅沒被那種“3^k階群肯定交換”的直覺給帶偏,還直接把Heisenberg群甩出來當反例,可以說很有邏輯敏感度了。
整個實測看下來,它的邏輯推導嚴絲合縫。模型不僅把高深定理給吃透了,在處理這種長達好幾步的邏輯鏈條時還沒出半點紕漏,特別是對反例的運用直接把它的邏輯深度拉滿。

這足以證明密集獎勵訓練確實讓模型長了腦子,它處理這類硬核邏輯任務時的表現,完全是實戰派的水準。
測完了硬核的數學難題,咱們再來看看這個實戰派選手在系統級編程上,到底穩不穩。
這道代碼實測題要求模型用Rust語言從零開始手寫一個高并發線程池,模型得在不用任何現成庫的情況下,靠Arc、Mutex和Condvar把任務分發邏輯給硬生生地搭出來。
不光得能跑,還得支持“優雅關機”,意思就是主線程在退出的時侯,必須確保所有派發出去的活兒全干完,而且堅決不能出現死鎖這種低級錯誤。
另外還得加個監控模塊,萬一哪天某個Worker線程直接崩潰了,模型得能自動發現并把線程重啟,而且還沒處理完的任務隊列一個都不能丟,這非常考驗模型對內存安全和并發底層的理解。
![]()
來看Ring-2.5-1T給出的這份代碼,它的處理方式確實非常老練。它通過panic::catch_unwind精準捕獲崩潰并配合一個獨立的監控線程實現自動重啟,這種設計巧妙避開了初學者最容易掉進去的死鎖陷阱。
代碼在所有權管理與異步通知上的邏輯清晰且老練,優雅關機部分通過活動線程計數與信號量喚醒機制配合,完美達成了任務全部清空的目標。

把統一模態做成可復用底座
除了在架構和推理上的大動作,螞蟻集團在通用人工智能基模領域保持多線并進,同期發布了擴散語言模型LLaDA2.1和全模態大模型Ming-flash-omni-2.0。
LLaDA2.1采用了非自回歸并行解碼技術,徹底改變了傳統模型逐詞預測的生成范式,推理速度達到了535tokens/s,在特定任務(如 HumanEval+編程任務)上的吞吐量甚至達到了更驚人的892tokens/s。
這種架構不僅大幅提升了吞吐效率,也讓模型具備了獨特的Token編輯與逆向推理能力。它可以直接在推理過程中對文本中間的特定Token進行精準修正,或者基于預設的邊界條件進行反向邏輯追溯。
這種靈活性在處理需要高頻改寫或復雜邏輯回溯的任務時,展現出了比傳統自回歸模型更強的適配性。
![]()
全模態大模型Ming-flash-omni-2.0則是在視覺、音頻、文本的統一表征與生成上實現了重大突破。
它在技術底層打通了視覺、音頻與文本的邊界,通過全模態感知的強化與泛音頻統一生成框架,讓模型既具備博學的專家級知識儲備,又擁有沉浸式的音畫同步創作能力。
這種全能型架構,實現了極高響應頻率下的實時感官交互。
![]()
這一大波技術更新背后的算盤很清楚,螞蟻inclusionAI是想把這些能力做成可復用底座。
這就是要給行業打個樣,給開發者提供一個統一的能力入口,以后想做多模態應用不用再到處找模型拼湊了,直接調這個現成的底座就行。
據稱已經明牌的是,接下來團隊還會繼續死磕視頻時序理解、復雜圖像編輯和長音頻實時生成這幾個硬骨頭。
這些其實都是全模態技術規模化落地的最后幾道關卡,只要把長視頻邏輯看懂、把復雜修圖搞精、把音頻生成弄得更絲滑,全模態AI就能在各種干活場景里真正爆發了。
螞蟻這一套組合拳打下來,能感覺到他們在春節檔這波華山論劍里真不是來湊熱鬧的,這一本本厚實的成績單交出來,直接就把技術底蘊給亮透了。
這種從底層邏輯到實戰執行的全面爆發,穩穩地證明了他們就是全球AI圈子里最頂尖的那一撥選手,展現出了第一梯隊的水平。
螞蟻現在的路數,已經跳出了單純炫技的層面,他們正把這些壓箱底的本事,變成大家能直接上手的底座方案。
大模型的華山論劍,門檻被螞蟻卷得更高了。
開源地址
GitHub:https://github.com/inclusionAI/Ring-V2.5
Huggingface:https://huggingface.co/inclusionAI/Ring-2.5-1T
ModelScope:https://www.modelscope.cn/models/inclusionAI/Ring-2.5-1T
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.