網易首頁 > 網易號 > 正文申請入駐

萬億思考模型新速度！螞蟻開源Ring-2.5-1T

2026-02-14 11:16:17　來源: 量子位

北京舉報

分享至

克雷西發自凹非寺
量子位 | 公眾號 QbitAI

來來來，狠角色來給春節AI大模型大戰升級了。

剛剛，螞蟻集團正式發布了全球首個開源混合線性架構萬億參數模型Ring-2.5-1T。

這次它在數學邏輯推理和長程自主執行能力上都練就了一身本領。

具體來說，它在IMO拿到了35分的金牌水平，CMO更是轟出105分遠超國家集訓隊線；任務執行方面，則在搜索、編碼這些復雜任務上都能獨當一面。

而且這次發布，打破了業界長期以來關于深度思考必然要犧牲推理速度和顯存的“不可能三角”。

以前大家默認模型要想邏輯嚴密、想得深，推理解碼就得慢成龜速，顯存開銷還得爆炸。

但Ring-2.5-1T靠架構創新，成功實現在生成長度拉到32K以上時，讓訪存規模直接降到了1/10以下，同時生成吞吐量暴漲了3倍多。

所以它現在身上掛著兩個極具反差感的標簽，既是“開源界最聰明”的奧數大神，又是“跑得最快”的萬億參數思考者。

目前它已適配Claude Code、OpenClaw這些主流智能體框架，模型權重和推理代碼也已經在Hugging Face、ModelScope等平臺同步開放了。

混合架構讓效率大幅提升

Ring-2.5-1T之所以能打破深度思考必然犧牲推理速度這一行業魔咒，主要是因為其底層采用了混合線性注意力架構。

這種架構基于Ring-flash-linear-2.0技術路線演進而來。具體來說，其采用了1:7的MLA（Multi-Head Latent Attention）配Lightning Linear Attention的混搭設計。

為了讓模型在保持強大推理能力的同時實現線性級的推理速度，團隊在訓練上采用了增量訓練的方式。

他們先把一部分原本的GQA（分組查詢注意力）層直接轉化為Lightning Linear Attention，這部分專門負責在長程推理場景下把吞吐量拉滿；然后為了極致壓縮KV Cache，再把剩下的GQA層近似轉換為MLA。

但這還不夠，為了防止模型表達能力受損，研究團隊又專門適配了QK Norm和Partial RoPE這些特性，確保模型性能不降級。

經過這一番底層架構的重構，Ring-2.5-1T直接利用線性時間復雜度的特性，完美解決了長窗口下顯存爆炸的難題。

改造后，Ring-2.5-1T的激活參數量從51B提升至63B，但其推理效率相比Ling 2.0仍實現了大幅提升。

這意味著長程推理不再是那種“燒錢又燒顯卡”的重資產操作，而是變得相當輕量化，徹底解決了深度思考模型通常推理慢、成本高的痛點。

當然，光跑得快沒用，邏輯還得嚴密。在思維訓練上，Ring-2.5-1T引入了密集獎勵機制。

這就像老師改卷子時不能只看最后的得數，還得死摳解題步驟里的每一個推導環節，會重點考察思考過程的嚴謹性，這讓模型大幅減少了邏輯漏洞，高階證明技巧也顯著提升。

在此基礎上，螞蟻團隊又給它上了大規模全異步Agentic RL訓練，顯著提升了它在搜索、編碼這些長鏈條任務上的自主執行能力，讓它從單純的“做題家”變成了能真正下場干活的實戰派。

Ring-2.5-1T實戰演練

接下來把Ring拉出來遛遛，我讓Gemini專門設計了一道能把人腦干燒的抽象代數證明題。

這道題目考察的是群論，要求模型在一個有限群里證明非交換群的階≥27，還得把中心階和正規子群的底細給摸清。

Ring-2.5-1T接招的姿勢也是相當專業。它先是反手掏出Cauchy定理，接著就開始有條不紊地排雷，把階為1、3、9這些只能是交換群的坑全給避開了。

而且它在證明非交換性的時候，不僅沒被那種“3^k階群肯定交換”的直覺給帶偏，還直接把Heisenberg群甩出來當反例，可以說很有邏輯敏感度了。

整個實測看下來，它的邏輯推導嚴絲合縫。模型不僅把高深定理給吃透了，在處理這種長達好幾步的邏輯鏈條時還沒出半點紕漏，特別是對反例的運用直接把它的邏輯深度拉滿。

這足以證明密集獎勵訓練確實讓模型長了腦子，它處理這類硬核邏輯任務時的表現，完全是實戰派的水準。

測完了硬核的數學難題，咱們再來看看這個實戰派選手在系統級編程上，到底穩不穩。

這道代碼實測題要求模型用Rust語言從零開始手寫一個高并發線程池，模型得在不用任何現成庫的情況下，靠Arc、Mutex和Condvar把任務分發邏輯給硬生生地搭出來。

不光得能跑，還得支持“優雅關機”，意思就是主線程在退出的時侯，必須確保所有派發出去的活兒全干完，而且堅決不能出現死鎖這種低級錯誤。

另外還得加個監控模塊，萬一哪天某個Worker線程直接崩潰了，模型得能自動發現并把線程重啟，而且還沒處理完的任務隊列一個都不能丟，這非常考驗模型對內存安全和并發底層的理解。

來看Ring-2.5-1T給出的這份代碼，它的處理方式確實非常老練。它通過panic::catch_unwind精準捕獲崩潰并配合一個獨立的監控線程實現自動重啟，這種設計巧妙避開了初學者最容易掉進去的死鎖陷阱。

代碼在所有權管理與異步通知上的邏輯清晰且老練，優雅關機部分通過活動線程計數與信號量喚醒機制配合，完美達成了任務全部清空的目標。

把統一模態做成可復用底座

除了在架構和推理上的大動作，螞蟻集團在通用人工智能基模領域保持多線并進，同期發布了擴散語言模型LLaDA2.1和全模態大模型Ming-flash-omni-2.0。

LLaDA2.1采用了非自回歸并行解碼技術，徹底改變了傳統模型逐詞預測的生成范式，推理速度達到了535tokens/s，在特定任務（如 HumanEval+編程任務）上的吞吐量甚至達到了更驚人的892tokens/s。

這種架構不僅大幅提升了吞吐效率，也讓模型具備了獨特的Token編輯與逆向推理能力。它可以直接在推理過程中對文本中間的特定Token進行精準修正，或者基于預設的邊界條件進行反向邏輯追溯。

這種靈活性在處理需要高頻改寫或復雜邏輯回溯的任務時，展現出了比傳統自回歸模型更強的適配性。

全模態大模型Ming-flash-omni-2.0則是在視覺、音頻、文本的統一表征與生成上實現了重大突破。

它在技術底層打通了視覺、音頻與文本的邊界，通過全模態感知的強化與泛音頻統一生成框架，讓模型既具備博學的專家級知識儲備，又擁有沉浸式的音畫同步創作能力。

這種全能型架構，實現了極高響應頻率下的實時感官交互。

這一大波技術更新背后的算盤很清楚，螞蟻inclusionAI是想把這些能力做成可復用底座。

這就是要給行業打個樣，給開發者提供一個統一的能力入口，以后想做多模態應用不用再到處找模型拼湊了，直接調這個現成的底座就行。

據稱已經明牌的是，接下來團隊還會繼續死磕視頻時序理解、復雜圖像編輯和長音頻實時生成這幾個硬骨頭。

這些其實都是全模態技術規模化落地的最后幾道關卡，只要把長視頻邏輯看懂、把復雜修圖搞精、把音頻生成弄得更絲滑，全模態AI就能在各種干活場景里真正爆發了。

螞蟻這一套組合拳打下來，能感覺到他們在春節檔這波華山論劍里真不是來湊熱鬧的，這一本本厚實的成績單交出來，直接就把技術底蘊給亮透了。

這種從底層邏輯到實戰執行的全面爆發，穩穩地證明了他們就是全球AI圈子里最頂尖的那一撥選手，展現出了第一梯隊的水平。

螞蟻現在的路數，已經跳出了單純炫技的層面，他們正把這些壓箱底的本事，變成大家能直接上手的底座方案。

大模型的華山論劍，門檻被螞蟻卷得更高了。

開源地址
GitHub：https://github.com/inclusionAI/Ring-V2.5
Huggingface：https://huggingface.co/inclusionAI/Ring-2.5-1T
ModelScope：https://www.modelscope.cn/models/inclusionAI/Ring-2.5-1T

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.