網易首頁 > 網易號 > 正文申請入駐

業界首個！螞蟻開源萬億參數混合線性思考模型，IMO金牌水平

2026-02-13 21:16:22　來源: 智東西

北京舉報

分享至

智東西
作者程茜
編輯李水青

智東西2月13日消息，今天，螞蟻集團開源全球首個基于混合線性架構的萬億參數思考模型Ring-2.5-1T。

根據官方信息，相比螞蟻2025年10月發布的萬億級思考模型Ring-1T，Ring-2.5-1T在生成效率、推理深度和長時程任務執行能力三個關鍵維度上實現提升，且在長文本生成、數學推理與智能體任務執行上達到開源領先水平。

在生成效率上，Ring-2.5-1T在32K以上長文本生成場景中，對比上代模型訪存規模降低至1/10，生成吞吐提升3倍以上。

在深度思考能力方面，該模型在國際數學奧林匹克競賽（IMO 2025）和中國數學奧林匹克（CMO 2025）自測均達到金牌水平，IMO為35分、CMO為105分。

目前，該模型已經適配Claude Code等智能體框架與OpenClaw個人AI助理，支持多步規劃與工具調用。

Ring-2.5-1T的模型權重與推理代碼已在Hugging Face、ModelScope等主流開源平臺發布，官方平臺Chat體驗頁和API服務將在近期上線。

Hugging Face：https://huggingface.co/inclusionAI/Ring-2.5-1T

ModelScape：https://modelscope.cn/organization/inclusionAI

一、拿下多項開源SOTA，達IMO金牌水平

為了評估Ring-2.5-1T的深度思考與長時任務執行能力，螞蟻研究人員選擇了具有代表性的開源思考模型DeepSeek-v3.2-Thinking、Kimi-K2.5-Thinking和閉源API GPT-5.2-thinking-high、Gemini-3.0-Pro-preview-thinking-high、Claude-Opus-4.5-Extended-Thinking作為比較。

螞蟻集團公布的多項權威基準測試結果顯示，Ring-2.5-1T在數學、編程和邏輯推理的IMOAnswerBench、AIME 26、HMMT 25、LiveCodeBench、ARC-AGI-V2等高難度推理任務以及Agent搜索、工具調用和軟件工程Gaia2-search、Tau2-bench和SWE-Bench Verified等長時任務執行方面均實現了最先進的開源性能。

此外，螞蟻還對深度思考（Heavy Thinking）模式下的模型性能進行了額外測試，Ring-2.5-1T在IMOAnswerBench、HMMT-25等數學競賽推理基準和LiveCodeBench-v6代碼生成基準中超越所有對比模型。

其中，在IMO 2025（滿分42分）中，Ring-2.5-1T獲得35分，達到金牌水平；在CMO 2025（滿分126分）中，該模型獲得105分，超過金牌分數線78分和國家隊集訓隊選拔線87分。

研究人員比較了Ring-2.5-1T和Ring-1T的答案發現，前者在推理邏輯的嚴謹性、高級數學證明技術的應用以及答案表述的完整性方面均有提升。

在智能體搜索任務Gaia2-search中，Ring-2.5-1T在開源模型中取得了SOTA性能。Gaia2環境強調跨應用工具協作和復雜任務執行能力，Ring-2.5-1T在規劃生成和多步工具調用方面均展現出較高的效率和準確性。

二、三大關鍵維度提升，能快速適配Claude Code、OpenClaw

相比螞蟻2025年10月發布的萬億級思考模型Ring-1T，Ring-2.5-1T在生成效率、推理深度和長時程任務執行能力三個關鍵維度上有顯著改進。

首先在生成效率方面，通過采用高比例線性注意力機制，Ring-2.5-1T將內存訪問開銷降低至1/10，并將超過32K token序列的生成吞吐量提高了3倍以上，適用于深度思考和長時程任務執行。

其次在深度思考層面，該模型在RLVR（基于可驗證獎勵的強化學習）基礎上引入密集獎勵機制，為推理過程提供嚴格性反饋，使Ring-2.5-1T同時達到IMO 2025和CMO 2025（自測）的金獎水平。

最后是長程任務執行，Ring-2.5-1T通過大規模完全異步智能體RL（強化學習）訓練，增強了解決復雜任務的長時程自主執行能力，使其能快速適配Claude Code等智能體編程框架和OpenClaw個人AI助手。

三、引入混合線性注意力架構，可提升長程推理場景吞吐量

Ring-2.5-1T基于Ling 2.5架構，通過優化注意力機制，可提升長文本推理的效率與穩定性。

作為實現自主模型架構的關鍵進展，Ling 2.5架構在Ling 2.0架構的基礎上引入了一種混合線性注意力架構。通過增量訓練，研究人員將Ling 2.0架構中的GQA（分組查詢注意力）升級為MLA（多頭線性注意力）+Lightning Linear結構的1:7比例。

具體來說，基于其先前發布的Ring-flash-linear-2.0技術路線圖，研究人員將部分GQA層轉換為Lightning Linear注意力，以提升長時程推理場景中的吞吐量。

同時為了進一步壓縮KV緩存，研究人員將剩余的GQA層近似轉換為MLA，同時針對QK Norm（查詢-核歸一化）和Partial RoPE（部分旋轉位置編碼）等特征進行針對性改進，從而增強Ling 2.5架構的表達能力。

在此基礎上，模型激活參數規模從前代的51B提升至63B，并且在混合線性注意力架構的支持下，其推理效率相比Ling 2.0仍實現大幅提升。

與僅具備32B激活參數的Kimi K2架構相比，在1T總參數量下，Ling 2.5架構在長序列推理任務中的吞吐表現優勢顯著，且隨著生成長度增加，效率優勢持續擴大。

▲在一臺配備8塊H20-3e GPU的機器上，批處理大小=64，比較不同生成長度下的解碼吞吐量

▲在一臺配備8塊H200 GPU的機器上，批處理大小=64，比較不同生成長度下的解碼吞吐量

結語：從短對話到復雜規劃，大模型需突破長文本瓶頸

隨著AI大模型應用從短對話向長文檔處理、跨文件代碼理解、復雜任務規劃等場景擴展，Ring-2.5-1T可以緩解模型在長輸出場景下計算開銷高、推理速度慢的問題。

此前，傳統架構在面對超長文本、多模態內容、復雜業務流程時，普遍面臨算力成本高、響應延遲大、部署難度高等問題，螞蟻百靈團隊此次通過底層架構創新，或為行業提供一條兼顧性能、成本與擴展性的技術路徑。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.