網易首頁 > 網易號 > 正文申請入駐

3倍吞吐量、訪存減至1/10！螞蟻甩出兩大萬億參數開源模型，背后架構成關鍵

2026-02-25 12:18:08　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達
編輯漠影

　　當大模型在推理、編程等能力上不斷刷新紀錄時，一個新的問題也愈發突出：如何在持續提升模型能力的同時，控制算力與資源消耗？

　　就在本月，螞蟻集團inclusionAI團隊交出了一份頗具分量的答卷——百靈大模型家族新一代開源萬億參數模型Ling-2.5-1T（即時模型）與Ring-2.5-1T（思考模型）。

　　這兩款模型并非僅靠“堆參數”取勝，它們共享的技術底座——混合線性注意力架構“Ling 2.5”，才是此次發布的關鍵。在當前主流大模型仍以改進型傳統注意力機制為核心架構的背景下，Ling-2.5-1T是業內少見的超大型混合線性注意力架構模型，而Ring-2.5-1T成為了全球首個混合線性注意力架構的萬億參數思考模型。

　　得益于Ling 2.5這一新架構，模型在長文本生成與長程推理場景中，將訪存規模壓縮至傳統架構的1/10，生成吞吐量達原來的3倍。換言之，它讓模型在“變聰明”的同時，也學會了“省著花”。

　　同時，效率的提升并未以性能為代價。在涉及推理、智能體、指令遵循、長上下文等場景的多項基準測試中，Ling-2.5-1T超越了DeepSeek-V3.2-nothink、Kimi-K2.5-Instant和GPT-5.2-chat等同類型的即時模型。

　　而Ring-2.5-1T則在國際數學奧林匹克競賽（IMO 2025）和中國數學奧林匹克（CMO 2025）達到金牌水平（自測分數為IMO 35分、CMO 105分），開啟重度思考（Heavy Thinking）模式后，它在IMOAnswerBench、HMMT-25等數學競賽推理基準和LiveCodeBench-v6代碼生成基準中，超越所有對比模型，無論開源閉源。

　　那么，螞蟻百靈的混合線性架構的技術路線究竟是如何實現的？又是如何在不犧牲性能的前提下，撬動如此顯著的效率提升？

　　一、萬億參數時代，傳統架構還能走多遠？

　　在大模型持續躍遷的進程中，注意力機制始終處于舞臺中央，影響著模型理解長文本、捕捉復雜語義以及生成高質量內容的能力。而Softmax一直是主流架構的核心注意力計算機制，幾乎所有Transformer模型都以此為基礎。

　　這種機制每次計算都“翻閱”完整上下文，精準捕捉詞與詞的關聯，賦予模型強大表達力和細粒度對齊能力。但其代價明顯：隨著文本長度增加，其計算量呈平方級增長，算力和顯存消耗迅速攀升。

　　隨著應用場景向超長上下文延展，這種“精細化”的成本被重新審視。線性注意力（Linear Attention）由此進入主流視野。

　　線性注意力通過數學重構，降低計算復雜度，不再為每一個token反復回溯全部序列，而是依托狀態記憶持續傳遞核心信息——更像是一場接力賽，每一步都承接前一步的成果，無需重走來路。效率的躍升是顯而易見的：更低的FLOPs、更小的顯存占用、更快的生成速度。

　　然而，線性機制也并非萬能。在需要精準定位關鍵信息、進行細粒度語義對齊或復雜長程依賴建模的任務中，其表現有時難以匹敵傳統注意力。于是，一條兼顧性能與效率的技術路徑逐漸成型——混合線性注意力架構（Hybrid Linear Attention）。

　　這一思路其實很直觀。同一模型中進行“分層分工”。部分層保留傳統注意力處理復雜語義與全局依賴，部分層采用線性機制以降低計算負擔，從而讓模型在表達能力與計算效率之間實現動態平衡。

　　然而，理念清晰并不意味著實現簡單。真正將混合架構推向超大規模參數訓練，仍面臨多重挑戰。

　　首先是訓練穩定性問題，兩種機制在同一網絡中協同運行，在超大規模預訓練下容易引發數值震蕩，影響收斂與梯度穩定。

　　其次是比例調優難題，多少層采用傳統注意力、多少層采用線性機制，并無通用公式，研究者需在工程與實驗中反復權衡。

　　再者，在上下文不斷擴展的背景下，如何確保線性部分高效傳遞狀態而不丟失關鍵語義信息，也成為架構設計的核心瓶頸之一。

　　二、告別暴力堆算力、堆參數，如何實現混合架構的萬億級工程化躍遷

　　當前，包括Minimax、月之暗面、阿里以及OpenAI等機構均已探索了混合線性注意力架構的應用潛力，行業逐漸形成共識：混合結構是突破大模型效率瓶頸的重要路徑之一。

　　在這一趨勢之中，螞蟻百靈的研究同樣圍繞上述核心問題展開。如果將其在混合線性注意力上的探索濃縮為一條清晰主線，可以分成兩個階段：技術可行性驗證階段與萬億規模工程化落地階段。

　　早在去年9月，螞蟻百靈團隊便開源了Ring-mini-linear-2.0與Ring-flash-linear-2.0，并發布技術報告，驗證了線性注意力在真實工業規模訓練和長上下文推理中的可用性。

　　報告中給出的核心架構思想是將線性注意力與Softmax注意力進行分組混合，每個layer group中包含M層線性attention加1層Softmax注意力，從而在保持表達能力的前提下，把復雜度從O(n2)拉向近似O(n)。

　　通過Scaling Law實驗，他們驗證了當M=7（即1:7的混合比例）時，在高FLOP預算下表現優于純softmax結構。這個結論至關重要，因為它證明：在大模型規模下，“線性為主、softmax為輔”的結構不是性能退化，而是效率與效果的更優平衡。

　　在這項研究中，螞蟻還發布了兩大自研高性能融合算子。一方面，通過精細化的算子融合和自適應重計算量化技術，更高效的FP8融合算子將FP8混合精度訓練的計算效率提升至原來的1.5-1.7倍左右。

　　在推理端，他們開發了更高效的線性注意力融合算子，支持更多的推理模式，進一步提升推理引擎的吞吐。

　　架構優化與高性能算子協同之下，兩款Ring-linear模型在深度推理場景下的推理成本僅為同尺寸Dense模型的約1/10，相較原有Ring系列成本也下降超過50%。

　　完成初步探索后，螞蟻百靈團隊在其基礎上提出了Ling 2.5 架構：在Ling 2.0的基礎之上，通過“增量訓練”的方式，將原有GQA（改進版的注意力機制，仍然基于Softmax）升級為1:7的MLA + Lightning Linear混合結構，把混合線性注意力架構真正推向萬億規模。

　　在Ling 2.5架構中，大部分GQA層都被改造為了Lightning Linear Attention，以提升長程推理的吞吐能力；剩余GQA層近似轉為MLA，以壓縮KV Cache并保留表達能力。

　　整個改造過程中保留QK Norm、Partial RoPE等關鍵機制，并進行了針對性適配，從而保證模型架構遷移過程中表達能力不塌陷。

　　改造完成后，Ling-2.5-1T和Ring-2.5-1T的激活參數從51B提升至63B，但在混合線性架構支持下，推理吞吐仍然顯著提升，這說明架構優化帶來的收益，已經超過參數規模增加帶來的負擔。

　　在架構改造之后，螞蟻還進一步對Ling-2.5-1T-base進行了基于9T優質語料的持續預訓練，重點強化了預訓練基座的世界知識覆蓋與智能體交互的基礎能力。

　　同時，憑借混合線性注意力架構在長文本處理上的高計算效率與可擴展性，他們將Ling-2.5-1T的上下文窗口擴展訓練至256K tokens，并通過YaRN外推支持最高1M tokens的超長上下文處理能力。

　　三、從實驗室到真實場景：架構優化帶來了什么？

　　在螞蟻對外發布的基準測試中，我們能直觀感受到混合線性注意力帶來的性能提升。

　　以AIME 2026評測為例，當平均輸出長度約為5890個token時，新一代Ling-2.5-1T模型的表現顯著超越前代Ling-1T，并已逼近前沿思考模型的水平。值得注意的是，后者通常需要生成15000到23000個token才能完成同樣復雜的任務。

　　在衡量長文本處理能力的RULER與MRCR基準測試（覆蓋16K至256K token范圍）中，Ling-2.5-1T取得了優于采用MLA/DSA架構的主流大型即時模型（如Kimi K2.5、DeepSeek V3.2）的分數。

　　Ring-2.5-1T則在數學、代碼、邏輯等高難推理任務和智能體搜索、軟件工程、工具調用等長程任務執行上均達到了開源領先水平。這些任務的性能提升，與混合線性注意力架構在處理長程依賴和狀態壓縮方面的優勢密切相關。線性機制實現了高效的上下文信息傳遞，有效支撐了復雜推理任務對長序列建模的需求。

　　這種架構上的優勢也直接轉化為工程實踐上的紅利。即便在激活參數量增加至63B的情況下，基于混合線性注意力的Ling-2.5在單機8卡H200的配置下，其長文本生成的解碼吞吐量（decode throughput）仍顯著優于前代1T規模模型以及同等參數量的Kimi K2。

　　并且，隨著生成文本長度的增加，這種吞吐量優勢變得越發明顯，充分展現了混合線性注意力在長程推理場景下的效率優越性。

　　模型能力的提升在實際應用案例中同樣得到了體現。在下方這個關于《知識產權質押糾紛》的復雜法律指令遵循任務中，Ling-2.5-1T能夠嚴格遵循超過10項涵蓋內容框架、細節、格式和字數等多維度的指令約束，生成條理清晰、邏輯連貫的答復。

　　這得益于優化后的長上下文能力，確保了模型能在跨越多個細分指令的過程中始終保持一致性，避免信息斷裂。

　　而在這個財報解讀案例中，模型可以對數十頁的財報進行信息的抽取匯總，并對重點財務衍生指標進行計算，得到財報的深度分析結論。

　　龐大的長上下文窗口與高效的token利用率，使得這類復雜任務無需分解，即可一次性流暢完成。

　　這些技術特性在實際應用中具有明確的商業價值。長期以來，大模型在規模化部署中主要受限于推理成本，而此次架構層面的優化直接降低了單位請求的算力開銷，使企業能夠在同等硬件條件下支持更高并發，進而降低AI功能集成的門檻。

　　百萬token級別的長上下文支持，拓展了模型在復雜文檔處理場景中的可用性，例如長篇幅法律文書的語義解析、科研文獻的批量梳理等。同時，模型在多步推理與跨段落信息整合方面的表現，也為構建企業級智能體及知識處理自動化系統提供了更穩定的技術基礎。

　　結語：跳出“參數競賽”，回歸架構進化的本質

　　就在2月，螞蟻百靈大模型家族迎來了一系列重要開源與發布：原生全模態模型Ming-flash-2.0、擴散語言模型LLaDA2.1、思考模型Ring-2.5-1T，以及旗艦基座即時模型Ling-2.5-1T。這一系列模型在多個關鍵基準上具備競爭力，讓螞蟻穩居國內大模型行業第一梯隊，而全系列開源的策略，也讓其成為當下AI開源生態中不可忽視的新力量。

　　回溯百靈家族的整體布局，其演進邏輯清晰可見：并非單一追求參數規模攀升，而是在多模態感知、語言生成機制、深度推理能力與即時響應效率等核心維度上全面布局，構建互為補充、協同進化的模型矩陣。

　　而站在更宏觀的行業視角，Ling 2.5架構的成功，傳遞出一個重要信號：架構創新仍是大模型演進的關鍵變量。更高的推理效率、更長的上下文處理、更低的部署成本——這些由架構革新帶來的系統性優勢，正在重新定義大模型的能力邊界。

　　當技術路線趨于多元，當開源生態持續繁榮，開發者也就擁有了更靈活的工具組合來應對不同場景的挑戰。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.