3倍吞吐量、訪存減至1/10！螞蟻甩出兩大萬億參數(shù)開源模型，背后架構成關鍵

2026-02-25 12:18:08　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達
編輯漠影

　　當大模型在推理、編程等能力上不斷刷新紀錄時，一個新的問題也愈發(fā)突出：如何在持續(xù)提升模型能力的同時，控制算力與資源消耗？

　　就在本月，螞蟻集團inclusionAI團隊交出了一份頗具分量的答卷——百靈大模型家族新一代開源萬億參數(shù)模型Ling-2.5-1T（即時模型）與Ring-2.5-1T（思考模型）。

　　這兩款模型并非僅靠“堆參數(shù)”取勝，它們共享的技術底座——混合線性注意力架構“Ling 2.5”，才是此次發(fā)布的關鍵。在當前主流大模型仍以改進型傳統(tǒng)注意力機制為核心架構的背景下，Ling-2.5-1T是業(yè)內少見的超大型混合線性注意力架構模型，而Ring-2.5-1T成為了全球首個混合線性注意力架構的萬億參數(shù)思考模型。

　　得益于Ling 2.5這一新架構，模型在長文本生成與長程推理場景中，將訪存規(guī)模壓縮至傳統(tǒng)架構的1/10，生成吞吐量達原來的3倍。換言之，它讓模型在“變聰明”的同時，也學會了“省著花”。

　　同時，效率的提升并未以性能為代價。在涉及推理、智能體、指令遵循、長上下文等場景的多項基準測試中，Ling-2.5-1T超越了DeepSeek-V3.2-nothink、Kimi-K2.5-Instant和GPT-5.2-chat等同類型的即時模型。

　　而Ring-2.5-1T則在國際數(shù)學奧林匹克競賽（IMO 2025）和中國數(shù)學奧林匹克（CMO 2025）達到金牌水平（自測分數(shù)為IMO 35分、CMO 105分），開啟重度思考（Heavy Thinking）模式后，它在IMOAnswerBench、HMMT-25等數(shù)學競賽推理基準和LiveCodeBench-v6代碼生成基準中，超越所有對比模型，無論開源閉源。

　　那么，螞蟻百靈的混合線性架構的技術路線究竟是如何實現(xiàn)的？又是如何在不犧牲性能的前提下，撬動如此顯著的效率提升？

　　一、萬億參數(shù)時代，傳統(tǒng)架構還能走多遠？

　　在大模型持續(xù)躍遷的進程中，注意力機制始終處于舞臺中央，影響著模型理解長文本、捕捉復雜語義以及生成高質量內容的能力。而Softmax一直是主流架構的核心注意力計算機制，幾乎所有Transformer模型都以此為基礎。

　　這種機制每次計算都“翻閱”完整上下文，精準捕捉詞與詞的關聯(lián)，賦予模型強大表達力和細粒度對齊能力。但其代價明顯：隨著文本長度增加，其計算量呈平方級增長，算力和顯存消耗迅速攀升。

　　隨著應用場景向超長上下文延展，這種“精細化”的成本被重新審視。線性注意力（Linear Attention）由此進入主流視野。

　　線性注意力通過數(shù)學重構，降低計算復雜度，不再為每一個token反復回溯全部序列，而是依托狀態(tài)記憶持續(xù)傳遞核心信息——更像是一場接力賽，每一步都承接前一步的成果，無需重走來路。效率的躍升是顯而易見的：更低的FLOPs、更小的顯存占用、更快的生成速度。

　　然而，線性機制也并非萬能。在需要精準定位關鍵信息、進行細粒度語義對齊或復雜長程依賴建模的任務中，其表現(xiàn)有時難以匹敵傳統(tǒng)注意力。于是，一條兼顧性能與效率的技術路徑逐漸成型——混合線性注意力架構（Hybrid Linear Attention）。

　　這一思路其實很直觀。同一模型中進行“分層分工”。部分層保留傳統(tǒng)注意力處理復雜語義與全局依賴，部分層采用線性機制以降低計算負擔，從而讓模型在表達能力與計算效率之間實現(xiàn)動態(tài)平衡。

　　然而，理念清晰并不意味著實現(xiàn)簡單。真正將混合架構推向超大規(guī)模參數(shù)訓練，仍面臨多重挑戰(zhàn)。

　　首先是訓練穩(wěn)定性問題，兩種機制在同一網(wǎng)絡中協(xié)同運行，在超大規(guī)模預訓練下容易引發(fā)數(shù)值震蕩，影響收斂與梯度穩(wěn)定。

　　其次是比例調優(yōu)難題，多少層采用傳統(tǒng)注意力、多少層采用線性機制，并無通用公式，研究者需在工程與實驗中反復權衡。

　　再者，在上下文不斷擴展的背景下，如何確保線性部分高效傳遞狀態(tài)而不丟失關鍵語義信息，也成為架構設計的核心瓶頸之一。

　　二、告別暴力堆算力、堆參數(shù)，如何實現(xiàn)混合架構的萬億級工程化躍遷

　　當前，包括Minimax、月之暗面、阿里以及OpenAI等機構均已探索了混合線性注意力架構的應用潛力，行業(yè)逐漸形成共識：混合結構是突破大模型效率瓶頸的重要路徑之一。

　　在這一趨勢之中，螞蟻百靈的研究同樣圍繞上述核心問題展開。如果將其在混合線性注意力上的探索濃縮為一條清晰主線，可以分成兩個階段：技術可行性驗證階段與萬億規(guī)模工程化落地階段。

　　早在去年9月，螞蟻百靈團隊便開源了Ring-mini-linear-2.0與Ring-flash-linear-2.0，并發(fā)布技術報告，驗證了線性注意力在真實工業(yè)規(guī)模訓練和長上下文推理中的可用性。

　　報告中給出的核心架構思想是將線性注意力與Softmax注意力進行分組混合，每個layer group中包含M層線性attention加1層Softmax注意力，從而在保持表達能力的前提下，把復雜度從O(n2)拉向近似O(n)。

　　通過Scaling Law實驗，他們驗證了當M=7（即1:7的混合比例）時，在高FLOP預算下表現(xiàn)優(yōu)于純softmax結構。這個結論至關重要，因為它證明：在大模型規(guī)模下，“線性為主、softmax為輔”的結構不是性能退化，而是效率與效果的更優(yōu)平衡。

　　在這項研究中，螞蟻還發(fā)布了兩大自研高性能融合算子。一方面，通過精細化的算子融合和自適應重計算量化技術，更高效的FP8融合算子將FP8混合精度訓練的計算效率提升至原來的1.5-1.7倍左右。

　　在推理端，他們開發(fā)了更高效的線性注意力融合算子，支持更多的推理模式，進一步提升推理引擎的吞吐。

　　架構優(yōu)化與高性能算子協(xié)同之下，兩款Ring-linear模型在深度推理場景下的推理成本僅為同尺寸Dense模型的約1/10，相較原有Ring系列成本也下降超過50%。

　　完成初步探索后，螞蟻百靈團隊在其基礎上提出了Ling 2.5 架構：在Ling 2.0的基礎之上，通過“增量訓練”的方式，將原有GQA（改進版的注意力機制，仍然基于Softmax）升級為1:7的MLA + Lightning Linear混合結構，把混合線性注意力架構真正推向萬億規(guī)模。

　　在Ling 2.5架構中，大部分GQA層都被改造為了Lightning Linear Attention，以提升長程推理的吞吐能力；剩余GQA層近似轉為MLA，以壓縮KV Cache并保留表達能力。

　　整個改造過程中保留QK Norm、Partial RoPE等關鍵機制，并進行了針對性適配，從而保證模型架構遷移過程中表達能力不塌陷。

　　改造完成后，Ling-2.5-1T和Ring-2.5-1T的激活參數(shù)從51B提升至63B，但在混合線性架構支持下，推理吞吐仍然顯著提升，這說明架構優(yōu)化帶來的收益，已經(jīng)超過參數(shù)規(guī)模增加帶來的負擔。

　　在架構改造之后，螞蟻還進一步對Ling-2.5-1T-base進行了基于9T優(yōu)質語料的持續(xù)預訓練，重點強化了預訓練基座的世界知識覆蓋與智能體交互的基礎能力。

　　同時，憑借混合線性注意力架構在長文本處理上的高計算效率與可擴展性，他們將Ling-2.5-1T的上下文窗口擴展訓練至256K tokens，并通過YaRN外推支持最高1M tokens的超長上下文處理能力。

　　三、從實驗室到真實場景：架構優(yōu)化帶來了什么？

　　在螞蟻對外發(fā)布的基準測試中，我們能直觀感受到混合線性注意力帶來的性能提升。

　　以AIME 2026評測為例，當平均輸出長度約為5890個token時，新一代Ling-2.5-1T模型的表現(xiàn)顯著超越前代Ling-1T，并已逼近前沿思考模型的水平。值得注意的是，后者通常需要生成15000到23000個token才能完成同樣復雜的任務。

　　在衡量長文本處理能力的RULER與MRCR基準測試（覆蓋16K至256K token范圍）中，Ling-2.5-1T取得了優(yōu)于采用MLA/DSA架構的主流大型即時模型（如Kimi K2.5、DeepSeek V3.2）的分數(shù)。

　　Ring-2.5-1T則在數(shù)學、代碼、邏輯等高難推理任務和智能體搜索、軟件工程、工具調用等長程任務執(zhí)行上均達到了開源領先水平。這些任務的性能提升，與混合線性注意力架構在處理長程依賴和狀態(tài)壓縮方面的優(yōu)勢密切相關。線性機制實現(xiàn)了高效的上下文信息傳遞，有效支撐了復雜推理任務對長序列建模的需求。

　　這種架構上的優(yōu)勢也直接轉化為工程實踐上的紅利。即便在激活參數(shù)量增加至63B的情況下，基于混合線性注意力的Ling-2.5在單機8卡H200的配置下，其長文本生成的解碼吞吐量（decode throughput）仍顯著優(yōu)于前代1T規(guī)模模型以及同等參數(shù)量的Kimi K2。

　　并且，隨著生成文本長度的增加，這種吞吐量優(yōu)勢變得越發(fā)明顯，充分展現(xiàn)了混合線性注意力在長程推理場景下的效率優(yōu)越性。

　　模型能力的提升在實際應用案例中同樣得到了體現(xiàn)。在下方這個關于《知識產權質押糾紛》的復雜法律指令遵循任務中，Ling-2.5-1T能夠嚴格遵循超過10項涵蓋內容框架、細節(jié)、格式和字數(shù)等多維度的指令約束，生成條理清晰、邏輯連貫的答復。

　　這得益于優(yōu)化后的長上下文能力，確保了模型能在跨越多個細分指令的過程中始終保持一致性，避免信息斷裂。

　　而在這個財報解讀案例中，模型可以對數(shù)十頁的財報進行信息的抽取匯總，并對重點財務衍生指標進行計算，得到財報的深度分析結論。

　　龐大的長上下文窗口與高效的token利用率，使得這類復雜任務無需分解，即可一次性流暢完成。

　　這些技術特性在實際應用中具有明確的商業(yè)價值。長期以來，大模型在規(guī)模化部署中主要受限于推理成本，而此次架構層面的優(yōu)化直接降低了單位請求的算力開銷，使企業(yè)能夠在同等硬件條件下支持更高并發(fā)，進而降低AI功能集成的門檻。

　　百萬token級別的長上下文支持，拓展了模型在復雜文檔處理場景中的可用性，例如長篇幅法律文書的語義解析、科研文獻的批量梳理等。同時，模型在多步推理與跨段落信息整合方面的表現(xiàn)，也為構建企業(yè)級智能體及知識處理自動化系統(tǒng)提供了更穩(wěn)定的技術基礎。

　　結語：跳出“參數(shù)競賽”，回歸架構進化的本質

　　就在2月，螞蟻百靈大模型家族迎來了一系列重要開源與發(fā)布：原生全模態(tài)模型Ming-flash-2.0、擴散語言模型LLaDA2.1、思考模型Ring-2.5-1T，以及旗艦基座即時模型Ling-2.5-1T。這一系列模型在多個關鍵基準上具備競爭力，讓螞蟻穩(wěn)居國內大模型行業(yè)第一梯隊，而全系列開源的策略，也讓其成為當下AI開源生態(tài)中不可忽視的新力量。

　　回溯百靈家族的整體布局，其演進邏輯清晰可見：并非單一追求參數(shù)規(guī)模攀升，而是在多模態(tài)感知、語言生成機制、深度推理能力與即時響應效率等核心維度上全面布局，構建互為補充、協(xié)同進化的模型矩陣。

　　而站在更宏觀的行業(yè)視角，Ling 2.5架構的成功，傳遞出一個重要信號：架構創(chuàng)新仍是大模型演進的關鍵變量。更高的推理效率、更長的上下文處理、更低的部署成本——這些由架構革新帶來的系統(tǒng)性優(yōu)勢，正在重新定義大模型的能力邊界。

　　當技術路線趨于多元，當開源生態(tài)持續(xù)繁榮，開發(fā)者也就擁有了更靈活的工具組合來應對不同場景的挑戰(zhàn)。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.