![]()
智東西
作者 陳駿達
編輯 漠影
當大模型在推理、編程等能力上不斷刷新紀錄時,一個新的問題也愈發(fā)突出:如何在持續(xù)提升模型能力的同時,控制算力與資源消耗?
就在本月,螞蟻集團inclusionAI團隊交出了一份頗具分量的答卷——百靈大模型家族新一代開源萬億參數(shù)模型Ling-2.5-1T(即時模型)與Ring-2.5-1T(思考模型)。
這兩款模型并非僅靠“堆參數(shù)”取勝,它們共享的技術底座——混合線性注意力架構“Ling 2.5”,才是此次發(fā)布的關鍵。在當前主流大模型仍以改進型傳統(tǒng)注意力機制為核心架構的背景下,Ling-2.5-1T是業(yè)內(nèi)少見的超大型混合線性注意力架構模型,而Ring-2.5-1T成為了全球首個混合線性注意力架構的萬億參數(shù)思考模型。
得益于Ling 2.5這一新架構,模型在長文本生成與長程推理場景中,將訪存規(guī)模壓縮至傳統(tǒng)架構的1/10,生成吞吐量達原來的3倍。換言之,它讓模型在“變聰明”的同時,也學會了“省著花”。
同時,效率的提升并未以性能為代價。在涉及推理、智能體、指令遵循、長上下文等場景的多項基準測試中,Ling-2.5-1T超越了DeepSeek-V3.2-nothink、Kimi-K2.5-Instant和GPT-5.2-chat等同類型的即時模型。
![]()
而Ring-2.5-1T則在國際數(shù)學奧林匹克競賽(IMO 2025)和中國數(shù)學奧林匹克(CMO 2025)達到金牌水平(自測分數(shù)為IMO 35分、CMO 105分),開啟重度思考(Heavy Thinking)模式后,它在IMOAnswerBench、HMMT-25等數(shù)學競賽推理基準和LiveCodeBench-v6代碼生成基準中,超越所有對比模型,無論開源閉源。
![]()
那么,螞蟻百靈的混合線性架構的技術路線究竟是如何實現(xiàn)的?又是如何在不犧牲性能的前提下,撬動如此顯著的效率提升?
一、萬億參數(shù)時代,傳統(tǒng)架構還能走多遠?
在大模型持續(xù)躍遷的進程中,注意力機制始終處于舞臺中央,影響著模型理解長文本、捕捉復雜語義以及生成高質(zhì)量內(nèi)容的能力。而Softmax一直是主流架構的核心注意力計算機制,幾乎所有Transformer模型都以此為基礎。
這種機制每次計算都“翻閱”完整上下文,精準捕捉詞與詞的關聯(lián),賦予模型強大表達力和細粒度對齊能力。但其代價明顯:隨著文本長度增加,其計算量呈平方級增長,算力和顯存消耗迅速攀升。
隨著應用場景向超長上下文延展,這種“精細化”的成本被重新審視。線性注意力(Linear Attention)由此進入主流視野。
線性注意力通過數(shù)學重構,降低計算復雜度,不再為每一個token反復回溯全部序列,而是依托狀態(tài)記憶持續(xù)傳遞核心信息——更像是一場接力賽,每一步都承接前一步的成果,無需重走來路。效率的躍升是顯而易見的:更低的FLOPs、更小的顯存占用、更快的生成速度。
然而,線性機制也并非萬能。在需要精準定位關鍵信息、進行細粒度語義對齊或復雜長程依賴建模的任務中,其表現(xiàn)有時難以匹敵傳統(tǒng)注意力。于是,一條兼顧性能與效率的技術路徑逐漸成型——混合線性注意力架構(Hybrid Linear Attention)。
這一思路其實很直觀。同一模型中進行“分層分工”。部分層保留傳統(tǒng)注意力處理復雜語義與全局依賴,部分層采用線性機制以降低計算負擔,從而讓模型在表達能力與計算效率之間實現(xiàn)動態(tài)平衡。
然而,理念清晰并不意味著實現(xiàn)簡單。真正將混合架構推向超大規(guī)模參數(shù)訓練,仍面臨多重挑戰(zhàn)。
首先是訓練穩(wěn)定性問題,兩種機制在同一網(wǎng)絡中協(xié)同運行,在超大規(guī)模預訓練下容易引發(fā)數(shù)值震蕩,影響收斂與梯度穩(wěn)定。
其次是比例調(diào)優(yōu)難題,多少層采用傳統(tǒng)注意力、多少層采用線性機制,并無通用公式,研究者需在工程與實驗中反復權衡。
再者,在上下文不斷擴展的背景下,如何確保線性部分高效傳遞狀態(tài)而不丟失關鍵語義信息,也成為架構設計的核心瓶頸之一。
二、告別暴力堆算力、堆參數(shù),如何實現(xiàn)混合架構的萬億級工程化躍遷
當前,包括Minimax、月之暗面、阿里以及OpenAI等機構均已探索了混合線性注意力架構的應用潛力,行業(yè)逐漸形成共識:混合結(jié)構是突破大模型效率瓶頸的重要路徑之一。
在這一趨勢之中,螞蟻百靈的研究同樣圍繞上述核心問題展開。如果將其在混合線性注意力上的探索濃縮為一條清晰主線,可以分成兩個階段:技術可行性驗證階段與萬億規(guī)模工程化落地階段。
早在去年9月,螞蟻百靈團隊便開源了Ring-mini-linear-2.0與Ring-flash-linear-2.0,并發(fā)布技術報告,驗證了線性注意力在真實工業(yè)規(guī)模訓練和長上下文推理中的可用性。
報告中給出的核心架構思想是將線性注意力與Softmax注意力進行分組混合,每個layer group中包含M層線性attention加1層Softmax注意力,從而在保持表達能力的前提下,把復雜度從O(n2)拉向近似O(n)。
通過Scaling Law實驗,他們驗證了當M=7(即1:7的混合比例)時,在高FLOP預算下表現(xiàn)優(yōu)于純softmax結(jié)構。這個結(jié)論至關重要,因為它證明:在大模型規(guī)模下,“線性為主、softmax為輔”的結(jié)構不是性能退化,而是效率與效果的更優(yōu)平衡。
在這項研究中,螞蟻還發(fā)布了兩大自研高性能融合算子。一方面,通過精細化的算子融合和自適應重計算量化技術,更高效的FP8融合算子將FP8混合精度訓練的計算效率提升至原來的1.5-1.7倍左右。
![]()
在推理端,他們開發(fā)了更高效的線性注意力融合算子,支持更多的推理模式,進一步提升推理引擎的吞吐。
架構優(yōu)化與高性能算子協(xié)同之下,兩款Ring-linear模型在深度推理場景下的推理成本僅為同尺寸Dense模型的約1/10,相較原有Ring系列成本也下降超過50%。
完成初步探索后,螞蟻百靈團隊在其基礎上提出了Ling 2.5 架構:在Ling 2.0的基礎之上,通過“增量訓練”的方式,將原有GQA(改進版的注意力機制,仍然基于Softmax)升級為1:7的MLA + Lightning Linear混合結(jié)構,把混合線性注意力架構真正推向萬億規(guī)模。
![]()
在Ling 2.5架構中,大部分GQA層都被改造為了Lightning Linear Attention,以提升長程推理的吞吐能力;剩余GQA層近似轉(zhuǎn)為MLA,以壓縮KV Cache并保留表達能力。
整個改造過程中保留QK Norm、Partial RoPE等關鍵機制,并進行了針對性適配,從而保證模型架構遷移過程中表達能力不塌陷。
改造完成后,Ling-2.5-1T和Ring-2.5-1T的激活參數(shù)從51B提升至63B,但在混合線性架構支持下,推理吞吐仍然顯著提升,這說明架構優(yōu)化帶來的收益,已經(jīng)超過參數(shù)規(guī)模增加帶來的負擔。
在架構改造之后,螞蟻還進一步對Ling-2.5-1T-base進行了基于9T優(yōu)質(zhì)語料的持續(xù)預訓練,重點強化了預訓練基座的世界知識覆蓋與智能體交互的基礎能力。
同時,憑借混合線性注意力架構在長文本處理上的高計算效率與可擴展性,他們將Ling-2.5-1T的上下文窗口擴展訓練至256K tokens,并通過YaRN外推支持最高1M tokens的超長上下文處理能力。
三、從實驗室到真實場景:架構優(yōu)化帶來了什么?
在螞蟻對外發(fā)布的基準測試中,我們能直觀感受到混合線性注意力帶來的性能提升。
以AIME 2026評測為例,當平均輸出長度約為5890個token時,新一代Ling-2.5-1T模型的表現(xiàn)顯著超越前代Ling-1T,并已逼近前沿思考模型的水平。值得注意的是,后者通常需要生成15000到23000個token才能完成同樣復雜的任務。
![]()
在衡量長文本處理能力的RULER與MRCR基準測試(覆蓋16K至256K token范圍)中,Ling-2.5-1T取得了優(yōu)于采用MLA/DSA架構的主流大型即時模型(如Kimi K2.5、DeepSeek V3.2)的分數(shù)。
Ring-2.5-1T則在數(shù)學、代碼、邏輯等高難推理任務和智能體搜索、軟件工程、工具調(diào)用等長程任務執(zhí)行上均達到了開源領先水平。這些任務的性能提升,與混合線性注意力架構在處理長程依賴和狀態(tài)壓縮方面的優(yōu)勢密切相關。線性機制實現(xiàn)了高效的上下文信息傳遞,有效支撐了復雜推理任務對長序列建模的需求。
這種架構上的優(yōu)勢也直接轉(zhuǎn)化為工程實踐上的紅利。即便在激活參數(shù)量增加至63B的情況下,基于混合線性注意力的Ling-2.5在單機8卡H200的配置下,其長文本生成的解碼吞吐量(decode throughput)仍顯著優(yōu)于前代1T規(guī)模模型以及同等參數(shù)量的Kimi K2。
并且,隨著生成文本長度的增加,這種吞吐量優(yōu)勢變得越發(fā)明顯,充分展現(xiàn)了混合線性注意力在長程推理場景下的效率優(yōu)越性。
![]()
模型能力的提升在實際應用案例中同樣得到了體現(xiàn)。在下方這個關于《知識產(chǎn)權質(zhì)押糾紛》的復雜法律指令遵循任務中,Ling-2.5-1T能夠嚴格遵循超過10項涵蓋內(nèi)容框架、細節(jié)、格式和字數(shù)等多維度的指令約束,生成條理清晰、邏輯連貫的答復。
這得益于優(yōu)化后的長上下文能力,確保了模型能在跨越多個細分指令的過程中始終保持一致性,避免信息斷裂。

而在這個財報解讀案例中,模型可以對數(shù)十頁的財報進行信息的抽取匯總,并對重點財務衍生指標進行計算,得到財報的深度分析結(jié)論。

龐大的長上下文窗口與高效的token利用率,使得這類復雜任務無需分解,即可一次性流暢完成。
這些技術特性在實際應用中具有明確的商業(yè)價值。長期以來,大模型在規(guī)模化部署中主要受限于推理成本,而此次架構層面的優(yōu)化直接降低了單位請求的算力開銷,使企業(yè)能夠在同等硬件條件下支持更高并發(fā),進而降低AI功能集成的門檻。
百萬token級別的長上下文支持,拓展了模型在復雜文檔處理場景中的可用性,例如長篇幅法律文書的語義解析、科研文獻的批量梳理等。同時,模型在多步推理與跨段落信息整合方面的表現(xiàn),也為構建企業(yè)級智能體及知識處理自動化系統(tǒng)提供了更穩(wěn)定的技術基礎。
結(jié)語:跳出“參數(shù)競賽”,回歸架構進化的本質(zhì)
就在2月,螞蟻百靈大模型家族迎來了一系列重要開源與發(fā)布:原生全模態(tài)模型Ming-flash-2.0、擴散語言模型LLaDA2.1、思考模型Ring-2.5-1T,以及旗艦基座即時模型Ling-2.5-1T。這一系列模型在多個關鍵基準上具備競爭力,讓螞蟻穩(wěn)居國內(nèi)大模型行業(yè)第一梯隊,而全系列開源的策略,也讓其成為當下AI開源生態(tài)中不可忽視的新力量。
回溯百靈家族的整體布局,其演進邏輯清晰可見:并非單一追求參數(shù)規(guī)模攀升,而是在多模態(tài)感知、語言生成機制、深度推理能力與即時響應效率等核心維度上全面布局,構建互為補充、協(xié)同進化的模型矩陣。
而站在更宏觀的行業(yè)視角,Ling 2.5架構的成功,傳遞出一個重要信號:架構創(chuàng)新仍是大模型演進的關鍵變量。更高的推理效率、更長的上下文處理、更低的部署成本——這些由架構革新帶來的系統(tǒng)性優(yōu)勢,正在重新定義大模型的能力邊界。
當技術路線趨于多元,當開源生態(tài)持續(xù)繁榮,開發(fā)者也就擁有了更靈活的工具組合來應對不同場景的挑戰(zhàn)。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.