<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      3倍吞吐量、訪存減至1/10!螞蟻甩出兩大萬億參數開源模型,背后架構成關鍵

      0
      分享至

        

      智東西
      作者 陳駿達
      編輯 漠影

        當大模型在推理、編程等能力上不斷刷新紀錄時,一個新的問題也愈發突出:如何在持續提升模型能力的同時,控制算力與資源消耗?

        就在本月,螞蟻集團inclusionAI團隊交出了一份頗具分量的答卷——百靈大模型家族新一代開源萬億參數模型Ling-2.5-1T(即時模型)與Ring-2.5-1T(思考模型)。

        這兩款模型并非僅靠“堆參數”取勝,它們共享的技術底座——混合線性注意力架構“Ling 2.5”,才是此次發布的關鍵。在當前主流大模型仍以改進型傳統注意力機制為核心架構的背景下,Ling-2.5-1T是業內少見的超大型混合線性注意力架構模型,而Ring-2.5-1T成為了全球首個混合線性注意力架構的萬億參數思考模型

        得益于Ling 2.5這一新架構,模型在長文本生成與長程推理場景中,將訪存規模壓縮至傳統架構的1/10,生成吞吐量達原來的3倍。換言之,它讓模型在“變聰明”的同時,也學會了“省著花”。

        同時,效率的提升并未以性能為代價。在涉及推理、智能體、指令遵循、長上下文等場景的多項基準測試中,Ling-2.5-1T超越了DeepSeek-V3.2-nothink、Kimi-K2.5-Instant和GPT-5.2-chat等同類型的即時模型。

        

        而Ring-2.5-1T則在國際數學奧林匹克競賽(IMO 2025)和中國數學奧林匹克(CMO 2025)達到金牌水平(自測分數為IMO 35分、CMO 105分),開啟重度思考(Heavy Thinking)模式后,它在IMOAnswerBench、HMMT-25等數學競賽推理基準和LiveCodeBench-v6代碼生成基準中,超越所有對比模型,無論開源閉源。

        

        那么,螞蟻百靈的混合線性架構的技術路線究竟是如何實現的?又是如何在不犧牲性能的前提下,撬動如此顯著的效率提升?

        一、萬億參數時代,傳統架構還能走多遠?

        在大模型持續躍遷的進程中,注意力機制始終處于舞臺中央,影響著模型理解長文本、捕捉復雜語義以及生成高質量內容的能力。而Softmax一直是主流架構的核心注意力計算機制,幾乎所有Transformer模型都以此為基礎。

        這種機制每次計算都“翻閱”完整上下文,精準捕捉詞與詞的關聯,賦予模型強大表達力和細粒度對齊能力。但其代價明顯:隨著文本長度增加,其計算量呈平方級增長,算力和顯存消耗迅速攀升。

        隨著應用場景向超長上下文延展,這種“精細化”的成本被重新審視。線性注意力(Linear Attention)由此進入主流視野。

        線性注意力通過數學重構,降低計算復雜度,不再為每一個token反復回溯全部序列,而是依托狀態記憶持續傳遞核心信息——更像是一場接力賽,每一步都承接前一步的成果,無需重走來路。效率的躍升是顯而易見的:更低的FLOPs、更小的顯存占用、更快的生成速度。

        然而,線性機制也并非萬能。在需要精準定位關鍵信息、進行細粒度語義對齊或復雜長程依賴建模的任務中,其表現有時難以匹敵傳統注意力。于是,一條兼顧性能與效率的技術路徑逐漸成型——混合線性注意力架構(Hybrid Linear Attention)

        這一思路其實很直觀。同一模型中進行“分層分工”。部分層保留傳統注意力處理復雜語義與全局依賴,部分層采用線性機制以降低計算負擔,從而讓模型在表達能力與計算效率之間實現動態平衡。

        然而,理念清晰并不意味著實現簡單。真正將混合架構推向超大規模參數訓練,仍面臨多重挑戰。

        首先是訓練穩定性問題,兩種機制在同一網絡中協同運行,在超大規模預訓練下容易引發數值震蕩,影響收斂與梯度穩定。

        其次是比例調優難題,多少層采用傳統注意力、多少層采用線性機制,并無通用公式,研究者需在工程與實驗中反復權衡。

        再者,在上下文不斷擴展的背景下,如何確保線性部分高效傳遞狀態而不丟失關鍵語義信息,也成為架構設計的核心瓶頸之一。

        二、告別暴力堆算力、堆參數,如何實現混合架構的萬億級工程化躍遷

        當前,包括Minimax、月之暗面、阿里以及OpenAI等機構均已探索了混合線性注意力架構的應用潛力,行業逐漸形成共識:混合結構是突破大模型效率瓶頸的重要路徑之一。

        在這一趨勢之中,螞蟻百靈的研究同樣圍繞上述核心問題展開。如果將其在混合線性注意力上的探索濃縮為一條清晰主線,可以分成兩個階段:技術可行性驗證階段萬億規模工程化落地階段

        早在去年9月,螞蟻百靈團隊便開源了Ring-mini-linear-2.0與Ring-flash-linear-2.0,并發布技術報告,驗證了線性注意力在真實工業規模訓練和長上下文推理中的可用性。

        報告中給出的核心架構思想是將線性注意力與Softmax注意力進行分組混合,每個layer group中包含M層線性attention加1層Softmax注意力,從而在保持表達能力的前提下,把復雜度從O(n2)拉向近似O(n)。

        通過Scaling Law實驗,他們驗證了當M=7(即1:7的混合比例)時,在高FLOP預算下表現優于純softmax結構。這個結論至關重要,因為它證明:在大模型規模下,“線性為主、softmax為輔”的結構不是性能退化,而是效率與效果的更優平衡。

        在這項研究中,螞蟻還發布了兩大自研高性能融合算子。一方面,通過精細化的算子融合和自適應重計算量化技術,更高效的FP8融合算子將FP8混合精度訓練的計算效率提升至原來的1.5-1.7倍左右。

        

        在推理端,他們開發了更高效的線性注意力融合算子,支持更多的推理模式,進一步提升推理引擎的吞吐。

        架構優化與高性能算子協同之下,兩款Ring-linear模型在深度推理場景下的推理成本僅為同尺寸Dense模型的約1/10,相較原有Ring系列成本也下降超過50%。

        完成初步探索后,螞蟻百靈團隊在其基礎上提出了Ling 2.5 架構:在Ling 2.0的基礎之上,通過“增量訓練”的方式,將原有GQA(改進版的注意力機制,仍然基于Softmax)升級為1:7的MLA + Lightning Linear混合結構,把混合線性注意力架構真正推向萬億規模。

        

        在Ling 2.5架構中,大部分GQA層都被改造為了Lightning Linear Attention,以提升長程推理的吞吐能力;剩余GQA層近似轉為MLA,以壓縮KV Cache并保留表達能力

        整個改造過程中保留QK Norm、Partial RoPE等關鍵機制,并進行了針對性適配,從而保證模型架構遷移過程中表達能力不塌陷。

        改造完成后,Ling-2.5-1T和Ring-2.5-1T的激活參數從51B提升至63B,但在混合線性架構支持下,推理吞吐仍然顯著提升,這說明架構優化帶來的收益,已經超過參數規模增加帶來的負擔。

        在架構改造之后,螞蟻還進一步對Ling-2.5-1T-base進行了基于9T優質語料的持續預訓練,重點強化了預訓練基座的世界知識覆蓋與智能體交互的基礎能力。

        同時,憑借混合線性注意力架構在長文本處理上的高計算效率與可擴展性,他們將Ling-2.5-1T的上下文窗口擴展訓練至256K tokens,并通過YaRN外推支持最高1M tokens的超長上下文處理能力。

        三、從實驗室到真實場景:架構優化帶來了什么?

        在螞蟻對外發布的基準測試中,我們能直觀感受到混合線性注意力帶來的性能提升。

        以AIME 2026評測為例,當平均輸出長度約為5890個token時,新一代Ling-2.5-1T模型的表現顯著超越前代Ling-1T,并已逼近前沿思考模型的水平。值得注意的是,后者通常需要生成15000到23000個token才能完成同樣復雜的任務。

        

        在衡量長文本處理能力的RULER與MRCR基準測試(覆蓋16K至256K token范圍)中,Ling-2.5-1T取得了優于采用MLA/DSA架構的主流大型即時模型(如Kimi K2.5、DeepSeek V3.2)的分數。

        Ring-2.5-1T則在數學、代碼、邏輯等高難推理任務和智能體搜索、軟件工程、工具調用等長程任務執行上均達到了開源領先水平。這些任務的性能提升,與混合線性注意力架構在處理長程依賴和狀態壓縮方面的優勢密切相關。線性機制實現了高效的上下文信息傳遞,有效支撐了復雜推理任務對長序列建模的需求。

        這種架構上的優勢也直接轉化為工程實踐上的紅利。即便在激活參數量增加至63B的情況下,基于混合線性注意力的Ling-2.5在單機8卡H200的配置下,其長文本生成的解碼吞吐量(decode throughput)仍顯著優于前代1T規模模型以及同等參數量的Kimi K2。

        并且,隨著生成文本長度的增加,這種吞吐量優勢變得越發明顯,充分展現了混合線性注意力在長程推理場景下的效率優越性。

        

        模型能力的提升在實際應用案例中同樣得到了體現。在下方這個關于《知識產權質押糾紛》的復雜法律指令遵循任務中,Ling-2.5-1T能夠嚴格遵循超過10項涵蓋內容框架、細節、格式和字數等多維度的指令約束,生成條理清晰、邏輯連貫的答復。

        這得益于優化后的長上下文能力,確保了模型能在跨越多個細分指令的過程中始終保持一致性,避免信息斷裂。

        

        而在這個財報解讀案例中,模型可以對數十頁的財報進行信息的抽取匯總,并對重點財務衍生指標進行計算,得到財報的深度分析結論。

        

        龐大的長上下文窗口與高效的token利用率,使得這類復雜任務無需分解,即可一次性流暢完成。

        這些技術特性在實際應用中具有明確的商業價值。長期以來,大模型在規模化部署中主要受限于推理成本,而此次架構層面的優化直接降低了單位請求的算力開銷,使企業能夠在同等硬件條件下支持更高并發,進而降低AI功能集成的門檻。

        百萬token級別的長上下文支持,拓展了模型在復雜文檔處理場景中的可用性,例如長篇幅法律文書的語義解析、科研文獻的批量梳理等。同時,模型在多步推理與跨段落信息整合方面的表現,也為構建企業級智能體及知識處理自動化系統提供了更穩定的技術基礎。

        結語:跳出“參數競賽”,回歸架構進化的本質

        就在2月,螞蟻百靈大模型家族迎來了一系列重要開源與發布:原生全模態模型Ming-flash-2.0、擴散語言模型LLaDA2.1、思考模型Ring-2.5-1T,以及旗艦基座即時模型Ling-2.5-1T。這一系列模型在多個關鍵基準上具備競爭力,讓螞蟻穩居國內大模型行業第一梯隊,而全系列開源的策略,也讓其成為當下AI開源生態中不可忽視的新力量。

        回溯百靈家族的整體布局,其演進邏輯清晰可見:并非單一追求參數規模攀升,而是在多模態感知、語言生成機制、深度推理能力與即時響應效率等核心維度上全面布局,構建互為補充、協同進化的模型矩陣。

        而站在更宏觀的行業視角,Ling 2.5架構的成功,傳遞出一個重要信號:架構創新仍是大模型演進的關鍵變量。更高的推理效率、更長的上下文處理、更低的部署成本——這些由架構革新帶來的系統性優勢,正在重新定義大模型的能力邊界。

        當技術路線趨于多元,當開源生態持續繁榮,開發者也就擁有了更靈活的工具組合來應對不同場景的挑戰。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普:美軍在與伊朗沖突中可能還會出現更多傷亡

      特朗普:美軍在與伊朗沖突中可能還會出現更多傷亡

      界面新聞
      2026-03-08 07:13:38
      西貝再暴大雷!總部人去樓空,新任領導威逼員工,300人討薪無門

      西貝再暴大雷!總部人去樓空,新任領導威逼員工,300人討薪無門

      離離言幾許
      2026-03-07 15:53:37
      偷往帽子倒螺螄粉湯的女子已經社死,正面照遭網友Ai修復后瘋傳

      偷往帽子倒螺螄粉湯的女子已經社死,正面照遭網友Ai修復后瘋傳

      映射生活的身影
      2026-03-08 02:42:07
      越扒瓜越大!魯山舅舅與亡姐結婚再添猛料,遠不止吃絕戶這么簡單

      越扒瓜越大!魯山舅舅與亡姐結婚再添猛料,遠不止吃絕戶這么簡單

      夢史
      2026-03-07 09:26:14
      特朗普發表聲明:伊朗已向其中東鄰國投降!這是由于美以的持續攻擊才實現的

      特朗普發表聲明:伊朗已向其中東鄰國投降!這是由于美以的持續攻擊才實現的

      爆角追蹤
      2026-03-07 21:09:51
      伊朗發視頻嘲諷:500萬美元導彈摧毀10美元假直升機 這就是所謂的“精準勝利”

      伊朗發視頻嘲諷:500萬美元導彈摧毀10美元假直升機 這就是所謂的“精準勝利”

      閃電新聞
      2026-03-07 14:00:07
      國家下狠手了!體制內大地震,少爺、公主們的“天”,要塌了

      國家下狠手了!體制內大地震,少爺、公主們的“天”,要塌了

      霹靂炮
      2026-01-19 22:24:13
      汪小菲怒撕親媽翻車!張蘭撕開汪家四十年遮羞布,六麻記口碑暴跌

      汪小菲怒撕親媽翻車!張蘭撕開汪家四十年遮羞布,六麻記口碑暴跌

      離離言幾許
      2026-03-07 16:06:38
      就在下周一,或迎來本年度飆升!加滿一箱油要貴20元

      就在下周一,或迎來本年度飆升!加滿一箱油要貴20元

      都市快報橙柿互動
      2026-03-07 23:13:42
      網友吐槽別糊弄老百姓了,又是天才少年發國際論文,誰家的公子?

      網友吐槽別糊弄老百姓了,又是天才少年發國際論文,誰家的公子?

      眼光很亮
      2026-03-08 01:43:40
      劉詩詩直播美的好權威,金絲眼鏡+大波浪造型,讓她美的發光了

      劉詩詩直播美的好權威,金絲眼鏡+大波浪造型,讓她美的發光了

      明星私服穿搭daily
      2026-03-05 07:24:32
      以色列特種兵深夜突襲慘敗,伊朗系成功伏擊,遠火轟擊F-35維修廠

      以色列特種兵深夜突襲慘敗,伊朗系成功伏擊,遠火轟擊F-35維修廠

      軍機Talk
      2026-03-07 16:42:12
      38歲破格被復旦大學錄取為博士的東北三輪車夫,如今怎么樣了?

      38歲破格被復旦大學錄取為博士的東北三輪車夫,如今怎么樣了?

      凡知
      2026-03-07 12:12:50
      魯迅在北京用3765塊大洋,買一套32間的四合院,如今值多少錢?

      魯迅在北京用3765塊大洋,買一套32間的四合院,如今值多少錢?

      鶴羽說個事
      2026-03-07 18:52:54
      特朗普沒想到:美伊大戰打醒兩個國家,一個是越南,一個是菲律賓

      特朗普沒想到:美伊大戰打醒兩個國家,一個是越南,一個是菲律賓

      探索新高度
      2026-03-07 23:24:06
      愛德華茲評NBA歷史首發五虎:現役三人在列包括自己 沒選詹姆斯

      愛德華茲評NBA歷史首發五虎:現役三人在列包括自己 沒選詹姆斯

      羅說NBA
      2026-03-08 06:08:56
      伊朗戰術奏效了,再對林肯號航母發射導彈,這個武器成美軍數學題

      伊朗戰術奏效了,再對林肯號航母發射導彈,這個武器成美軍數學題

      書紀文譚
      2026-03-07 15:19:19
      人大代表畢利霞哽咽發言:老一輩的農民為農村改革發展奉獻了一輩子,懇請將農村70歲以上老人養老金每月提高到400元,免除居民醫保費

      人大代表畢利霞哽咽發言:老一輩的農民為農村改革發展奉獻了一輩子,懇請將農村70歲以上老人養老金每月提高到400元,免除居民醫保費

      大風新聞
      2026-03-07 17:46:10
      伊朗問題,注意普京的動向

      伊朗問題,注意普京的動向

      新民周刊
      2026-03-08 09:11:54
      "小龍蝦”背后暗藏極大危險:目前所有部署OpenClaw的電腦都可能成為"肉雞"!

      "小龍蝦”背后暗藏極大危險:目前所有部署OpenClaw的電腦都可能成為"肉雞"!

      識局Insight
      2026-03-07 19:42:12
      2026-03-08 09:43:00
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      11320文章數 116989關注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      媒體:伊朗問題要注意普京的動向 其在向美以喊話

      頭條要聞

      媒體:伊朗問題要注意普京的動向 其在向美以喊話

      體育要聞

      塔圖姆298天走完這段路 只用27分鐘征服這座城

      娛樂要聞

      汪小菲曝親媽猛料,張蘭公開財產分配

      財經要聞

      油價要失控?

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      家居
      本地
      健康
      公開課
      軍事航空

      家居要聞

      暖棕撞色 輕法奶油風

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      轉頭就暈的耳石癥,能開車上班嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美第三個航母打擊群據稱準備部署至中東

      無障礙瀏覽 進入關懷版