<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型又出新架構,面壁這次把Transformer上下文能力拉滿了

      0
      分享至

      我有點好奇一個問題,

      讓現階段一個百萬上下文的大模型讀一本百萬字的小說,需要推理嗎?

      可能大部分時候不需要,它需要的只是記住,記住第一章的主角在最后一章說了什么。

      現在傳統的Transformer架構只有一種處理方式,全靠硬算。它像一個過于認真的前排學霸,為了記住最后一章的內容,把前面九十九萬字的內容跟每一個新生成的字都做一次對比計算。


      這樣會占大量的顯存,計算量也會平方級增長。

      這一周新的大模型也是不停刷新,MiniMax M2.5,GLM5,Gemini 3.1 Pro Preview,DeepSeek新版本(疑似V4),我都希望他們可以接入我的OpenClaw里面,做一個長對話長記憶的模型。

      昨天,面壁還發了一篇新論文,提出了一個叫SALA(Sparse Attention-Linear Attention)的混合注意力架構。它給出了一個新觀點,

      該快的地方就得快,該準的地方必須準。


      https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

      在他們的SALA架構里,

      一部分模塊專門負責快,

      另一部分模塊專門負責準。

      結果就是,基于SALA架構的模型,在端側顯卡上,第一次把百萬的長文本推理,穩穩跑通了。


      我們來看一個具體的例子,

      模型在處理百萬字小說時,內部發生了什么。

      每生成一個新詞,模型都要把它和前面所有詞語的鍵值對,也就是KV Cache,全部計算一遍。計算復雜度是隨著文本長度平方級增長的,

      同時,這個KV Cache會像滾雪球一樣,迅速吃掉你所有的顯存。把上下文從一萬字拉到一百萬字,計算量不是漲一百倍,是飆升一萬倍。

      這就是為什么傳統架構在長上下文任務面前,會同時撞上計算墻和顯存墻。


      這幾十萬字的上下文,大部分可能只是背景描述,真正關鍵的信息也許就那么幾句。

      但模型為了找到這幾句關鍵信息,付出的代價是把所有內容都用最高精度過了一遍。

      來看看SALA的幾個關鍵的設計,

      首先是兩種模塊的分工。

      線性注意力,我們這里可以理解為負責準的模塊,面壁選用的是Lightning Attention,挑出那些最關鍵的局部信息進行精細計算。稀疏注意力,則是負責快的模塊,面壁選用的是InfLLM v2,會高效計算所有信息。

      SALA就是把這兩者結合了起來。整個模型里,75%的層是負責準的線性注意力,剩下的25%,是負責快的稀疏注意力。這個比例經過大量實驗找出的效率與精度之間的平衡點。


      在不使用任何額外技術(如YaRN)的前提下,MiniCPM-SALA 可以將上下文長度拓展至2048K。

      怎么保證它們能好好合作,不是互相干擾呢?

      SALA用了一個叫HyPE的混合位置編碼策略。在線性層,它保留了RoPE,保證短文本能力不受影響。在稀疏層,它去掉了位置編碼,避免了信息在長距離傳遞時的衰減問題。

      模型在檢索幾萬甚至幾十萬token之前的內容時,依然能保持高精度。


      最后是模型怎么來的。

      這里有一個核心問題,要訓練一個全新的混合架構模型,成本超級高。

      面壁沒有從零開始,反而是提出了一個叫HALO的訓練范式。簡單來說,就是拿一個已經訓練好的全注意力模型,比如MiniCPM-4.0,通過架構轉換,把它的一部分層變成線性注意力,另一部分變成稀疏注意力,然后進行持續訓練。


      這種方式,就像是給一輛性能不錯的汽車做改裝升級,而不是重新設計一輛新車。它繼承了原模型已經學到的所有知識和能力,只是讓它學會了用一種更高效的方式去工作。相比從頭訓練,這個方法的成本直接降低了大約75%。

      這個訓練過程也很有講究,分為架構轉換,穩定訓練,短衰減,長衰減和微調五個階段。特別是在長衰減階段,模型逐步把上下文長度從4K擴展到520K,讓模型充分學習兩種注意力機制協同。

      我們來看效果數據。

      這次面壁并沒有用一堆榜單來證明自己,是出了真實場景下的性能數據,對比的是同等規模的全注意力模型Qwen3-8B,我挑幾個關鍵數據,

      在推理速度上,當上下文長度達到256K時,MiniCPM-SALA的速度是Qwen3-8B的3.5倍。

      這個提升完全來自架構本身的優勢。


      在顯存占用上,在RTX 5090這樣的消費級顯卡上,Qwen3-8B在上下文長度達到128K時,就會因為顯存不足而崩潰。而MiniCPM-SALA可以穩穩地跑到1M,也就是一百萬token的長度。


      但我是個挑剔的人,

      用了會丟信息的注意力,模型是不是沒腦子了?

      這也是這篇工作最有價值的部分。實驗數據顯示,MiniCPM-SALA在數學,代碼,知識問答這些常規能力上,和同規模的全注意力模型基本持平,沒有出現明顯的性能折損。


      傳統的全注意力模型,在處理長文本時,它的注意力容量被大量消耗在維持局部依賴上,比如識別一個多詞組成的人名。而SALA架構,把這些任務交給了更高效的模塊,從而釋放了稀疏注意力層的容量,讓它們可以更專注于建立全局的,跨越超長距離的上下文聯系。

      為了推動這個架構落地,面壁聯合了SGLang和NVIDIA,發起了一個稀疏算子加速大獎賽SOAR。


      SALA雖然在架構上做好了,

      但底層的計算算子,相比已經被優化到極致的FlashAttention,還有很大提升空間。

      這個比賽就是邀請全球的開發者,一起來把SALA這臺新引擎的性能,壓榨到極限。

      平時測評模型測多了,

      都是Coding,Coding,Coding,

      我很高興看到還不斷能有新的架構,

      新的算法出現,

      就算是DeepSeek這一年,

      更新模型的同時也沒停過公開自己的算法,

      面壁過去這一年也是不停發端側模型的工作,

      我覺得就這速度都不需要五年十年,

      可能過個兩三年,

      在小天才手表上也能跑個大大大模型。

      @ 作者 / 卡爾

      最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論

      如果想要第一時間收到推送,不妨給我個星標

      如果你有更有趣的玩法,歡迎在評論區和我聊聊

      更多的內容正在不斷填坑中……


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      徐帆回應離婚5個月,馮小剛近況曝光,內心早已看透一切

      徐帆回應離婚5個月,馮小剛近況曝光,內心早已看透一切

      甜檸聊史
      2026-01-14 14:25:28
      真不能怪祖院長,就曾醫生這顏值、這才華和魅力,誰遭的住?

      真不能怪祖院長,就曾醫生這顏值、這才華和魅力,誰遭的住?

      吃瓜局
      2025-11-11 16:23:49
      50歲之后,有性生活與沒有性生活,差別竟如此之大?看完漲知識了

      50歲之后,有性生活與沒有性生活,差別竟如此之大?看完漲知識了

      鬼菜生活
      2026-02-14 22:13:06
      2026賽季中超首輪,海港、申花分別主場戰河南、大連,負分起步還能爭冠嗎

      2026賽季中超首輪,海港、申花分別主場戰河南、大連,負分起步還能爭冠嗎

      上觀新聞
      2026-02-15 04:23:09
      成都天府大道車輛碰撞事故完成責任認定!涉嫌酒駕當事人全責

      成都天府大道車輛碰撞事故完成責任認定!涉嫌酒駕當事人全責

      南方都市報
      2026-02-14 11:31:25
      烏克蘭在軍事上已經失敗!基輔政權拒不承認!一些前線部隊已崩潰

      烏克蘭在軍事上已經失敗!基輔政權拒不承認!一些前線部隊已崩潰

      少女心盜夢賊
      2026-02-15 03:32:36
      宇樹科技CEO王興興:具身智能時代的牛頓還沒誕生

      宇樹科技CEO王興興:具身智能時代的牛頓還沒誕生

      IT之家
      2026-02-14 20:07:10
      他的事跡至今不敢拍成電影,9次榮獲特等功,400萬解放軍只此一人

      他的事跡至今不敢拍成電影,9次榮獲特等功,400萬解放軍只此一人

      小莜讀史
      2026-02-14 12:44:10
      一位班主任的大實話:長大有本事的孩子,大多都出生在這些家庭

      一位班主任的大實話:長大有本事的孩子,大多都出生在這些家庭

      青蘋果sht
      2026-02-09 06:15:29
      王陽明臨終告誡后人:真正能護你一生的,不是家財萬貫!而是這些

      王陽明臨終告誡后人:真正能護你一生的,不是家財萬貫!而是這些

      千秋文化
      2026-01-29 21:15:30
      電影《匿殺》實時票房破5億

      電影《匿殺》實時票房破5億

      界面新聞
      2026-02-14 18:43:07
      2-1,63歲穆帥發威:率隊22輪不敗,逼近葡超榜首,繼續沖冠軍

      2-1,63歲穆帥發威:率隊22輪不敗,逼近葡超榜首,繼續沖冠軍

      俯身沖頂
      2026-02-14 06:33:36
      雷鋒在長江大橋下的罕見留影,穿戴干凈整齊、清爽帥氣、招人喜愛

      雷鋒在長江大橋下的罕見留影,穿戴干凈整齊、清爽帥氣、招人喜愛

      云霄紀史觀
      2026-01-23 03:48:21
      谷歌DeepMind哈薩比斯:10至15年內,人類將迎來新的黃金時代

      谷歌DeepMind哈薩比斯:10至15年內,人類將迎來新的黃金時代

      IT之家
      2026-02-12 21:32:05
      24勝1負!18勝13負!NBA最危險球隊誕生,不奪冠就該提前解體了

      24勝1負!18勝13負!NBA最危險球隊誕生,不奪冠就該提前解體了

      世界體育圈
      2026-02-15 00:25:09
      馬杜羅在監獄過得怎么樣?其子格拉:聽到父親的聲音,我腿都軟了

      馬杜羅在監獄過得怎么樣?其子格拉:聽到父親的聲音,我腿都軟了

      燦若銀爛
      2026-02-14 08:32:00
      就在今天!2月15日凌晨,國足傳來朱鵬宇、毛偉杰、邵佳一新消息

      就在今天!2月15日凌晨,國足傳來朱鵬宇、毛偉杰、邵佳一新消息

      林子說事
      2026-02-15 00:46:05
      領導干部任職

      領導干部任職

      阿離家居
      2026-02-14 19:04:50
      俄軍小隊被己方消滅?現在連“電報”也不能用了,克宮清理啦啦隊

      俄軍小隊被己方消滅?現在連“電報”也不能用了,克宮清理啦啦隊

      鷹眼Defence
      2026-02-14 12:39:50
      笑麻!原來大家都節儉到這種程度了,網友:打開了新世界的大門

      笑麻!原來大家都節儉到這種程度了,網友:打開了新世界的大門

      三農老歷
      2026-02-12 19:39:14
      2026-02-15 05:16:49
      卡爾的AI沃茨 incentive-icons
      卡爾的AI沃茨
      前大廠算法工程師,3家科技公司技術總監|致力打造最系統的Al學習體系,讓1萬人通過Al提高生產力
      214文章數 94關注度
      往期回顧 全部

      科技要聞

      字節跳動官宣豆包大模型今日進入2.0階段

      頭條要聞

      澤連斯基:沖突可以結束 但首先要結束得體面

      頭條要聞

      澤連斯基:沖突可以結束 但首先要結束得體面

      體育要聞

      最戲劇性的花滑男單,冠軍為什么是他?

      娛樂要聞

      春晚第五次聯排路透 明星積極飯撒互動

      財經要聞

      誰在掌控你的胃?起底百億"飄香劑"江湖

      汽車要聞

      星光730新春促銷開啟 80天銷量破2.6萬臺

      態度原創

      本地
      房產
      教育
      手機
      公開課

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準備

      房產要聞

      三亞新機場,又傳出新消息!

      教育要聞

      假期作業,要定時督促嗎?

      手機要聞

      魅族這回,真的要“涼”了?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版