<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      15%全量Attention!「RTPurbo」阿里Qwen3長文本推理5倍壓縮方案

      0
      分享至



      機器之心發(fā)布

      為什么大模型廠商給了 128K 的上下文窗口,卻在計費上讓長文本顯著更貴?

      為什么 Claude 能 “吞下整本書”,但官方示例往往只展示幾千字的文檔?

      為什么所有大模型廠商都在卷 “更長上下文”,而真正做落地的產(chǎn)品經(jīng)理卻天天琢磨 “怎么把用戶輸入變短”?

      這些看似矛盾的現(xiàn)象,其實答案藏在一個長期被技術(shù)光環(huán)遮掩的真相里:

      長序列,正在成為大模型應(yīng)用里最昂貴的奢侈品

      在當(dāng)前主流的 Full Attention 機制下,計算開銷會隨著輸入長度平方增長,序列一長,處理就變得 “又貴又慢”(見圖 1)。針對這一核心難題,阿里 RTP-LLM 團隊提出了一種全新的后訓(xùn)練壓縮方案:RTPurbo。在不損失模型效果的前提下,實現(xiàn)了 Attention 計算5 倍壓縮(見圖 2)。



      左圖 1:長序列 Attention 計算成本瓶頸;右圖 2:RTPurbo 極大降低 Attention 計算開銷

      總的來說, RTPurbo 采用了一種非侵入式的壓縮方法:通過分辨 LLM 內(nèi)部的長程 Attention Head,僅保留關(guān)鍵 Head 的全局信息,對于剩下冗余的 Head 直接丟棄遠程 Tokens。這種 Headwise 級別的混合算法以其簡潔的方案設(shè)計和優(yōu)越的算子兼容性,極大地降低了大模型在長序列下的推理代價,為新一代 LLM 結(jié)構(gòu)設(shè)計提供了一個新的視角和演進方向。

      目前,項目模型與推理代碼已經(jīng)發(fā)布至 Huggingface、ModelScope 平臺,感興趣的讀者可以閱讀 RTP-LLM 相應(yīng)的技術(shù) blog 了解更多細節(jié)。

      1. https://huggingface.co/RTP-LLM/Qwen3-Coder-30B-A3B-Instruct-RTPurbo
      2. https://modelscope.cn/models/RTP-LLM/Qwen3-Coder-30B-A3B-Instruct-RTPurbo



      圖 3:RTPurbo 采用混合壓縮方案,僅有少數(shù) Attention Head 使用全量 Attention)

      化繁為簡,被低估的 SWA



      但在真實落地中,這兩條路線都有較明顯的共性代價:一方面,它們通常強依賴大量后訓(xùn)練,工程實現(xiàn)與適配成本也更高;另一方面,Linear Attention 在壓縮信息后,長序列下的召回能力顯著弱于 Full Attention [1],因此往往需要與 Full Attention 混合使用,帶來性能與加速收益的雙重上限。此外,Linear / Sparse Attention 的算子與調(diào)度設(shè)計相對復(fù)雜,也進一步影響其在工程生態(tài)中的通用性、可維護性與一致性。也正因如此,一些前期工作 [2] 反而把目光投向看似 “簡單粗暴” 的 Sliding Window Attention(SWA),例如 gpt-oss 和 MiMo ,這在一定程度上說明 SWA 并非 “權(quán)宜之計”,而是一種可規(guī)?;瘡?fù)用的工程選擇。

      在進一步分析現(xiàn)有 LLM 的注意力模式后,團隊觀察到一個更細粒度的關(guān)鍵現(xiàn)象:絕大多數(shù) Attention Head 天然更偏好局部信息,只有極少數(shù) “長程頭” 能在長文本中穩(wěn)定地定位并召回關(guān)鍵關(guān)聯(lián)信息?;谶@一現(xiàn)象,團隊提出了一個關(guān)鍵假設(shè):

      類似人類的閱讀與寫作過程,LLM 在處理長文本時,往往會先從長上下文中 “召回” 相關(guān)信息,再在相對局部的上下文范圍內(nèi)完成推理并輸出答案

      換句話說,模型內(nèi)部可能只有少量 Attention Head 真正在承擔(dān) “信息召回” 的職責(zé):它們通過注意力機制把遠距離信息搬運到當(dāng)前的 Residual Stream(信息通道)中,讓后續(xù)層可以在更局部、更高信噪比的狀態(tài)下完成推理。這也直接意味著:對于那些并不承擔(dān)長程依賴的 Attention Head,其實并不需要使用 Full Attention—— 長序列場景存在可觀的壓縮空間。

      為了驗證這一假設(shè),團隊設(shè)計了一個直觀的對比試驗:

      1. 方案一:只有 15% 的長程頭使用 Full Attention,剩余 85% 使用 SWA;
      2. 方案二:15% 的長程頭使用 SWA,剩余 85% 使用 Full Attention。

      如表 1 所示,盡管方案二保留了 85% 的 KV cache,但是其長文能力仍然顯著劣于方案一。



      表 1:方案一只用 15% 的 Full Attention,長文效果顯著優(yōu)于方案二

      進一步地,在不做任何微調(diào)的情況下,方案一在長文本指標上也非常有競爭力(表 2),幾乎無損:



      表 2:方案一不經(jīng)過訓(xùn)練,在 Ruler 上無損

      不過,在某些特定的長文任務(wù)上,未經(jīng)微調(diào)的壓縮模型仍會出現(xiàn)明顯的性能退化(見表 3)。其根源在于:壓縮前后注意力模式的直接切換會對模型輸出造成一定擾動,需要額外訓(xùn)練來 “消化” 這種變化。



      表 3:方案一在特殊 benchmark 上仍然存在顯著負向

      因此,為實現(xiàn)更接近 “無損” 的壓縮,團隊進一步提出了一個面向 RL 后模型的壓縮訓(xùn)練范式:在不依賴高質(zhì)量標注數(shù)據(jù)的前提下,僅通過輕量級微調(diào),就能顯著提升壓縮后模型在長文任務(wù)上的表現(xiàn)。

      自蒸餾,從根本上解決數(shù)據(jù)問題

      當(dāng)前主流 LLM 通常采用 “預(yù)訓(xùn)練 + 后訓(xùn)練 + RL” 的訓(xùn)練范式,如果直接使用長文 SFT / 預(yù)訓(xùn)練語料進行續(xù)訓(xùn),會帶來兩方面挑戰(zhàn):

      1. RL 后模型在經(jīng)過 SFT 會出現(xiàn)過擬合甚至災(zāi)難性遺忘,損傷短文本任務(wù)上的原有能力(見表 4);
      2. 高質(zhì)量的長文本語料難以獲取。



      表 4:Qwen3-30B-A3B-Instruct RL 后模型繼續(xù) SFT 會過擬合,造成災(zāi)難性遺忘

      為解決這兩點,RTPurbo 使用 “模型自蒸餾” 作為關(guān)鍵訓(xùn)練策略:讓壓縮后的模型對齊原模型輸出,從而同時化解數(shù)據(jù)與能力保留問題:

      1. 僅對模型自身的輸出進行對齊,避免依賴特定領(lǐng)域的問答數(shù)據(jù),從而確保短文本下游指標基本無損;
      2. 只需使用長文本預(yù)訓(xùn)練語料即可完成訓(xùn)練,使模型快速適應(yīng) headwise 稀疏的工作模式。

      實測中,僅使用約 1 萬條 32k 長度的預(yù)訓(xùn)練語料(訓(xùn)練時間小時級),RTPurbo 就能讓長文任務(wù)表現(xiàn)與原模型持平。

      結(jié)果對比

      在長文本測試場景下,RTPurbo 僅保留約 15% 的 Attention Heads 使用 Full KV cache,壓縮后的 Qwen-Coder-Plus、Qwen3-30B-A3B-Instruct 在多項長文指標上可與未壓縮模型齊平,充分驗證了壓縮后模型的精度保障。



      更重要的是,這種壓縮并非以犧牲通用能力為代價。在多項短文本(通用)Benchmark 上,采用自蒸餾范式訓(xùn)練后的模型并未出現(xiàn)性能衰減,原有對話、推理和代碼理解等能力都得到了良好保留。



      這表明,RTPurbo 不僅是一種單一模型的 “特定優(yōu)化技巧”,而是一套具有良好可遷移性和通用性的長序列加速方案,可為更大規(guī)模、更多架構(gòu)的 LLM 提供高性價比的推理加速路徑。

      從大模型可解釋性到 LLM 壓縮

      早期可解釋性工作 [3] 已指出:模型內(nèi)部存在很強的 “召回” 機制,一部分特定 Attention Head 能穩(wěn)定定位前文相關(guān)信息。團隊成員的前期工作 [2] 也觀察到這些 Head 在長文場景仍保持類似行為。

      與此同時,在 [4] 中,作者指出 Softmax 本身在長序列存在熵增的問題。更具體的,隨著序列變長,每個 Token 的注意力不可避免的變得更加彌散(信噪比降低),如下圖所示:



      圖 4:Attention 在長序列下存在信噪比下降的問題

      因此,為了避免遠程信息干擾模型本身的推理能力,LLM 內(nèi)部實現(xiàn)了一種非常巧妙的機制:

      • 多數(shù) Head 只處理局部信息,以獲得更高信噪比;
      • 少數(shù) Head 負責(zé)從遠處 “召回” 關(guān)鍵信息并搬運到當(dāng)前位置,使后續(xù)層能在局部范圍內(nèi)完成推理。

      這與 RTPurbo 的 headwise 設(shè)計高度一致:把 “全局召回” 能力集中保留給少量關(guān)鍵 Head,其余 Head 則用工程收益更穩(wěn)定的 SWA 來承載。

      RTP-LLM:RTPurbo 在長文上的極致性能優(yōu)化



      圖 5:RTPurbo HeadWise Attention 性能加速結(jié)果,圖上結(jié)果僅使用 15% 的 Full Attention

      RTPurbo 按固定比例劃分 SWA Head 與 Full Head 雖然直觀有效,但工程上必須解決一個問題:不同 Head 計算模式與計算量不一致,會導(dǎo)致負載不均衡,影響 GPU 并行效率與端到端吞吐。

      為此,RTP-LLM 圍繞該不均衡在算子層與框架層做了針對性優(yōu)化,核心包括:

      • Full Attention Head 的 PTX 級優(yōu)化:對仍需全量計算的 Full Head 深入 PTX 指令層,利用 gmma::mma_async_shmA 等異步拷貝與矩陣乘指令提升效率;融合 IO warps 與 P/V 計算階段,優(yōu)化 Ping-Pong 流水與調(diào)度,減少空轉(zhuǎn)等待。
      • 稀疏度感知的負載均衡調(diào)度:針對 Tail Latency,采用稀疏度感知動態(tài)調(diào)度(如反向拓撲排序),優(yōu)先分配重 tile 給 SM,使各 SM 更同步完成任務(wù),降低尾延遲、提升吞吐。
      • SWA 的高效實現(xiàn):避免傳統(tǒng) SWA 常見的 “三段式 KV 拼接” 或 “Custom Mask” 做法(訪存與調(diào)度開銷大),通過重塑數(shù)據(jù)布局與計算路徑減少冗余訪存與額外算子開銷。
      • 用 CP(Context Parallel)替代 TP(Tensor Parallel):在 headwise 稀疏場景下,TP 易導(dǎo)致算力利用率低且不夠靈活;采用 CP 讓單卡完成全部 head 的 attention 計算,提高 GPU 利用率,并通過計算 - 通信重疊降低通信開銷。

      綜合以上優(yōu)化,RTP-LLM 能將 Attention 稀疏帶來的理論收益穩(wěn)定、可復(fù)現(xiàn)地轉(zhuǎn)化為端到端加速;在 256k 長序列下實現(xiàn)單算子最高 9× 加速(見圖 5,圖中僅 15% Head 使用 Full Attention)。

      團隊介紹

      RTP-LLM 是阿里巴巴智能引擎團隊自研的高性能大模型推理引擎,支持了淘寶、天貓、高德、餓了么等核心業(yè)務(wù)的大模型推理需求。智能引擎源自阿里巴巴搜索、推薦和廣告技術(shù),是阿里 AI 工程領(lǐng)域的先行者和深耕者。團隊專注于 AI 工程系統(tǒng)的建設(shè),主導(dǎo)建立了大數(shù)據(jù) AI 工程體系 AI?OS,持續(xù)為阿里集團各業(yè)務(wù)提供高質(zhì)量的 AI 工程服務(wù)。

      RTP-LLM 項目已開源,歡迎交流共建: https://github.com/alibaba/rtp-llm

      參考文獻:

      [1]: Repeat After Me:Transformers are Better than State Space Models at Copying.

      [2]: RazorAttention: Efficient KV Cache Compression Through Retrieval Heads

      [3]: In-context Learning and Induction Heads

      [4]: 蘇建林,“注意力機制真的可以集中注意力嗎?”,https://www.spaces.ac.cn/archives/9889

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      8年青春換來丈夫出軌,孩子也被搶走,如今張嘉倪讓前夫高攀不起

      8年青春換來丈夫出軌,孩子也被搶走,如今張嘉倪讓前夫高攀不起

      畫畫影視
      2025-12-23 16:41:16
      官宣:海港助教出任主帥

      官宣:海港助教出任主帥

      五星體育
      2025-12-22 21:41:45
      大漲2%,黃金再創(chuàng)歷史新高

      大漲2%,黃金再創(chuàng)歷史新高

      每日經(jīng)濟新聞
      2025-12-23 07:43:24
      大結(jié)局來了?仁愛礁周邊被清空,中國拖船已就位,菲律賓別無選擇

      大結(jié)局來了?仁愛礁周邊被清空,中國拖船已就位,菲律賓別無選擇

      小莜讀史
      2025-12-20 14:18:17
      開拓者8分惜??!克林根17+10+2,賽后小楊站在場邊,略顯落寞

      開拓者8分惜??!克林根17+10+2,賽后小楊站在場邊,略顯落寞

      擔(dān)酒
      2025-12-23 13:46:24
      賴昌星發(fā)妻曾明娜現(xiàn)狀:逃亡10年后回國,守著3000平老宅安靜養(yǎng)老

      賴昌星發(fā)妻曾明娜現(xiàn)狀:逃亡10年后回國,守著3000平老宅安靜養(yǎng)老

      古書記史
      2025-12-12 11:21:38
      血虧!朗尼克為曼聯(lián)力薦 9 大新星,全沒簽!如今個個成豪門大腿

      血虧!朗尼克為曼聯(lián)力薦 9 大新星,全沒簽!如今個個成豪門大腿

      瀾歸序
      2025-12-22 19:31:22
      吉林省委:領(lǐng)導(dǎo)干部要用90%以上的時間調(diào)查研究,了解真情況、找準真問題、真解決問題

      吉林省委:領(lǐng)導(dǎo)干部要用90%以上的時間調(diào)查研究,了解真情況、找準真問題、真解決問題

      新京報政事兒
      2025-12-23 14:17:40
      合租四年的女室友,突然要辭職回家相親,我打趣說:別走了嫁給我

      合租四年的女室友,突然要辭職回家相親,我打趣說:別走了嫁給我

      今天說故事
      2025-12-20 10:04:23
      萬萬沒想到,46條中日航線剛?cè)咳∠?,就炸出來一群“妖魔鬼怪?>
    </a>
        <h3>
      <a href=童童聊娛樂啊
      2025-12-23 12:38:44
      大調(diào)整!徐正源離隊后蓉城換血,解約“夜店王子”,欲簽國腳中鋒

      大調(diào)整!徐正源離隊后蓉城換血,解約“夜店王子”,欲簽國腳中鋒

      體壇鑒春秋
      2025-12-22 17:56:02
      約基奇三雙完爆前任,穆雷27+6+5約翰遜百發(fā)百中,掘金大勝爵士

      約基奇三雙完爆前任,穆雷27+6+5約翰遜百發(fā)百中,掘金大勝爵士

      釘釘陌上花開
      2025-12-23 12:19:42
      0分+5犯規(guī)!2米06廣東隊舊將退化嚴重 球迷:快點退役吧

      0分+5犯規(guī)!2米06廣東隊舊將退化嚴重 球迷:快點退役吧

      體育哲人
      2025-12-23 14:49:02
      研究發(fā)現(xiàn):主食一換,每年癌死少一半,提倡吃4種主食,建議看看

      研究發(fā)現(xiàn):主食一換,每年癌死少一半,提倡吃4種主食,建議看看

      展望云霄
      2025-12-17 21:34:55
      51年漢奸黃標在刑場上仰天長嘆:冤枉??!我每月給新四軍30萬軍餉

      51年漢奸黃標在刑場上仰天長嘆:冤枉?。∥颐吭陆o新四軍30萬軍餉

      蕭竹輕語
      2025-12-16 19:17:47
      起底福原愛新任老公:小5歲的橫濱大谷翔平 早稻田學(xué)霸 年薪90萬

      起底福原愛新任老公:小5歲的橫濱大谷翔平 早稻田學(xué)霸 年薪90萬

      念洲
      2025-12-23 09:19:49
      南博事件還未平!北京一捐贈300多件藏品者后人,表示想去查查帳

      南博事件還未平!北京一捐贈300多件藏品者后人,表示想去查查帳

      火山詩話
      2025-12-21 08:48:38
      1月2次慘敗,長征十二號甲回收失利,火箭發(fā)動機故障高空失控燃燒

      1月2次慘敗,長征十二號甲回收失利,火箭發(fā)動機故障高空失控燃燒

      聞識
      2025-12-23 11:46:29
      南博事件升級!參與定"偽"的專家徐沄秋被扒,果然有情況

      南博事件升級!參與定"偽"的專家徐沄秋被扒,果然有情況

      鋭娛之樂
      2025-12-21 08:30:41
      A股:大家做好準備了,明天(12月24日),A股或?qū)⒂瓉砀蟮淖儽P

      A股:大家做好準備了,明天(12月24日),A股或?qū)⒂瓉砀蟮淖儽P

      財經(jīng)大拿
      2025-12-23 11:32:03
      2025-12-23 17:27:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      11978文章數(shù) 142517關(guān)注度
      往期回顧 全部

      科技要聞

      慘烈90分鐘!快手驚魂:遭遇最強黑產(chǎn)攻擊

      頭條要聞

      媒體:對一度沒國際賽可踢的國足 "亞國聯(lián)"是雪中送炭

      頭條要聞

      媒體:對一度沒國際賽可踢的國足 "亞國聯(lián)"是雪中送炭

      體育要聞

      楊瀚森連續(xù)5場DNP!開拓者遭活塞雙殺

      娛樂要聞

      阿信發(fā)聲報平安,曬演唱會向F3索吻畫面

      財經(jīng)要聞

      祥源系百億產(chǎn)品爆雷 浙金中心18人被拘

      汽車要聞

      四款新車集中發(fā)布 星途正式走進3.0時代

      態(tài)度原創(chuàng)

      旅游
      時尚
      親子
      手機
      藝術(shù)

      旅游要聞

      琴島觀瀾丨“小票根””撬動“大消費”,解鎖冬游青島新玩法

      推廣|| 用完立馬復(fù)購!百元get大牌膚感

      親子要聞

      莎莎這孩子是真的懂事。腳扭傷之后

      手機要聞

      思特威、豪威國產(chǎn)旗艦傳感器大曝光:1/1.28英寸200Mp LOFIC

      藝術(shù)要聞

      朱總理的詩句驚艷眾人,張家界竟藏有這樣的美景!

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 免费看无码网站成人A片| 柞水县| 成人AV免费| 女人被狂躁c到高潮| 崇州市| 国产成人精品无人区一区| 国产乱子经典视频在线观看| 中国china体内裑精亚洲日本| 小金县| 成人免费ā片在线观看| 天堂网亚洲综合在线| 无码人妻品一区二区三区精99| 国产午夜福利视频在线观看| 乐都县| 亚洲天堂在线播放| 久久综合亚洲色一区二区三区| 精品久久久久久无码专区不卡| 亚洲成人色情| 亚洲乱码av中文一区二区| 中文字幕av一区二区三区人妻少妇| 精品无码一区二区三区| 剑河县| 国产三级a三级三级| 性色av 一区二区三区| 平泉县| 中文字幕乱码中文字幕| 日韩AV无码电影| 天天鲁一鲁摸一摸爽一爽| 久久久久免费看黄a片app| 国内自拍av| 亚洲熟妇国产熟妇肥婆| 亚洲欧美中文字幕| 亚洲性网| 午夜福利影院不卡影院| 丰满少妇人妻无码| 欧美一区二区三区久久综合| 日本熟妇大乳| 亚洲另类综合网| 无码偷拍| 日韩蜜桃AV无码中文字幕不卡高清一区二区 | 中国AV网|