<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Transformer可以改裝成Mamba了:蘋果把推理成本直接打成線性

      0
      分享至

      編輯|Sia

      最近,蘋果又整了個活兒,很工程、也挺關鍵:

      把又貴又強的 Transformer,改造成又便宜又差不多強的 Mamba。而且,性能基本沒怎么掉。

      聽起來炸不炸?有點像水電煤級別的升級。

      為啥要折騰這個?很簡單,Transformer 確實猛,這十年基本就是靠它打天下。但問題也很現實:它越長越貴,而且是平方級變貴。

      短文本還好,一旦上到長上下文(比如代碼、agent、多輪推理),那成本就不是有點高,而是直接肉疼。



      于是,大家就開始找替代方案。比如線性 attention、RWKV,還有這兩年很火的 Mamba。這些模型的思路都很統一:別再平方爆炸了,改成線性。好處也很直接:更快、更省顯存、推理更絲滑。

      但問題來了, 它們不夠強。尤其一旦規模上去,和 Transformer 還是有差距。于是就卡住了一個經典局面:

      要性能?用 Transformer(但貴) ;
      要便宜?用 Mamba(但弱一點);

      那有沒有可能「既要又要」?能不能不重訓,把 Transformer 的能力,直接搬到 Mamba 上?



      直接蒸餾,性能肯定得崩。Transformer 像那種隨時翻資料的學霸, Mamba 更像全靠記憶的選手。你突然讓一個翻書型選手閉卷考試,還不給過渡—— 那基本就是災難現場。



      蘋果沒有硬剛,而是搞了一個「兩步走」:

      先造一個「中間形態」,讓 Transformer 先變成一個更簡單、更接近 Mamba 的版本。再從這個中間版本,轉成 Mamba。



      用來把 Transformer 里原本計算很貴的 Softmax Attention,換成一個更省算力的 Mamba 模塊。中間加了一個過渡形態:先把 Attention 變成一種學出來的線性 Attention(Hedgehog),再結合Mamba,最終得到一個混合模塊,叫HedgeMamba

      第一步,把原始的 softmax attention 換成一種線性 attention,同時盡量不丟性能。

      問題在于,傳統線性注意力一直有明顯短板,和 softmax attention 的表現差距很大。為了解決這個差距,他們依據Mercer 定理,用了 Hedgehog 方法,用一個小型神經網絡(MLP)去學習一種特征映射,讓線性 attention 盡量模仿原來的行為。

      再通過余弦相似度(cosine similarity)蒸餾,讓這個新結構在輸出上對齊 Transformer。這一步做完,相當于得到一個「更便宜但還挺像 Transformer」的中間模型。



      第二步,是把這個已經對齊好的線性 attention,進一步嵌入到 Mamba 結構里。

      他們做了一件很關鍵的事情:把 attention 里的核心計算方式,對應映射到 Mamba 的內部參數上,讓 Mamba 在初始化的時候,行為就已經接近前一步的模型,而不是從零開始學。這一步本質是在做結構對齊。

      不過,還有一個問題需要處理。原始 attention 自帶一種歸一化機制,而線性版本沒有,所以他們額外加了一步歸一化,讓輸出形式更接近原來的 attention,同時又不破壞計算效率。

      完成這些之后,才進入真正的訓練階段。

      他們對整個模型做微調,用標準的交叉熵訓練,并重新啟用 Mamba 原本的能力,比如卷積和門控( Gate )機制。這一步的作用,是讓模型不只是模仿,而是用自己的方式把能力重新學出來。

      整套方法的關鍵不在某一個技巧,而在這條路徑本身:先讓兩種模型在「表達方式」上對齊,再做結構轉換,最后通過訓練把能力恢復出來。

      也正是因為這樣分步處理,才避免了直接蒸餾時常見的性能崩塌問題。



      效果到底咋樣?性能幾乎沒掉,但成本邏輯已經變了。

      論文里最關鍵的一張表,把三類1B模型擺在一起對比:Transformer教師模型(Pythia)、傳統蒸餾基線( Hedgehog ),以及他們的方法( HedgeMamba )。在只用10B token(大約是教師訓練數據的 2.7% )的情況下,結果非常直接——

      教師模型的困惑度是 13.86,基線方法掉到 14.89,而HedgeMamba把這個指標拉回到 14.11,已經貼得很近了。



      他們用一個大約10B token訓練出來的1B模型做實驗,最后得到的 Mamba 模型能夠保留原始 Pythia-1B Transformer 在下游任務中的性能,其困惑度(perplexity)保持在 14.11,接近老師模型的 13.86。

      這件事的含義其實挺重的。

      過去大家默認一個前提:只要你把 Transformer 換成另一種架構,性能就會明顯掉一截。

      但這篇論文給出的答案是,這個損失可以被大幅追回來。而且,不只是語言建模指標好看,在Arc、PIQA、BoolQ、RACE、LogiQA 這些下游任務上,HedgeMamba基本全面超過基線,同時整體表現已經逼近教師模型。這說明它保留下來的不只是表面的概率分布,而是相當一部分推理能力和語義結構。

      更關鍵的是,這種效果不是調出來的,而是有方法論支撐的。他們嘗試過最直接的做法——從 Transformer 一步蒸餾到 Mamba,結果是 PPL 直接炸到 100 以上,幾乎不可用。

      換句話說,兩階段蒸餾在這里不是優化,而是繞不過去的結構性條件。



      后面的消融和分析,其實是在解釋這條路徑為什么成立。

      比如,架構上,真正起作用的不是簡單疊模塊,而是門控機制——也就是讓模型學會該記什么、不該記什么;

      訓練策略上,兩階段的數據分配也不是平均最優,而是明顯偏向第二階段,說明中間表示只是過渡,真正的能力是在后半段完成遷移;

      再看數據規模,從1B 到 10B token,性能是穩定往上走的,沒有出現不收斂或反復震蕩的情況,這一點很重要,因為它說明這條路線是可以規模化放大的。



      架構消融實驗表明,讓 Mamba 好用的關鍵,不是簡單堆結構,而是門控機制。



      蒸餾的兩步(S1 和 S2),數據到底該怎么分配才最有效?兩階段蒸餾是必要的,而且最優策略是輕S1 + 重S2。



      蒸餾過程中 token 數量(訓練數據量)對效果的影響。似乎只要給足夠多的蒸餾數據,Mamba 可以逼近 Transformer 的性能。

      把這些信息合在一起,這篇工作的價值就不在「又做了一個更好的模型」,而在于它提供了一種新的工程可能性。

      過去幾年積累的大量 Transformer 模型,并不需要全部推倒重來,而是有機會通過一套流程,被「轉制」為更高效的形態。

      如果這件事能穩定復現,那整個開源模型生態、甚至很多公司的自研模型,都有機會被整體降本重構。

      https://arxiv.org/abs/2604.14191

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      張豆豆曝孫楊干涉自己交友:他被好幾個朋友重創過

      張豆豆曝孫楊干涉自己交友:他被好幾個朋友重創過

      懂球帝
      2026-04-17 10:55:07
      掘金再輸森林狼自討苦吃!湖人收獲1喜1憂,G3該他為詹姆斯分憂了

      掘金再輸森林狼自討苦吃!湖人收獲1喜1憂,G3該他為詹姆斯分憂了

      小路看球
      2026-04-24 14:38:15
      今年大師賽丟的第二盤,辛納2-1逆轉邦齊晉級馬德里大師賽第三輪

      今年大師賽丟的第二盤,辛納2-1逆轉邦齊晉級馬德里大師賽第三輪

      懂球帝
      2026-04-25 00:48:09
      國米無緣提前4輪奪冠!那不勒斯4-0差榜首9分,3隊爭四有變數

      國米無緣提前4輪奪冠!那不勒斯4-0差榜首9分,3隊爭四有變數

      體育知多少
      2026-04-25 07:59:39
      謝謝謝娜,貢獻出26年內娛的第一個笑話!

      謝謝謝娜,貢獻出26年內娛的第一個笑話!

      娛樂圈筆娛君
      2026-03-04 14:03:54
      失業后在小縣城的兩年發現,打麻將和性生活才是普通人底色!

      失業后在小縣城的兩年發現,打麻將和性生活才是普通人底色!

      黯泉
      2026-04-01 17:44:20
      火湖G3,湖人該讓一場?若橫掃火箭,挑戰雷霆,或難湊齊完整陣容

      火湖G3,湖人該讓一場?若橫掃火箭,挑戰雷霆,或難湊齊完整陣容

      熊哥愛籃球
      2026-04-24 22:30:38
      局勢改寫!韓國瑜大獲全勝,鄭麗文才是關鍵?朱立倫落敗原因曝光

      局勢改寫!韓國瑜大獲全勝,鄭麗文才是關鍵?朱立倫落敗原因曝光

      小嵩
      2026-04-25 05:08:17
      砍掉26號線:一鯨落萬物生?

      砍掉26號線:一鯨落萬物生?

      吃貨的分享
      2026-04-24 06:36:51
      何塞·穆里尼奧確認“皇馬條款”,重燃回歸伯納烏傳聞

      何塞·穆里尼奧確認“皇馬條款”,重燃回歸伯納烏傳聞

      綠茵情報局
      2026-04-25 01:20:20
      印度這次被狠狠宰了!天價買尿素,935美元一噸,比中國貴4倍

      印度這次被狠狠宰了!天價買尿素,935美元一噸,比中國貴4倍

      軒逸阿II
      2026-04-25 02:09:41
      大老師,這也太美了!

      大老師,這也太美了!

      貴圈真亂
      2026-04-24 10:50:13
      小區多戶還沒收房,已有人在樓頂準備加蓋,還有人切割一樓和地下室貫通,西安大明宮璞悅府購房者好擔心:房子安全還有保障嗎?

      小區多戶還沒收房,已有人在樓頂準備加蓋,還有人切割一樓和地下室貫通,西安大明宮璞悅府購房者好擔心:房子安全還有保障嗎?

      大風新聞
      2026-04-24 08:32:18
      雙胞胎兄弟殺害富豪父親,將其從29層推下,母親:他們有苦衷

      雙胞胎兄弟殺害富豪父親,將其從29層推下,母親:他們有苦衷

      星宇共鳴
      2025-09-18 18:10:55
      斯盧茨基沒看錯他!本賽季堅持要留下的申花王牌,本輪貢獻進球

      斯盧茨基沒看錯他!本賽季堅持要留下的申花王牌,本輪貢獻進球

      懂個球
      2026-04-24 21:43:15
      教育紀傳體7:教師群體之內的骯臟齷齪,你們永遠不會懂!(二)

      教育紀傳體7:教師群體之內的骯臟齷齪,你們永遠不會懂!(二)

      雙旗鎮客棧
      2026-04-24 21:18:20
      八十歲后,老人能活到以下狀態,就是人生贏家,便是圓滿!

      八十歲后,老人能活到以下狀態,就是人生贏家,便是圓滿!

      小談食刻美食
      2026-04-22 07:33:20
      新四軍進山東,第一仗就和八路軍擦槍走火,雙方各傷亡多少人?

      新四軍進山東,第一仗就和八路軍擦槍走火,雙方各傷亡多少人?

      舊書卷里的長安
      2026-04-23 22:12:41
      同學聚會,班長讓我給遲到的鎮長讓座,下一秒,縣長向我道歉

      同學聚會,班長讓我給遲到的鎮長讓座,下一秒,縣長向我道歉

      農村情感故事
      2026-03-23 07:31:39
      603959,將被ST!600965,或被*ST

      603959,將被ST!600965,或被*ST

      證券時報e公司
      2026-04-24 21:00:13
      2026-04-25 08:20:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12852文章數 142635關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4牽手華為,價格依然"屠夫級"

      頭條要聞

      兩屆奧運冠軍、中國羽協主席張軍"失聯" 知情人士發聲

      頭條要聞

      兩屆奧運冠軍、中國羽協主席張軍"失聯" 知情人士發聲

      體育要聞

      上海男籃23連勝+主場全勝 姚明之后最強一季

      娛樂要聞

      停工16個月!趙露思證實接拍新劇

      財經要聞

      LG財閥內斗:百億美元商業帝國爭奪戰

      汽車要聞

      零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

      態度原創

      家居
      時尚
      手機
      教育
      本地

      家居要聞

      自然肌理 溫潤美學

      今日熱點:愛奇藝回應暫停頁面廣告爭議;經紀公司否認THEBOYZ解約成功……

      手機要聞

      iQOO 15T首曝:天璣9500+144Hz 2K直屏+200MP主攝,主打一個堆料

      教育要聞

      教室火鍋”被人民日報點贊,卻被家長瘋狂舉報

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統文化

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产女主播免费在线观看| av免费在线观看成人| 亚洲精品天天影视综合网 | 丰满少妇人妻久久久久久| 又爽又黄又无遮挡的视频| 久久精品夜夜夜夜夜久久| 伊人精品久久久大香线蕉| 99re久久资源最新地址| 欧美一区二区三区在线观看| 人妻精品成人| 国产成人精品综合久久久| 欧美日韩中文字幕久久伊人| 熟女丝袜国产| 国产精品白丝在线观看有码| AV国内高清啪啪| 无码福利日韩神码福利片| 国产精品亚洲一区二区三区 | 汾阳市| 在线看片免费人成视频久网下载| 欧美日产国产精品| 夊夊夊夂夂夂夂夂夂夂亚洲亚洲亚洲亚洲色色色| 欧美日本在线一区二区三区| 少妇被粗大的猛烈进出动视频| 久色精品国产亚洲av麻豆一| 老色鬼在线精品视频在线观看| 国产麻花豆剧传媒精品mv在线| 日韩精品国产另类专区| 亚洲不卡| 日日视频色| 亚洲无码2| 亚洲人精品亚洲人成在线| 干老熟女干老穴干老女人| 国禁国产you女视频网站| 一起草av| 手机在线免费av网站| 国产成人综合久久精品免费| 濮阳县| 精品国产乱码久久久久夜深人妻| 日本在线观看| 一边捏奶头一边高潮视频| 亚洲熟女无码在线|