<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      全球最強推理引擎還快2倍,斯坦福、普林斯頓破解大模型串行魔咒

      0
      分享至

      機器之心編輯部


      在大語言模型推理領域,雖然「推測解碼」(Speculative Decoding,SD)已成為加速生成的標準配置,但它依然存在一個致命弱點: drafting(草擬)和 verification(驗證)之間必須串行進行。

      近日,來自斯坦福、普林斯頓大學和 Together AI 的研究團隊提出SSD 框架及其優化算法 SAGUARO,成功實現了草擬和驗證的并行化。



      • 論文鏈接:https://arxiv.org/pdf/2603.03251
      • GitHub 鏈接:https://github.com/tanishqkumar/ssd

      據介紹,該算法推理速度比世界上最強大的推理引擎都快 2 倍。



      「推測性推測解碼」(Speculative Speculative Decoding,簡稱 SSD),是一種新型的推測性解碼 (SD)。在傳統的 SD 中,一個小且快速的模型會先猜測大且慢的模型可能生成的下幾個 token,然后大模型通過一次前向傳播驗證這些猜測,草擬和驗證是依次進行的。

      而在 SSD 中,這兩個過程是并行發生的,完全消除了運行小模型的開銷。



      并行執行草擬和驗證是很棘手的,因為你無法在某事物存在之前對其進行驗證,也無法推測你不知道的前綴之外的內容。在 SSD 中,研究者預先設定驗證結果,并在獨立硬件上進行驗證的同時進行推測。這樣一來,如果其中一種驗證結果出現,推測就能立即生效。

      雖然論文對算法進行了詳盡的理論描述,但在實踐中,研究者大部分時間都花在如何讓它與現代推理引擎中各種優化技術(Paged Attention、Prefix Caching、CUDAGraphs 等)協同工作上。

      作者 Tanishq Kumar 表示,「真的,我花在了解 CPU/GPU 同步問題上的時間遠遠超過了我的預期」。



      要使新算法達到 SOTA 水平,需要精心設計系統和算法。總的來說,SSD 推動了延遲 - 吞吐量帕累托前沿的發展,其方式與普通推測解碼推進標準自回歸算法的發展非常相似。



      Tanishq Kumar 稱:「我對快速推理感到興奮,因為我非常關注的一個人工智能工作負載是超長時域推理。想象一下,一個擁有大量 B200 的數據中心完全用于運行一個模型,該模型需要處理數十億個 token 來證明 P 與 NP 的區別。在這種情況下,延遲減半就意味著可以進行雙倍深度的思考!」



      SSD 如何實現草擬與驗證并行?

      現代 AI 對推理速度有著極高的要求。然而,標準的語言模型解碼是按順序生成單個 token,未能利用現代硬件上可用的大規模并行計算。

      推測性解碼(SD)是一種為了解決這個問題而引入的技術。它使用一個快速的「草擬模型」來預測目標模型可能將生成的下幾個 token,而不是從目標模型中進行緩慢的自回歸采樣,然后通過目標模型的并行前向傳播驗證這些 token。這一驗證是按照一個算法進行的,確保生成的 token 是從目標模型的分布中采樣的。

      在每次驗證中,目標模型決定接受多少個推測的 token,并采樣一個額外的獎勵 token,該 token 跟隨所有已接受的 token。盡管推測性解碼有效,但它本身仍受限于串行依賴:必須等待當前驗證完成后,才能開始下一輪推測。

      那么,我們能否消除草擬和驗證之間的順序依賴呢?

      研究者引入推測性推測解碼(SSD),這是一個旨在并行化草擬和驗證的統一框架。

      在 SD 中,草擬模型必須等待驗證完成,才能開始推測下一輪,而在 SSD 中,草擬模型會預測最可能的驗證結果,并在驗證進行的同時,針對所有可能的結果進行并行的提前推測。如果這些預準備的結果中的任何一個發生,草擬模型可以立即將預推測的 token 發送給驗證器,從而避免草擬階段的開銷。與普通的推測性解碼一樣,SSD 也是無損的。不同之處在于,SSD 的草擬模型部署在與目標模型不同的硬件上。

      優化 SSD 算法主要面臨三大挑戰。

      首先,草擬模型必須準確預測驗證結果,這不僅包括接受了多少個推測的 Token,還包括采樣的獎勵 token。其次,推測器的接受率與其預測驗證結果的能力之間存在微妙的權衡,必須謹慎處理以最大化加速比。此外,任何 SSD 算法都必須具備處理預測失敗的回退策略,因為在大批處理量和高隨機性(Temperature)下,預測失敗會頻繁發生,若處理不當,即時補救的開銷將抵消異步帶來的收益。

      為此,他們推出了Saguaro,這是一個優化的 SSD 算法,針對上述挑戰進行了定向優化。

      • 將預測驗證結果的問題轉化為約束優化問題,并引入了一種技術,利用最可能的草擬 logits 來預測獎勵 token,準確率最高可達 90%。
      • 識別了預測準確性與生成高質量推測之間的張力,并開發了一種能夠平衡二者的采樣算法。
      • 探討了處理預測失敗的多種策略,發現最優回退策略隨批處理大小而異。通過采用這些優化,盡管 Saguaro 在處理每個批次元素時進行了更多計算(同時解碼多種可能的結果),其表現仍比標準 SD 高出 20%。

      總的來看,Saguaro 相比優化的推測性解碼實現了高達 2 倍的加速,相比自回歸生成實現了高達 5 倍的加速,并在各種批處理規模下均顯著提升了吞吐量與延遲的帕累托前沿。

      不過,該領域仍有許多值得探索的方向。SSD 可以自然地與 EAGLE 技術以及token-tree推測(Token-tree speculation)相結合,但這種聯合設計及其權衡空間在很大程度上尚未被發掘。

      此外,通過擴展草擬設備的數量以及推測緩存,延遲可以進一步減少,盡管回報最終會遞減。最后,在集群層面跨多個目標模型部署共享推測端點——類似于預填充-解碼分解)——是另一個自然的研究方向。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美鷹派專家:美中拼個你死我活,而最大贏家無疑是俄印歐。

      美鷹派專家:美中拼個你死我活,而最大贏家無疑是俄印歐。

      阿七說史
      2026-03-31 15:34:23
      美伊還未停火,又一國要迎戰美軍,中國無視警告,先一步送上援助

      美伊還未停火,又一國要迎戰美軍,中國無視警告,先一步送上援助

      凡知
      2026-04-01 17:42:38
      德國外長:臺海有事就是德國有事,我們不能允許暴力改變臺海現狀

      德國外長:臺海有事就是德國有事,我們不能允許暴力改變臺海現狀

      老范談史
      2026-04-01 12:49:47
      廣州大學一教室多扇窗戶被風吹壞,后勤處:有數名學生皮外傷,施工單位將進場修繕

      廣州大學一教室多扇窗戶被風吹壞,后勤處:有數名學生皮外傷,施工單位將進場修繕

      極目新聞
      2026-03-31 20:09:28
      連續開車4小時需休息20分鐘!駕駛新規來了,網友:“堵車怎么算? ”

      連續開車4小時需休息20分鐘!駕駛新規來了,網友:“堵車怎么算? ”

      東莞好生活
      2026-03-31 21:56:05
      4連板、2連板!醫藥股,連續大爆發

      4連板、2連板!醫藥股,連續大爆發

      新浪財經
      2026-04-01 11:53:51
      怒了!湖北男子買偉哥無效,反手掃50盒索賠7萬多,藥店哭著賠錢還被吊銷執照

      怒了!湖北男子買偉哥無效,反手掃50盒索賠7萬多,藥店哭著賠錢還被吊銷執照

      小怪吃美食
      2026-04-01 14:33:29
      內娛女神劉詩詩驚艷蛻變?飽滿身姿暗藏極致女人味,這身材太絕?

      內娛女神劉詩詩驚艷蛻變?飽滿身姿暗藏極致女人味,這身材太絕?

      娛樂領航家
      2026-03-10 22:00:04
      美伊大戰,卻打掉了印度的國運,莫迪終于為自己的短視付出代價!

      美伊大戰,卻打掉了印度的國運,莫迪終于為自己的短視付出代價!

      知法而形
      2026-03-31 19:15:36
      曼聯切赫或回歸挑戰拉門斯,可助拉爵節省轉會費!但拒絕只當替補

      曼聯切赫或回歸挑戰拉門斯,可助拉爵節省轉會費!但拒絕只當替補

      羅米的曼聯博客
      2026-04-01 11:12:08
      殯儀館燒尸人:一具遺體最少賣八千塊,年輕漂亮的女尸賣得更貴

      殯儀館燒尸人:一具遺體最少賣八千塊,年輕漂亮的女尸賣得更貴

      吳學華看天下
      2024-08-15 14:45:07
      林彪的兒子要結婚,葉群在全國選美,毛主席得知說了5個字

      林彪的兒子要結婚,葉群在全國選美,毛主席得知說了5個字

      揚平說史
      2026-03-25 21:04:04
      淚目!全紅嬋哽咽揭秘體重增加:每天只吃1頓,接受不了這么胖

      淚目!全紅嬋哽咽揭秘體重增加:每天只吃1頓,接受不了這么胖

      李喜林籃球絕殺
      2026-03-30 11:48:54
      A股:不必等明天開盤了,股市已經有變化,周四很可能這樣走了

      A股:不必等明天開盤了,股市已經有變化,周四很可能這樣走了

      財經大拿
      2026-04-01 12:37:18
      蒙古國九個月內三換總理,前說唱歌手臨危受命,面臨“三重危機”

      蒙古國九個月內三換總理,前說唱歌手臨危受命,面臨“三重危機”

      讓心靈得以棲息
      2026-04-01 17:41:17
      3年衰減40%!司機排隊加裝電池續命 專家:這些車都是移動炸彈

      3年衰減40%!司機排隊加裝電池續命 專家:這些車都是移動炸彈

      快科技
      2026-03-30 11:37:15
      奧運冠軍“拉拉鏈露胸”,讓耐克繃不住了!

      奧運冠軍“拉拉鏈露胸”,讓耐克繃不住了!

      品牌營銷報
      2026-02-23 11:31:10
      “唯一一條窮路被你找到了”,33歲農村女生考編,網友恨鐵不成鋼

      “唯一一條窮路被你找到了”,33歲農村女生考編,網友恨鐵不成鋼

      妍妍教育日記
      2026-04-01 09:00:08
      新糖化血紅蛋白標準已公布,不再6.5%,血糖不穩者,早知早控制

      新糖化血紅蛋白標準已公布,不再6.5%,血糖不穩者,早知早控制

      垚垚分享健康
      2026-04-01 16:10:35
      法國車手瓦倫丁:因年齡被歐美車隊淘汰,和張雪聯手拿冠軍狠打臉

      法國車手瓦倫丁:因年齡被歐美車隊淘汰,和張雪聯手拿冠軍狠打臉

      白面書誏
      2026-04-01 16:23:50
      2026-04-01 18:40:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12657文章數 142602關注度
      往期回顧 全部

      科技要聞

      甲骨文血洗3萬人,47人團隊僅留3人

      頭條要聞

      男子開酒店裝修花1200多萬 剛過兩三年就被拆成毛坯房

      頭條要聞

      男子開酒店裝修花1200多萬 剛過兩三年就被拆成毛坯房

      體育要聞

      NBA擴軍,和籃球無關?

      娛樂要聞

      宋寧峰人設崩塌!帶娃偷情+反向索賠

      財經要聞

      電商售械三水光針 機構倒貨or假貨猖獗?

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態度原創

      親子
      游戲
      數碼
      公開課
      軍事航空

      親子要聞

      孩子要上幼兒園了,家長幫孩子做好哪些準備,入園才能更順利?

      法務部大對決?宮本茂直言馬里奧模式參考了米老鼠

      數碼要聞

      小米推出米家洗衣機滾筒10Kg超薄全嵌版,1199元

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      視頻:以空襲黎巴嫩 大樓被炸成廢墟

      無障礙瀏覽 進入關懷版