機器之心編輯部
在大語言模型推理領域,雖然「推測解碼」(Speculative Decoding,SD)已成為加速生成的標準配置,但它依然存在一個致命弱點: drafting(草擬)和 verification(驗證)之間必須串行進行。
近日,來自斯坦福、普林斯頓大學和 Together AI 的研究團隊提出SSD 框架及其優化算法 SAGUARO,成功實現了草擬和驗證的并行化。
![]()
- 論文鏈接:https://arxiv.org/pdf/2603.03251
- GitHub 鏈接:https://github.com/tanishqkumar/ssd
據介紹,該算法推理速度比世界上最強大的推理引擎都快 2 倍。
![]()
「推測性推測解碼」(Speculative Speculative Decoding,簡稱 SSD),是一種新型的推測性解碼 (SD)。在傳統的 SD 中,一個小且快速的模型會先猜測大且慢的模型可能生成的下幾個 token,然后大模型通過一次前向傳播驗證這些猜測,草擬和驗證是依次進行的。
而在 SSD 中,這兩個過程是并行發生的,完全消除了運行小模型的開銷。
![]()
并行執行草擬和驗證是很棘手的,因為你無法在某事物存在之前對其進行驗證,也無法推測你不知道的前綴之外的內容。在 SSD 中,研究者預先設定驗證結果,并在獨立硬件上進行驗證的同時進行推測。這樣一來,如果其中一種驗證結果出現,推測就能立即生效。
雖然論文對算法進行了詳盡的理論描述,但在實踐中,研究者大部分時間都花在如何讓它與現代推理引擎中各種優化技術(Paged Attention、Prefix Caching、CUDAGraphs 等)協同工作上。
作者 Tanishq Kumar 表示,「真的,我花在了解 CPU/GPU 同步問題上的時間遠遠超過了我的預期」。
![]()
要使新算法達到 SOTA 水平,需要精心設計系統和算法。總的來說,SSD 推動了延遲 - 吞吐量帕累托前沿的發展,其方式與普通推測解碼推進標準自回歸算法的發展非常相似。
![]()
Tanishq Kumar 稱:「我對快速推理感到興奮,因為我非常關注的一個人工智能工作負載是超長時域推理。想象一下,一個擁有大量 B200 的數據中心完全用于運行一個模型,該模型需要處理數十億個 token 來證明 P 與 NP 的區別。在這種情況下,延遲減半就意味著可以進行雙倍深度的思考!」
![]()
SSD 如何實現草擬與驗證并行?
現代 AI 對推理速度有著極高的要求。然而,標準的語言模型解碼是按順序生成單個 token,未能利用現代硬件上可用的大規模并行計算。
推測性解碼(SD)是一種為了解決這個問題而引入的技術。它使用一個快速的「草擬模型」來預測目標模型可能將生成的下幾個 token,而不是從目標模型中進行緩慢的自回歸采樣,然后通過目標模型的并行前向傳播驗證這些 token。這一驗證是按照一個算法進行的,確保生成的 token 是從目標模型的分布中采樣的。
在每次驗證中,目標模型決定接受多少個推測的 token,并采樣一個額外的獎勵 token,該 token 跟隨所有已接受的 token。盡管推測性解碼有效,但它本身仍受限于串行依賴:必須等待當前驗證完成后,才能開始下一輪推測。
那么,我們能否消除草擬和驗證之間的順序依賴呢?
研究者引入推測性推測解碼(SSD),這是一個旨在并行化草擬和驗證的統一框架。
在 SD 中,草擬模型必須等待驗證完成,才能開始推測下一輪,而在 SSD 中,草擬模型會預測最可能的驗證結果,并在驗證進行的同時,針對所有可能的結果進行并行的提前推測。如果這些預準備的結果中的任何一個發生,草擬模型可以立即將預推測的 token 發送給驗證器,從而避免草擬階段的開銷。與普通的推測性解碼一樣,SSD 也是無損的。不同之處在于,SSD 的草擬模型部署在與目標模型不同的硬件上。
優化 SSD 算法主要面臨三大挑戰。
首先,草擬模型必須準確預測驗證結果,這不僅包括接受了多少個推測的 Token,還包括采樣的獎勵 token。其次,推測器的接受率與其預測驗證結果的能力之間存在微妙的權衡,必須謹慎處理以最大化加速比。此外,任何 SSD 算法都必須具備處理預測失敗的回退策略,因為在大批處理量和高隨機性(Temperature)下,預測失敗會頻繁發生,若處理不當,即時補救的開銷將抵消異步帶來的收益。
為此,他們推出了Saguaro,這是一個優化的 SSD 算法,針對上述挑戰進行了定向優化。
- 將預測驗證結果的問題轉化為約束優化問題,并引入了一種技術,利用最可能的草擬 logits 來預測獎勵 token,準確率最高可達 90%。
- 識別了預測準確性與生成高質量推測之間的張力,并開發了一種能夠平衡二者的采樣算法。
- 探討了處理預測失敗的多種策略,發現最優回退策略隨批處理大小而異。通過采用這些優化,盡管 Saguaro 在處理每個批次元素時進行了更多計算(同時解碼多種可能的結果),其表現仍比標準 SD 高出 20%。
總的來看,Saguaro 相比優化的推測性解碼實現了高達 2 倍的加速,相比自回歸生成實現了高達 5 倍的加速,并在各種批處理規模下均顯著提升了吞吐量與延遲的帕累托前沿。
不過,該領域仍有許多值得探索的方向。SSD 可以自然地與 EAGLE 技術以及token-tree推測(Token-tree speculation)相結合,但這種聯合設計及其權衡空間在很大程度上尚未被發掘。
此外,通過擴展草擬設備的數量以及推測緩存,延遲可以進一步減少,盡管回報最終會遞減。最后,在集群層面跨多個目標模型部署共享推測端點——類似于預填充-解碼分解)——是另一個自然的研究方向。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.