網易首頁 > 網易號 > 正文申請入駐

全球最強推理引擎還快2倍，斯坦福、普林斯頓破解大模型串行魔咒

2026-04-01 15:02:48　來源: 機器之心Pro

河北舉報

分享至

機器之心編輯部

在大語言模型推理領域，雖然「推測解碼」（Speculative Decoding，SD）已成為加速生成的標準配置，但它依然存在一個致命弱點： drafting（草擬）和 verification（驗證）之間必須串行進行。

近日，來自斯坦福、普林斯頓大學和 Together AI 的研究團隊提出SSD 框架及其優化算法 SAGUARO，成功實現了草擬和驗證的并行化。

論文鏈接：https://arxiv.org/pdf/2603.03251
GitHub 鏈接：https://github.com/tanishqkumar/ssd

據介紹，該算法推理速度比世界上最強大的推理引擎都快 2 倍。

「推測性推測解碼」（Speculative Speculative Decoding，簡稱 SSD），是一種新型的推測性解碼 (SD)。在傳統的 SD 中，一個小且快速的模型會先猜測大且慢的模型可能生成的下幾個 token，然后大模型通過一次前向傳播驗證這些猜測，草擬和驗證是依次進行的。

而在 SSD 中，這兩個過程是并行發生的，完全消除了運行小模型的開銷。

并行執行草擬和驗證是很棘手的，因為你無法在某事物存在之前對其進行驗證，也無法推測你不知道的前綴之外的內容。在 SSD 中，研究者預先設定驗證結果，并在獨立硬件上進行驗證的同時進行推測。這樣一來，如果其中一種驗證結果出現，推測就能立即生效。

雖然論文對算法進行了詳盡的理論描述，但在實踐中，研究者大部分時間都花在如何讓它與現代推理引擎中各種優化技術（Paged Attention、Prefix Caching、CUDAGraphs 等）協同工作上。

作者 Tanishq Kumar 表示，「真的，我花在了解 CPU/GPU 同步問題上的時間遠遠超過了我的預期」。

要使新算法達到 SOTA 水平，需要精心設計系統和算法。總的來說，SSD 推動了延遲 - 吞吐量帕累托前沿的發展，其方式與普通推測解碼推進標準自回歸算法的發展非常相似。

Tanishq Kumar 稱：「我對快速推理感到興奮，因為我非常關注的一個人工智能工作負載是超長時域推理。想象一下，一個擁有大量 B200 的數據中心完全用于運行一個模型，該模型需要處理數十億個 token 來證明 P 與 NP 的區別。在這種情況下，延遲減半就意味著可以進行雙倍深度的思考！」

SSD 如何實現草擬與驗證并行？

現代 AI 對推理速度有著極高的要求。然而，標準的語言模型解碼是按順序生成單個 token，未能利用現代硬件上可用的大規模并行計算。

推測性解碼（SD）是一種為了解決這個問題而引入的技術。它使用一個快速的「草擬模型」來預測目標模型可能將生成的下幾個 token，而不是從目標模型中進行緩慢的自回歸采樣，然后通過目標模型的并行前向傳播驗證這些 token。這一驗證是按照一個算法進行的，確保生成的 token 是從目標模型的分布中采樣的。

在每次驗證中，目標模型決定接受多少個推測的 token，并采樣一個額外的獎勵 token，該 token 跟隨所有已接受的 token。盡管推測性解碼有效，但它本身仍受限于串行依賴：必須等待當前驗證完成后，才能開始下一輪推測。

那么，我們能否消除草擬和驗證之間的順序依賴呢？

研究者引入推測性推測解碼（SSD），這是一個旨在并行化草擬和驗證的統一框架。

在 SD 中，草擬模型必須等待驗證完成，才能開始推測下一輪，而在 SSD 中，草擬模型會預測最可能的驗證結果，并在驗證進行的同時，針對所有可能的結果進行并行的提前推測。如果這些預準備的結果中的任何一個發生，草擬模型可以立即將預推測的 token 發送給驗證器，從而避免草擬階段的開銷。與普通的推測性解碼一樣，SSD 也是無損的。不同之處在于，SSD 的草擬模型部署在與目標模型不同的硬件上。

優化 SSD 算法主要面臨三大挑戰。

首先，草擬模型必須準確預測驗證結果，這不僅包括接受了多少個推測的 Token，還包括采樣的獎勵 token。其次，推測器的接受率與其預測驗證結果的能力之間存在微妙的權衡，必須謹慎處理以最大化加速比。此外，任何 SSD 算法都必須具備處理預測失敗的回退策略，因為在大批處理量和高隨機性（Temperature）下，預測失敗會頻繁發生，若處理不當，即時補救的開銷將抵消異步帶來的收益。

為此，他們推出了Saguaro，這是一個優化的 SSD 算法，針對上述挑戰進行了定向優化。

將預測驗證結果的問題轉化為約束優化問題，并引入了一種技術，利用最可能的草擬 logits 來預測獎勵 token，準確率最高可達 90%。
識別了預測準確性與生成高質量推測之間的張力，并開發了一種能夠平衡二者的采樣算法。
探討了處理預測失敗的多種策略，發現最優回退策略隨批處理大小而異。通過采用這些優化，盡管 Saguaro 在處理每個批次元素時進行了更多計算（同時解碼多種可能的結果），其表現仍比標準 SD 高出 20%。

總的來看，Saguaro 相比優化的推測性解碼實現了高達 2 倍的加速，相比自回歸生成實現了高達 5 倍的加速，并在各種批處理規模下均顯著提升了吞吐量與延遲的帕累托前沿。

不過，該領域仍有許多值得探索的方向。SSD 可以自然地與 EAGLE 技術以及token-tree推測（Token-tree speculation）相結合，但這種聯合設計及其權衡空間在很大程度上尚未被發掘。

此外，通過擴展草擬設備的數量以及推測緩存，延遲可以進一步減少，盡管回報最終會遞減。最后，在集群層面跨多個目標模型部署共享推測端點——類似于預填充-解碼分解）——是另一個自然的研究方向。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.