網易首頁 > 網易號 > 正文申請入駐

首爾大學LiteStage突破：讓小語言模型快如閃電多階段推理加速器

2025-11-26 22:08:05　來源: 至頂AI實驗室

北京舉報

分享至

這項由首爾大學的姜范錫、宋智元和金在俊領導的研究發表于2025年10月的arXiv預印本arXiv:2510.14211v1，有興趣深入了解的讀者可以通過該編號查詢完整論文。

在人工智能的世界里，有這樣一個有趣的現象：當我們讓小型語言模型解決復雜問題時，就像讓一個小學生做高考數學題一樣困難。為了幫助這些"小學生"更好地思考，研究者們想出了一個巧妙的辦法——把復雜問題拆分成幾個簡單的步驟，讓模型一步步思考，這就是多階段推理。

就像我們解決復雜問題時會先回憶相關知識，然后分析各種選項，最后得出結論一樣，多階段推理讓語言模型也按照這樣的步驟來思考。研究團隊以一個關于電動汽車的選擇題為例：電動汽車通過什么運行？選項包括汽油和電導體。在第一階段"回憶"中，模型會想起電動汽車需要電力；第二階段"分析"中，它會逐一評估每個選項；第三階段"總結"中，它會給出最終答案。

這種方法確實讓小模型變得更聰明了，但也帶來了一個新問題：就像一個人思考得越仔細，花費的時間就越長一樣，多階段推理讓模型的響應速度變慢了。這對于需要快速響應的應用來說，就像一個本來應該立即回答問題的智能助手，卻需要思考好幾分鐘才能給出答案。

為了解決這個問題，研究者們嘗試了一種叫做"層跳躍"的加速技術。可以把神經網絡想象成一棟高樓，每一層都在處理信息。層跳躍就像是在這棟樓里安裝電梯，跳過一些不太重要的樓層，直接到達目的地。但研究團隊發現，現有的層跳躍方法在多階段推理中表現得并不理想。

通過深入研究，他們發現了兩個關鍵問題。首先，在多階段推理的不同階段，模型對層跳躍的敏感程度差異很大。就像在烹飪過程中，有些步驟可以簡化，比如快速清洗蔬菜，而有些步驟絕對不能馬虎，比如掌控火候。研究發現，第三階段"總結"對層跳躍特別敏感，哪怕跳過很少的層數，準確率都會大幅下降。

其次，層跳躍雖然讓每個詞的處理速度加快了，但模型開始生成更多不必要的詞匯，就像一個人說話開始啰嗦一樣。結果就是，雖然單詞處理速度提高了，但整體響應時間反而增加了。

一、智能分配：為每個階段量身定制的加速方案

面對這些挑戰，首爾大學的研究團隊開發了LiteStage，這是一個專門為多階段推理設計的智能加速框架。它就像一個經驗豐富的管家，知道在什么時候應該快速處理，什么時候需要仔細對待。

LiteStage的第一個創新是智能的離線配置策略。研究團隊不再讓所有階段承受相同程度的層跳躍，而是為每個階段量身定制最適合的跳躍策略。這個過程就像為不同的家庭成員安排不同的任務分配——讓擅長快速工作的人處理簡單任務，讓細心的人負責重要環節。

具體來說，系統會首先評估每一層的重要程度。它采用一種叫做余弦相似度的數學方法，通過比較每一層輸入和輸出的相似程度來判斷該層的重要性。如果輸入和輸出非常相似，說明這一層沒有進行太多有用的處理，就可以安全地跳過。

接下來，系統從最慢的推理階段開始搜索最優配置。通常，第二階段"分析"是最耗時的，因為模型需要詳細評估每個選項。系統會在這個階段嘗試不同程度的層跳躍，找到在保持準確率的前提下能夠最大程度提升速度的配置。然后，它會繼續為其他階段尋找最優設置。

研究結果顯示，這種智能分配策略能夠顯著提升效率。在OBQA數據集上，當目標是將準確率損失控制在1%以內時，智能分配的層跳躍可以跳過7層，而傳統的均勻跳躍方法只能跳過3層。更重要的是，智能分配避免了在敏感的第三階段進行過度的層跳躍，從而保護了模型的推理質量。

二、實時調節：智能識別無用輸出的生成早停機制

LiteStage的第二個創新是在線的生成早停機制。研究團隊發現，當模型進行層跳躍時，它經常會產生一些置信度很低的詞匯，這些詞匯對最終答案貢獻很小，卻延長了整體響應時間。

這種現象就像一個人在回答問題時開始重復或說一些不相關的話。研究團隊通過分析發現，在層跳躍的情況下，模型的置信度會隨著生成過程逐漸下降，而那些置信度低的詞匯往往是多余的。

為了解決這個問題，LiteStage實現了一個智能的早停機制。系統會實時監控模型生成每個詞的置信度，當置信度持續下降到某個閾值以下時，就會主動終止生成過程。為了避免因為單個詞的偶然低置信度而過早停止，系統會維護一個包含最近5個詞置信度的緩存，只有當平均置信度低于設定閾值時才會停止生成。

這種機制的效果非常顯著。在實驗中，當系統跳過20個子層時，傳統方法會讓模型生成大量低質量的文本，導致速度反而變慢。而采用生成早停機制后，系統能夠及時停止無用的生成，實現了真正的加速效果。

三、實驗驗證：三個基準測試的優異表現

為了驗證LiteStage的有效性，研究團隊在三個廣泛使用的問答數據集上進行了全面測試：OpenBookQA、CommonSenseQA和StrategyQA。這些數據集涵蓋了不同類型的推理任務，從科學知識到常識推理再到策略性思維。

在OpenBookQA數據集上，LiteStage展現出了令人印象深刻的性能。與主要的基準方法AdaSkip相比，LiteStage在相同的準確率水平下能夠實現更高的加速比。特別值得注意的是，當AdaSkip的性能因為過度的層跳躍而崩潰到接近0%準確率時，LiteStage仍然能夠維持60%的準確率，同時實現1.32倍的加速。

在CommonSenseQA數據集上，LiteStage同樣表現出色。雖然這個數據集對層跳躍相對不那么敏感，但LiteStage的智能分配策略仍然帶來了顯著的性能提升。系統能夠在保持53.2%準確率的同時實現1.16倍的加速。

最令人印象深刻的結果出現在StrategyQA數據集上。在這個需要策略性推理的挑戰性任務中，LiteStage實現了高達1.70倍的加速，同時將準確率損失控制在僅0.4%。這表明LiteStage的方法對于復雜推理任務特別有效。

研究團隊還進行了詳細的消融實驗，分別測試了智能分配和生成早停兩個組件的貢獻。結果顯示，智能分配主要負責在較低的層跳躍水平下提供穩定的加速，而生成早停則在較高的層跳躍水平下發揮關鍵作用，防止因為過度生成而導致的性能下降。

四、技術深度：從理論到實踐的完整解決方案

LiteStage的技術實現體現了研究團隊對多階段推理深層機制的理解。在層重要性評估方面，系統采用子層級別的分析，分別評估多頭自注意力機制和前饋神經網絡的重要性。這種精細化的分析使得系統能夠更準確地識別哪些計算步驟可以安全跳過。

在搜索策略方面，LiteStage采用貪心搜索算法，從最慢的階段開始逐步優化。這種方法的優勢在于它能夠考慮到不同階段之間的相互影響。當第二階段采用了某種層跳躍配置后，后續階段的優化會基于這個新的基線進行，確保整體配置的協調性。

生成早停機制的設計也體現了研究團隊的細致考慮。他們設置了0.5的置信度閾值和5個詞的緩存窗口，這些參數是通過大量實驗調優得出的。這種設計既避免了過早停止，又能夠及時識別無用的生成。

在計算開銷方面，LiteStage的離線配置雖然需要額外的搜索時間，但這個過程只需要進行一次。研究團隊提供的數據顯示，在單張NVIDIA A6000 GPU上，OBQA數據集的搜索需要約2.7小時，CSQA需要7.6小時，StrategyQA需要1.0小時。雖然這看起來很長，但考慮到這是一次性的配置過程，而且能夠帶來持續的性能提升，這個開銷是合理的。

五、實際應用：為AI普及鋪平道路

LiteStage的意義遠遠超出了學術研究的范疇。在當前AI快速發展的時代，計算資源的高效利用變得越來越重要。LiteStage提供的解決方案為在資源受限的環境中部署智能系統開辟了新的可能性。

對于移動設備和邊緣計算應用，LiteStage的加速效果意味著原本需要強大服務器才能運行的推理任務，現在可以在普通設備上實現。這為個人助手、智能教育工具和其他需要實時響應的應用提供了技術基礎。

在教育領域，LiteStage使得個性化的AI輔導系統變得更加可行。系統可以快速分析學生的問題，進行多步驟的推理，并提供詳細的解答過程，而不會讓學生等待太長時間。

在客戶服務領域，LiteStage能夠讓智能客服系統更快地理解復雜問題并提供準確答案。系統可以快速回憶相關政策信息，分析客戶的具體情況，并給出個性化的解決方案。

研究團隊也誠實地指出了LiteStage的局限性。目前的研究主要基于Llama架構的模型，對于其他架構的模型可能需要進一步的適配。他們在Qwen2.5-0.5B模型上的實驗顯示，某些架構對層跳躍天然敏感，這限制了LiteStage的適用范圍。

六、未來展望：持續優化的研究方向

LiteStage開啟了多階段推理加速研究的新方向，但仍有許多值得探索的領域。研究團隊提到了幾個重要的未來研究方向。

首先是架構適應性的提升。不同的模型架構對層跳躍的敏感性差異很大，未來的研究需要開發更通用的加速策略，能夠自動適應不同的模型特征。

其次是動態配置的實現。目前的LiteStage采用靜態的配置策略，但在實際應用中，不同類型的問題可能需要不同的加速策略。開發能夠根據輸入問題特征動態調整配置的系統將是一個有價值的研究方向。

另一個重要方向是多模態推理的擴展。隨著視覺-語言模型的發展，如何將LiteStage的理念擴展到多模態推理任務將成為一個重要課題。

在優化算法方面，目前的貪心搜索雖然有效，但可能不是全局最優的。探索更先進的優化算法，如強化學習或進化算法，可能能夠找到更好的配置策略。

說到底，LiteStage代表了AI系統優化研究的一個重要進步。它不僅解決了多階段推理中的具體技術問題，更重要的是展示了如何通過深入理解系統特性來設計針對性的優化策略。這種方法論對于未來的AI系統優化研究具有重要的指導意義。

這項研究提醒我們，在追求AI能力提升的同時，效率優化同樣重要。只有讓強大的AI技術能夠在各種環境中高效運行，我們才能真正實現AI的普及和民主化。LiteStage為這個目標的實現提供了一個重要的技術基礎，讓我們期待它在實際應用中展現出更大的價值。

Q&A

Q1：LiteStage是什么技術？

A：LiteStage是首爾大學開發的一種專門為多階段推理設計的AI加速技術。它通過智能分配不同推理階段的計算資源和實時終止無用輸出，讓小型語言模型在保持推理質量的同時顯著提升響應速度，最高可實現1.70倍加速。

Q2：LiteStage如何解決多階段推理速度慢的問題？

A：LiteStage采用兩個核心策略：首先是智能分配策略，為每個推理階段定制最適合的層跳躍配置，避免在敏感階段過度加速；其次是生成早停機制，實時監控模型輸出的置信度，當模型開始產生低質量內容時及時停止，避免無用計算。

Q3：LiteStage技術有什么實際應用價值？

A：LiteStage讓原本需要強大服務器的AI推理任務可以在普通設備上高效運行，為移動設備AI應用、個性化教育系統、智能客服等領域提供了技術基礎。它特別適合需要復雜推理但又要求快速響應的應用場景。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.