![]()
這項由荷蘭格羅寧根大學的Daniel Scalena和Leonidas Zotos,聯合意大利米蘭比可卡大學的Elisabetta Fersini、Cohere Labs和Cohere公司的Malvina Nissim和Ahmet Ustün在2025年10月發表的研究,提出了一種名為EAGER(Entropy-Aware Generation for Adaptive Inference-Time Scaling,熵感知生成自適應推理時間擴展)的全新技術。這項研究發表在計算機科學領域的預印本平臺,論文編號為arXiv:2510.11170v1,為大語言模型的推理優化開辟了全新的道路。
當前大語言模型在解決復雜推理問題時,就像一個學生在考試時要寫出多種解題思路來增加答對的機會。傳統的做法是讓模型對每個問題都生成固定數量的答案序列,比如每道題都寫32種解法。這種方法雖然能提高準確率,但就像用大炮打蚊子一樣浪費資源——有些簡單問題只需要一種解法就能搞定,而有些復雜問題可能需要更多嘗試才能找到正確答案。
EAGER技術的核心創新在于讓AI學會"看菜下飯"。它通過監測模型在生成每個詞匯時的不確定性(用熵值來衡量),來決定何時需要探索更多可能的推理路徑。當模型在某個步驟顯得很確定時,就像學生對某道題很有把握一樣,系統就不會浪費額外的計算資源。但當模型遇到高不確定性的時刻,就像學生在關鍵步驟猶豫不決時,系統會自動分支出多條推理路徑來探索不同的可能性。
這種動態分配計算資源的方法帶來了驚人的效果。在數學競賽題AIME 2025等復雜推理任務上,EAGER能夠減少高達65%的計算量,同時將答題準確率提升多達37%。更重要的是,這項技術完全不需要重新訓練模型,可以直接應用到現有的大語言模型上。
一、智能的"計算管家"——EAGER如何重新分配AI的腦力
傳統的AI推理就像一個不會理財的人,無論面對什么問題都花同樣的錢。研究團隊發現,這種"一刀切"的資源分配方式存在巨大浪費。有些問題對AI來說就像1+1=2一樣簡單,根本不需要反復思考,但系統仍然會強制生成32種不同的解答過程。另一些問題則像高等數學難題,需要更多的思考時間和不同的嘗試角度,但傳統方法給它們的資源卻是固定的。
EAGER技術的突破在于引入了一個"智能管家"的概念。這個管家會時刻觀察AI在思考過程中的每一步,通過測量"熵值"來判斷AI此刻的困惑程度。熵值就像是AI內心的"糾結指數"——當AI對下一個詞匯的選擇很確定時,熵值就很低,就像你很確定要說"蘋果是紅色的"中的"紅色"這個詞;當AI面臨多種可能選擇且難以決定時,熵值就會飆升,就像你在餐廳菜單前猶豫該點什么菜。
這個系統的巧妙之處在于,它只在檢測到高熵值(高度不確定性)的時刻才會"分叉",創建新的推理分支。這就像一個導航系統,在大部分路段都走主干道,只在遇到復雜路口時才計算多條備選路線。通過這種方式,EAGER避免了在簡單步驟上的重復計算,同時確保在關鍵決策點有足夠的探索空間。
研究團隊通過大量實驗發現,AI模型在生成序列時的熵值峰值與最終答題正確率之間存在顯著的負相關關系。換句話說,那些在思考過程中表現出更多不確定性的回答,往往最終的準確率也更低。這個發現為動態資源分配提供了科學依據——當系統檢測到高熵值時,確實需要投入更多計算資源來探索替代方案。
二、EAGER的雙重省錢策略
EAGER技術采用了一套精妙的兩階段省錢策略,就像一個精明的家庭主婦既要節約開支又要保證生活質量。
第一階段被稱為"EAGER-init",這個階段的核心任務是識別那些"容易題"并避免在它們身上浪費資源。系統會在生成過程中持續監控熵值,當熵值超過預設閾值時才會創建新的推理分支。對于那些從頭到尾都很"順滑"的推理過程,系統可能只生成一個序列就夠了,而不是強制生成32個幾乎相同的答案。
這種做法的效果就像一個聰明的老師,對于簡單的加法題不會讓學生寫出十種不同的解法,而是把時間留給真正需要多種思路的復雜問題。通過這種方式,EAGER-init通常能將總的計算量削減到傳統方法的一半左右。
第二階段則是"預算再分配"策略。當系統從簡單問題上節省下計算資源后,這些節省的"預算"不會被浪費,而是被重新投入到那些真正需要額外幫助的難題上。這就像把原本要買10件便宜T恤的錢,改為買5件T恤和1件高質量外套,整體效果更好。
研究團隊設計了兩種再分配策略。第一種適用于不知道正確答案的實際應用場景,系統會將額外資源分配給那些"用盡了分配序列數量"的問題,因為這些問題顯然需要更多探索。第二種策略適用于訓練場景,當知道標準答案時,系統會優先給那些"一個正確答案都沒找到"的問題投入更多資源。
這種動態分配機制的巧妙之處在于,它不僅節約了總體計算成本,還提高了整體性能。在數學、科學和編程等多個領域的測試中,EAGER技術都展現出了顯著的優勢,同時減少計算量和提高準確率。
三、令人驚喜的實驗成果
研究團隊在多個知名AI模型上測試了EAGER技術,包括從30億參數的SmolLM到200億參數的GPT-oss等不同規模的模型。測試涵蓋了數學競賽題(AIME 2024/2025、哈佛MIT數學錦標賽)、科學問題(GPQA-Diamond)和編程任務(HumanEval Plus)等多個領域。
在數學推理方面,EAGER技術展現了令人矚目的效果。以AIME 2025數學競賽為例,當使用Qwen3-4B模型時,傳統并行采樣方法的通過率(至少產生一個正確答案的比例)為80%,而EAGER技術將這一數字提升到了83%。更重要的是,EAGER只使用了傳統方法一半的計算資源就達到了更好的效果。
在最具挑戰性的測試中,EAGER技術在GPT-oss 20B模型上將AIME 2025的通過率從90%提升到了97%,同時大幅減少了所需的計算token數量。這種提升不是偶然的,而是在多個不同模型和任務上都能穩定重現的結果。
特別有趣的是,研究團隊發現即使是較小的模型也能從EAGER技術中獲得顯著收益。SmolLM 3B這個相對較小的模型,在使用傳統方法時幾乎無法解決任何問題(準確率接近0%),但在應用EAGER技術后,其性能出現了數百倍的提升。這表明EAGER技術不僅適用于大型模型,對于資源受限的應用場景同樣具有重要價值。
編程任務的結果同樣令人印象深刻。在HumanEval Plus編程測試中,EAGER技術在幾乎所有測試模型上都實現了性能提升,同時顯著減少了計算資源消耗。這種跨領域的一致性提升說明了EAGER技術的通用性和魯棒性。
四、技術細節的精妙設計
EAGER技術的成功不僅在于其核心思想的創新,更在于實現細節的精心設計。整個系統的運行過程就像一個經驗豐富的指揮家指揮樂團,既要保證整體和諧,又要在關鍵時刻突出重點。
在熵值計算方面,研究團隊選擇了"top-K熵"這種高效的近似方法。不同于計算整個詞匯表的熵值(這會帶來巨大的計算開銷),top-K熵只考慮概率最高的K個詞匯(通常是20個),這就像在投票時只關注得票最多的幾個候選人,既能反映整體趨勢又大大降低了計算復雜度。
分支策略的設計也頗具匠心。當系統檢測到高熵值時,它不會隨機創建多個分支,而是采用"貪婪+次優"的策略——選擇概率最高的詞匯繼續原有路徑,同時創建一個使用第二高概率詞匯的新分支。這種做法確保了探索的多樣性,同時避免了完全隨機帶來的效率損失。
為了防止系統在過于簡單的問題上"過度思考",EAGER設置了一個巧妙的停止機制。如果一個推理序列在連續1000個詞匯中都沒有遇到需要分支的高熵值點,系統就會停止監控并專注于快速完成剩余部分。這就像一個學生在做簡單的計算題時,如果前面的步驟都很順利,就不需要在后續的每一步都反復檢查。
在預算分配的實現上,研究團隊采用了保守而實用的策略。節省下來的計算預算被限制在不超過原預算兩倍的范圍內,避免了極端情況下某些難題"吃掉"過多資源的問題。這種設計確保了系統的穩定性和可預測性。
五、對AI發展的深遠影響
EAGER技術的意義遠超其技術本身,它為AI領域的發展提供了一個全新的思考框架。這項研究首次從理論和實踐兩個層面證明了動態計算分配的可行性和優越性,為未來的AI系統設計提供了重要啟示。
從經濟角度來看,EAGER技術的出現正當其時。隨著大語言模型規模的不斷擴大,計算成本已成為制約AI應用普及的重要因素。一個需要大量GPU資源的推理任務,其成本可能高達數千美元。EAGER技術能夠在保持甚至提升性能的同時大幅降低計算成本,這對于AI的商業化應用具有重大意義。
從技術發展的角度,EAGER技術開辟了一個新的研究方向——推理時的動態優化。傳統的AI優化主要集中在訓練階段,而EAGER證明了在推理階段同樣存在巨大的優化空間。這種思路可能激發更多類似的創新,推動整個AI領域向更高效、更智能的方向發展。
更重要的是,EAGER技術體現了一種"因材施教"的AI哲學。它認識到不同問題需要不同程度的計算資源,這種個性化的資源分配策略更符合人類解決問題的自然方式。這種理念可能會影響未來AI系統的整體設計思路,推動AI向更加智能和高效的方向發展。
六、技術的通用性和適用性
EAGER技術最令人興奮的特點之一是其出色的通用性。這種技術就像一個"萬能插頭",可以直接應用到現有的各種大語言模型上,而無需任何重新訓練或模型結構修改。這種"即插即用"的特性為其廣泛應用提供了可能。
在不同規模的模型上,EAGER都展現出了一致的改進效果。無論是參數量只有30億的小型模型,還是擁有200億參數的大型模型,都能從EAGER技術中獲得顯著收益。這種規模無關性表明該技術的核心原理具有普遍適用性,不依賴于特定的模型架構或參數規模。
跨領域的一致性提升更是證明了EAGER技術的魯棒性。從抽象的數學推理到具體的編程實現,從科學問題解答到日常對話,EAGER在各個應用場景中都表現出了穩定的性能提升。這種跨領域的成功表明該技術捕捉到了推理過程中的某種基本規律,而不是針對特定任務的表面優化。
特別值得注意的是,EAGER技術在處理不同復雜程度的問題時都能自動調整其行為。對于簡單問題,它會自動減少計算開銷;對于復雜問題,它會投入更多資源進行深入探索。這種自適應能力使得同一套技術可以應用于從簡單客服對話到復雜科研推理的各種場景。
研究團隊還發現,EAGER技術在不同的"溫度"設置下都能保持良好的性能。溫度參數控制著AI生成文本的隨機性,低溫度產生更確定的輸出,高溫度則增加多樣性。EAGER在這兩種極端設置下都能提供穩定的改進,說明其設計考慮了AI推理過程的各種變化因素。
七、未來發展的無限可能
EAGER技術的成功為AI領域的未來發展開辟了多個令人興奮的方向。當前的實現雖然已經取得了顯著成果,但研究團隊明確指出了進一步改進的巨大潛力。
在不確定性度量方面,除了當前使用的熵值,研究人員正在探索其他更精確的不確定性quantification方法。例如,Kullback-Leibler散度可能提供更細致的不確定性描述,幫助系統做出更精準的分支決策。這些改進可能帶來更大的性能提升和資源節約。
動態分配策略也有很大的改進空間。當前的EAGER主要基于二分支策略,未來的版本可能支持更復雜的多分支決策,甚至可以根據問題的特性動態確定最優的分支數量。這種更加靈活的分配機制可能進一步提升系統的效率和準確性。
另一個令人興奮的發展方向是將EAGER技術與其他AI優化技術結合。例如,將動態計算分配與模型壓縮、知識蒸餾等技術相結合,可能創造出更加強大和高效的AI系統。這種技術融合的協同效應可能帶來超越單一技術的性能提升。
在應用層面,EAGER技術為實時AI應用開辟了新的可能性。傳統的推理優化主要關注離線場景,而EAGER的高效性使得在實時對話、即時翻譯、在線問答等場景中應用高質量AI推理成為可能。這可能推動AI技術在更多日常應用中的普及。
更有趣的是,EAGER技術可能啟發全新的AI架構設計。未來的AI系統可能從設計之初就考慮動態資源分配,而不是在現有系統上"打補丁"。這種從頭設計的動態AI可能在效率和性能上實現質的飛躍。
說到底,EAGER技術的價值不僅在于其當前取得的顯著成果,更在于它為AI領域提供了一種全新的思考方式。它證明了"智能分配"勝過"盲目投入",這個簡單而深刻的道理在AI領域同樣適用。隨著計算資源變得越來越珍貴,這種高效的推理技術必將成為未來AI發展的重要方向。
對于普通用戶而言,EAGER技術意味著他們將能夠以更低的成本享受到更好的AI服務。無論是在手機上運行的AI助手,還是云端的大型AI應用,都可能因為這種技術而變得更加快速和經濟。這種技術進步最終將惠及每一個AI技術的使用者,讓智能服務真正走進千家萬戶。
有興趣深入了解這項技術細節的讀者,可以通過論文編號arXiv:2510.11170v1查詢完整的研究論文,其中包含了更詳細的技術實現和實驗數據。
Q&A
Q1:EAGER技術是什么,它解決了什么問題?
A:EAGER是一種讓AI變得更聰明省錢的技術。傳統AI在解答問題時會為每個問題生成固定數量的答案,不管問題難易程度,就像每道菜都放同樣多的調料。EAGER技術讓AI學會"看菜下飯",對簡單問題少花計算資源,對復雜問題多投入精力,既省錢又提高了準確率。
Q2:EAGER技術如何判斷什么時候需要更多計算資源?
A:EAGER通過監測AI生成每個詞時的"糾結程度"(專業術語叫熵值)來判斷。當AI對下一個詞很確定時,就像你很肯定要說"天空是藍色的",系統就不會浪費額外資源。當AI很糾結不知道選哪個詞時,系統就會創建多個思路分支來探索不同可能性。
Q3:普通人能使用EAGER技術嗎,效果怎么樣?
A:EAGER技術可以直接應用到現有的AI模型上,不需要重新訓練。在測試中,它能減少65%的計算成本,同時將準確率提升37%。雖然目前主要在研究階段,但未來很可能會集成到各種AI應用中,讓大家以更低成本享受更好的AI服務。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.