![]()
這項由英屬哥倫比亞大學的鄧文龍、李玉舒等研究團隊以及加州大學伯克利分校的龔博英合作完成的研究,發表于2025年12月3日的arXiv預印本平臺(論文編號:arXiv:2512.04220v1)。研究團隊深入分析了當前最先進的AI搜索助手在學習過程中遇到的一個嚴重問題,這個問題被他們稱為"懶惰似然位移死亡螺旋",并提出了一個簡單而有效的解決方案。
當我們使用搜索引擎時,通常期望它能準確理解我們的問題并給出正確答案。但如果告訴你,目前最先進的AI搜索助手在學習過程中經常會"忘記"正確答案,甚至越學越糊涂,你會不會感到驚訝?這就是研究團隊在Search-R1這類工具集成強化學習系統中發現的核心問題。
Search-R1是一種能夠使用搜索引擎等外部工具的大型語言模型,它可以執行多步驟推理任務。但在訓練這類系統時,研究人員發現了一個令人困擾的現象:模型在學習過程中會逐漸"忘記"如何給出正確的回答,最終導致整個訓練過程崩潰。這就像一個原本聰明的學生,在學習過程中反而越來越糊涂,最后連最基礎的知識都忘記了。
研究團隊將這個現象比作一種"健忘癥"——模型對正確和錯誤回答的信心都在下降,這種現象被稱為"懶惰似然位移"(LLD)。更糟糕的是,這種健忘會引發一個惡性循環:模型越來越不自信,導致學習過程中的梯度變得不穩定,最終引發"死亡螺旋",整個訓練過程徹底崩潰。
為了解決這個問題,研究團隊開發了一種名為LLDS的輕量級正則化方法。這個方法就像給模型配備了一個"記憶提醒器",當模型試圖"忘記"某些知識時,這個提醒器會及時阻止,幫助模型保持對正確答案的記憶。
一、AI搜索助手的學習困境:當智能系統患上"健忘癥"
在深入理解這個問題之前,我們需要先了解什么是工具集成強化學習。這就像培訓一個助手,不僅要讓它掌握基本知識,還要教會它如何使用各種工具——搜索引擎、計算器、數據庫等。這種助手能夠根據問題的復雜程度,自主選擇合適的工具,執行多步驟的推理過程。
但是,訓練這樣的助手比想象中要困難得多。傳統的訓練方法在面對這種復雜任務時經常會出現問題。研究團隊發現,即使是目前最先進的訓練算法——組相對策略優化(GRPO),在訓練工具集成系統時也會頻繁崩潰。
這種崩潰不是突然發生的,而是一個漸進的過程。研究團隊通過大量實驗發現,訓練過程通常會經歷三個階段。第一個階段是早期停滯期,這時候模型的獎勵在增加,但對正確答案的信心幾乎沒有提升。第二個階段是穩定衰退期,模型對正確答案的信心開始緩慢下降,但梯度仍然保持穩定。第三個階段是加速崩潰期,模型的信心急劇下降,梯度開始爆炸,最終導致整個訓練過程失敗。
這個現象在多個不同規模的模型上都得到了驗證,從30億參數的Qwen2.5-3B到70億參數的Qwen2.5-7B,無論是基礎版本還是指令調優版本,都會出現同樣的問題。這表明這不是某個特定配置的問題,而是GRPO算法在工具集成場景中的根本性缺陷。
研究團隊進一步分析發現,這種健忘現象有著深層的數學原理。當模型生成錯誤答案的概率很低,且這些錯誤答案與正確答案在表示空間中非常相似時,錯誤答案產生的負梯度會對正確答案產生不成比例的影響,導致模型逐漸"忘記"正確的知識。
二、死亡螺旋的形成機制:從健忘到崩潰的惡性循環
懶惰似然位移死亡螺旋的形成過程可以用一個簡單的比喻來理解。想象一個學生在準備考試時,開始對所有答案都變得不夠自信。這種不自信會導致他在回答問題時猶豫不決,給出模糊的回答。而模糊的回答又會讓他在下一次學習時更加困惑,形成一個越來越嚴重的惡性循環。
研究團隊通過數學分析和實驗驗證,詳細描述了這個死亡螺旋的形成過程。當模型對正確回答的似然(可以理解為信心程度)開始下降時,它進入了低信心狀態。在這種狀態下,模型的預測變得越來越分散和不確定。
低信心狀態的一個關鍵特征是,模型對所有可能的回答都不夠確定,這會導致熵值(衡量不確定性的指標)急劇上升。研究團隊發現,在訓練過程中,熵值的上升往往是訓練即將崩潰的早期警告信號。
更嚴重的是,當模型處于低信心狀態時,錯誤回答對學習過程的負面影響會被放大。這是因為在GRPO算法中,不同回答之間的重要性權重是根據它們的概率來計算的。當錯誤回答的概率很低時,算法會認為這些是"嚴重錯誤",給予它們更大的權重,從而產生更強的負面影響。
研究團隊通過一個巧妙的實驗驗證了這個理論。他們在每個訓練樣本上單獨應用GRPO更新,然后測量正確回答的似然變化。結果顯示,在訓練的早期階段,只有少數樣本表現出似然下降。但隨著訓練的進行,越來越多的樣本開始出現這個問題,到了訓練后期,超過一半的樣本都顯示出正確回答的似然顯著下降。
三、工具集成場景的特殊挑戰:為什么搜索助手更容易"患病"
工具集成強化學習面臨的挑戰遠比傳統的文本生成任務復雜。這主要源于幾個獨特的特征,每一個都會加劇懶惰似然位移問題。
首先是外部工具反饋的分布外特性。當模型調用搜索引擎或其他工具時,得到的反饋內容來自外部環境,而不是模型自身的生成分布。這就像讓一個只懂中文的學生突然接觸英文材料一樣,這些內容對模型來說是"陌生的"。雖然在訓練時這些工具反饋被屏蔽掉(不參與損失計算),但它們仍然會影響后續token的預測上下文,增加了模型的不確定性。
其次是多輪交互的復雜性。與簡單的問答不同,工具集成任務通常需要多個步驟:制定搜索策略、執行搜索、分析結果、可能需要進一步搜索,最后給出答案。這個過程中的每一步都可能影響整個軌跡的質量評估,但GRPO算法對整個軌跡只給出一個標量獎勵,這種粗粒度的獎勵分配會導致早期正確步驟受到錯誤的懲罰。
研究團隊發現了一個特別有趣的現象:在錯誤的回答中經常包含正確的子動作。例如,一個錯誤的回答可能包含完全正確的搜索查詢,只是在最后的答案總結時出現了錯誤。這種情況下,正確的搜索查詢部分和錯誤回答的其他部分在表示空間中會表現出高度相似性,導致GRPO算法難以準確區分哪些部分應該被鼓勵,哪些應該被懲罰。
通過對Qwen2.5-3B模型的詳細分析,研究團隊發現,隨著訓練的進行,錯誤回答中第一個動作(通常是搜索查詢)的正確率穩步上升,到第140步時達到約60%。這意味著大多數錯誤回答都是以正確的搜索開始的,只是在后續步驟中出現了偏差。這種高度的結構相似性使得模型很難學會區分正確和錯誤的模式。
更令人擔憂的是,研究團隊觀察到,隨著訓練的進行,模型對第一個動作的似然下降速度比對后續動作的下降速度更快。這表明,即使是那些明顯正確的搜索查詢也在訓練過程中被"誤傷",進一步加劇了懶惰似然位移問題。
四、LLDS解決方案:給AI裝上"記憶保護器"
面對這個復雜的問題,研究團隊開發了一種名為LLDS(Lazy Likelihood Displacement Suppression)的創新解決方案。這個方法的核心思想非常直觀:既然問題是模型在不應該"忘記"的時候忘記了知識,那就給它裝上一個"記憶保護器",防止有害的遺忘發生。
LLDS的工作原理可以用一個生動的比喻來理解。想象你有一個健忘的朋友,他經常會忘記重要的事情。為了幫助他,你決定在他每次要忘記重要信息時輕輕提醒他。LLDS就是這樣的提醒系統,它會監控模型的學習過程,當發現模型試圖降低對正確答案的信心時,就會施加一個輕微的"記憶保持"壓力。
具體來說,LLDS包含兩個層次的選擇性機制。第一個層次是響應級別的門控:只有當一個完整回答的整體似然下降時,正則化才會被激活。這避免了對那些整體上在改進但個別token略有下降的回答施加不必要的約束。第二個層次是token級別的選擇性:即使正則化被激活,也只對那些實際似然下降的具體token施加懲罰。
這種精細的設計確保了LLDS只在真正需要的時候發揮作用,而不會干擾正常的學習過程。研究團隊還開發了LLDS-MA變體,它進一步排除了最終答案token的正則化,專門鼓勵模型進行更多的中間推理和工具使用。
實驗結果顯示,LLDS的效果非常顯著。在Qwen2.5-3B模型上,LLDS將平均性能提升了37.8%,在Qwen2.5-7B模型上提升了32.0%。更重要的是,所有使用LLDS的訓練過程都保持穩定,完全避免了梯度爆炸和訓練崩潰的問題。
五、實驗驗證:七個基準測試的全面勝利
為了全面驗證LLDS的有效性,研究團隊在七個不同的問答基準上進行了詳盡的實驗。這些基準涵蓋了從簡單的事實性問答到復雜的多跳推理任務,為評估方法的通用性提供了理想的測試平臺。
在單跳問答任務中,包括Natural Questions(NQ)、TriviaQA和PopQA,LLDS都表現出了穩定的改進效果。特別是在NQ數據集上訓練的Qwen2.5-3B-Base模型,LLDS將基線性能從0.303提升到0.323,相對提升6.6%。
更令人印象深刻的是在多跳推理任務上的表現。HotpotQA、2WikiMultiHopQA、Musique和Bamboogle這四個數據集都需要模型進行復雜的多步推理,整合來自多個來源的信息。在這些更具挑戰性的任務上,LLDS的優勢更加明顯。例如,在Qwen2.5-3B-Base模型上,當使用NQ和HotpotQA的混合訓練數據時,LLDS-MA變體將性能從0.312提升到0.430,相對提升高達37.8%。
研究團隊還進行了詳細的消融研究,驗證了LLDS各個組件的必要性。響應級別門控機制雖然只帶來了適度的0.2%平均性能提升,但在Bamboogle這樣的復雜多跳推理任務上帶來了1.6%的顯著改進。答案掩碼(MA)變體則在那些基礎模型缺乏多輪工具調用能力的情況下發揮了關鍵作用,成功激發了模型的多步推理潛力。
更重要的是,LLDS的效果在不同模型規模和不同訓練設置下都表現出了一致性。無論是30億參數還是70億參數的模型,無論是基礎版本還是經過指令調優的版本,LLDS都能夠穩定地提升性能并防止訓練崩潰。
六、訓練穩定性的全面提升:從崩潰到穩定的華麗轉身
除了性能提升,LLDS最重要的貢獻可能是徹底解決了工具集成強化學習中的訓練不穩定問題。研究團隊通過詳細的訓練曲線分析顯示,在沒有LLDS的情況下,所有模型都會在300步內出現災難性崩潰,獎勵急劇下降到接近零的水平。
相比之下,使用LLDS的訓練過程展現出了完全不同的特征。獎勵曲線穩步上升,沒有出現任何崩潰跡象。梯度范數保持在合理范圍內,避免了梯度爆炸問題。最重要的是,模型對正確答案的似然在整個訓練過程中保持穩定甚至略有上升,完全避免了懶惰似然位移現象。
研究團隊還分析了正則化強度對訓練效果的影響。他們發現,當正則化權重λ設為0.01時,可以延緩但不能完全防止崩潰。只有當λ增加到0.1時,訓練才能保持完全穩定。這個發現為實際應用提供了重要的參數設置指導。
特別值得注意的是,LLDS不僅解決了訓練崩潰問題,還改善了模型的整體行為質量。在訓練后期,使用LLDS的模型能夠保持連貫的推理結構,執行有意義的搜索查詢,并產生準確簡潔的最終答案。相比之下,傳統訓練方法在接近崩潰時往往會產生無意義的輸出和隨機的token序列。
說到底,這項研究揭示了一個重要而此前被忽視的問題:即使是最先進的強化學習算法,在面對復雜的工具集成任務時也會出現根本性的失效。懶惰似然位移死亡螺旋不僅僅是一個技術問題,它反映了當前訓練方法在處理多模態、多步驟任務時的內在局限性。
LLDS的成功證明了有針對性的正則化方法可以有效解決這些問題。更重要的是,這種解決方案是輕量級的,不需要對現有訓練框架進行大幅修改,具有很強的實用價值。研究成果不僅為當前的工具集成系統提供了實用的解決方案,還為未來更復雜的多智能體系統和自主決策系統的訓練奠定了理論基礎。
對于普通用戶來說,這項研究意味著我們將來使用的AI搜索助手會變得更加可靠和穩定。不再會出現越用越糊涂的情況,而是能夠持續學習和改進,為用戶提供更準確、更有用的幫助。隨著這類技術的進一步發展和普及,我們可以期待看到更多智能化的工具助手出現在日常生活的各個領域,從學習研究到工作決策,都能得到AI的有力支持。
有興趣深入了解技術細節的讀者可以通過arXiv:2512.04220v1查閱完整的研究論文,其中包含了詳細的數學推導、實驗設計和結果分析。
Q&A
Q1:懶惰似然位移死亡螺旋是什么?
A:這是AI搜索助手在學習過程中出現的一種"健忘癥"現象。模型會逐漸忘記正確答案,對所有回答都變得不自信,最終導致學習過程完全崩潰,就像一個聰明學生越學越糊涂最后什么都不會了。
Q2:LLDS解決方案是如何工作的?
A:LLDS就像給AI裝了一個"記憶保護器",當檢測到模型試圖忘記正確知識時就及時提醒。它有兩層保護機制:只在真正需要時激活,并且只針對出問題的具體內容進行糾正,不會干擾正常學習。
Q3:這項研究對普通用戶有什么意義?
A:這意味著未來的AI搜索助手會變得更加可靠穩定,不會出現越用越糊涂的情況。用戶可以期待更準確的搜索結果和更智能的問答體驗,AI助手能夠持續改進而不是退化。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.