![]()
這項由美團公司研究團隊開展的研究發表于2026年2月的arXiv預印本平臺,論文編號為arXiv:2602.05261v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。
當我們和ChatGPT這樣的人工智能聊天時,你有沒有注意到一個有趣的現象:有時它的回答特別詳細冗長,有時又異常簡短?這種現象背后其實隱藏著人工智能訓練過程中的一個重要技術問題。美團的研究團隊最近發現了這個問題的根源,并提出了一個巧妙的解決方案。
這個問題就像是教一個學生寫作文。傳統的人工智能訓練方法就好比這樣一位老師:當學生寫對題目時,老師更喜歡簡潔的答案,會給簡短正確的作文更高的分數;但當學生寫錯時,老師反而對冗長的錯誤答案比較寬容。這種不一致的評分標準導致學生越來越困惑,不知道該寫長文章還是短文章。
更具體地說,目前主流的人工智能訓練方法叫做"強化學習",就像訓練一只寵物一樣,通過獎勵和懲罰來塑造它的行為。然而現有的兩種主流訓練算法GRPO和GSPO都存在一個隱蔽的偏見:它們在評估答案質量時,會不自覺地受到答案長度的影響。這就像一位偏心的老師,不是純粹根據內容質量打分,而是暗中考慮了文章的長短。
美團的研究人員通過深入分析發現,這個問題的核心在于訓練算法的數學公式設計存在缺陷。他們發現GSPO算法尤其容易導致"回答長度坍塌"現象,也就是說,隨著訓練的進行,人工智能的回答會變得越來越短,最終影響其推理能力和回答質量。
為了解決這個問題,研究團隊提出了一種名為"長度無偏序列策略優化"(LUSPO)的新方法。這個方法的核心思想非常簡單而巧妙:在計算每個回答的重要性時,將其乘以回答的長度。這就像給每個學生的作文按字數給予相應的關注度,確保長文章和短文章都能得到公平的評判。
一、為什么回答長度如此重要?
要理解這個問題,我們需要先了解人工智能是如何"思考"復雜問題的。就像人類解決數學難題時需要在草稿紙上寫下推理過程一樣,人工智能處理復雜推理任務時也需要"展開思路"。這個展開的過程通常體現為較長的回答,其中包含了逐步的推理鏈條。
當人工智能面對一道復雜的數學題時,一個高質量的回答可能包括:問題理解、解題思路分析、具體計算步驟、結果驗證等多個環節。這樣的回答自然會比簡單的"答案是5"要長得多,但也更有價值,因為它展示了完整的推理過程。
然而,傳統的訓練方法在評估這類回答時存在系統性偏見。研究團隊發現,GRPO算法在處理正確答案時會傾向于獎勵較短的回答,而在處理錯誤答案時反而對較長的回答更寬容。這種不一致的標準就像一個搖擺不定的天平,無法給人工智能提供清晰的學習信號。
GSPO算法的問題更加嚴重。它采用了"序列級裁剪"機制,這個機制會導致更多的訓練樣本被丟棄,而且由于"裁剪更高"策略的影響,負面樣本(錯誤答案)被刪除的比例更大。這種不平衡進一步加劇了長度偏見,使得人工智能越來越傾向于生成簡短的回答。
研究團隊通過實驗清楚地展示了這個問題。他們訓練了兩組相同的人工智能模型,一組使用GRPO方法,另一組使用GSPO方法,其他條件完全相同。結果發現,使用GRPO訓練的模型回答長度逐漸增加,而使用GSPO訓練的模型回答長度急劇下降,從訓練初期的400多個詞逐漸縮短到200多個詞。
這種回答長度的坍塌不僅僅是表面現象,它實際上反映了人工智能推理能力的退化。當模型被迫生成越來越短的回答時,它失去了展開復雜推理的空間,就像要求一個學生在只有一行的紙上解決復雜的數學證明題一樣。
二、LUSPO方法的巧妙設計
面對這個問題,美團研究團隊提出的LUSPO方法體現了工程上的優雅。這個解決方案的核心思想可以用一個簡單的比喻來理解:如果說傳統方法是在用同樣大小的放大鏡觀察所有文章,那么LUSPO就是根據文章長度調整放大鏡的倍數,確保每個文章都能得到適當的關注。
具體來說,LUSPO方法在計算損失函數時,將每個序列的損失乘以其自身的長度。這個看似簡單的調整卻產生了深遠的影響。通過這種方式,長回答和短回答在訓練過程中獲得了平等的"發言權",消除了原有算法中隱含的長度偏見。
從數學角度來看,這個調整非常巧妙地解決了梯度分布不均勻的問題。在原來的GSPO方法中,長回答的每個詞對整體損失的貢獻被稀釋了,因為損失值需要除以回答長度。而LUSPO通過乘以長度因子,恰好抵消了這種稀釋效應,使得每個詞的貢獻變得均勻。
研究團隊通過嚴格的數學推導證明了這種調整的合理性。他們計算了LUSPO和GSPO的梯度公式,清楚地展示了兩者的區別。在GSPO中,梯度計算包含了一個隱含的長度歸一化項,這個項導致了長度偏見。而LUSPO通過顯式地乘以長度因子,完全消除了這個偏見源。
這種設計的美妙之處在于它的簡潔性和有效性。研究團隊沒有復雜地重新設計整個訓練框架,而是通過一個精準的數學調整解決了根本問題。這就像修理一臺精密儀器時,不需要拆解整臺機器,只需要調整一個關鍵的螺絲就能讓一切正常運轉。
三、實驗驗證:從理論到實踐的完美轉化
為了驗證LUSPO方法的有效性,研究團隊設計了一系列全面的實驗。這些實驗就像一場嚴格的藥物臨床試驗,需要在不同的"病人"(模型)、不同的"病癥"(任務)上測試新"藥物"(LUSPO方法)的效果。
實驗涵蓋了多種不同類型的人工智能模型。對于文本模型,研究團隊使用了Qwen2.5-7B-Base這樣的密集型模型和Qwen3-30B-A3B-Instruct這樣的混合專家模型。對于多模態模型,他們使用了能夠同時處理文字和圖像的Qwen2.5-VL-7B-Instruct模型。這種全面的測試就像在不同的土壤、不同的氣候條件下種植同一種作物,確保新方法具有廣泛的適用性。
在數學推理任務上,LUSPO展現出了顯著的優勢。在AMC23、AIME24、AIME25等標準化數學競賽題目上,使用LUSPO訓練的模型表現明顯優于使用GSPO訓練的同類模型。以Qwen2.5-7B-Base模型為例,在AIME24任務上,LUSPO比GSPO提高了2.9%的準確率,在MATH500任務上提高了7.4%的準確率。這些提升看似不大,但在人工智能領域,幾個百分點的提升往往意味著質的飛躍。
更令人驚喜的是,在混合專家模型Qwen3-30B-A3B-Instruct上,LUSPO的優勢更加明顯。在AIME24任務上,LUSPO比GSPO提高了6.9%的準確率,在AIME25任務上甚至提高了17.1%的準確率。這種顯著的提升證明了LUSPO方法在復雜模型架構上的優越性。
在多模態推理任務上,LUSPO同樣表現出色。在MathVista-mini、MathVision等需要同時理解文字和圖像的復雜任務上,LUSPO不僅超越了GSPO,甚至在某些任務上也優于GRPO。特別是在WeMath和LogicVista這兩個測試邏輯推理能力的任務上,LUSPO分別比GSPO提高了5.1%和6.0%的準確率。
四、訓練動態:看得見的改善過程
通過觀察訓練過程中的各項指標變化,研究團隊清楚地展示了LUSPO方法帶來的積極影響。這個觀察過程就像醫生監測病人康復進程一樣,通過多個生命體征的變化來判斷治療效果。
最直觀的變化體現在回答長度上。在使用GSPO訓練時,Qwen2.5-VL-7B-Instruct模型的平均回答長度從訓練初期的450個詞急劇下降到最后的200多個詞,呈現出明顯的"坍塌"趨勢。而使用LUSPO訓練時,回答長度不僅沒有下降,反而穩步上升,最終穩定在500多個詞的水平。這種差異就像兩個學生的寫作能力發展軌跡:一個越寫越少,詞不達意;另一個表達越來越豐富,邏輯越來越清晰。
準確率的變化同樣令人鼓舞。在訓練過程中,使用LUSPO的模型在準確率提升方面始終領先于使用GSPO的模型。更重要的是,這種提升是持續穩定的,沒有出現波動或倒退現象,說明LUSPO提供了更加穩定的學習環境。
驗證集上的表現進一步證實了LUSPO的優勢。研究團隊定期在AIME24數學題目上測試模型表現,結果顯示LUSPO訓練的模型不僅在訓練數據上表現更好,在未見過的測試數據上也保持了優勢,證明了其良好的泛化能力。
平均回答長度的對比數據更是說明問題:GSPO訓練的Qwen2.5-7B-Base模型平均回答長度為2611個字符,而LUSPO訓練的同類模型平均回答長度達到3940個字符,提升了50%以上。在更大的Qwen3-30B-A3B-Instruct模型上,這個差異更加明顯:GSPO為6757個字符,LUSPO為11014個字符,幾乎提升了一倍。
五、深層原理:為什么LUSPO如此有效?
LUSPO方法的成功不是偶然的,它背后有著深刻的理論基礎。要理解這個原理,我們可以把人工智能的訓練過程比作一個復雜的生態系統,其中每種"物種"(不同長度的回答)都需要適當的"生存空間"。
在原來的GSPO系統中,這個生態系統是失衡的。短回答就像是繁殖能力強、適應性好的雜草,在競爭中占據優勢;而長回答則像是需要更多資源、生長周期更長的珍貴植物,在不公平的競爭環境中逐漸消失。這種失衡最終導致整個生態系統的單一化和貧瘠化。
LUSPO的調整就像是為不同的"物種"提供了公平的生存條件。通過給每個回答乘以其長度因子,LUSPO確保了長回答和短回答在訓練過程中獲得相等的"營養"(梯度更新)。這種平衡機制讓人工智能能夠學會在適當的時候給出詳細的回答,在需要時也能保持簡潔。
從信息論的角度來看,長回答通常包含更多的信息量。當一個人工智能模型能夠生成較長的、邏輯連貫的回答時,它實際上展示了對問題的深度理解和復雜推理能力。LUSPO方法保護了這種高信息量回答的生存空間,使得模型能夠發展出更加復雜和精妙的推理能力。
研究團隊還發現,LUSPO方法在不同類型的模型架構上都表現出色,說明其解決的是一個根本性問題。無論是密集型模型還是混合專家模型,無論是純文本模型還是多模態模型,都能從LUSPO的調整中受益。這種普適性證明了方法的理論基礎是扎實的。
此外,LUSPO方法的另一個重要優勢是其穩定性。傳統的GRPO方法雖然沒有GSPO那樣嚴重的長度偏見問題,但在混合專家模型上訓練時會出現不穩定現象。而LUSPO不僅解決了長度偏見問題,還繼承了GSPO在穩定性方面的優勢,可以說是兩全其美。
六、實際應用:從實驗室到現實世界
LUSPO方法的成功不僅僅是學術上的突破,更有著重要的實際應用價值。這個方法就像是人工智能訓練工具箱中新增的一個精密儀器,能夠幫助研發人員構建更加均衡和穩定的人工智能系統。
在數學教育領域,使用LUSPO訓練的人工智能助教能夠提供更加詳細和有邏輯的解題過程。這些AI助教不再只是簡單地給出答案,而是能夠像優秀的人類老師一樣,逐步引導學生理解問題、分析思路、執行計算、驗證結果。這種詳細的解釋對學生的學習幫助巨大,特別是在復雜的數學概念理解上。
在客服和咨詢服務領域,LUSPO訓練的人工智能能夠提供更加全面和有用的回答。當用戶咨詢復雜的技術問題或服務流程時,AI不會因為訓練偏見而給出過于簡短的回答,而是能夠提供詳細的步驟指導和背景解釋,顯著提升用戶體驗。
在內容創作領域,LUSPO方法有助于開發能夠產生高質量長文本的人工智能寫作助手。這些助手在幫助用戶撰寫報告、文章或其他需要深度分析的內容時,能夠保持適當的詳細程度,而不會因為訓練偏見而產生過于簡潔、缺乏深度的內容。
更重要的是,LUSPO方法為整個人工智能訓練領域提供了一個重要的啟示:看似微小的算法調整可能解決根本性的問題。這鼓勵研究人員更加仔細地審視現有訓練方法中可能存在的隱性偏見,推動整個領域向更加公平和有效的方向發展。
研究團隊還進行了魯棒性測試,在不同的數據集組合上驗證LUSPO的效果。他們發現,即使在不會導致回答長度坍塌的數據集上,LUSPO仍然能夠帶來性能提升,說明這個方法的價值不僅僅在于解決特定問題,更在于提供了一個普遍更好的訓練范式。
歸根結底,美團團隊這項研究解決了人工智能訓練中一個重要而隱蔽的問題。通過一個簡潔而巧妙的數學調整,LUSPO方法讓人工智能能夠更加公平地學習處理不同長度的回答,從而在復雜推理任務上表現得更加出色。這就像是給人工智能戴上了一副"公平眼鏡",讓它能夠更準確地看待和學習各種類型的知識。
這項研究的意義不僅在于提供了一個新的訓練方法,更在于揭示了人工智能訓練過程中可能存在的微妙但重要的偏見。它提醒我們,在追求人工智能性能提升的道路上,我們需要更加細致地關注訓練過程的每一個細節,確保我們構建的AI系統能夠真正公平、均衡地處理各種類型的任務和挑戰。隨著人工智能技術在各個領域的廣泛應用,這種對公平性和均衡性的關注將變得越來越重要。
Q&A
Q1:LUSPO相比GSPO有什么主要改進?
A:LUSPO的核心改進是在計算損失函數時將每個序列的損失乘以其長度,這樣消除了GSPO中存在的長度偏見。GSPO會讓AI的回答越來越短,而LUSPO確保長短回答都能得到公平對待,讓AI能夠在需要時給出詳細的推理過程。
Q2:為什么回答長度對AI推理能力這么重要?
A:就像人類解決復雜數學題需要在草稿紙上寫下推理過程一樣,AI處理復雜問題也需要足夠的"思考空間"。較長的回答通常包含完整的推理鏈條,包括問題分析、解題步驟、結果驗證等環節。如果AI被迫只能給出簡短回答,就失去了展開復雜推理的能力。
Q3:LUSPO方法在實際應用中效果如何?
A:實驗結果顯示LUSPO在多個任務上都有顯著提升。在數學推理任務AIME24上,LUSPO比GSPO提高了2.9-6.9%的準確率;在多模態推理任務上,在WeMath和LogicVista任務上分別提高了5.1%和6.0%。同時,使用LUSPO訓練的模型平均回答長度比GSPO長50%以上。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.