網易首頁 > 網易號 > 正文申請入駐

港科大突破：AI大模型發掘自主數學推理能力

2025-12-08 22:18:53　來源: 科技行者

北京舉報

分享至

這項令人矚目的研究由香港科技大學的唐一軒和楊毅團隊完成，發表于2025年12月的arXiv預印本服務器，論文編號為2512.02807v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

過去，要讓AI大語言模型變得更聰明、更貼合人類需求，就像訓練一只寵物狗一樣——需要大量的人類反饋來告訴它什么是對的，什么是錯的。這個過程不僅費時費力，還會遇到各種問題。人類的評判標準往往主觀且不一致，而且收集足夠的高質量標注數據成本高昂。更關鍵的是，現有的獎勵模型容易被"鉆空子"，就像考試時學生可能找到作弊方法一樣。

香港科技大學的研究團隊發現了一個非常有趣的現象：AI模型在生成回答時，其內部的"神經活動"竟然能夠反映回答質量的好壞。這就像是觀察一個人說話時的面部表情和肢體語言，就能判斷他說的話是否可信一樣。研究團隊通過一個叫做"穩定秩"的數學概念，成功從模型的內部狀態中提取出了質量信號，不再需要人類的直接監督。

一、什么是"穩定秩"——AI內部的"數學體檢報告"

穩定秩聽起來很復雜，但實際上可以用一個簡單的比喻來理解。當AI模型生成一段文字時，它的內部會產生大量的數字表示，就像一個人在思考時大腦中會有各種神經元活動一樣。穩定秩就是測量這些數字表示的"分布均勻程度"的指標。

設想你有一個裝滿彈珠的盒子，每個彈珠代表AI在思考某個詞匯時的"激活強度"。如果所有彈珠都堆積在盒子的一個角落，這就像AI的思考過程過于單一，缺乏豐富性；如果彈珠均勻分布在整個盒子里，這表示AI的思考過程涉及了多個維度，更加全面和深入。穩定秩就是衡量這種"分布均勻程度"的數學工具。

在數學上，穩定秩的計算公式是把所有激活值的平方和除以最大激活值的平方。當這個比值接近1時，說明只有一個方向占主導地位，就像所有彈珠都擠在一個角落；當比值較大時，說明激活強度比較均勻地分布在多個方向上，就像彈珠均勻分布在整個盒子里。

研究團隊通過大量實驗發現，高質量的回答往往對應著較高的穩定秩值。這背后的原理可以這樣理解：當AI生成連貫、準確且信息豐富的回答時，它需要協調多個不同的知識領域和語言技能，這種復雜的協調過程會在內部表示中體現為多維度的激活模式。相反，當AI生成低質量回答（比如重復、胡言亂語或不連貫的內容）時，其內部表示往往會"塌縮"到少數幾個維度，導致穩定秩較低。

二、驗證實驗——讓AI自己"判斷作業質量"

為了驗證這個想法是否靠譜，研究團隊設計了一系列巧妙的實驗。他們使用了一個叫做RewardBench的數據集，這個數據集包含了近3000對問答，每一對都有一個好回答和一個差回答，就像是老師批改作業時的標準答案對比。

實驗的設計很像讓AI當"閱卷老師"。研究團隊讓多個不同規模的AI模型（包括Qwen2.5、Qwen3、Llama-3.1、Phi-3.5等）對這些問答對進行評判，但不是通過讓AI直接說"這個回答好還是差"，而是通過計算每個回答的穩定秩，然后看穩定秩高的回答是否真的比穩定秩低的回答質量更好。

結果令人驚喜。在Qwen3-8B模型上，僅僅使用穩定秩就能達到84.04%的準確率，這個成績甚至超過了一些需要大量訓練數據的傳統方法。更重要的是，這種方法在小模型上表現尤其出色——在Qwen2.5-1.5B這個相對較小的模型上，穩定秩方法比其他方法高出了10個百分點以上。

這個發現特別有意義，因為傳統的基于提示的評估方法在小模型上往往表現不佳。小模型缺乏足夠的指令理解能力，很難按照復雜的評分標準進行評判。而穩定秩方法不依賴模型的指令理解能力，而是直接從內部幾何結構中提取信號，因此對模型規模的要求更低。

三、實戰應用——"最佳答案篩選器"

研究團隊還測試了穩定秩在實際應用中的表現。他們設計了一個"Best-of-N"的場景：讓AI模型對同一個問題生成多個不同的回答（比如16個），然后使用穩定秩來選擇其中質量最高的一個，就像是從多份草稿中挑選最佳版本。

在數學推理和科學問題回答方面，這種方法表現得相當出色。以Llama-3.2-1B模型為例，使用穩定秩篩選后，平均準確率提升了20.5%。這就像是給學生提供了一個"作業質量檢查器"，能夠自動從多次嘗試中挑選出最好的答案。

特別值得注意的是，穩定秩篩選的效果遠遠超過了隨機選擇。在某些情況下，隨機選擇甚至會讓結果變差，因為隨機可能會選中質量很低的回答。而穩定秩篩選則能夠可靠地識別出高質量回答，避免了這種風險。

四、核心創新——SR-GRPO訓練方法

基于穩定秩這個發現，研究團隊開發了一種全新的AI訓練方法，叫做"穩定秩群體相對策略優化"（SR-GRPO）。這個方法的核心思想是讓AI在學習過程中不斷追求更高的穩定秩，從而自動提升回答質量。

這個訓練過程可以比作培養一個優秀的演講者。傳統方法需要觀眾不斷提供反饋，告訴演講者哪里講得好，哪里需要改進。而SR-GRPO方法則是教會演講者通過觀察自己的"內在狀態"（比如思維的清晰度、邏輯的連貫性）來自我評估和改進。

具體的訓練過程是這樣的：對于每個訓練問題，模型會生成多個候選回答，然后計算每個回答的穩定秩。穩定秩高的回答會被認為是好的，并獲得正向獎勵；穩定秩低的回答則被認為是差的，獲得負向獎勵。通過這種方式，模型逐漸學會生成具有高穩定秩的回答。

關鍵的技術細節在于，穩定秩的計算是基于一個"凍結"的參考模型進行的。這就像是有一個固定的"評判標準尺子"，確保在訓練過程中評判標準不會發生變化。如果使用正在訓練的模型本身來計算穩定秩，模型可能會學會操控自己的內部表示來獲得虛高的穩定秩分數，而不是真正提升回答質量。

五、實驗結果——數據說話

研究團隊在兩個不同的模型上測試了SR-GRPO的效果：Qwen2.5-1.5B-Instruct和DeepSeek-R1-Distill-Qwen-1.5B。實驗涵蓋了三大類任務：STEM科學問題、數學推理問題和開放式對話。

在STEM任務上，SR-GRPO顯示了顯著的改進。以Qwen2.5-1.5B模型為例，GPQA（研究生水平的科學問答）任務的準確率從19.0%提升到21.2%，MMLU-redux（大學水平的多學科問答）基本保持穩定在47.7%。雖然提升幅度看似不大，但在這些高難度的學術問題上，每一個百分點的提升都是很有價值的。

在數學推理方面，改進更加明顯。MATH500（競賽級數學問題）的準確率從48.0%躍升到52.4%，提升了4.4個百分點。更令人驚喜的是，在AMC23（美國數學競賽）問題上，準確率從35.0%大幅提升到37.5%。這些結果表明，SR-GRPO特別擅長提升需要邏輯推理和結構化思維的任務性能。

在開放式對話質量方面，WildBench評測顯示SR-GRPO也帶來了顯著改善。該評測使用GPT-4o作為評委，對模型生成的對話進行評分。Qwen2.5-1.5B的Elo評分從1036.2提升到1062.4，增長了26.2分，這在對話質量評測中是一個相當可觀的進步。

特別值得強調的是，SR-GRPO在所有測試中都超越了使用傳統獎勵模型的方法。傳統獎勵模型方法在某些任務上甚至出現了性能下降，比如在GPQA任務上從19.0%降到15.7%，這說明通用的偏好數據可能并不適用于專業化的推理任務。

六、深入理解——穩定秩到底捕捉了什么

為了理解穩定秩為什么有效，研究團隊進行了詳細的分析，探索穩定秩與各種文本質量指標之間的關系。他們發現穩定秩主要捕捉了三個重要的質量維度。

第一個維度是語義連貫性。研究發現，穩定秩與"進展得分"呈正相關關系，這個指標衡量的是文章中每個句子是否在前一個句子的基礎上有所發展。同時，穩定秋與"問答對齊一致性"也呈正相關，這意味著高穩定秩的回答能夠始終保持與問題的相關性。相反，穩定秩與"連貫性標準差"呈強負相關，這表明穩定秩偏向于避免句子間突然的主題跳躍。

第二個維度是信息密度與簡潔性。出人意料的是，穩定秩與文本長度呈負相關關系。token數量和句子數量都與穩定秩呈負相關，這與許多獎勵模型傾向于偏愛更長回答的問題形成了鮮明對比。但穩定秩同時與詞匯多樣性和壓縮比呈正相關，這說明它偏愛信息密度高、用詞精確的回答，而不是冗長重復的文本。

第三個維度是推理結構的識別。在對話語標記的分析中，研究團隊發現了一個有趣的模式。大多數話語標記（如"此外"、"首先"、"如果"等）與穩定秩呈負相關，這表明過度依賴明確連接詞的回答可能質量較低。然而，"然而"和"因為"這兩類表示對比和因果關系的標記與穩定秩呈正相關。這說明穩定秩能夠識別出真正重要的邏輯轉折點，而不是流水賬式的敘述結構。

這些發現揭示了穩定秩作為質量指標的深層機制：它偏愛那些在語義上連貫、信息上精煉、邏輯上嚴密的回答，這恰好符合我們對高質量文本的直覺期待。

七、技術優勢——為什么穩定秩方法更勝一籌

穩定秩方法相比傳統方法有幾個顯著優勢。首先是計算效率。穩定秩的計算只需要進行一次前向傳播并計算簡單的矩陣范數，計算復雜度只有O(Td)，其中T是序列長度，d是隱藏維度。這個開銷相比transformer的前向傳播來說幾乎可以忽略不計。

其次是魯棒性。研究團隊測試了不同輸入長度對性能的影響，發現即使將輸入截斷到512個token，穩定秩的性能也只有輕微下降。這說明穩定秩捕捉的是文本的核心語義結構，而不是依賴于表面的長度特征。

第三是格式無關性。研究團隊測試了六種不同的輸入格式，發現穩定秩的性能在不同格式間的差異不超過3個百分點。這種魯棒性大大簡化了實際應用中的配置工作。

最重要的是可擴展性。由于穩定秋不需要任何標注數據，它可以輕松擴展到新的領域和任務。傳統的獎勵模型需要為每個新領域收集大量偏好數據，而穩定秩方法則可以直接應用到任何文本生成任務上。

八、對比分析——穩定秩vs其他方法

研究團隊還比較了穩定秩與其他幾種內在維度指標的性能。他們測試了條件數（最大奇異值與最小奇異值的比值）、PCA95%方差（需要多少個主成分才能解釋95%的方差）以及有效秩（基于奇異值分布熵的度量）。

結果顯示穩定秩在所有類別上都明顯優于其他指標。在整體準確率上，穩定秩達到84.04%，而PCA95%方差只有61.91%，有效秩為54.50%，條件數更是只有36.04%。特別是在困難的數學和安全類別上，穩定秩的優勢更加明顯。

這種優勢的原因在于穩定秩獨特的設計。條件數過于敏感于極值，容易受到異常值影響；有效秩的熵權重和PCA的離散計數方法都不太適合捕捉質量差異；而穩定秩通過Frobenius范數聚合整個奇異值譜的信息，既保持了對整體結構的敏感性，又具有良好的魯棒性。

九、局限性與未來展望

盡管穩定秩方法表現出色，但研究團隊也誠實地指出了一些局限性。首先，穩定秩與質量指標的相關性雖然顯著，但強度中等（相關系數在0.2-0.4之間）。這說明穩定秩捕捉的是質量的一個重要方面，但并非全部。

其次，穩定秩方法在代碼生成任務上的表現相對較弱。當輸入被截斷到128個token時，代碼類別的準確率從87.91%驟降到24.80%，這說明代碼的質量判斷可能更依賴于完整的程序邏輯結構。

另外，目前的研究主要集中在英文文本上，穩定秩在其他語言上的表現還需要進一步驗證。不同語言的語法結構和表達習慣可能會影響穩定秩的有效性。

未來的研究方向包括：探索穩定秩與其他質量信號的組合使用、開發針對特定領域（如代碼、數學、創意寫作）的優化版本、以及將穩定秩方法擴展到多模態任務中。

說到底，這項研究為AI大語言模型的訓練開辟了一條全新的道路。通過直接從模型內部幾何結構中提取質量信號，我們不再需要完全依賴昂貴的人工標注或容易被操控的外部獎勵模型。穩定秩就像是AI模型的"內在指南針"，能夠幫助它們在生成過程中自主地追求更高的質量。

這種方法的價值不僅在于提升了模型性能，更在于它展示了一種全新的思路：與其試圖從外部告訴AI什么是好的，不如教會它從內部感知什么是好的。這種內在的質量感知能力，可能是未來AI系統走向真正智能的重要一步。雖然目前穩定秋方法還有一些局限性，但它已經證明了內在幾何結構作為質量信號的巨大潛力。

隨著這一研究的深入，我們有理由期待未來的AI系統將變得更加自主、高效和可靠。對于普通用戶而言，這意味著更好的AI助手、更準確的自動生成內容以及更少的"AI胡說八道"現象。而對于AI研究界，這項工作提供了一個全新的研究方向，可能會催生出更多創新的訓練方法和評估技術。

Q&A

Q1：穩定秩是什么，為什么能判斷AI回答質量？

A：穩定秩是一個數學概念，用來測量AI模型內部數字表示的"分布均勻程度"。當AI生成高質量回答時，它需要協調多個知識領域，這會在內部產生多維度的激活模式，導致穩定秋值較高；而低質量回答往往對應單一或混亂的思維模式，穩定秩值較低。

Q2：SR-GRPO訓練方法比傳統方法好在哪里？

A：SR-GRPO最大的優勢是不需要人工標注數據，能夠讓AI通過監測自身的內部狀態來自動提升質量。實驗顯示，在數學推理任務上，SR-GRPO比傳統獎勵模型方法提升了10-19個百分點，而且訓練成本更低，適用范圍更廣。

Q3：普通人什么時候能用到這項技術？

A：這項技術主要用于改進AI大語言模型的訓練過程，普通用戶不會直接接觸到穩定秩計算。但隨著這種方法的應用，未來的AI助手、聊天機器人和自動寫作工具的回答質量會變得更好，出現胡言亂語的情況會大幅減少。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.