![]()
在人工智能飛速發(fā)展的今天,大語(yǔ)言模型已經(jīng)成為我們?nèi)粘I钪胁豢苫蛉钡闹帧5闶欠裰溃?xùn)練這些聰明的AI其實(shí)是一件極其復(fù)雜和困難的事情?就像教育一個(gè)孩子一樣,如果方法不當(dāng),不僅學(xué)不好,還可能"學(xué)壞"。最近,快手科技的研究團(tuán)隊(duì)在2025年12月發(fā)表了一項(xiàng)重要研究(arXiv:2512.05591v1),為解決AI訓(xùn)練中的關(guān)鍵問(wèn)題提出了一個(gè)巧妙的解決方案。
這項(xiàng)由快手科技蘇振鵬、潘雷雨、呂敏軒、梅鐵華等研究人員主導(dǎo)的工作,就像給AI訓(xùn)練裝上了一個(gè)"智能剎車(chē)系統(tǒng)"。當(dāng)我們用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練大語(yǔ)言模型時(shí),經(jīng)常會(huì)遇到一個(gè)棘手的問(wèn)題:模型在學(xué)習(xí)過(guò)程中容易"走偏",就好比一個(gè)學(xué)生在做題時(shí),不僅沒(méi)有按照正確的思路思考,反而越學(xué)越糊涂,最終完全偏離了正確方向。
傳統(tǒng)的訓(xùn)練方法就像只給汽車(chē)裝了前輪剎車(chē),雖然能在一定程度上控制速度,但當(dāng)遇到復(fù)雜路況時(shí),仍然容易失控。而快手團(tuán)隊(duì)提出的"熵比截?cái)?方法,則相當(dāng)于給AI訓(xùn)練裝上了一套完整的剎車(chē)系統(tǒng),不僅能更好地控制訓(xùn)練過(guò)程,還能確保AI始終朝著正確的方向?qū)W習(xí)。
傳統(tǒng)訓(xùn)練方法的困境就像開(kāi)車(chē)時(shí)只能看到前方一小塊路面,而忽略了整個(gè)道路狀況。當(dāng)我們訓(xùn)練AI時(shí),現(xiàn)有的方法主要關(guān)注那些被"采樣"到的詞匯(就像只關(guān)注考試中做過(guò)的題目),卻忽略了那些沒(méi)被選中但同樣重要的詞匯(類(lèi)似于忽略了課本中的其他知識(shí)點(diǎn))。這種"管一漏萬(wàn)"的做法,往往導(dǎo)致AI的知識(shí)結(jié)構(gòu)不夠穩(wěn)定,容易在訓(xùn)練過(guò)程中出現(xiàn)波動(dòng)。
研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)某個(gè)詞匯的出現(xiàn)概率很低(比如0.2以下)或很高(比如0.6以上)時(shí),傳統(tǒng)方法就顯得力不從心了。這就好比一個(gè)老師只關(guān)注班級(jí)中最活躍和最沉默的學(xué)生,卻忽略了中等水平學(xué)生的變化,結(jié)果導(dǎo)致整個(gè)班級(jí)的學(xué)習(xí)氛圍變得不穩(wěn)定。
一、熵比概念:AI學(xué)習(xí)狀態(tài)的"體溫計(jì)"
為了解決這個(gè)問(wèn)題,快手研究團(tuán)隊(duì)引入了一個(gè)巧妙的概念——熵比。這個(gè)概念就像是給AI裝上了一個(gè)"學(xué)習(xí)狀態(tài)監(jiān)測(cè)器",能夠?qū)崟r(shí)反映AI在學(xué)習(xí)過(guò)程中的"健康狀況"。
簡(jiǎn)單來(lái)說(shuō),熵就像是衡量AI思維活躍程度的指標(biāo)。當(dāng)AI面對(duì)一個(gè)問(wèn)題時(shí),如果它能想到很多種可能的答案,說(shuō)明它的思維很活躍,熵值就比較高;相反,如果它總是固執(zhí)地認(rèn)為只有一種答案是對(duì)的,那么熵值就比較低。而熵比,就是比較AI在學(xué)習(xí)前后思維活躍程度的變化。
這就好比比較一個(gè)學(xué)生在上課前后的思維狀態(tài)。如果一個(gè)學(xué)生原本對(duì)某個(gè)問(wèn)題只知道一種解法,但經(jīng)過(guò)學(xué)習(xí)后能想到多種不同的解題思路,那么他的"思維熵"就增加了。反之,如果他原本思維很活躍,但學(xué)習(xí)后變得僵化,只會(huì)機(jī)械地套用固定模式,那么他的"思維熵"就降低了。
研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)監(jiān)控這個(gè)熵比的變化,就能及時(shí)發(fā)現(xiàn)AI是否正在偏離正確的學(xué)習(xí)軌道。當(dāng)熵比變化過(guò)于劇烈時(shí)——無(wú)論是突然變得過(guò)于活躍還是突然變得過(guò)于僵化——都意味著AI的學(xué)習(xí)出現(xiàn)了問(wèn)題,需要及時(shí)干預(yù)。
二、熵比截?cái)鄼C(jī)制:為AI訓(xùn)練裝上"安全帶"
基于熵比這個(gè)概念,研究團(tuán)隊(duì)設(shè)計(jì)了一套"熵比截?cái)?機(jī)制,就像給AI訓(xùn)練過(guò)程裝上了一條智能安全帶。這個(gè)機(jī)制的工作原理非常巧妙:它會(huì)實(shí)時(shí)監(jiān)控AI學(xué)習(xí)過(guò)程中每個(gè)詞匯選擇的熵比變化,一旦發(fā)現(xiàn)某個(gè)變化超出了合理范圍,就會(huì)立即"踩剎車(chē)",阻止這種不健康的學(xué)習(xí)繼續(xù)進(jìn)行。
具體來(lái)說(shuō),這個(gè)機(jī)制設(shè)置了兩個(gè)邊界:一個(gè)上限和一個(gè)下限。就像給孩子設(shè)定合理的活動(dòng)范圍一樣,既不能讓他過(guò)于興奮失控,也不能讓他過(guò)于沉悶。當(dāng)AI在學(xué)習(xí)某個(gè)詞匯時(shí),如果它的思維活躍度突然暴漲(熵比過(guò)高),系統(tǒng)就會(huì)判斷這種學(xué)習(xí)可能過(guò)于激進(jìn),需要適當(dāng)抑制;同樣,如果AI變得過(guò)于保守(熵比過(guò)低),系統(tǒng)也會(huì)認(rèn)為這種學(xué)習(xí)缺乏探索性,不利于長(zhǎng)期發(fā)展。
這種雙向約束的設(shè)計(jì)非常巧妙。傳統(tǒng)方法就像只有單向的限制,要么完全放任AI自由學(xué)習(xí),要么一刀切地限制所有學(xué)習(xí)行為。而熵比截?cái)鄼C(jī)制則更像是一位經(jīng)驗(yàn)豐富的教師,能夠根據(jù)學(xué)生的具體表現(xiàn)給出個(gè)性化的指導(dǎo)——既鼓勵(lì)合理的探索,又及時(shí)糾正錯(cuò)誤的方向。
研究團(tuán)隊(duì)將這個(gè)機(jī)制應(yīng)用到了兩種不同的強(qiáng)化學(xué)習(xí)算法中:DAPO和GPPO。實(shí)驗(yàn)結(jié)果表明,無(wú)論是在哪種基礎(chǔ)算法上,加入熵比截?cái)鄼C(jī)制后,AI的訓(xùn)練過(guò)程都變得更加穩(wěn)定,最終性能也得到了顯著提升。這就好比無(wú)論是什么品牌的汽車(chē),裝上了更好的剎車(chē)系統(tǒng)后,都能更安全、更穩(wěn)定地行駛。
三、實(shí)驗(yàn)驗(yàn)證:在數(shù)學(xué)推理中的顯著成效
為了驗(yàn)證熵比截?cái)鄼C(jī)制的有效性,研究團(tuán)隊(duì)選擇了一個(gè)特別具有挑戰(zhàn)性的測(cè)試場(chǎng)景:數(shù)學(xué)推理。這個(gè)選擇非常明智,因?yàn)閿?shù)學(xué)推理就像是AI能力的"試金石"——它既需要邏輯思維的嚴(yán)密性,又需要?jiǎng)?chuàng)造性的解題思路,是檢驗(yàn)AI真實(shí)水平的最佳場(chǎng)景之一。
研究團(tuán)隊(duì)使用了包含3萬(wàn)個(gè)高質(zhì)量數(shù)學(xué)推理樣本的數(shù)據(jù)集進(jìn)行訓(xùn)練。這些樣本涵蓋了從基礎(chǔ)運(yùn)算到復(fù)雜的奧數(shù)題目,就像是為AI準(zhǔn)備了一套從小學(xué)到高中的完整數(shù)學(xué)課程。他們選擇了兩種不同規(guī)模的模型進(jìn)行測(cè)試:1.5B和7B參數(shù)的模型,分別相當(dāng)于"初學(xué)者"和"有一定基礎(chǔ)"的AI學(xué)生。
在多個(gè)權(quán)威數(shù)學(xué)競(jìng)賽數(shù)據(jù)集上的測(cè)試中,熵比截?cái)鄼C(jī)制展現(xiàn)出了令人印象深刻的效果。在AIME24(美國(guó)數(shù)學(xué)邀請(qǐng)賽2024)這樣的高難度競(jìng)賽中,使用了熵比截?cái)嗟腁I模型比傳統(tǒng)方法的表現(xiàn)提升了約4-6個(gè)百分點(diǎn)。這個(gè)提升看似不大,但在數(shù)學(xué)競(jìng)賽這種要求極高精確度的場(chǎng)景中,這已經(jīng)是一個(gè)相當(dāng)顯著的進(jìn)步了。
更令人驚喜的是,在一些特別具有挑戰(zhàn)性的測(cè)試中,比如HMMT25(哈佛-麻省理工數(shù)學(xué)競(jìng)賽),改進(jìn)效果甚至更加明顯。這說(shuō)明熵比截?cái)鄼C(jī)制在處理復(fù)雜問(wèn)題時(shí)的優(yōu)勢(shì)更為突出,就像一個(gè)好的學(xué)習(xí)方法在面對(duì)難題時(shí)能發(fā)揮更大的作用。
四、訓(xùn)練穩(wěn)定性的顯著改善
除了最終性能的提升,熵比截?cái)鄼C(jī)制在訓(xùn)練穩(wěn)定性方面的改善同樣令人矚目。研究團(tuán)隊(duì)詳細(xì)分析了訓(xùn)練過(guò)程中兩個(gè)關(guān)鍵指標(biāo)的變化:熵值的穩(wěn)定性和梯度范數(shù)的變化。
在傳統(tǒng)訓(xùn)練方法中,AI的熵值經(jīng)常出現(xiàn)劇烈波動(dòng),就像一個(gè)情緒不穩(wěn)定的學(xué)生,時(shí)而過(guò)度興奮,時(shí)而過(guò)度沮喪。這種不穩(wěn)定狀態(tài)不僅影響學(xué)習(xí)效率,還可能導(dǎo)致已經(jīng)學(xué)會(huì)的知識(shí)被遺忘。而采用熵比截?cái)鄼C(jī)制后,AI的熵值變化變得平緩而有序,就像一個(gè)心態(tài)成熟的學(xué)習(xí)者,能夠保持穩(wěn)定的學(xué)習(xí)狀態(tài)。
梯度范數(shù)的變化也反映了類(lèi)似的問(wèn)題。在傳統(tǒng)方法中,這個(gè)指標(biāo)經(jīng)常出現(xiàn)"爆炸"或"消失"現(xiàn)象,就像汽車(chē)的油門(mén)時(shí)而失控地猛踩,時(shí)而完全失去響應(yīng)。這種不穩(wěn)定會(huì)嚴(yán)重影響AI的學(xué)習(xí)過(guò)程,導(dǎo)致訓(xùn)練效率低下,甚至可能讓整個(gè)訓(xùn)練過(guò)程崩潰。
引入熵比截?cái)鄼C(jī)制后,梯度范數(shù)的變化變得更加平滑可控。這意味著AI能夠以更穩(wěn)定的"步伐"進(jìn)行學(xué)習(xí),既不會(huì)因?yàn)檫^(guò)于激進(jìn)而"摔跤",也不會(huì)因?yàn)檫^(guò)于保守而停滯不前。這種穩(wěn)定性的改善,為AI的持續(xù)學(xué)習(xí)和長(zhǎng)期發(fā)展提供了重要保障。
五、深入分析:為什么熵比截?cái)嗳绱擞行?/p>
研究團(tuán)隊(duì)對(duì)熵比截?cái)鄼C(jī)制的有效性進(jìn)行了深入分析,發(fā)現(xiàn)了幾個(gè)有趣的現(xiàn)象。首先,被熵比截?cái)鄼C(jī)制"制止"的詞匯主要集中在兩類(lèi):一類(lèi)是概率極低的詞匯,另一類(lèi)是概率極高的詞匯。這個(gè)發(fā)現(xiàn)證實(shí)了團(tuán)隊(duì)最初的直覺(jué):傳統(tǒng)方法確實(shí)在處理這兩類(lèi)極端情況時(shí)存在盲區(qū)。
更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)被截?cái)嗟脑~匯大多數(shù)是那些對(duì)整體語(yǔ)義貢獻(xiàn)較小的"確定性"詞匯,比如數(shù)學(xué)公式中的固定符號(hào)或者推理過(guò)程中的連接詞。而那些對(duì)推理過(guò)程至關(guān)重要的"探索性"詞匯則大多被保留下來(lái)。這說(shuō)明熵比截?cái)鄼C(jī)制具有很好的"智能判斷"能力,能夠區(qū)分哪些變化是有益的探索,哪些變化是有害的噪音。
研究團(tuán)隊(duì)還通過(guò)可視化分析發(fā)現(xiàn),使用熵比截?cái)鄼C(jī)制的AI模型在面對(duì)新問(wèn)題時(shí)表現(xiàn)出更好的"審慎性"。它們不會(huì)輕易改變已經(jīng)掌握的核心推理模式,但同時(shí)又保持了足夠的靈活性來(lái)應(yīng)對(duì)新的挑戰(zhàn)。這種平衡恰恰是優(yōu)秀學(xué)習(xí)者應(yīng)該具備的品質(zhì):既要有堅(jiān)實(shí)的基礎(chǔ),又要有創(chuàng)新的能力。
與傳統(tǒng)的正則化方法相比,熵比截?cái)鄼C(jī)制的優(yōu)勢(shì)在于它的"選擇性"。傳統(tǒng)方法往往采用"一刀切"的策略,要么全面限制AI的探索行為,要么完全放開(kāi)限制。而熵比截?cái)鄤t更加精細(xì)化,只在真正需要的時(shí)候進(jìn)行干預(yù),在其他時(shí)候則給AI充分的學(xué)習(xí)自由。這種精準(zhǔn)控制的能力,使得AI既能保持學(xué)習(xí)的積極性,又能避免偏離正確方向。
六、廣泛適用性:跨算法的一致性改善
熵比截?cái)鄼C(jī)制的另一個(gè)重要優(yōu)勢(shì)是其廣泛的適用性。研究團(tuán)隊(duì)不僅在DAPO算法上驗(yàn)證了其有效性,還在GPPO算法上進(jìn)行了測(cè)試,結(jié)果顯示同樣取得了顯著的改善效果。這說(shuō)明熵比截?cái)嗖皇轻槍?duì)特定算法的"定制化"解決方案,而是一個(gè)具有普遍適用性的改進(jìn)機(jī)制。
這種跨算法的一致性改善具有重要意義。在AI領(lǐng)域,不同的研究團(tuán)隊(duì)往往采用不同的訓(xùn)練算法,如果一個(gè)改進(jìn)方法只適用于特定算法,那么它的推廣價(jià)值就會(huì)大大降低。而熵比截?cái)鄼C(jī)制的普遍適用性,意味著它可以作為一個(gè)"通用插件",輕松集成到各種現(xiàn)有的訓(xùn)練框架中。
更重要的是,研究團(tuán)隊(duì)發(fā)現(xiàn)熵比截?cái)鄼C(jī)制在不同規(guī)模的模型上都能發(fā)揮作用。無(wú)論是參數(shù)較少的"輕量級(jí)"模型,還是參數(shù)眾多的"重量級(jí)"模型,都能從這個(gè)機(jī)制中獲益。這種規(guī)模無(wú)關(guān)性進(jìn)一步證明了熵比截?cái)鄼C(jī)制的魯棒性和實(shí)用價(jià)值。
研究團(tuán)隊(duì)還進(jìn)行了與其他約束機(jī)制的對(duì)比實(shí)驗(yàn)。他們將熵比截?cái)嗯c傳統(tǒng)的KL散度正則化和熵正則化進(jìn)行了比較,發(fā)現(xiàn)熵比截?cái)嘣诙鄠€(gè)指標(biāo)上都表現(xiàn)更優(yōu)。特別是在處理"雙向"不穩(wěn)定問(wèn)題上,熵比截?cái)囡@示出獨(dú)特的優(yōu)勢(shì)——既能防止AI變得過(guò)于保守,又能避免其變得過(guò)于激進(jìn)。
七、實(shí)際應(yīng)用前景與局限性
雖然熵比截?cái)鄼C(jī)制在數(shù)學(xué)推理任務(wù)上取得了顯著成功,但研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前工作的局限性。由于計(jì)算資源的限制,他們主要在數(shù)學(xué)推理這一個(gè)領(lǐng)域進(jìn)行了驗(yàn)證,而在其他應(yīng)用場(chǎng)景(如代碼生成、對(duì)話系統(tǒng)等)中的表現(xiàn)還有待進(jìn)一步驗(yàn)證。
不過(guò),從理論角度來(lái)看,熵比截?cái)鄼C(jī)制的基本原理應(yīng)該能夠推廣到其他需要精確控制AI生成過(guò)程的場(chǎng)景中。比如在代碼生成任務(wù)中,過(guò)于隨意的代碼結(jié)構(gòu)可能導(dǎo)致程序錯(cuò)誤,而過(guò)于僵化的生成模式又可能限制創(chuàng)新性解決方案的產(chǎn)生。熵比截?cái)鄼C(jī)制恰好能夠在這兩個(gè)極端之間找到平衡點(diǎn)。
在對(duì)話系統(tǒng)中,類(lèi)似的問(wèn)題也存在。一個(gè)過(guò)于保守的對(duì)話AI可能回答過(guò)于刻板,缺乏個(gè)性;而一個(gè)過(guò)于隨意的AI又可能產(chǎn)生不合適或不一致的回復(fù)。熵比截?cái)鄼C(jī)制有望幫助對(duì)話AI在保持創(chuàng)造性的同時(shí),維持回答的一致性和可靠性。
從工程實(shí)現(xiàn)的角度來(lái)看,熵比截?cái)鄼C(jī)制的另一個(gè)優(yōu)勢(shì)是其相對(duì)簡(jiǎn)單的部署方式。與一些需要大幅修改訓(xùn)練架構(gòu)的改進(jìn)方法不同,熵比截?cái)嗫梢宰鳛橐粋€(gè)相對(duì)獨(dú)立的模塊加入到現(xiàn)有的訓(xùn)練流程中,這大大降低了實(shí)際應(yīng)用的技術(shù)門(mén)檻。
研究團(tuán)隊(duì)認(rèn)為,隨著計(jì)算資源的不斷增加和研究的深入,未來(lái)有望將熵比截?cái)鄼C(jī)制擴(kuò)展到更多領(lǐng)域,并進(jìn)一步優(yōu)化其參數(shù)設(shè)置和適應(yīng)性。他們特別提到,下一步的工作方向包括探索自適應(yīng)的熵比邊界設(shè)置,以及結(jié)合強(qiáng)化學(xué)習(xí)中的其他先進(jìn)技術(shù)來(lái)進(jìn)一步提升效果。
說(shuō)到底,快手科技團(tuán)隊(duì)提出的熵比截?cái)鄼C(jī)制就像是給AI訓(xùn)練裝上了一套精密的"平衡系統(tǒng)"。它不是簡(jiǎn)單粗暴地限制AI的學(xué)習(xí)能力,而是像一位經(jīng)驗(yàn)豐富的教練一樣,在關(guān)鍵時(shí)刻給出恰到好處的指導(dǎo)和約束。這種方法既保證了AI學(xué)習(xí)的穩(wěn)定性,又維持了其探索和創(chuàng)新的能力,為解決強(qiáng)化學(xué)習(xí)中長(zhǎng)期存在的穩(wěn)定性問(wèn)題提供了一個(gè)優(yōu)雅而實(shí)用的解決方案。
這項(xiàng)研究的價(jià)值不僅在于其技術(shù)創(chuàng)新,更在于它為整個(gè)AI訓(xùn)練領(lǐng)域提供了新的思路。正如研究團(tuán)隊(duì)在論文中所強(qiáng)調(diào)的,優(yōu)秀的AI訓(xùn)練方法應(yīng)該能夠在穩(wěn)定性和探索性之間找到完美的平衡點(diǎn)。而熵比截?cái)鄼C(jī)制的成功,為實(shí)現(xiàn)這種平衡提供了一個(gè)可行的路徑。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)arXiv編號(hào)2512.05591v1查詢完整論文。
Q&A
Q1:熵比截?cái)鄼C(jī)制是什么?
A:熵比截?cái)嗍强焓挚萍继岢龅腁I訓(xùn)練改進(jìn)方法,它通過(guò)監(jiān)控AI學(xué)習(xí)前后思維活躍度的變化(熵比),來(lái)判斷學(xué)習(xí)是否偏離正確方向。當(dāng)變化過(guò)于劇烈時(shí),系統(tǒng)會(huì)及時(shí)"剎車(chē)"阻止錯(cuò)誤學(xué)習(xí),既防止AI變得過(guò)于保守,又避免其過(guò)于激進(jìn)。
Q2:為什么傳統(tǒng)的AI訓(xùn)練方法容易出現(xiàn)問(wèn)題?
A:傳統(tǒng)方法就像只裝了前輪剎車(chē)的汽車(chē),只關(guān)注被"采樣"到的詞匯,卻忽略了其他重要詞匯的變化。這種"管一漏萬(wàn)"的做法導(dǎo)致AI知識(shí)結(jié)構(gòu)不穩(wěn)定,容易在訓(xùn)練中出現(xiàn)波動(dòng),特別是在處理概率很低或很高的詞匯時(shí)表現(xiàn)不佳。
Q3:熵比截?cái)鄼C(jī)制的實(shí)際效果如何?
A:在數(shù)學(xué)推理任務(wù)測(cè)試中,使用熵比截?cái)嗟腁I模型在AIME24等權(quán)威競(jìng)賽中比傳統(tǒng)方法提升4-6個(gè)百分點(diǎn)。更重要的是,訓(xùn)練過(guò)程變得更穩(wěn)定,AI的學(xué)習(xí)狀態(tài)更加平穩(wěn),避免了傳統(tǒng)方法中常見(jiàn)的性能波動(dòng)問(wèn)題。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.