![]()
這項(xiàng)由上海交通大學(xué)嚴(yán)駿馳教授和阿里巴巴蘇文博共同領(lǐng)導(dǎo)的研究團(tuán)隊(duì)發(fā)表于2025年10月的最新研究(論文編號(hào):arXiv:2510.13554v1),為我們打開了一扇窺探人工智能"大腦"工作方式的全新窗口。研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人驚訝的現(xiàn)象:大型語言模型在推理時(shí)會(huì)展現(xiàn)出一種類似人類思考的節(jié)奏模式,他們將其命名為"預(yù)設(shè)與錨定"節(jié)奏。更重要的是,這一發(fā)現(xiàn)不僅揭示了AI如何思考,還為訓(xùn)練更聰明的AI提供了全新思路。
想要理解這項(xiàng)研究的重要性,我們可以把大型語言模型比作一個(gè)正在解決復(fù)雜數(shù)學(xué)題的學(xué)生。傳統(tǒng)上,我們只能看到這個(gè)學(xué)生最終寫在紙上的答案,卻無法了解他在思考過程中是如何組織思路的。而這項(xiàng)研究就像給我們提供了一副"透視眼鏡",讓我們能夠觀察到這個(gè)學(xué)生在解題時(shí)的每一個(gè)思考步驟,包括他什么時(shí)候在回憶之前學(xué)過的知識(shí),什么時(shí)候在為接下來的步驟做準(zhǔn)備。
研究團(tuán)隊(duì)選擇了"注意力機(jī)制"作為這副透視眼鏡的核心技術(shù)。注意力機(jī)制原本是大型語言模型內(nèi)部的一個(gè)技術(shù)組件,就像人腦在處理信息時(shí)會(huì)選擇性地關(guān)注某些重要內(nèi)容一樣。然而,這項(xiàng)研究的突破在于,他們發(fā)現(xiàn)注意力機(jī)制不僅僅是一個(gè)計(jì)算工具,更是一扇窺探AI推理邏輯的窗戶。通過仔細(xì)分析這些注意力模式,研究團(tuán)隊(duì)成功解碼了AI的思考節(jié)奏。
在技術(shù)實(shí)現(xiàn)上,研究團(tuán)隊(duì)巧妙地將注意力頭分為兩大類別:本地聚焦型和全局聚焦型。本地聚焦型注意力頭就像一個(gè)專注于細(xì)節(jié)的工匠,主要關(guān)注當(dāng)前位置附近的詞匯和短語,負(fù)責(zé)處理語言的局部結(jié)構(gòu)。而全局聚焦型注意力頭則像一個(gè)統(tǒng)籌全局的指揮官,能夠跨越很遠(yuǎn)的距離關(guān)注到對(duì)整體推理至關(guān)重要的關(guān)鍵詞匯。研究團(tuán)隊(duì)通過計(jì)算每個(gè)注意力頭的平均回望距離來區(qū)分這兩種類型,就像測(cè)量一個(gè)人的視野范圍一樣簡單直觀。
通過對(duì)這兩類注意力頭的深入分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)極其有趣的現(xiàn)象。本地聚焦型注意力頭在處理文本時(shí)會(huì)產(chǎn)生一種鋸齒狀的模式,這種模式恰好對(duì)應(yīng)著語言的短語塊邊界。當(dāng)AI在處理一個(gè)熟悉的短語時(shí),比如"順便說一句",注意力會(huì)緊緊聚焦在這幾個(gè)相鄰的詞上。但是當(dāng)AI需要開始一個(gè)新的語義塊時(shí),注意力會(huì)突然向前回望更遠(yuǎn)的內(nèi)容,尋找上下文信息來決定接下來應(yīng)該說什么。
與此同時(shí),全局聚焦型注意力頭展現(xiàn)出了完全不同的行為模式。它們會(huì)持續(xù)關(guān)注文本中的某些關(guān)鍵位置,這些位置就像推理過程中的"錨點(diǎn)"一樣,為后續(xù)的推理提供穩(wěn)定的參考基礎(chǔ)。研究團(tuán)隊(duì)將這些關(guān)鍵位置稱為"錨定詞匯",它們通常對(duì)應(yīng)著推理過程中的關(guān)鍵概念、中間結(jié)果或決策點(diǎn)。
基于這些觀察,研究團(tuán)隊(duì)提出了兩個(gè)核心指標(biāo)來量化AI的推理節(jié)奏。第一個(gè)指標(biāo)叫做"窗口化平均注意距離",簡單來說就是測(cè)量一個(gè)詞匯需要向前回望多遠(yuǎn)的距離來獲取必要的上下文信息。第二個(gè)指標(biāo)叫做"未來注意影響力",用來衡量一個(gè)詞匯對(duì)后續(xù)推理過程的重要程度。通過這兩個(gè)指標(biāo),研究團(tuán)隊(duì)成功描繪出了AI推理過程中的節(jié)奏變化。
最令人興奮的發(fā)現(xiàn)是,這兩個(gè)指標(biāo)的聯(lián)合動(dòng)態(tài)展現(xiàn)出了一種穩(wěn)定的"預(yù)設(shè)與錨定"節(jié)奏。具體而言,當(dāng)AI接近一個(gè)語義邊界時(shí),窗口化平均注意距離會(huì)出現(xiàn)峰值,表明AI正在進(jìn)行長距離的上下文查詢來準(zhǔn)備接下來的內(nèi)容。這個(gè)峰值通常伴隨著或緊跟著一個(gè)高未來注意影響力的詞匯,這個(gè)詞匯就成為了后續(xù)推理的錨定點(diǎn)。這種模式就像一個(gè)經(jīng)驗(yàn)豐富的象棋選手,總是會(huì)在下一步棋之前仔細(xì)觀察整個(gè)棋局,然后落下一個(gè)關(guān)鍵的棋子,為后續(xù)的戰(zhàn)略布局奠定基礎(chǔ)。
為了驗(yàn)證這種注意力模式確實(shí)反映了AI的推理邏輯,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的實(shí)驗(yàn)。他們?cè)贏I生成的推理過程中隨機(jī)替換某些詞匯,然后觀察這種替換對(duì)后續(xù)推理的影響程度。結(jié)果顯示,替換高影響力錨定詞匯會(huì)導(dǎo)致后續(xù)推理發(fā)生顯著變化,而替換低影響力的局部詞匯幾乎不會(huì)影響整體推理方向。這就像在一個(gè)精密的機(jī)械裝置中,移動(dòng)關(guān)鍵齒輪會(huì)影響整個(gè)系統(tǒng)的運(yùn)轉(zhuǎn),而調(diào)整一些裝飾性部件則不會(huì)產(chǎn)生實(shí)質(zhì)影響。
基于這些深刻洞察,研究團(tuán)隊(duì)開發(fā)了三種全新的強(qiáng)化學(xué)習(xí)策略,用于更高效地訓(xùn)練AI模型。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法就像是對(duì)一個(gè)學(xué)生的整篇作文給出統(tǒng)一的評(píng)分,無法區(qū)分哪些部分寫得好哪些部分需要改進(jìn)。而新的策略則像一個(gè)細(xì)心的老師,能夠針對(duì)作文中的關(guān)鍵句子和關(guān)鍵詞給出有針對(duì)性的反饋。
第一種策略叫做"局部塊獎(jiǎng)勵(lì)",專門強(qiáng)化那些位于語義邊界的預(yù)設(shè)詞匯。這些詞匯就像建筑的地基,為后續(xù)的推理搭建了基礎(chǔ)框架。第二種策略叫做"全局錨定獎(jiǎng)勵(lì)",重點(diǎn)強(qiáng)化那些具有高未來影響力的錨定詞匯。這些詞匯就像推理過程中的路標(biāo),指引著思考的方向。第三種策略叫做"耦合節(jié)奏獎(jiǎng)勵(lì)",考慮到了預(yù)設(shè)與錨定之間的時(shí)序關(guān)系,當(dāng)一個(gè)錨定詞匯被局部上下文主導(dǎo)時(shí),會(huì)將部分獎(jiǎng)勵(lì)回分給相關(guān)的預(yù)設(shè)詞匯。
在實(shí)驗(yàn)驗(yàn)證階段,研究團(tuán)隊(duì)在多個(gè)不同類型的任務(wù)上測(cè)試了這些新策略的效果。他們選擇了從簡單的數(shù)學(xué)謎題到復(fù)雜的多領(lǐng)域問答等不同難度級(jí)別的任務(wù)。實(shí)驗(yàn)結(jié)果令人振奮:在數(shù)學(xué)推理任務(wù)中,新策略相比傳統(tǒng)方法獲得了顯著的性能提升,在某些任務(wù)上改進(jìn)幅度達(dá)到了6個(gè)百分點(diǎn)以上。更重要的是,這種改進(jìn)是穩(wěn)定和一致的,在不同規(guī)模的模型和不同類型的任務(wù)上都能觀察到類似的效果。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)來驗(yàn)證每個(gè)組件的貢獻(xiàn)。他們發(fā)現(xiàn),僅僅強(qiáng)化預(yù)設(shè)詞匯或錨定詞匯都能帶來一定的改進(jìn),但將兩者結(jié)合并考慮它們之間的時(shí)序關(guān)系時(shí),效果最為顯著。這證實(shí)了"預(yù)設(shè)與錨定"節(jié)奏的完整性和重要性。
從技術(shù)實(shí)現(xiàn)的角度來看,這項(xiàng)研究的另一個(gè)亮點(diǎn)是其實(shí)用性。新的訓(xùn)練策略可以很容易地集成到現(xiàn)有的強(qiáng)化學(xué)習(xí)框架中,不需要對(duì)現(xiàn)有系統(tǒng)進(jìn)行大規(guī)模修改。研究團(tuán)隊(duì)使用的注意力分析只需要在推理過程中增加一次額外的前向傳播,計(jì)算成本微乎其微。這意味著這項(xiàng)技術(shù)具有很強(qiáng)的可推廣性,可以被廣泛應(yīng)用到各種不同的AI系統(tǒng)中。
在更深層次上,這項(xiàng)研究為我們理解人工智能的工作機(jī)制提供了全新視角。傳統(tǒng)上,我們傾向于把AI視為一個(gè)黑盒子,只關(guān)注輸入和輸出,而忽略了內(nèi)部的計(jì)算過程。這項(xiàng)研究證明,通過仔細(xì)分析AI的內(nèi)部狀態(tài),我們不僅可以理解它是如何工作的,還可以找到改進(jìn)它的方法。這種方法論可能會(huì)啟發(fā)更多類似的研究,推動(dòng)我們對(duì)AI系統(tǒng)的理解達(dá)到新的深度。
研究團(tuán)隊(duì)也坦誠地討論了當(dāng)前工作的局限性和未來的研究方向。目前的研究主要集中在文本推理任務(wù)上,未來需要驗(yàn)證這些發(fā)現(xiàn)是否適用于其他類型的任務(wù),比如圖像理解或多模態(tài)推理。此外,不同規(guī)模和不同架構(gòu)的模型是否都展現(xiàn)出類似的注意力模式,也是一個(gè)值得深入探討的問題。
從應(yīng)用前景來看,這項(xiàng)研究的影響可能是深遠(yuǎn)的。首先,它為開發(fā)更高效的AI訓(xùn)練方法提供了新的思路。通過理解AI的推理節(jié)奏,我們可以設(shè)計(jì)更精確的訓(xùn)練策略,讓AI在更短的時(shí)間內(nèi)學(xué)會(huì)更復(fù)雜的推理技能。其次,它為AI的可解釋性研究開辟了新的方向。通過分析注意力模式,我們可以更好地理解AI的決策過程,這對(duì)于在高風(fēng)險(xiǎn)領(lǐng)域使用AI系統(tǒng)具有重要意義。
更進(jìn)一步地,這項(xiàng)研究還可能影響AI系統(tǒng)的設(shè)計(jì)philosophy。傳統(tǒng)的AI系統(tǒng)設(shè)計(jì)往往從工程效率的角度出發(fā),而這項(xiàng)研究提醒我們,也許應(yīng)該更多地從認(rèn)知科學(xué)的角度來思考AI系統(tǒng)的架構(gòu)。通過模擬人類的思考節(jié)奏和模式,我們或許能夠開發(fā)出更自然、更高效的AI系統(tǒng)。
在實(shí)際應(yīng)用中,這項(xiàng)技術(shù)已經(jīng)顯示出了巨大的潛力。研究團(tuán)隊(duì)在多個(gè)實(shí)際場(chǎng)景中測(cè)試了新的訓(xùn)練方法,包括數(shù)學(xué)問題求解、邏輯推理和常識(shí)問答等。結(jié)果表明,經(jīng)過新方法訓(xùn)練的AI模型不僅在準(zhǔn)確性上有所提升,在推理的連貫性和可理解性方面也有明顯改進(jìn)。這意味著這項(xiàng)技術(shù)可能很快就會(huì)被集成到實(shí)際的AI產(chǎn)品中,為用戶帶來更好的體驗(yàn)。
說到底,這項(xiàng)研究最大的貢獻(xiàn)可能不僅僅是提出了一種新的訓(xùn)練方法,更重要的是它改變了我們看待AI系統(tǒng)的方式。它告訴我們,AI系統(tǒng)并不是完全不可理解的黑盒子,通過合適的工具和方法,我們可以深入了解它們的工作機(jī)制。這種理解不僅有助于我們開發(fā)更好的AI系統(tǒng),也有助于我們更負(fù)責(zé)任地使用這些技術(shù)。
歸根結(jié)底,隨著AI系統(tǒng)在社會(huì)各個(gè)領(lǐng)域的廣泛應(yīng)用,理解這些系統(tǒng)的工作機(jī)制變得越來越重要。這項(xiàng)研究為我們提供了一個(gè)強(qiáng)有力的工具,讓我們能夠窺探AI的"思維"過程,理解它們是如何得出結(jié)論的。這種理解對(duì)于建立人類與AI之間的信任關(guān)系,確保AI技術(shù)的安全和可靠應(yīng)用,都具有重大意義。對(duì)于那些對(duì)這項(xiàng)突破性研究感興趣的讀者,可以通過論文編號(hào)arXiv:2510.13554v1查找到完整的研究報(bào)告,其中包含了更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)數(shù)據(jù)。
Q&A
Q1:什么是"預(yù)設(shè)與錨定"節(jié)奏?
A:這是研究團(tuán)隊(duì)發(fā)現(xiàn)的AI推理過程中的一種規(guī)律性模式。類似人類思考時(shí)會(huì)先回憶相關(guān)知識(shí)再做決定,AI在處理語言時(shí)也會(huì)先進(jìn)行長距離的上下文查詢(預(yù)設(shè)階段),然后產(chǎn)生一個(gè)對(duì)后續(xù)推理很重要的關(guān)鍵詞匯(錨定階段)。這種兩步節(jié)奏在AI的推理過程中反復(fù)出現(xiàn)。
Q2:注意力機(jī)制如何揭示AI的思考過程?
A:注意力機(jī)制原本是AI內(nèi)部的計(jì)算組件,研究團(tuán)隊(duì)將其比作透視眼鏡。通過分析AI在處理每個(gè)詞匯時(shí)關(guān)注哪些歷史信息,以及每個(gè)詞匯對(duì)后續(xù)推理的影響程度,可以看出AI的思考重點(diǎn)和邏輯流程,就像觀察一個(gè)學(xué)生解題時(shí)的視線軌跡一樣。
Q3:這項(xiàng)研究對(duì)普通用戶使用AI有什么影響?
A:這項(xiàng)技術(shù)可以讓AI在數(shù)學(xué)推理、邏輯分析等任務(wù)上表現(xiàn)更好,回答更準(zhǔn)確。更重要的是,經(jīng)過新方法訓(xùn)練的AI推理過程更加連貫可理解,用戶能夠更容易跟上AI的思路,建立對(duì)AI的信任。未來這種技術(shù)很可能被集成到各種AI產(chǎn)品中。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.