![]()
這項(xiàng)由清華大學(xué)、德國(guó)人工智能研究中心等多個(gè)國(guó)際知名機(jī)構(gòu)聯(lián)合開(kāi)展的研究,發(fā)表于2024年11月27日的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2511.22176v1),有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢(xún)完整論文。研究團(tuán)隊(duì)由來(lái)自FAR.AI的Lukas Struppek、德國(guó)人工智能研究中心的Dominik Hintersdorf、卡塞爾大學(xué)的Hannah Struppek等多位專(zhuān)家組成,他們共同提出了一個(gè)名為"聚焦思維鏈"(Focused Chain-of-Thought,簡(jiǎn)稱(chēng)F-CoT)的創(chuàng)新方法。
當(dāng)我們面對(duì)復(fù)雜問(wèn)題時(shí),通常會(huì)先整理一下手頭的信息,然后再開(kāi)始思考解決方案。比如解數(shù)學(xué)題時(shí),我們會(huì)先把已知條件和要求找到的答案列出來(lái),然后再開(kāi)始計(jì)算。然而,當(dāng)前的大語(yǔ)言模型在處理問(wèn)題時(shí),往往把信息整理和推理過(guò)程混在一起,就像一個(gè)學(xué)生一邊找題目條件一邊計(jì)算,結(jié)果不僅容易出錯(cuò),還浪費(fèi)了大量時(shí)間。
現(xiàn)在的大語(yǔ)言模型確實(shí)非常聰明,它們能夠通過(guò)一步步的思維過(guò)程來(lái)解決復(fù)雜問(wèn)題,這種能力被稱(chēng)為"思維鏈推理"。就像一個(gè)善于思考的學(xué)生,會(huì)把解題過(guò)程詳細(xì)寫(xiě)出來(lái),每一步都有清晰的邏輯。但問(wèn)題是,這些模型在思考時(shí)經(jīng)常"話太多",本來(lái)可以用幾句話說(shuō)清楚的推理過(guò)程,它們要用幾百甚至上千個(gè)詞來(lái)表達(dá)。這不僅增加了計(jì)算成本,也讓推理過(guò)程變得冗長(zhǎng)繁瑣。
**一、從認(rèn)知心理學(xué)中獲得的啟發(fā)**
研究團(tuán)隊(duì)從人類(lèi)認(rèn)知心理學(xué)中找到了靈感。心理學(xué)家發(fā)現(xiàn),人類(lèi)在解決問(wèn)題時(shí)有一個(gè)很重要的特點(diǎn):我們會(huì)先把相關(guān)信息整理好,再進(jìn)行高層次的推理。這個(gè)過(guò)程就像廚師做菜前會(huì)先把所有食材洗凈切好擺放整齊,然后再開(kāi)始烹飪一樣。
傳統(tǒng)的大語(yǔ)言模型就像一個(gè)匆忙的廚師,一邊找食材一邊做菜,結(jié)果既浪費(fèi)時(shí)間,又容易出錯(cuò)。而這項(xiàng)研究提出的方法,則讓模型學(xué)會(huì)像專(zhuān)業(yè)廚師一樣,先做好"備料"工作,再專(zhuān)心"烹飪"。
具體來(lái)說(shuō),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)兩步走的策略。第一步,讓模型仔細(xì)閱讀問(wèn)題,把其中的關(guān)鍵信息提取出來(lái),整理成一個(gè)結(jié)構(gòu)化的"信息清單"。這就像做菜前把胡蘿卜、土豆、肉類(lèi)分別處理好,貼上標(biāo)簽擺放整齊。第二步,讓模型只看這個(gè)整理好的信息清單,不再回頭看原始的長(zhǎng)篇問(wèn)題,專(zhuān)心進(jìn)行推理計(jì)算。
**二、結(jié)構(gòu)化信息的魔力**
這種方法的核心在于信息的結(jié)構(gòu)化處理。研究團(tuán)隊(duì)設(shè)計(jì)了一種類(lèi)似XML格式的信息組織方式,把原本散布在自然語(yǔ)言中的關(guān)鍵信息,像圖書(shū)館管理員整理書(shū)籍一樣,按照統(tǒng)一的格式分類(lèi)存放。
以一道數(shù)學(xué)題為例,原始題目可能是這樣的:"伊麗莎每周前40小時(shí)的時(shí)薪是10美元。她還能獲得1.2倍正常時(shí)薪的加班費(fèi)。如果伊麗莎這周工作了45小時(shí),她這周能賺多少錢(qián)?"
傳統(tǒng)方法下,模型會(huì)重復(fù)閱讀這段話,一邊理解一邊計(jì)算。而新方法會(huì)先把信息提取成這樣的格式:第一條信息是"正常工作時(shí)間前40小時(shí)的時(shí)薪:每小時(shí)10美元",第二條信息是"加班費(fèi)率:正常時(shí)薪的1.2倍",第三條信息是"本周工作時(shí)間:45小時(shí)",要回答的問(wèn)題是"伊麗莎這周的總收入是多少?"
這樣整理后,模型就能專(zhuān)注于核心信息,不會(huì)被原始問(wèn)題中的冗余表述所干擾,推理過(guò)程變得更加直接高效。
**三、實(shí)驗(yàn)驗(yàn)證:效果顯著的性能提升**
為了驗(yàn)證這種方法的有效性,研究團(tuán)隊(duì)選擇了幾個(gè)知名的數(shù)學(xué)推理測(cè)試集進(jìn)行實(shí)驗(yàn),包括SVAMP、GSM-Hard和MATH-500等。這些測(cè)試集就像標(biāo)準(zhǔn)化考試一樣,包含了各種難度的數(shù)學(xué)應(yīng)用題,是評(píng)估AI推理能力的權(quán)威工具。
實(shí)驗(yàn)結(jié)果令人印象深刻。在保持推理準(zhǔn)確性基本不變的前提下,新方法讓模型生成的文字?jǐn)?shù)量大幅減少。在SVAMP測(cè)試集上,文字量減少了約三分之二;在更復(fù)雜的GSM-Hard和MATH-500測(cè)試集上,文字量也減少了大約一半。這意味著模型不僅思考得更快了,還節(jié)省了大量的計(jì)算資源。
更有趣的是,研究團(tuán)隊(duì)還分析了模型推理過(guò)程的質(zhì)量變化。他們發(fā)現(xiàn),使用新方法后,模型產(chǎn)生的"廢話"明顯減少了。原來(lái)模型經(jīng)常會(huì)重復(fù)描述題目?jī)?nèi)容,或者進(jìn)行一些無(wú)關(guān)的思考,現(xiàn)在這些多余的內(nèi)容大大減少,推理過(guò)程變得更加緊湊和專(zhuān)注。
**四、深入分析:為什么這種方法如此有效**
研究團(tuán)隊(duì)還深入分析了為什么這種方法能夠如此有效。他們引入了一個(gè)有趣的概念叫"過(guò)度思考分?jǐn)?shù)",用來(lái)衡量模型是否在進(jìn)行無(wú)效的思考。
傳統(tǒng)方法下,模型的過(guò)度思考分?jǐn)?shù)平均為2.35分(滿分10分),而使用新方法后,這個(gè)分?jǐn)?shù)降低到1.74分。這表明模型的思考變得更加集中和有效率,不再像以前那樣在無(wú)關(guān)緊要的細(xì)節(jié)上糾纏不清。
進(jìn)一步分析發(fā)現(xiàn),新方法主要減少了兩類(lèi)無(wú)效內(nèi)容:一類(lèi)是簡(jiǎn)單重復(fù)題目信息的"提取句",另一類(lèi)是不對(duì)解決問(wèn)題有實(shí)質(zhì)幫助的"填充句"。而真正有價(jià)值的"推理句"比例基本保持不變,這說(shuō)明方法在提高效率的同時(shí),并沒(méi)有損害推理的質(zhì)量。
**五、靈活適應(yīng):多種實(shí)施策略**
這種方法的另一個(gè)優(yōu)點(diǎn)是實(shí)施方式非常靈活。研究團(tuán)隊(duì)提供了兩種主要的使用策略:一種是用戶自己手動(dòng)整理信息,然后讓模型進(jìn)行推理;另一種是讓模型自己完成信息提取和推理兩個(gè)步驟。
對(duì)于第一種策略,雖然需要用戶投入一些前期工作,但能夠確保信息提取的質(zhì)量,特別適合對(duì)準(zhǔn)確性要求很高的場(chǎng)景。對(duì)于第二種策略,則更加自動(dòng)化,用戶只需要提供原始問(wèn)題,模型會(huì)自動(dòng)完成整個(gè)過(guò)程。
有趣的是,研究團(tuán)隊(duì)還發(fā)現(xiàn)了一種經(jīng)濟(jì)高效的混合策略:可以用一個(gè)大而強(qiáng)的模型來(lái)完成信息提取工作,然后用一個(gè)小而快的模型來(lái)進(jìn)行推理。這就像用資深廚師來(lái)處理食材,用助手來(lái)完成烹飪,既保證了質(zhì)量,又控制了成本。
**六、深度測(cè)試:方法的穩(wěn)健性驗(yàn)證**
為了確保這種方法的可靠性,研究團(tuán)隊(duì)進(jìn)行了大量的對(duì)比實(shí)驗(yàn)。他們測(cè)試了不同的信息組織格式,發(fā)現(xiàn)即使不使用復(fù)雜的XML格式,簡(jiǎn)單的編號(hào)列表或者段落形式也能取得不錯(cuò)的效果。這說(shuō)明方法的核心不在于特定的格式,而在于信息結(jié)構(gòu)化這個(gè)基本理念。
研究團(tuán)隊(duì)還測(cè)試了不同規(guī)模的模型。他們發(fā)現(xiàn),越大的模型越能夠有效地使用這種方法。小模型(比如只有6億參數(shù)的版本)在自動(dòng)提取信息時(shí)還存在困難,但大模型(比如140億參數(shù)以上的版本)已經(jīng)能夠很好地掌握這種技能。
另外,研究團(tuán)隊(duì)還驗(yàn)證了在提供結(jié)構(gòu)化信息的同時(shí),是否還需要保留原始問(wèn)題。實(shí)驗(yàn)發(fā)現(xiàn),在大多數(shù)情況下,模型只需要結(jié)構(gòu)化信息就能很好地完成推理任務(wù),這進(jìn)一步證明了信息冗余確實(shí)是影響效率的重要因素。
**七、技術(shù)細(xì)節(jié):實(shí)現(xiàn)方式的巧思**
在技術(shù)實(shí)現(xiàn)上,這種方法展現(xiàn)了研究團(tuán)隊(duì)的精心設(shè)計(jì)。他們使用了類(lèi)似XML的標(biāo)簽系統(tǒng)來(lái)組織信息,每條關(guān)鍵信息都被包裝在特定的標(biāo)簽中,比如``、``等。這種設(shè)計(jì)不僅便于模型理解,也便于后續(xù)的自動(dòng)化處理。
在推理階段,研究團(tuán)隊(duì)特別要求模型明確引用這些標(biāo)簽化的信息,比如"根據(jù)info_1可知..."這樣的表述。這種做法不僅讓推理過(guò)程更加透明,也便于發(fā)現(xiàn)和糾正可能的錯(cuò)誤。
為了確保方法的通用性,研究團(tuán)隊(duì)在多個(gè)不同類(lèi)型的數(shù)學(xué)問(wèn)題上進(jìn)行了測(cè)試,包括簡(jiǎn)單的算術(shù)問(wèn)題、復(fù)雜的應(yīng)用題,甚至是高難度的數(shù)學(xué)競(jìng)賽題目。結(jié)果顯示,這種方法在各種難度級(jí)別上都能取得穩(wěn)定的改進(jìn)效果。
**八、未來(lái)展望:更廣闊的應(yīng)用前景**
這項(xiàng)研究不僅在當(dāng)前取得了顯著成果,也為未來(lái)的發(fā)展指明了方向。研究團(tuán)隊(duì)提出了幾個(gè)有趣的擴(kuò)展思路。
首先,這種方法可以與其他推理技術(shù)相結(jié)合,比如"思維樹(shù)"等更復(fù)雜的推理策略,有可能產(chǎn)生更強(qiáng)大的協(xié)同效應(yīng)。其次,這種結(jié)構(gòu)化處理信息的理念也可以推廣到多模態(tài)領(lǐng)域,比如讓模型在處理圖片加文字的問(wèn)題時(shí),先提取圖片中的關(guān)鍵視覺(jué)元素,再進(jìn)行綜合推理。
研究團(tuán)隊(duì)還設(shè)想了一種動(dòng)態(tài)的信息管理方式,把結(jié)構(gòu)化的信息當(dāng)作一個(gè)"動(dòng)態(tài)筆記本",模型可以在推理過(guò)程中不斷更新和完善這些信息。這就像一個(gè)善于做筆記的學(xué)生,會(huì)在解題過(guò)程中不斷補(bǔ)充和修正自己的理解。
**九、實(shí)際意義:對(duì)AI發(fā)展的深遠(yuǎn)影響**
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了單純的技術(shù)改進(jìn)。它代表了AI研究思路的一個(gè)重要轉(zhuǎn)變:從單純優(yōu)化模型結(jié)構(gòu)轉(zhuǎn)向優(yōu)化輸入信息的組織方式。這就像發(fā)現(xiàn)了一個(gè)新的杠桿點(diǎn),通過(guò)相對(duì)簡(jiǎn)單的輸入處理,就能夠獲得顯著的性能提升。
對(duì)于實(shí)際應(yīng)用而言,這種方法特別有價(jià)值。在當(dāng)前AI服務(wù)成本日益受到關(guān)注的背景下,能夠在保持質(zhì)量的同時(shí)大幅降低計(jì)算量,無(wú)疑具有重要的商業(yè)價(jià)值。無(wú)論是教育輔助、科學(xué)計(jì)算還是日常問(wèn)題解決,這種更高效的推理方式都能帶來(lái)實(shí)實(shí)在在的好處。
更重要的是,這種方法是完全"訓(xùn)練免費(fèi)"的,不需要重新訓(xùn)練模型或調(diào)整參數(shù),只需要改變輸入處理方式就能立即使用。這大大降低了技術(shù)推廣的門(mén)檻,讓更多的開(kāi)發(fā)者和用戶能夠受益。
說(shuō)到底,這項(xiàng)研究揭示了一個(gè)重要的道理:有時(shí)候,解決問(wèn)題的關(guān)鍵不在于讓工具變得更復(fù)雜,而在于更好地組織和呈現(xiàn)信息。正如一個(gè)整潔的工作臺(tái)能讓工匠更高效地工作一樣,結(jié)構(gòu)化的信息能讓AI模型更專(zhuān)注、更高效地進(jìn)行推理。這種理念不僅適用于當(dāng)前的大語(yǔ)言模型,也為未來(lái)更智能的AI系統(tǒng)設(shè)計(jì)提供了有益的啟示。研究團(tuán)隊(duì)的這一創(chuàng)新,為我們展示了AI效率提升的新路徑,相信會(huì)在未來(lái)的AI應(yīng)用中發(fā)揮越來(lái)越重要的作用。
Q&A
Q1:聚焦思維鏈F-CoT具體是怎么工作的?
A:F-CoT的工作原理類(lèi)似于做菜前的備料過(guò)程。它分兩步進(jìn)行:第一步是信息提取,將復(fù)雜問(wèn)題中的關(guān)鍵信息整理成結(jié)構(gòu)化格式,就像把食材分類(lèi)擺放;第二步是專(zhuān)注推理,模型只看整理好的信息進(jìn)行計(jì)算,不再被原始問(wèn)題中的冗余描述干擾。這樣既提高了推理效率,又減少了不必要的計(jì)算。
Q2:F-CoT方法能減少多少計(jì)算量?
A:根據(jù)實(shí)驗(yàn)結(jié)果,F(xiàn)-CoT在保持推理準(zhǔn)確性的同時(shí),能將生成的文字?jǐn)?shù)量減少2-3倍。在簡(jiǎn)單問(wèn)題上可以減少約三分之二的計(jì)算量,在復(fù)雜數(shù)學(xué)問(wèn)題上也能減少大約一半。這相當(dāng)于讓AI模型的思考速度提升了2-3倍,大大節(jié)省了計(jì)算資源和時(shí)間成本。
Q3:普通用戶如何使用聚焦思維鏈技術(shù)?
A:目前有兩種使用方式:一種是用戶手動(dòng)整理問(wèn)題中的關(guān)鍵信息,然后讓模型基于整理后的信息進(jìn)行推理;另一種是讓模型自動(dòng)完成信息提取和推理兩個(gè)步驟。由于這是一種"訓(xùn)練免費(fèi)"的方法,不需要重新訓(xùn)練模型,未來(lái)很可能會(huì)集成到各種AI應(yīng)用中,讓用戶能夠享受更快速、高效的AI推理服務(wù)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.