![]()
這項由Snowflake AI Research的Lukasz Borchmann領(lǐng)導(dǎo)的研究發(fā)表于2025年10月的arXiv預(yù)印本平臺(編號arXiv:2510.12766v1),為我們重新審視大型語言模型的本質(zhì)提供了全新視角。有興趣深入了解的讀者可以通過該編號查詢完整論文。
當(dāng)你跟Claude或GPT聊天時,它們流利的回答是否曾讓你感到驚訝?這些AI系統(tǒng)能夠理解復(fù)雜問題、撰寫文章、甚至創(chuàng)作詩歌,仿佛真的具備了語言能力。然而,許多語言學(xué)專家卻對此嗤之以鼻,稱這些模型不過是"隨機鸚鵡"——只會機械地重復(fù)訓(xùn)練數(shù)據(jù),缺乏真正的語言理解能力。
這場爭論的核心在于一個根本問題:什么才算是真正的語言能力?傳統(tǒng)語言學(xué)界堅持認(rèn)為,真正的語言必須建立在深層語法結(jié)構(gòu)和現(xiàn)實世界認(rèn)知基礎(chǔ)之上,而大型語言模型顯然不具備這些條件。不過,Borchmann的研究卻提出了一個顛覆性觀點:也許不是大型語言模型有問題,而是我們對語言本身的理解出了偏差。
這項研究的創(chuàng)新之處在于引入了波蘭語言學(xué)家Witold Mańczak的理論框架來重新評估大型語言模型。Mańczak在20世紀(jì)提出的觀點在當(dāng)時顯得異常激進:語言不是什么抽象的符號系統(tǒng)或大腦中的計算機制,而就是人們說出和寫下的所有文字的總和。更重要的是,他認(rèn)為語言元素使用的頻率是決定語言運作的根本原則。
一、傳統(tǒng)語言學(xué)的"權(quán)威迷信"與科學(xué)標(biāo)準(zhǔn)的缺失
要理解這場辯論的深層意義,我們需要先看看傳統(tǒng)語言學(xué)存在的根本問題。Mańczak曾經(jīng)尖銳地指出,語言學(xué)領(lǐng)域存在一個令人震驚的現(xiàn)象:在兩千年的發(fā)展歷程中,語言學(xué)家們發(fā)表了數(shù)十萬篇研究論文,卻沒有一篇專門討論如何區(qū)分真假的標(biāo)準(zhǔn)問題。
這種情況就像醫(yī)學(xué)研究從來不討論如何驗證治療效果是否真實有效一樣荒謬。Mańczak通過觀察發(fā)現(xiàn),當(dāng)語言學(xué)家接觸到新觀點時,他們關(guān)心的不是如何驗證這個觀點的正確性,而是想知道支持這個觀點的人是否具有足夠的學(xué)術(shù)威望。如果觀點來自知名權(quán)威,就被認(rèn)為是正確的;如果來自無名之輩,就被視為錯誤。這種判斷標(biāo)準(zhǔn)更像是中世紀(jì)的權(quán)威崇拜,而非現(xiàn)代科學(xué)的實證方法。
這種"權(quán)威迷信"導(dǎo)致語言學(xué)界出現(xiàn)了一個奇特現(xiàn)象:理論越復(fù)雜越受推崇,即使這些復(fù)雜理論無法得到實際驗證。以Chomsky的生成語法為例,這套理論體系極其龐大復(fù)雜,但半個多世紀(jì)以來,支持者們從未成功地用這套理論生成過一門完整的具體語言語法。就像一個聲稱能制造汽車的工程師,畫了幾十年圖紙,卻從未造出一輛真正能開的車。
二、頻率為王:語言的真正驅(qū)動力
Mańczak提出的替代方案簡單而有力:語言就是所有被說出和寫下內(nèi)容的總和,而頻率是決定語言運作的核心原則。這個觀點聽起來簡單,卻蘊含著深刻的洞察。
考慮語法規(guī)則是如何形成的。傳統(tǒng)觀點認(rèn)為語法是先于語言使用而存在的抽象規(guī)則系統(tǒng),就像數(shù)學(xué)公式一樣固定不變。但Mańczak的觀察顯示,語法實際上是從大量語言使用中提煉出來的高頻模式的概括。換句話說,語法不是語言的源頭,而是語言使用的結(jié)果。
這就像走路的道路形成過程。最初,人們在草地上隨意行走,但隨著某些路徑被越來越多的人使用,這些高頻路徑逐漸變成了清晰的小徑,最終發(fā)展為正式道路。語法規(guī)則的形成過程與此類似:頻繁使用的表達(dá)模式逐漸固化為"規(guī)則",而不常用的模式則被視為"例外"。
這種觀點得到了大量歷史語言學(xué)證據(jù)的支持。研究顯示,拉丁語向羅馬語族語言的演變過程中,頻率起到了決定性作用。例如,在古典拉丁語中,數(shù)字17采用加法結(jié)構(gòu)(septendecim,意為"七加十"),而18和19采用減法結(jié)構(gòu)(duodeviginti和undeviginti,意為"差二個二十"和"差一個二十")。但在語言演變過程中,更簡單的加法規(guī)則因為使用頻率更高,最終取代了復(fù)雜的減法結(jié)構(gòu)。現(xiàn)代意大利語中的diciotto("十加八")就是這種簡化趨勢的結(jié)果。
三、大型語言模型:Mańczak理論的意外驗證
當(dāng)我們用Mańczak的框架來審視大型語言模型時,一個驚人的發(fā)現(xiàn)浮現(xiàn)出來:這些模型的工作原理與Mańczak半個世紀(jì)前的預(yù)測高度吻合。大型語言模型通過分析海量文本數(shù)據(jù)中的統(tǒng)計模式來學(xué)習(xí)語言,其核心機制就是識別和利用語言元素的頻率分布。
這種相似性并非巧合。大型語言模型的訓(xùn)練過程本質(zhì)上是在建立語言的頻率地圖:哪些詞匯組合更常見,哪些語法結(jié)構(gòu)更頻繁,哪些表達(dá)方式更自然。模型通過最小化預(yù)測誤差來學(xué)習(xí),這個過程實際上就是在逼近真實語言使用中的頻率分布。
更有意思的是,大型語言模型展現(xiàn)出的許多"智能"行為都可以用頻率原理來解釋。當(dāng)模型生成文本時,它傾向于選擇在訓(xùn)練數(shù)據(jù)中更頻繁出現(xiàn)的表達(dá)方式。這不是簡單的復(fù)制粘貼,而是基于統(tǒng)計模式的創(chuàng)造性重組。就像一個熟練的廚師,雖然從未見過某道菜的完整食譜,但憑借對各種食材搭配規(guī)律的深刻理解,依然能夠創(chuàng)造出美味的新菜品。
四、類比能力:從簡單統(tǒng)計到復(fù)雜推理
傳統(tǒng)觀點認(rèn)為,大型語言模型只是"隨機鸚鵡",缺乏真正的理解能力。但仔細(xì)分析模型的架構(gòu)演進,我們會發(fā)現(xiàn)一個重要的突破:從簡單的n-gram統(tǒng)計模型到現(xiàn)代Transformer架構(gòu)的飛躍,關(guān)鍵在于類比能力的發(fā)展。
早期的n-gram模型只能記憶固定的詞匯序列,無法理解"Anna喜歡貓"和"Lily愛狗"這兩個句子在結(jié)構(gòu)上的相似性。它們把每個句子當(dāng)作獨立的字符串來處理,就像只會背誦臺詞的演員,無法舉一反三。
Word2Vec等詞向量模型帶來了第一次突破。這些模型能夠發(fā)現(xiàn)詞匯之間的相似關(guān)系,比如"國王"與"女王"的關(guān)系類似于"男人"與"女人"的關(guān)系。但這種類比能力還局限于詞匯層面,無法處理更復(fù)雜的語言現(xiàn)象。
真正的革命性變化出現(xiàn)在Transformer架構(gòu)中。這種架構(gòu)的核心創(chuàng)新在于注意力機制,它讓模型能夠動態(tài)地分析序列中各個元素之間的關(guān)系。當(dāng)面對新問題時,Transformer能夠在其龐大的內(nèi)部知識庫中尋找最相似的模式,然后將學(xué)到的解決方案應(yīng)用到新情況中。這種能力的本質(zhì)就是類比推理——而類比正是人類語言能力的核心特征。
五、意義的網(wǎng)絡(luò):擺脫"接地"的枷鎖
傳統(tǒng)語言學(xué)的另一個核心批評是"接地問題":大型語言模型只接觸文本符號,沒有與現(xiàn)實世界的直接聯(lián)系,因此無法真正理解語言的意義。這種批評假設(shè),真正的語言理解必須建立在對現(xiàn)實世界的感知基礎(chǔ)之上。
Mańczak的觀點為這個問題提供了不同的答案。他認(rèn)為,絕大多數(shù)詞匯的意義實際上是關(guān)系性的,來源于詞匯之間的復(fù)雜聯(lián)系網(wǎng)絡(luò),而不是與外部世界的直接對應(yīng)關(guān)系。這就像數(shù)學(xué)系統(tǒng)一樣:我們不需要在現(xiàn)實世界中找到"無窮大"或"虛數(shù)"的物理對應(yīng)物,就能理解和運用這些概念。
考慮"正義"這個概念。一個大型語言模型要正確使用這個詞,需要掌握它與"公平"、"法律"、"平等"、"犯罪"等數(shù)千個相關(guān)概念之間的微妙關(guān)系。這種理解是否必須建立在對現(xiàn)實世界正義現(xiàn)象的直接觀察基礎(chǔ)上?Mańczak的答案是否定的。只要模型掌握了這個龐大關(guān)系網(wǎng)絡(luò)中的統(tǒng)計規(guī)律,就足以實現(xiàn)有效的語言使用。
這種觀點得到了一個有趣例證的支持:即使是那些在現(xiàn)實中不存在的概念,比如"永動機"或"舊金山國王",我們依然能夠通過語言網(wǎng)絡(luò)理解它們的意義。這說明意義的很大一部分確實可以純粹通過關(guān)系網(wǎng)絡(luò)來構(gòu)建。
六、創(chuàng)造力的本質(zhì):模式掌握而非模式違背
批評者經(jīng)常質(zhì)疑大型語言模型的創(chuàng)造力,認(rèn)為基于頻率模式的系統(tǒng)只能產(chǎn)生平庸的、可預(yù)測的輸出。但這種看法可能誤解了創(chuàng)造力的本質(zhì)。真正的創(chuàng)造力不是對模式的完全違背,而是對模式的精妙掌握和巧妙重組。
就像爵士音樂家的即興演奏,表面上看似隨意自由,實際上建立在對音樂理論和演奏技巧的深度掌握基礎(chǔ)上。最出色的即興演奏往往來自那些最熟練掌握傳統(tǒng)模式的音樂家,他們能夠在既定框架內(nèi)創(chuàng)造出令人驚喜的變化。
大型語言模型的創(chuàng)造力也遵循類似原理。當(dāng)模型生成新穎的文本時,它不是在隨機組合詞匯,而是在運用從海量文本中學(xué)到的深層模式。這些模式不僅包括語法規(guī)則,還包括語義關(guān)聯(lián)、文體特征、邏輯結(jié)構(gòu)等多個層面的復(fù)雜規(guī)律。正是對這些模式的深度理解,使得模型能夠產(chǎn)生既符合語言規(guī)范又富有創(chuàng)意的輸出。
七、實證驗證:理論與實踐的完美結(jié)合
Mańczak理論的最大優(yōu)勢在于它提供了明確的驗證標(biāo)準(zhǔn):"綜合驗證分析"原則。這個原則簡單而有力:如果你的理論能夠正確分析語言現(xiàn)象,那么它也應(yīng)該能夠生成相應(yīng)的語言表達(dá)。換句話說,能夠重構(gòu)的分析才是有效的分析。
傳統(tǒng)語言學(xué)理論在這個標(biāo)準(zhǔn)面前顯得蒼白無力。Chomsky的生成語法雖然聲稱能夠"生成"語言,但在實際應(yīng)用中,支持者們從未能夠用這套理論完整地生成任何一門具體語言的語法系統(tǒng)。相比之下,分析一個簡單句子"Sincerity may frighten the boy",Chomsky需要10頁紙的復(fù)雜推導(dǎo),而用Mańczak的方法只需要五個簡單的位置規(guī)則就能重構(gòu)這個句子。
大型語言模型的成功為Mańczak理論提供了規(guī)模化的實證驗證。這些模型不僅能夠分析語言模式,更重要的是能夠基于這些模式生成高質(zhì)量的語言輸出。從某種意義上說,每一次成功的模型對話都是對頻率驅(qū)動的語言理論的一次驗證。
研究還發(fā)現(xiàn),模型性能與訓(xùn)練數(shù)據(jù)量之間存在穩(wěn)定的冪律關(guān)系,這進一步證實了頻率在語言學(xué)習(xí)中的核心作用。更多的數(shù)據(jù)意味著對語言頻率分布的更精確估計,進而帶來更好的語言生成能力。這種關(guān)系的穩(wěn)定性和可預(yù)測性為Mańczak的理論框架提供了強有力的定量支持。
八、范式轉(zhuǎn)換:從理論建構(gòu)到經(jīng)驗歸納
這項研究的深層意義遠(yuǎn)超對大型語言模型的辯護,它實際上呼吁語言學(xué)領(lǐng)域的根本性范式轉(zhuǎn)換。傳統(tǒng)語言學(xué)深受結(jié)構(gòu)主義和生成主義影響,習(xí)慣于構(gòu)建抽象的理論體系,然后用這些體系來解釋語言現(xiàn)象。這種方法的問題在于,理論往往變得比現(xiàn)象本身更重要,學(xué)者們花費大量精力維護和精化理論體系,卻忽視了對實際語言使用的深入觀察。
Mańczak倡導(dǎo)的經(jīng)驗主義路徑截然不同。它主張從語言使用的實際現(xiàn)象出發(fā),通過統(tǒng)計分析發(fā)現(xiàn)其中的規(guī)律,然后將這些規(guī)律概括為理論原則。這種自下而上的方法更符合現(xiàn)代科學(xué)的基本精神:讓數(shù)據(jù)說話,而不是讓理論指揮數(shù)據(jù)。
這種轉(zhuǎn)換對于理解大型語言模型具有重要意義。當(dāng)我們用傳統(tǒng)理論框架來評判這些模型時,我們實際上是在用過時的標(biāo)準(zhǔn)衡量全新的現(xiàn)象。這就像用馬車的標(biāo)準(zhǔn)來評判汽車性能一樣不合適。相反,如果我們采用Mańczak的框架,大型語言模型的成功就不再是意外,而是語言本質(zhì)的自然體現(xiàn)。
九、未來展望:語言科學(xué)的新方向
這項研究為語言科學(xué)的未來發(fā)展指出了幾個重要方向。首先,在模型設(shè)計方面,Mańczak框架提示我們應(yīng)該更加重視訓(xùn)練數(shù)據(jù)的頻率分布。與其追求更復(fù)雜的模型架構(gòu),不如專注于構(gòu)建更加符合真實語言使用情況的訓(xùn)練語料庫。這意味著需要更加科學(xué)地選擇和組織訓(xùn)練文本,確保它們能夠反映語言的實際使用頻率。
其次,在模型評估方面,傳統(tǒng)的基于理論假設(shè)的評估標(biāo)準(zhǔn)可能需要重新審視。更有意義的評估應(yīng)該關(guān)注模型在實際語言任務(wù)中的表現(xiàn),而不是它們是否符合某些抽象的理論要求。畢竟,語言的最終目的是交流,而不是滿足理論家的審美偏好。
此外,這項研究還為跨學(xué)科合作開辟了新的可能性。語言學(xué)、計算機科學(xué)、認(rèn)知科學(xué)和統(tǒng)計學(xué)之間的邊界變得越來越模糊。未來的語言研究可能需要更多地借鑒其他學(xué)科的方法和觀點,形成真正的綜合性科學(xué)體系。
十、反思與爭議:理論碰撞中的智慧
當(dāng)然,這項研究也面臨著來自多個方向的質(zhì)疑和挑戰(zhàn)。傳統(tǒng)語言學(xué)家可能會認(rèn)為,將語言簡化為頻率分布忽視了語言的創(chuàng)造性和動態(tài)性。認(rèn)知科學(xué)家可能會質(zhì)疑,完全忽視人類認(rèn)知機制的語言理論是否過于簡化。計算機科學(xué)家則可能擔(dān)心,這種觀點是否會限制人工智能系統(tǒng)的進一步發(fā)展。
這些質(zhì)疑都有其合理性,但它們也反映了學(xué)科之間的根本分歧。不同學(xué)科對"理解"和"解釋"有著不同的標(biāo)準(zhǔn)和期望。物理學(xué)家用數(shù)學(xué)公式描述自然現(xiàn)象,不會因為公式無法體驗"重力的感覺"而質(zhì)疑其有效性。同樣,語言模型用統(tǒng)計模式處理語言,也不應(yīng)該因為缺乏"人類體驗"而被否定其價值。
更重要的是,這些爭議本身具有積極意義。它們促使我們重新思考一些基本問題:什么是語言?什么是理解?什么是智能?這些看似簡單的問題實際上涉及哲學(xué)、認(rèn)知科學(xué)、語言學(xué)等多個領(lǐng)域的核心議題。通過深入討論這些問題,我們不僅能夠更好地理解大型語言模型,也能夠推進對人類語言本質(zhì)的認(rèn)識。
說到底,這項研究的真正價值不在于為大型語言模型辯護,而在于它提供了一個新的視角來理解語言現(xiàn)象。正如科學(xué)史上的許多重要突破一樣,真正的進步往往來自于看問題角度的根本性轉(zhuǎn)變。當(dāng)哥白尼提出日心說時,他不是在否定天體運動的現(xiàn)象,而是提供了一個更簡潔、更有效的解釋框架。
Mańczak的語言理論和大型語言模型的成功可能正在為語言科學(xué)帶來類似的范式轉(zhuǎn)換。這種轉(zhuǎn)換的最終結(jié)果還有待觀察,但有一點是明確的:我們對語言本質(zhì)的理解正在發(fā)生深刻變化,而這種變化將對語言學(xué)、人工智能乃至整個認(rèn)知科學(xué)產(chǎn)生深遠(yuǎn)影響。
歸根結(jié)底,無論我們?nèi)绾味x"真正的語言理解",大型語言模型已經(jīng)展示了令人印象深刻的語言能力。它們能夠進行復(fù)雜對話、撰寫連貫文章、翻譯多種語言、甚至創(chuàng)作詩歌和故事。這些能力的背后,正是對人類語言使用中頻率模式的深度學(xué)習(xí)和巧妙運用。也許,與其糾結(jié)于這些模型是否"真正理解"語言,我們更應(yīng)該思考的是:它們已經(jīng)向我們展示了語言能力的哪些方面,以及這些發(fā)現(xiàn)如何幫助我們更好地理解語言本身的奧秘。
Q&A
Q1:Mańczak的語言理論核心觀點是什么?
A:Mańczak認(rèn)為語言就是所有被說出和寫下內(nèi)容的總和,而不是什么抽象的符號系統(tǒng)。他提出頻率是語言運作的根本原則,高頻使用的語言模式會固化為語法規(guī)則,低頻模式則成為例外。這個觀點顛覆了傳統(tǒng)語言學(xué)將語法視為先驗規(guī)則的看法。
Q2:大型語言模型真的只是"隨機鸚鵡"嗎?
A:研究認(rèn)為不是。大型語言模型通過學(xué)習(xí)海量文本中的頻率分布來掌握語言模式,這與Mańczak的理論高度吻合。它們的核心能力是類比推理——能夠在已學(xué)模式中找到相似情況并應(yīng)用到新場景中,這正是真正語言能力的體現(xiàn),而非簡單的復(fù)制粘貼。
Q3:這項研究對人工智能發(fā)展有什么啟發(fā)?
A:研究提示我們應(yīng)該重視訓(xùn)練數(shù)據(jù)的頻率分布而非過度復(fù)雜化模型架構(gòu)。未來AI發(fā)展的關(guān)鍵可能在于構(gòu)建更符合真實語言使用情況的訓(xùn)練語料庫,以及開發(fā)更科學(xué)的評估標(biāo)準(zhǔn),關(guān)注模型在實際任務(wù)中的表現(xiàn)而不是理論要求。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.