![]()
導語
人類語言具有獨特的系統性結構,話語會拆分為有獨立意義的詞匯,這些詞匯再組合成短語。本研究表明,類自然語言的系統性,會在受預測信息(又稱超額熵)約束的編碼中形成。預測信息是衡量隨機過程中,過去信息對未來事件可預測程度的統計指標,本質反映過去與未來的互信息。模擬實驗發現,最小化預測信息的編碼,會將信息拆分為近似獨立的特征組,以系統、局部的方式表達,對應語言中的詞匯與短語。跨語言語料庫研究進一步驗證,人類語言在語音、形態、句法及詞匯語義層面,均能產生更低的預測信息。該研究建立了語言統計結構與代數結構的關聯,證實這類結構是普遍認知約束下交流過程的產物。
關鍵詞:預測信息(Predictive Information)、系統性(Systematicity)、認知約束(Cognitive Constraints)、跨語言實證(Cross-linguistic Evidence)
趙思語丨作者
趙思怡丨審校
![]()
論文題目:Linguistic structure from a bottleneck on sequential information processing 論文鏈接:https://doi.org/10.1038/s41562-025-02336-w 發表日期:2024 年 11 月 1 日 論文來源:Nature Human Behaviour
核心謎題:人類語言為何偏愛 “系統性”?
人類語言最顯著的特征是系統性(systematicity)與局部性(locality),二者共同構成了人類語言的核心結構內核——所謂“系統性”,指語言能將完整意義拆分為獨立的基礎成分(如詞匯),再按固定規則組合生成新表達;所謂“局部性”,指語言形式與意義成分呈精準的局部對應關系,不會出現意義與形式的跨成分混亂匹配。
當描述 “一只貓和一只狗在一起” 的場景時,英語使用者會自然地說出 “a cat with a dog”,其中 “cat” 對應貓、“dog” 對應狗,完美契合“局部性”的意義-形式精準對應;同時,這些詞匯按“冠詞+名詞+介詞+冠詞+名詞”的固定規則線性拼接,又體現了“系統性”的組合邏輯,最終形成邏輯清晰的表達。這種結構模式的優勢十分明確,能讓人類輕松理解和生成無限多的新語句,實現高效的創造性交流。
![]()
圖1. 英語與多種假設語言描述圖像的示例語句。a. 展現自然局部系統性的英語語句。b. 一種非自然系統性語言,其中‘gol’表示貓頭與狗頭的組合,‘nar’表示貓身與狗身的組合。c. 一種非局部但具有系統性的語言,其語句通過交替使用‘貓’和‘狗’的詞匯構成。d. 一種整體性語言,其中‘vek’形式表示‘一只貓和一只狗’,且形式與意義之間不存在對應關系。
但從邏輯上來說,語言并非必須如此。我們完全可以構想多種 “非自然語言”:一種是 “非自然拆分” 的語言,用 “gol” 同時指代貓的頭部和狗的頭部,用 “nar” 指代貓的身體和狗的身體,表達同樣場景時會說 “A gol with a nar”;另一種是 “交錯排列” 的語言,將 “a cat”“with”“a dog” 的字母打亂交錯,形成 “waitacdahogt” 這樣難以解析的表達;還有一種是 “整體化表達” 的語言,用 “vek” 這樣一個無內部結構的詞匯直接指代 “一只貓和一只狗在一起”,就像霍夫曼編碼(Huffman codes)那樣追求編碼效率卻缺乏系統性。
但從邏輯上來說,語言并非必須遵循這種“系統性+局部性”的結構。我們完全可以構想多種 “非自然語言”:一種是 “非自然拆分” 的語言,用 “gol” 同時指代貓的頭部和狗的頭部,用 “nar” 指代貓的身體和狗的身體,打破了“局部性”的意義-形式精準對應;另一種是 “交錯排列” 的語言,將 “a cat”“with”“a dog” 的字母打亂交錯,形成 “waitacdahogt” 這樣的表達,破壞了“系統性”的有序組合規則;還有一種是 “整體化表達” 的語言,用 “vek” 這樣一個無內部結構的詞匯直接指代 “一只貓和一只狗在一起”,既無系統性也無局部性,就像霍夫曼編碼(Huffman codes)那樣追求編碼效率卻缺乏核心結構特征。
這些假想語言在理論上同樣能完成交流任務,為何人類語言卻最終演化出系統性和局部性的結構?這一問題不僅關乎語言本身的本質,更涉及人類認知與語言進化的深層關聯。傳統理論認為,語言的系統性源于語言學習者需要對未見過的意義進行泛化,但這類解釋無法說明為何語言的拆分方式是 “自然” 的,也無法解釋局部性特征。而另一類理論則依賴于語言學習者的先天歸納偏置或意義的心理表征假設,缺乏跨語言、跨認知場景的普遍解釋力。
理論基石:預測信息最小化的認知邏輯
(一)預測信息的核心概念
為破解 “人類語言為何選擇系統性結構” 這一謎題,研究團隊引入信息論中的預測信息(Predictive Information)作為核心度量工具,該指標又稱超額熵(excess entropy)。簡單來說,預測信息描述的是:在一段隨機符號序列中,要準確預測后續內容,需要從前面已出現的內容中提取多少信息。
對應到語言場景,它的本質是衡量 “根據前文猜后文” 的難度:預測信息數值越低,說明語言序列的局部可預測性越強,人類理解話語、組織表達時,所需投入的認知資源(比如記憶負荷、注意力分配、大腦加工成本)就越少;反之,預測信息越高,語言加工越費力。
這一概念的提出,源于對人類認知局限的精準洞察。研究團隊基于三點基礎觀察構建邏輯:第一,人類話語本質是一維離散符號序列(比如構成語言的音素、詞匯,需按順序依次呈現);第二,這些符號在短時間尺度內的可預測性,會直接影響語言理解與表達的難易程度;第三,人類大腦在預測序列內容時,認知資源是有限的(無法同時處理大量雜亂無章的信息)。
基于上述觀察,研究團隊提出核心假設:人類語言的系統性、局部性結構,本質是為了最小化預測信息—— 通過將完整意義拆分為近似獨立的特征組(對應語言中的詞匯、短語),再以有序、局部對應的方式組合,讓語言序列更適配人類有限的認知資源,實現高效加工與交流。
(二)理論推導:從認知約束到語言結構
預測信息的獨特屬性為語言結構提供了關鍵解釋。當預測信息較低時,符號能夠依賴附近的上下文被準確預測,這意味著語言無需依賴長距離的整合信息,就能讓使用者順暢理解。為了實現這一目標,語言需要將意義分解為 “近似獨立的特征”—— 因為獨立特征之間的統計依賴性低,表達這些特征的符號序列也更容易被局部預測。同時,這些特征需要以局部的方式組合,即相關的符號保持連續,而不是交錯分布。否則,符號之間的統計依賴被拉長,預測難度隨之上升。
這種邏輯自然催生了語言的系統性和局部性:意義被拆分為獨立成分,每個成分對應一個詞匯(系統性),詞匯按順序拼接形成短語和句子(局部性),就像搭積木一樣,既保證了表達的靈活性,又降低了預測難度。而那些不遵循這種局部、系統組織方式的“非自然語言”,無論是非自然拆分還是交錯排列,都會破壞局部可預測性,導致預測信息升高,超出人類的認知處理能力。
實證支撐:模擬實驗與跨語言驗證的雙重印證
為了驗證 “預測信息最小化塑造語言結構” 這一假設,研究團隊采用了 “模擬實驗” 與 “跨語言語料分析” 相結合的研究方法,從理論和現實兩個層面提供了堅實證據。
(一)模擬實驗:預測信息如何催生系統性
模擬實驗的核心思路是:構建不同的意義集合,設計多種可能的語言編碼方式,計算每種編碼的預測信息,觀察哪種編碼方式的預測信息最低,是否與自然語言的結構一致。
![]()
圖2.硬幣翻轉分布的語言模擬。a、兩種系統化表達方式:3表示完全系統化語言,0表示完全無歧義語言,用于表示由三次加權硬幣翻轉構成的意義。整體語言。插圖框放大顯示低預測區域。在系統化語言中,每個字母對應一個信息源的輸出結果。d、e中使用的語言及示例源,其中包含硬幣翻轉信息。在整體語言中,不存在自然的系統化關系,互信息I[M2:M3]≈0.18比特。e、形式與意義之間不同預測信息量。b、計算不同互信息水平下硬幣翻轉M2與源語言及a中兩種語言的預測信息。系統化語言具有較低的預測信息M3(參見正文)。零互信息對應b和c。‘自然’信息。c、所有雙射映射從意義到語言的預測信息。M2和M3共同整體表達語言。‘非自然’語言對應長度為3的二進制字符串,用于表示a中的意義和源語言。語言共同整體表達M1和M2。按預測信息排序并按硬幣翻轉次數著色。
在第一個模擬實驗中,研究團隊構建了 “三次硬幣翻轉” 的意義集合,每個硬幣翻轉的結果(正面或反面)是獨立的意義特征。實驗設計了兩種編碼方式:一種是 “系統性語言”,每個硬幣翻轉結果對應一個獨立的符號(如 “a” 代表正面,“b” 代表反面),語句由這些符號按順序拼接而成;另一種是 “整體化語言”,每個意義組合對應一個無內部結構的符號串,不進行特征拆分。結果顯示,系統性語言的預測信息顯著低于整體化語言,且在所有可能的編碼方式中,只有系統性語言能實現預測信息最小化。這一結果表明,當意義特征獨立時,拆分特征并系統表達是降低預測信息的最優選擇。
在第二個模擬實驗中,研究團隊調整了意義特征的性質,讓部分特征高度相關(如第二次和第三次硬幣翻轉的結果始終一致)。此時,模擬結果發生了有趣的變化:最優編碼方式不再是完全的系統性拆分,而是將高度相關的特征 “整體化表達”,形成一個統一的 “詞匯”,而獨立特征仍保持系統性表達。這一發現恰好解釋了自然語言中 “詞素的任意性”—— 例如 “cat” 這個詞,其內部沒有拆分,但它所指代的 “貓” 的各項特征(毛茸茸、哺乳動物、有尾巴等)高度相關,整體化表達這些相關特征能降低預測信息,而 “數量” 這一相對獨立的特征,則通過 “-s” 這樣的后綴系統性表達,形成 “cats”。
此外,針對局部性和層級結構的模擬實驗也得出了一致結論。在針對 Zipf 分布意義集合的實驗中,保持詞匯連續拼接的編碼方式,預測信息顯著低于詞匯交錯排列的編碼;而在具有層級結構的意義集合(如 “[貓 + 狗]”“[藍色 + 方形]” 這樣的嵌套特征組)中,“特征組連續嵌套” 的編碼方式(類似自然語言的句法層級)預測信息最低,進一步印證了局部性對降低預測信息的重要作用。
(二)跨語言實證:人類語言確實具有低預測信息
模擬實驗驗證了理論邏輯的合理性,但自然語言是否真的遵循這一規律?為解答這一問題,研究團隊分析了 61 種語言的大規模語料庫,涵蓋語音、形態、句法、詞匯語義四個層面,通過與 “非自然結構基線” 的對比,檢驗真實語言的預測信息是否更低。
![]()
圖3.研究證實,自然語言在音系學、形態學和句法學層面具有減少預測信息的結構特征。a. 選定語言中音系形式的預測信息計算:將實證形式與保留發音方式的隨機排列形式進行對比。b. 名詞形態的字母級預測信息(黑色垂直線)與四個隨機基線的預測信息值對比(樣本密度為10,000;詳見正文)。P值表示基線樣本中預測信息低于實證形式的比例。c. 12種語言形容詞-名詞對的字母級預測信息與基線對比。非局部基線始終產生遠高于實證形式的預測信息,故未予展示。
在語音層面,人類語言均存在特定的語音規則(phonotactics),即對語音組合有固定限制,例如英語中 “blick” 符合語音規則,是可能存在的詞匯,而 “bnick” 違背規則,無法成為合法詞匯。為驗證語音規則與預測信息的關聯,研究團隊設計了對照實驗:將每種語言的詞匯語音序列打亂(僅打亂組合順序,保留單個語音的發音方式不變),以此構建 “打亂基線”,再對比真實詞匯語音序列與打亂序列的預測信息差異。實驗結果明確顯示,61 種語言的真實詞匯語音序列,其預測信息均顯著低于對應的打亂基線,這一統一結果證明,自然語言的語音規則并非隨機形成,本質是為降低預測信息而演化存在的。
在形態層面,研究團隊分析了匈牙利語、阿拉伯語、芬蘭語、拉丁語和土耳其語五種語言的名詞變格系統。這些語言的名詞通過后綴變化表達 “數”“格” 等語法特征,具有明顯的系統性。研究團隊構建了三種基線:一是 “非局部基線”,打亂后綴的字母順序;二是 “非自然基線”,打亂形態與語法特征的對應關系;三是 “長度匹配非自然基線”,在保持后綴長度不變的前提下打亂形態 - 特征對應。結果顯示,五種語言的真實形態系統,預測信息均顯著低于所有基線,即使是阿拉伯語中存在的非連續形態(如 “broken plurals”),其預測信息依然低于基線,說明這種有限的非連續結構仍符合預測信息最小化原則。
在句法層面,研究團隊分析了 12 種語言的形容詞 - 名詞組合(如英語 “blue square”)。通過構建 “詞匯交錯” 和 “形態 - 意義錯配” 的基線,發現真實語言的形容詞 - 名詞組合預測信息更低。而在名詞短語語序的研究中,團隊分析了不同語言中限定詞(D)、數詞(N)、形容詞(A)和名詞(n)的排列順序,發現跨語言中更常見的語序(如英語 D-N-A-n、西班牙語 D-N-n-A),其預測信息顯著低于罕見語序,說明語序的跨語言分布也受到預測信息最小化的約束。
在詞匯語義層面,研究團隊利用蘭卡斯特感覺運動規范(Lancaster Sensorimotor Norms)分析了英語名詞的語義特征。結果顯示,名詞的核心語義特征(如 “是否毛茸茸”“是否為哺乳動物”)之間高度相關,而 “數量” 特征與這些核心特征的相關性較低。這恰好符合模擬實驗的結論:相關特征整體化表達于一個詞匯中,獨立特征則系統性表達,從而實現預測信息最小化。同時,研究還發現,同一詞匯內的語義特征相關性顯著高于不同詞匯間的特征相關性,進一步印證了 “相關特征聚類表達” 的原則。
跨學科啟示:語言、認知與人工智能的交匯
這項研究的意義遠超出語言學領域,它建立了語言結構與信息論、認知科學、機器學習、神經科學等多個學科的橋梁,為相關領域提供了全新的研究視角。
在認知科學層面,研究揭示了人類語言與認知約束(Cognitive Constraints)之間的深層關聯。長期以來,研究者們知道人類認知資源有限,但如何具體影響語言結構尚不明確。該研究表明,預測信息最小化是連接認知約束與語言結構的關鍵紐帶,語言的系統性、局部性等核心特征,本質上是人類為了適配有限認知資源而進化出的最優解。這一發現也為理解 “語言習得” 提供了新視角:兒童學習語言時,可能會本能地偏好預測信息更低的系統性結構(Systematic Structure),從而加速語言習得過程。
在機器學習領域,研究為自然語言處理提供了理論啟示。大型語言模型的核心任務是根據前文預測下一個詞,而這項研究表明,自然語言的結構本身就是為了降低這種預測難度而設計的 —— 這正是大型語言模型能夠取得成功的重要原因。同時,研究中 “預測信息最小化” 的原則,也為構建更高效的語言模型提供了參考:未來的模型設計可以更注重語言的局部可預測性和特征獨立性,從而提升模型的效率和可解釋性。此外,研究還解釋了為何大型語言模型難以學習 “非自然語言”—— 這類語言的預測信息過高,超出了模型的學習能力。
在神經科學領域,研究與大腦的語言加工機制相呼應。神經科學研究發現,大腦在處理語言時,會對可預測的詞匯產生更高效的神經響應。而這項研究表明,自然語言的低預測信息特征,恰好與大腦的這種加工偏好相適配。預測信息最小化意味著語言序列的局部可預測性更高,這能減少大腦加工語言時的認知負荷,提升交流效率。這一發現為理解 “語言與大腦的協同進化” 提供了重要線索。
局限與未來:未竟的探索之路
盡管這項研究取得了突破性進展,但仍存在一些局限,為未來的研究指明了方向。首先,研究主要關注單個語句內部的預測信息,而語言交流往往是多語句的語篇層面。未來的研究可以探究語篇層面的預測信息是否同樣受到最小化約束,以及如何解釋語篇的層級結構(如話題組織)。其次,研究假設語言是意義與形式的一一對應映射,但自然語言中存在大量歧義現象(如多義詞、歧義句)。歧義是否會影響預測信息?語言如何在歧義與預測信息最小化之間權衡?這些問題值得進一步探索。
此外,自然語言中也存在一些看似違背局部性的結構,例如長距離指代(如 “The girl who met the boy yesterday likes music” 中,“who” 指代 “the girl”,二者相距較遠)。這些結構為何會存在?它們對預測信息有何影響?是否存在其他認知約束與預測信息最小化相互作用?這些問題需要更深入的實證研究來解答。
最后,研究尚未探討語言進化過程中,預測信息最小化是如何具體發揮作用的。是通過個體交流中的效率壓力,還是通過語言學習者的認知偏好,抑或是群體層面的文化進化?厘清這些機制,將有助于更全面地理解語言結構的起源與演變。
大語言模型與多智能體系統讀書會
集智俱樂部聯合西湖大學工學院特聘研究員趙世鈺、浙江大學教授任沁源、鵬城實驗室高級工程師崔金強,共同發起,探究大語言模型給機器人領域帶來的新思想新價值。讀書會已完結,現在報名可加入社群并解鎖回放視頻權限。
詳情請見:
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.