![]()
![]()
續論與大語言模型
王初明
廣東外語外貿大學
摘要
生成式大語言模型成功實現人機互動交流,其開發和應用必然反映語言學習和使用規律,這一成就也必然倒逼語言工作者對自己所秉持的語言習得和使用理念進行反思。本文嘗試以大語言模型工作原理為參照,將其與深入推進互動研究的續論語言習得觀進行對比,甄別異同,相互印證,以此深化我們對大語言模型和語言學習規律的認識,了解人機互動與人際互動的長短,用以指導語言習得研究,以期更好地利用大模型助力語言學習和教學。
關鍵詞:大語言模型;續論;語言習得與使用;語言教學
01
引言
當下迅猛發展的生成式人工智能大語言模型,是開發人類語言資源、模擬人類語言習得和使用、推動社會進步的重大創新成果,是語言研究者和廣大外語教師不可忽視的存在。大語言模型的開發和應用與語言研究直接相關,為深化語言學研究提供了新的發展機遇,尤其為印證和檢驗語言習得理論增添了利器。近年興起于我國的續論被國外學者稱為非西方構念 (non-Western construct,McKinley 2022)。它以一個簡明的漢字“續” (含承接上文、接續表達之義) 高度概括和闡釋語言是如何學會的。大語言模型和續論都在不斷完善中,發展路徑共同指向人類自然語言習得和使用規律,前者致力于模擬,后者側重于揭示。大語言模型作為一項重大技術創新,需要理論支撐,證明自身的合理性、可靠性和有效性。續論關心習得理念是否反映語言習得規律,能否在大語言模型上得到印證,證明自身的理論價值和貢獻。為了促進兩者互鑒互證,協同發展,本文在簡介續論和大語言模型的基礎上,圍繞續論的核心促學理念,與大語言模型的構建邏輯進行對比分析,甄別異同,以期深化我們對外語學習規律和大語言模型的認識,了解續論的理論貢獻,有效利用模型為外語學習和教學服務。
02
續論的促學機制
續論是在深化互動研究中發展起來的語言習得觀,旨在剖析“續”的促學功效,助力揭示互動促學語言的機制。多年圍繞續論開展的理論和實證研究表明,“續”是互動的主要方式,其促學核心機制是互動的內在屬性——協同(alignment,具有趨同、對齊、模仿、拉平功能)。互動產生的協同效應即學習效應,能將他人的語言轉化為自己會用的語言。互動強則協同強,協同效應最大化即語言學習高效率,可通過“續”去實現。“續”之所以促學語言,因其能夠激活和融合幾乎所有與語言習得相關的語言和非語言因素 (參閱王初明2016),并帶來一系列引發協同效應的運作,最主要的有:語言理解(學) 與表達(用) 緊密結合、創造性模仿、學伴用隨。續論通過“續作” (續說、續寫、續譯) 實現教學應用。“讀后續寫”是目前外語教學和測試應用最多的一種續作,要求學習者在理解上文之后預測和續寫下文,以此促進上文理解和后續表達深度融合,強化協同效應,加速提高外語表達能力。上述語言習得理念在二語教學和實證研究中得到反復印證,表明“續”反映了語言學習規律,確能有效促學語言 (如Wang & Wang 2015; Zhang 2017; Zhang & Zhang 2021; Zhan & Xu 2025;金檀等 2025;張曉鵬、陳莉 2025)。
03
大語言模型的工作原理
筆者根據媒體相關報道并請教DeepSeek,歸納大語言模型的基本工作原理,便于與續論進行對比分析。生成式大語言模型 (如ChatGPT),又稱聊天機器人,實為模擬人類大腦的一款神經網絡軟件,這類軟件歷經數十載的砥礪探索,不斷迭代,近年取得突破性進展。隨著計算機科學的進步,硬軟件功能的增強,利用網絡軟件空間開發出來的大語言模型具有強大算力,至今已發展成為由多層神經元和眾多參數組成、并擁有數以千億計神經節點及其權重 (weight) 的巨大神經網絡。在以大型語料庫對模型進行訓練階段,研發者秉持大數據隱含語言使用規律的信念,讓模型對輸入數據 (如文本、語音、圖像等) 進行加工,捕捉語言使用特征和信息 (包括確保語言正確得體流利使用的語境、情感、意圖等信息),將輸入文本轉換為分布式詞向量 (tokenization),并根據分布概率預測接下去最有可能出現的詞,在詞語義向量的指引下承接前詞“續”后詞,學習語言規律,完成語篇,最終實現人機對話。向量是核心數據的表征形式,貫穿模型的輸入、加工和輸出全流程。模型通過特殊標記將詞向量整合為句子向量,用于分類或相似度計算,將人類可讀的文本轉化為機器可計算的數學對象,通過規模效應 (參數量和數據量) 逼近人類語言表現。因此,向量是語言的“數學投影”,也是大模型理解、推理和生成的基石。在文本生成時,每一步輸出的向量會作為下一步的輸入,形成連貫的序列。為了提高語言理解和生成能力和高效處理復雜問題,大語言模型引入了“多頭注意力” (multi-headed attention,MHA) 等機制,以確保實現人機對話,如能讓模型關注輸入或輸出數據中最相關的部分 (參閱Deepseek;劉明等 2023;袁毓林2024a、b)。經過基于大數據的訓練,模型具備以下能力:能夠識別和分析上下文,識別語言中的常見模式和結構,在大數據中學到詞語、短語和句子之間的聯系,并基于以往的對話和場景進行邏輯推理。
面對大語言模型的強大功能,筆者向DeepSeek請教了一個本文最為關心的問題:大語言模型是否體現承接上文“續”下文的功能?得到如下回答 (原話):
![]()
DeepSeek 的回復表明,大語言模型的基礎能力和核心能力之一就是續論定義的“續”,其核心機制是自回歸生成,等同于互動協同機制,旨在依據上文預測后續詞和實現連貫續寫,即實現“續”的承上啟下功能。由此可見,大語言模型設計和開發的基本理念與續論語言習得觀相當吻合。在具體操作層面,“續”的核心運作與大語言模型是否匹配還需要進一步驗證,下面針對“續”產生協同效應的三個主要操作 (理解與產出相結合、創造性模仿和學伴用隨) 展開討論。
04
語言理解與產出中的互動協同
大語言模型名為聊天機器人并非浪得虛名,其基本用途就是通過對話幫助用戶完成各種任務和提供服務。對話是典型的“續”操作,它將語言理解與產出緊密捆綁。對話者所理解的是他人的話語,所產出的是自己的思想內容,兩者互動產生協同效應。從語言習得角度看,經過大數據訓練后的大語言模型能夠實現人機互動,必然引發協同效應,理應助學語言。本文所關心的是,大語言模型是如何實現人機互動的,人機互動與人際互動有何不同,如何更好利用起來促學語言。
大語言模型通過自然語言加工 (NLP) 技術實現人機互動。人機互動和人際互動存在一些共性。例如,兩者在互動中都能夠產生顯著的協同效應,都涉及信息的傳遞與反饋,互動的基本目的是完成某種形式的溝通或任務,都依賴規則(如人際互動遵循社會規范,而人機互動依賴預設的程序邏輯或交互設計),兩者都可能以解決問題或達成目標為導向 (如協作完成任務),都需要通過反饋 (語言、動作、界面響應等) 來確認互動的有效性。
然而,兩種互動屬于不同性質的交互模式。人際互動中的協同是全方位、多模態的,不僅涉及語言,還涉及豐富的情境、情感、認知、心理等因素,這些因素支撐著語言使用,不可或缺。人類大腦神經能將這些因素關聯起來,形成相互協同、通達聯動的網絡結構,促進語言習得與使用。在人際互動過程中,“續”將語言理解與產出緊密結合,致使兩者發生交集而引發協同,形成學中用、用中學、學與用相互融合、同步進行并即時提供反饋的局面。相比于人際互動,當下大語言模型的訓練與應用是異步的,與“續”的過程有著較明顯區別。從互動促學語言的角度看,兩者各有所長,促學效率高低有待實證檢驗。人類優勢在于創造力、情感理解、道德判斷和復雜決策。大語言模型的優勢則在于快速信息處理、大規模知識庫、無疲勞持續工作。展望未來,模型將會與多模態 (圖像、語音) 和具身智能 (機器人) 相結合,人機互動將更貼近人際互動體驗,助學語言的效率也因此會顯著提高。
值得注意的是,被視為“續”促學機制的協同概念已被用于闡釋大語言模型的互動功能,是實現有效人機互動的核心機制之一,其根本目標是確保模型的行為與人類意圖、倫理準則或特定的任務目標保持一致,這一理念深刻影響了大語言模型互動功能的設計與優化。在大語言模型里,協同是通過監督微調和強化學習等方法實現的 (參考DeepSeek對協同/alignment的解讀)。續論則以協同效應最大化為語言學習和教學目標,基于續論開發的各種續作抓住協同這個核心機制,旨在為強化協同效應創造有利條件。近年來,協同成為二語習得研究領域的熱點之一,語言學國際期刊不斷發表有關研究論文 (參閱Michel et al. 2022),足以表明協同作為促學語言的機制已經受到研究者們的關注。
05
創造性模仿
創造性模仿 (即內容創造+語言模仿) 是“續”高效促學語言的核心操作,具有強化協同效應的功能。內容創造指學習者在語言學習過程中表達自己的想法和意愿,而非機械重復別人的內容,只關注語言操練。學習者創造內容是促學語言和引領語言使用的驅動力,失去內容創造這一環就喪失了語言學習的自主性和推動力。語言模仿指學會用好語言主要靠模仿,所模仿的是語言使用,不只是語言形式;學語言之所以需要模仿,因為學習所要做的是將他人的語言復制并移植到自己身上,勿需去創造別人聽不懂的語言,包括合語法但不合用的詞句。創造性模仿表明,在互動或“續”的狀態下,當學習者想要表達自己的意思卻不知如何表達時,仿用上文出現的相關詞語,常伴有頓悟體驗,往往學得好,記得牢,效率高。如此模仿不僅具有擴增語言知識的功能,而且能夠幫助學習者克服語言表達障礙,承接上文內容“續”下文。
大語言模型的語言能力是先練后用,應用時根據用戶的需求和對話歷史生成合理回復。大語言模型從大數據中萃取內容,利用訓練得來的知識輸出下文。但囿于訓練所用的大數據,大語言模型被指“內容內循環”,2而非自主創造內容,這有別于續論所倡導的內容自主創造。盡管如此,為了回應使用者的需求,模型能夠從海量的知識庫里抽繹和概括出最相關的內容,自然比一般個人的思路更開闊,應可視為一種邊際創造,如此“內循環”大概不會削弱大語言模型促學語言的功能,因為語言本質上是表達思想的工具,為人類所共享,學習主要靠模仿。大語言模型輸出的語言比較規范地道,在自然語言里大概率使用,幾乎涵蓋了一種語言的所有句型和搭配,是二語學習者仿用的優質資源。為了有效利用大語言模型促學二語,同時發揮內容創造的促學功能,內容表達理應由學習者主導,引導模型更好地與人協同,服務人的表達意愿,以此促進語言知識的內化,助力語言表達能力的提高。
06
學伴用隨
語境是學伴用隨理念促學語言的核心要素,對學會用好語言怎么強調都不為過。為了支持這個觀點,筆者做如下推理。語言習得和使用由意義表達的需求驅動,這應屬常識,而如何定義意義卻有諸多不同答案。這里不妨引用維特根斯坦的一句名言:意義即使用 (meaning is use)3。這里的“使用”應當理解為語言使用,而語言使用總是發生在語境里,與語境不可分割。同一句話在不同的語境里可有不同的解讀,可謂語境出意義。因此,維氏的名言或可理解為:意義即語境,語境是意義的具象表達。廣而言之,凡是伴隨語言使用的背景因素均可視為語境,如場景、情境、心境、上下文、交談對象。由于語境具有啟動語言使用的功能,而學語言是為了會用,自然要在語境中學;學過的語言知識能否用出來,用出來是對還是錯,決定于語言知識在學習過程中與什么語境相伴。相伴正確則易用對,相伴不當則易用錯。筆者將此語言學習過程中的語境關聯稱為“學相伴、用相隨”原則,簡稱“學伴用隨”原則 (王初明 2009)。二語學習者與本族語者對話交流是正確語境相伴的例子。本族語者為學習者帶來真實的語境和地道的語言,雙方在動態語境里理解對方的話語并即時做出語言反應,聽者和說者角色不斷轉換,輪番聽后續說,理解與產出緊密結合,在適切語境相伴下學用本族語者的語言,學習效果佳。語境相伴不當的一個典型例子是,在我國學英語,學習者潛意識以漢語語境知識去理解或學用英語詞句,常常導致中式英語的使用。
語境對人類學會用好語言如此重要,而大語言模型既然能夠成功模擬自然語言習得和使用,必然存在捕捉語境信息的機制。DeepSeek認為,此機制的本質是在高維向量空間中構建了一個可泛化的語境映射系統。經過訓練后的大語言模型輸出的是鍍上了語境標識、隱含在向量里并可整合成語篇的詞語。目前,生成語境的人工智能技術發展迅速,已有人工智能軟件使用文本生成圖像,或通過語音識別將視頻中的語音轉為文字,或分析畫面動作生成說明,或識別物體、場景、動作輸出結構化文本。將文字生成視頻是當下人工智能領域各國競相攻關的尖端技術,目前OpenAI已初步具備這種能力,足以表明語境對語言使用所起的關鍵作用,這為大語言模型實現學伴用隨動態促學語言的理念創造了有利條件。可以預見,隨著多模態技術的融入和具身智能的加持,大語言模型促學語言的功能將會越來越強大,在動態語境體驗相伴下與機器人互動學用語言,外語學習費時低效或將成為往事。
07
大語言模型的教學啟示
續論與大語言模型的上述對比對學會教好外語帶來一些啟示,值得關注,下面僅舉幾例。
外語教學為何費時低效是一個長期令人困惑的問題。聊天機器人的成功告訴我們:學會用好外語需要互動。在我國,學外語主要用途是應付考試,學校盛行應試教學,被貼上費時低效的標簽。究其主要原因,要么外語教師對互動促學外語的重要性認識不足,要么學校缺少高水平教師為學生提供互動交流的條件。如今大語言模型實現了人機互動,能為外語學習提供優質資源,既可用文字也可用語音對話,只要愿學,可隨時跟不知疲倦的聊天機器人互動對話,外語學習效率將會因此得到改善。
教語法是外語教師難以割舍的第一大情結。語法被視為指導語言正確使用的規則,似乎不學語法就學不會外語。語法是否需要學以及應該如何學,大語言模型的工作原理給我們帶來啟示。盡管語法具有生成性,而大模型所獲得的語言生成能力并非基于語法規則,而是基于詞語之間的搭配概率。模型通過概率統計和模式識別,預測下一個可能出現的詞。大語言模型學習語言規律的理念與人類語言習得機理有相似之處,切合語法的概率特征。語法規則的一個突出特點是能夠生成無數合法新句。然而,合法的句子不一定合用,合用的句子不一定合法,例外實在太多,不可能百分之百正確 (不妨想想英語名詞復數加-s的構成規則)。語法規則生成正確合用語句的概率有的能夠達到80%左右,有的70%左右,如此類推,概率還會有60%,50%、40%、30%、20%、10%不等,而正確概率低于50%的“規則”估計都不會選入語法教科書,往往被冠以習慣用法,任由學習者在學習體驗中去掌握。從語言習得的角度看,語法是語言習得的結果而非原因,逐漸形成于語言使用體驗,自然浮現,由語法研究學者從成人的語言使用中歸納出來。如果讓大語言模型通過“學”語法規則去生成詞句,那是“學”不會使用語言的,因為語法規則從語料中抽繹而來,濾掉了確保語言正確得體使用必不可少的語境元素。外語教學若倒果為因,自始至終過度以語法規則指導外語學習和使用,結局就是費時低效。因此,明智的教師在教語法時往往采用歸納法,語言使用體驗在先,不細摳規則,注重詞語的使用搭配;或者發揮大語言模型生成語篇的能力,將目標結構嵌入語篇,讓學生續寫或續說,在這樣的篇章語境中學習語法,效果顯著 (參閱許家金等 2024:25-32; 王啟、周曉 2025)。
大語言模型獲得成功的一個關鍵,是注意力機制的應用。“注意”對語言習得和使用十分重要。二語習得研究領域有一個注意假說 (Shmidt 1990),認為只有注意到的才能學得到。此外,著名的二語習得互動假說也特別強調了學習者對語言結構有選擇注意的重要性,認為注意是互動促學語言的關鍵變量之一 (Long 1996)。大語言模型模擬人類習得語言,遵循了“注意”促學語言的規律,采用了注意力機制,成功鑄就了模型的互動能力。值得一提的是,有的外語教師應用讀后續寫時也有意識地運用了“注意”操作,在前文語篇里凸顯需要學用的詞語和語法現象,鼓勵學生在續作中加以運用,以此落實學伴用隨和創造性模仿促學理念,強化協同效應。
僅通過大數據訓練的大語言模型便可生成文本并實現人機互動,這說明語篇隱含豐富的語境信息,可由大模型提取出來。這給我們兩點啟示:一是閱讀和續寫富含語境信息的外語小說或故事對培養語感和學好外語幫助大;二是語境啟動語言使用實為語篇啟動 (王初明、王啟 2025)。“續”的基本功能之一是依據上文的語境鋪墊,預測下文內容并指引續說或續寫。換言之,上文語篇中的語境信息具有導向功能 (王啟、繆海燕 2023)。“續”之所以有效促學語言,主因之一就在于它利用了具有支架功能的語篇啟動效應,“續”所補全、所拓展和所創造的是富含語境信息的語篇,是在語篇中促進語言的正確得體使用,而非從語篇中剝離出來的單詞獨句。
如果語言是通過互動學會的,學習者的互動能力理應反映其學用外語的能力。在過去近40年里,如何測量互動能力一直是語言測試界關注的論題 (參閱Plough 2018),而互動能力測試至今仍然缺席。有效可靠測量互動能力并非易事,因為互動由參與者共同推進,難以分辨和量化個體對互動的貢獻,如何為每位個體的互動能力公平合理地評分卻成了語言測試的一個堵點 (王初明 2023)。大語言模型的誕生為疏通這個懸著數十年的語言測試堵點提供了一個解決辦法,打開了應用空間。我們可以嘗試以聊天機器人為基準,讓考生與其互動,并訓練機器人考查互動能力。通過對題型和評分標準進行必要調試校正,可使評分變得有效可靠、客觀公正。隨著具身智能機器人的完善,讓其與考生共同完成一項預定任務,在互動體驗中考查互動能力和語言運用水平,可進一步提高互動能力測試效度。
08
結語
語言是人類文明大廈的基石,累積的海量文獻蘊藏著人類上千年的智慧。人工智能科學家獨具慧眼,選擇從語言大數據切入,開發大語言模型,不斷迭代,目前已達到令人震撼的強大應用狀態。從語言習得角度看,大語言模型是模擬人類學用語言的重大技術革命,而非語言習得理論的創新。然而,模型盡管在一些具體設計環節與續論倡導的操作存在差別,整體而言,其構建理念與續論的語言習得觀相當吻合,從訓練到應用均圍繞“續”而展開。這種吻合絕非偶然,而是各自遵循相同語言學習和應用規律的體現,印證了語言是通過“續”學會的論斷。當下,兩者仍在不斷完善的路上,可相互借鑒,相互印證,相互支持。續論所揭示的語言習得規律可為大語言模型上升到理論認識提供參照,同時也在模型的加持下,進一步實現自身價值變現。
![]()
![]()
文章來源:現代外語
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.