自然語言處理技術下的二語寫作語言特征研究:回顧與展望
陳怡
摘要
本文系統梳理過去二三十年來國內外運用自然語言處理技術進行的二語寫作語言特征研究。文獻回顧顯示,各類自然語言處理工具在學習者語料庫上的應用,不僅揭示了任務、體裁、話題等中介因素下的詞匯復雜度、句法復雜度、語篇銜接等多維度語言特征與二語寫作質量之間的關系,也為理解二語習得和二語寫作能力的發展提供了有力的實證支持。文章還概括了最近幾年這一研究領域的新進展,包括語言特征指標的拓展以及機器學習的深入運用。文章最后提出未來研究需要特別關注的兩個重點方向,即理論框架的突破和技術范式的更新。
關鍵詞:二語寫作、自然語言處理技術、語言特征指標、機器學習
![]()
正文
1. 引言
隨著計算機技術的發展,數據處理的自動化程度不斷提升,極大地推動了基于學習者語料庫的二語寫作語言特征的研究。借助各類自然語言處理工具,研究者從各維度考察了二語寫作的語言特征與文本質量、寫作能力及其發展之間的關系,為二語寫作教學研究提供了寶貴的數據支持。Crossley(2020)對這一領域的研究現狀進行了回顧,但并非完全針對二語,也未提及中國學者的貢獻,加之最近幾年人工智能飛速發展,所以有必要再進行一個綜合的回顧。本文旨在系統梳理過去二三十年來關于二語寫作(主要是英語二語寫作)語言特征研究的主要成果,選擇代表性研究進行評述,總結最近幾年的新發展,展望未來研究趨勢,以期進一步推動數字人文視域下的二語寫作教學和研究。
2. 自然語言處理工具與二語寫作語言特征
2.1 應用于二語研究的自然語言處理工具
目前應用于二語文本的自然語言處理工具大體可分為三類。第一類是較早出現的自動化詞性標注工具,如 Biber Tagger(Biber 1988)等。第二類是專用文本特征分析工具。繼整合詞匯、句法、語篇指標的多維度文本分析器 Coh- Metrix(Graesser et al. 2004)問世之后,新一代分化更細的文本分析器紛紛出現。比如 Lexical Complexity Analyzer(LCA)(Lu 2012)、Tool for the Automatic Analysis of Lexical Sophistication(TAALES)(Kyle & Crossley 2015)和 Tool for the Automatic Analysis of Lexical Diversity(TAALED)(Kyle,Crossley & Jarvis 2021)專門用于分析詞匯復雜度或復雜度下的成熟度 / 多樣性,L2 Syntactic Complexity Analyzer(L2SCA)(Lu 2011)和 Tool for the Automatic Analysis of Syntactic Sophistication and Complexity(TAASSC)(Kyle 2016)用于句法復雜度分析,Tool for the Automatic Analysis of Cohesion(TAACO)
(Crossley,Kyle & McNamara 2016)針對語篇銜接性進行分析。第三類是通用自然語言處理庫,如 Stanford CoreNLP 和 Python 的 NLTK、spaCy、Gensim、 Stanza 等 1。上述各類自然語言處理工具的運用,顯著提升了對學習者語料庫的分析效率,極大地推動了二語寫作語言特征的研究。
2.2 文本質量評估視角下的二語寫作語言特征研究
運用自然語言處理工具從學習者筆語語料庫中提取特定語言特征指標,并通過回歸分析或結構方程模型分析這些指標對文本整體/ 分項得分或評級的預測力,是二語寫作語言特征研究的核心議題之一。這類研究多以獨立寫作議論文為主,主要關注詞匯復雜度、句法復雜度、語篇銜接性等特征維度。
2.2.1 詞匯復雜度
詞 匯 復 雜 度 包括 詞 匯 密 度(density)、多 樣 性(diversity)和 成 熟 度(sophistication),是文本質量評估的重要維度。研究表明,詞匯復雜度與 EFL 寫作質量呈顯著正相關,更高的文本質量意味著更多樣的詞語以及更多以頻率、分布和心理語言學屬性為標識的高階實詞的產出(Crossley et al. 2010)。研究發現,指向二語寫作質量的詞匯復雜度還包括多元(n-gram)詞語組,特別是二元和三元詞語組在本族語參照語料庫中的出現頻率和關聯強度(Kim,Crossley & Kyle 2018)。此外,還有研究通過提取構成搭配的二元詞語組(Bestgen & Granger 2014)或具有特定依存關系但并不一定由相鄰詞構成的詞語搭配(Paquot 2018),進一步證明了詞語組合復雜度指標對二語寫作質量的貢獻度。
2.2.2 句法復雜度
句法復雜度也是評估二語寫作文本質量的一個關鍵維度。研究表明,EFL議論文中的產出單位長度(尤其是子句平均長度)和復雜名詞結構指標與寫作質量密切相關(Kyle & Crossley 2018),但關于并列結構和子句指標的貢獻度,相關研究結果并不一致。另外,微觀層面的句法復雜度指標和宏觀層面的句法復雜度指標孰能更好地預測EFL 寫作質量(Biber et al. 2020),子句復雜度與復雜名詞結構指標在二語寫作質量評估上的共現和互動關系如何(Biber,Gray & Staples 2016)等問題還需進一步研究。
2.2.3 語篇銜接性
有研究顯示,局部銜接性指標(如連接詞、相鄰句子之間詞元的重復或語義復現等)和整體銜接性指標(如詞語形符 / 類符比、代詞 / 名詞比、指示詞出現頻率等)或負向預測 EFL 議論文的語篇組織得分,或與語篇組織得分無關(Crossley,Kyle & McNamara 2016),但也有研究顯示部分局部銜接性指標能正向預測語篇組織得分(Abdi Tabari,Johnson & Gao 2024)。對于中觀銜接性指標(如相鄰段落之間詞元的重復或語義復現等),雖然相關研究發現其與語篇組織得分呈正相關,但究竟是名詞、代詞詞元還是虛詞的重復使用具有指向作用,還需進一步研究。總的來說,語篇銜接性仍是一個關注不足的領域。
2.2.4 多層面綜合
上述研究都是考察EFL 議論文某一維度的語言特征與寫作質量的關系,此外還有研究綜合多個維度的語言特征,考察它們對寫作質量的貢獻度,如將詞匯復雜度與句法復雜度相結合,詞匯復雜度與語篇銜接性相結合,詞匯、句法復雜度與語篇銜接性相結合,在此不一一贅述。另外,二語產出研究常用的復雜度 -準確度 - 流利度(CAF)框架下的準確度和流利度也常與詞匯、句法復雜度或語篇銜接性相結合(Peng et al. 2023)。
由于研究所包含的語言特征維度不同,加之樣本特征、樣本量、處理工具等方面的差異,這類研究得出的結論有時差別較大。另外,就某一語言特征與文本質量的關系而言,綜合多個維度的研究與聚焦單一維度的研究結果也有很大差異。例如,Peng et al.(同上)的研究顯示,與詞匯使用偏誤和文本長度相比,詞匯復雜度對 EFL 寫作整體得分變異的解釋作用很小,這與上文提到的僅關注詞匯復雜度的研究結果迥然不同。這些都值得在今后的研究中予以關注。
2.2.5 中介因素的影響
二語寫作的質量不僅由二語寫作能力決定,還受到諸多中介因素的影響。通過自然語言處理工具,已有研究探討了在不同中介因素下不同語言特征指標對寫作質量預測的差異。這些中介因素包括不同的任務形式(如無材料獨立寫作、綜合性寫作)(Guo,Crossley & McNamara 2013;Kyle & Crossley 2016)、寫作體裁(如議論文、記敘文、說明文、書信)(Zhang,Lu & Li 2022)、話題或寫作提示等(Yang,Lu & Weigle 2015;何蓮珍、孫悠夏 2015)。上述研究表明,不同類型的二語寫作既具有共同的質量預測指標(如文本長度、句法復雜度下的復雜名詞結構),也具有各自獨特且對評分敏感的特征性指標。
盡管如此,還有幾個問題需要關注。第一,研究結果之間仍存在很多不一致之處。例如,Guo,Crossley & McNamara(2013)發現詞匯成熟度對于綜合性寫作和無材料寫作都是一項重要的質量預測指標,而 Kyle & Crossley(2016)的研究卻表明,雖然綜合性寫作能使學習者產出更復雜的詞匯,但包括二元詞語組在內的詞匯多樣性和成熟度并不能預測這類寫作的質量;相反,這兩項指標是無材料寫作質量的重要預測指標。第二,除了 Zhang,Lu & Li(2022),基于體裁因素考察多維度語言特征對寫作質量的預測力的研究還不多見。此外,對議論文與其他體裁的預測指標進行比較的研究也很有限,這限制了相關結果的概推性。第三,話題因素如何影響語言特征對二語寫作質量的貢獻度尚待進一步探究。
2.3 二語習得或二語能力發展視角下的二語寫作語言特征研究
除了文本質量評估的視角,還有研究從二語能力發展的視角出發,通過自然語言處理工具動態追蹤二語寫作語言特征指標的變化。需要說明的是,上文評述的一些研究結合了文本質量評估和二語能力發展這兩種視角(如 Bestgen & Granger 2014;Abdi Tabari,Johnson & Gao 2024)。Yoon & Polio(2017)等研究則專門縱向分析了學習者在 EFL 寫作中某一或多個維度語言特征的動態發展情況,還考察了體裁、話題或任務形式等中介因素對語言特征發展的影響。這些研究主要有三個發現。第一,隨時間顯著發展的語言特征指標與同質量評分顯著相關的指標有時并不一致(Crossley & McNamara 2014),因此,有效的發展性指標并不一定能被假定為衡量寫作質量的有效指標(Lu 2011)。第二,語言特征的發展并不一定呈線性上升的態勢(Bulté & Housen 2014)。第三,體裁、話題或任務特征等中介因素對不同維度語言特征發展的影響不同,對詞匯和句法復雜度
指標的影響總體較大(Yoon & Polio 2017);即便是在同一維度內,這些因素對具體語言特征發展的影響也不一致,如寫作體裁對句法復雜度下從屬或并列子句的發展就沒有明顯影響(同上)。需要注意的是,這些動態發展研究大多以句法復雜度為焦點,對其他特征維度的關注度還不夠。另外,一些動態研究采用了類縱向(pseudo-longitudinal)方法,并非對同一批學習者群體展開持續追蹤,而是通過不同水平組之間的比較來模擬二語發展過程,這在一定程度上可能影響研究結論的效度,未來的研究需要更多地進行純縱向研究,以增強結論的解釋力。
此外,還有研究關注的是語言特征指標的變化或差異對二語習得理論的意義。例如,Lu & Ai(2015)通過對比不同母語背景的 EFL 寫作者在多個指標上的表現,驗證了語言遷移理論;何蓮珍、姜子蕓(2023)通過考察考生的工作記憶容量差異與寫作文本特征的關系,進一步加深了對認知負荷假說的理解;王麗萍、吳紅云、Zhang(2020)通過分析不同任務復雜度下的文本語言特征,驗證了“競爭假說”和“認知假說”;還有研究通過探討二語發展過程中寫作文本流利度與語篇銜接性的多維交互(張超、梁文花 2022)以及句法和詞匯復雜度的發展(鄭詠滟、馮予力 2017),證實了動態系統理論的解釋力。此外,一些研究通過自然語言處理工具聚焦二語學習者對某一特定目標語特征的習得,如定語從句(Alexopoulou et al. 2015)、次范疇結構(Huang et al. 2021)、程度表達式(Cong 2024)等。總體而言,這些研究展現了自然語言處理技術在服務理論探討和驗證方面的重要作用。
3. 二語寫作語言特征研究的新進展
3.1 語言特征指標的拓展
近幾年來,自然語言處理工具與語言學理論的深度融合促進了二語寫作語言特征指標在詞匯、句法和語篇銜接等多個維度上的創新。例如,在構式理論和基于使用的語言習得理論的基礎上,Kyle & Crossley(2017)提出了以大型本族語語料庫為參照的主動詞詞元出現頻率、動詞論元構式(VAC)出現頻率、主動詞詞元與 VAC 組合的出現頻率、主動詞詞元與 VAC 的關聯強度這四項句法復雜度新指標。他們發現,基于使用的句法復雜度指標能解釋比傳統指標更多的 EFL 作文得分方差。另外,也有研究同樣以基于使用的語言習得理論為基礎,但更關注句法構式復雜度中的產出多樣性。例如 Hwang & Kim(2023)開發了基于依存句法分析的構式多樣性分析器,他們的研究表明構式的多樣性和特定構式的出現比例也能有效預測 EFL 寫作文本的質量。
除了基于使用的語言習得理論,以依存語法、分布語義等為代表的,本身就基于計算或自然語言處理的語言學理論,也為二語寫作的語言特征分析提供了新視角。以依存語法理論為例,它為評估二語寫作質量和分析寫作能力發展提供了新的句法復雜度指標。Ouyang & Jiang(2017)通過對 EFL 寫作文本進行依存關系解析后發現,從初中一年級到英語專業研究生九個不同階段寫作文本依存距離的概率分布較好地反映了學習者目標語寫作能力的發展;Ouyang, Jiang & Liu(2022)的研究顯示,相較于傳統的基于句法結構長度或數量的復雜度指標,平均依存距離能更好地區分初級、中級和高級階段的 EFL 寫作文本。另一方面,基于依存關系類符 / 形符比的句法多樣性指標也進一步拓展了句法復雜度的內涵(Bi & Jiang 2020)。
語境在意義的生成和理解中起關鍵作用,基于分布語義的詞向量技術可以更精準地識別多義詞在特定語境下的語義,為二語寫作質量分析提供具有語義感知的特征指標。例如,Lu & Hu(2022)使用 BERT 模型對參照詞典中多義詞的例句進行詞義向量標注,通過詞向量相似性計算確定 EFL 作文中多義詞的確切語義,進而提出了具有語義感知的成熟詞形符根植比、具有語義感知的成熟詞類符根植比、單個詞語詞義數量的對數均值這三個詞匯成熟度指標;與傳統的 TAALES 指標相比,前兩個新指標與 EFL 寫作得分的相關性更強。類似地,Lu & Hu(2024)還提出了 34 個具有語義感知的語篇銜接詞詞形指標,如語篇銜接詞詞形的數量、密度、多樣性等,這些指標不僅區分了某一詞形在上下文中是否真正具有話語銜接功能,還明確了它們在語境中所表達的特定銜接關系,如對比、因果、擴展、時間關系等。此外,Monteiro et al.(2023)分別利用潛在語義分析
(Latent Semantic Analysis)和 Word2Vec 模型提出了一組基于參照語料庫中詞向量相似性計算的情境語義指標,用以衡量詞語的語義豐富度和獨特性。他們的研究發現,EFL 高分作文中往往較少使用語義豐富度高的詞語,但較多使用語義獨特性高的詞語。
無論是上述哪一種新指標,其背后都反映了基于認知的語言習得理論(Ellis 1999)的核心思想。該理論強調學習者通過基于經驗的統計學習機制,在具體語境中對語言輸入進行信息加工并形成心理表征,從而為包括語言特征分析在內的二語研究提供更為堅實的學理基礎,不僅“體現了認知心理學的經驗主義,即通過觀察和實驗來探索關于世界的真理”,也“融合了認知科學家的理性主義,即通過構建數學、邏輯或計算模擬等形式系統來形成理論”(同上: 22)。從這個意義上說,自然語言處理技術與語言學理論完全契合,有力地推動了二語寫作語言特征的研究。
3.2 機器學習的深入運用
機器學習指一系列基于已知數據對新數據進行分類的廣泛技術。近年來,二語寫作特征研究所涉及的機器學習技術越來越先進和多樣化,而且機器學習也日益走向前臺,研究者們不再滿足于僅僅使用現成的文本分析器,而是直接使用各種機器學習技術創建語言特征指標或識別關鍵特征。上文提到的 Lu & Hu(2022,2024)、Monteiro et al.(2023)等研究就是典型的例子。又如,Ma, Wang & He(2024)運用決策樹方法,識別出了能夠清晰區分“歐洲語言共同參考框架”下不同等級 EFL 寫作文本的 11 個 Coh-Metrix 指標,并且找出了每個決策點上影響分類的指標閾值。Latifi & Gierl(2021)使用隨機森林算法對大批量作文進行自動評分后發現,不同任務形式寫作文本的語言特征的信息含量是不同的,如何保留自動化評分中的語言特征不僅取決于寫作文本本身,還取決于題目提示等特征。再如,Tang et al.(2024)通過結合多種自動化文本分析工具得出的語言特征指標與各種常見機器學習算法,比較了這些算法在自動評分上與人工評分基準的差異。他們的研究不僅評估了不同算法的性能,還通過線性和非線性模型,揭示了文本語言特征與整體評分及各分項評分之間的關系,雖然這一研究針對的是英語母語寫作,但同樣適用于二語寫作。
作為機器學習中日益發展的一個分支,包括大語言模型在內的神經網絡模型近年來也被引入二語寫作特征研究中 2。例如,Crossley & Holmes(2023)比較了三種 EFL 寫作語料的自然語言處理方法在預測學習者詞匯能力方面的表現,它們分別是基于 TAALES 傳統語言特征指標的線性回歸模型,基于 Word2Vec 的分布語義嵌入模型,以及基于 BERT 的語義嵌入深度學習神經網絡模型。他們的研究表明,BERT 模型在預測學習者詞匯能力方面表現最優。這些研究凸顯了大語言模型在捕捉詞匯使用語境和語義精度方面的有效性。
比起傳統的自然語言處理工具,基于大語言模型的詞性標注和句法解析工具已在二語寫作語言特征的研究中展現出優勢,但這些工具的性能還依賴于訓練數據的數量和質量(Kyle & Eguchi 2024)。Kyle & Eguchi(同上)發現,在本族語語料訓練的基礎上,經少量二語語料訓練的詞性標注和句法解析模型在二語語料的處理上優于僅經過本族語語料訓練的模型。另外,通過 BERT、 ChatGPT 等大模型還可直接定制對包括指向話語功能在內的語言特征的自動化標注(Eguchi & Kyle 2024)。因此,對大模型工具進行經過高質量標注的目標語語料訓練或微調,進一步提升自然語言處理標注的精準度,可能是今后二語寫作語言特征研究的一個重要內容。此外還有一個問題值得探索。雖然現在大語言模型能較準確地識別學習者寫作中的錯誤(Mizumoto et al. 2024),但如何精準定義語言準確度并對錯誤類別分配權重仍是一個充滿爭議的問題。今后的研究應在這方面有所突破,尤其是神經網絡中的“自我注意”機制可以模擬評分員根據錯誤的性質和上下文來分配注意力,通過調整權重來反映這種注意差異。
4. 進一步思考與展望
進入 21 世紀以來,二語寫作語言特征的研究呈現出蓬勃的發展態勢,學習者語料庫為這些研究提供了堅實的數據基礎,而自然語言處理技術的進步則為研究提供了強有力的技術支持。相關研究在深化理解二語寫作能力各分支構念、完善評分量表、推進評分自動化、優化診斷性評估、追蹤二語學習者寫作能力發展軌跡,以及深入理解和驗證二語習得理論等方面都提供了很有價值的信息。結合上文的梳理,今后研究的一個方向是,在已有的研究框架下,通過更大規模的學習者語料、更標準化的語言能力評估框架以及更精準的自然語言處理方法進行更多的復制研究,以進一步厘清先前研究結果的不一致之處,或加強先前研究著力不足之處。更為重要的是關注如下兩點。
第一,理論框架的突破。當前二語寫作語言特征研究大多假設:寫作質量或能力發展可以通過可量化的語言特征的線性組合加以預測或解釋。然而,這一假設在很大程度上簡化了二語寫作能力這一復雜構念。未來研究有必要突破這種以單向預測或解釋為導向的視角,探討各類語言特征在構建二語寫作能力中的互動關系及多元協同機制。正如 Ortega(2015:91)所言,“我們需要更有力的、包含更多變量并具有非線性特征的思維方式”,“必須在研究設計和統計分析方案的制定中,充分體現這些變量,并捕捉它們之間復雜的交互作用”。此外,在 CAF 框架尤其是在復雜性維度上,我們亟須將語言形式特征與其所服務的語義建構和交際功能相連接。形式上的“更復雜”并不必然指向更高的二語能力(Yasuda 2024),準確性、流利度和復雜性等局部波動也不能充分反映任務型二語習得的本質(Lambert & Kormos 2014)。因此,應重視研究不同能力階段的二語學習者在具體的寫作情境中,如何通過特定的語言資源完成任務且達到交際適切性(communicative adequacy),并追蹤其語言特征指標如何隨交際需求和語境適應能力的提高而演化。這種以意義和功能為驅動的視角,有望更全面地揭示文本語言特征與二語寫作能力構念之間的動態關系。
第二,技術范式的更新。機器學習特別是深度學習為二語寫作語言特征研究提供了前所未有的建模能力。這些神經網絡模型在捕捉語言使用的上下文敏感性、語義深度和結構復雜性方面具有顯著優勢。然而,其“黑箱”特性也引發了學界對可解釋性的擔憂。因此,將反映形式、意義、功能的語言特征指標與神經網絡模型相結合有望逐漸成為研究前沿。這一范式不僅可以拓展二語寫作語言特征的研究范圍,而且借助可解釋人工智能(explainable AI),研究者得以追蹤模型決策路徑,從而將數據驅動的預測 / 解釋與理論驅動的預測 / 解釋有效結合,“助力二語研究者構建涉及意義、意圖、推理和語用等維度的二語知識與發展模型”(Crossley & Holmes 2023:22),拓展可與基于特定任務的分析性評分量表實現多維互通的二語寫作語言特征指標體系。盡管這種結合可能頗具挑戰,但神經網絡模型的潛力不容忽視,期待大語言模型的應用給二語寫作語言特征研究帶來新的突破。
免責聲明:原文載于《外語教學與研究》,2025(4),版權歸作者所有,如有侵權,請及時聯系刪章。
轉載自外語教學與研究公眾號
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.