![]()
![]()
基于詞匯豐富性的漢語二語寫作質量評估研究
杜月明
南開大學
摘要
本文基于大規模二語寫作數據,結合詞匯豐富性指標體系和隨機森林算法,深入考察詞匯豐富性及各維度在漢語二語寫作質量評估中的表現。研究發現:1)基于特征重要性排序選取的前17項詞匯豐富性指標能夠有效評估漢語二語寫作質量,其準確率、精確率、召回率和F1 值均達到0.642。2)詞匯多樣度在寫作質量評估中的表現最優,詞匯復雜度次之,詞匯錯誤居第三位,詞匯密度表現相對較弱。3)各維度指標在不同質量組別中的預測能力存在差異。具體而言,詞匯多樣度在低中組、低高組中的區分力最強,詞匯復雜度在中高組中的區分表現最佳。教師可據此調整寫作教學策略,輔助學習者提高寫作質量。
關鍵詞:詞匯豐富性;寫作質量;自動評估;隨機森林算法
01
引言
詞匯豐富性是衡量二語學習者語言產出質量的重要標準 (Laufer & Nation 1995; Read 2000)。作為一個多維度的復雜概念,詞匯豐富性通常包括詞匯多樣度 (lexical diversity)、詞匯復雜度 (lexical sophistication)、詞匯密度 (lexical density)和詞匯錯誤 (lexical error) 四個維度 (Lu 2012; De Wilde 2023)。然而,關于詞匯豐富性及各維度在二語寫作質量評估中的表現,學界仍存在一定爭議。McNamara et al. (2010) 認為,詞匯多樣度和詞匯復雜度能顯著預測寫作成績,可解釋11%的寫作質量變異。吳繼峰 (2016) 則發現詞匯錯誤和詞匯復雜度與寫作質量的關系更為密切,能解釋寫作質量總變異的46.2%。近期研究也表明,詞匯復雜度、詞匯多樣度和詞匯錯誤均能顯著預測寫作質量,并可解釋寫作成績50%的變異 (De Wilde 2023)。
不同研究之所以存在較大差異,可能由多種因素造成。首先,測評指標的選擇對評估結果有重大影響 (Alexopoulou et al. 2017)。盡管詞匯豐富性及其四維度概念在學界已得到普遍認可,但鮮有研究對這四維度進行綜合比較 (Fritz & Ruegg 2013)。例如,一些研究僅聚焦詞匯多樣度和詞匯復雜度對寫作質量的影響(McNamara et al. 2010; Lee et al. 2021),而另外一些則專注于探究復雜度與寫作質量的關系 (Kim et al. 2018)。即使研究選取的維度相同,所抽取的具體指標也存在差異。以詞匯復雜度為例,前期多從詞匯難度入手,但從語言習得與測量角度來看,復雜度還應包括詞匯習得年齡和詞頻概貌 (lexical frequency profile) 等指標 (Crossley et al. 2012; Lu 2022)。
其次,實驗數據的差異也會影響詞匯豐富性在寫作質量評估中的表現。以往研究多基于小樣本數據,且研究對象在母語背景、寫作體裁及任務復雜度等方面存在諸多不同。如吳繼峰等 (2019) 以210篇韓國漢語學習者的記敘文為語料,發現詞匯錯誤對寫作質量的預測效果最優,而Lee et al. (2021) 以60篇香港中學生的說明文和應用文為數據,指出匯復雜度在寫作質量評估中的表現最佳。兩項研究均對學習者的母語背景和體裁進行了不同限定,導致評估結果呈現出顯著差異。
可見,詞匯豐富性與寫作質量間的關系受多種因素的影響。由于研究者在指標選擇和數據選取上存在較大差異,且未對相關變量進行嚴格控制,因此得出的結論不盡一致。此外,現有研究主要集中在英語二語領域,從漢語二語視角出發,基于大規模作文數據,結合多維度詞匯豐富性指標展開的評估研究相對匱乏。同時,傳統評估方法多采用線性回歸模型,要求自變量與因變量之間具備線性關系。然而,隨著指標維度的擴展與數據規模的增長,這一假設往往難以成立。計算語言學的興起為語言特征的自動化提取提供了技術支撐,同時也推動了評估方法的更新迭代。以隨機森林算法 (random forest algorithm) 為代表的機器學習模型在處理大數據和多維度指標方面展現出顯著優勢,能夠有效克服傳統回歸模型的局限,為二語寫作質量的評估提供了更為靈活和精準的路徑(Crossley et al., 2022)。
有鑒于此,本研究以大規模漢語二語寫作數據為基礎,構建詞匯豐富性指標體系,通過引入隨機森林算法,探究詞匯豐富性及各維度指標在漢語二語寫作質量評估中的表現,以期為漢語二語寫作評估和教學提供支持。具體研究問題如下:
1) 詞匯豐富性在漢語二語寫作質量評估中的整體表現如何?
2) 詞匯豐富性各維度在漢語二語寫作質量評估中表現如何?
02
研究設計
2.1 實驗數據
本研究所用語料來自北京語言大學“HSK動態作文語料庫2.0版1” (以下簡稱“HSK語料庫”)。該語料庫收錄了中高級漢語學習者參與漢語水平考試的命題作文。為探究詞匯豐富性在寫作質量評估中的表現,本文分別將80-95分、6075 分、40-55 分的作文定義為高分組、中分組和低分組,每種組別下隨機抽取1000 篇文本作為實驗數據。該數據集涵蓋多種體裁,涉及的話題多元、學習者的母語背景多樣。
2.2 指標選取本文綜合二語習得與評估領域研究成果,從詞匯多樣度、詞匯復雜度、詞匯密度、詞匯錯誤四個維度出發,圍繞形符 (每篇作文中的總詞數) 和類符 (每篇作文中的詞種數),提出61項漢語二語詞匯豐富性測量指標 (見表1)
(1) 詞匯多樣度反映學習者心理詞庫中可提取的詞語的數量和范圍。本文首先計算每篇作文的全局詞匯多樣度,隨后計算特殊詞類 (動詞、名詞、形容詞、副詞以及修飾詞) 的變化度。詞類劃分標準參考《現代漢語》 (增訂六版) (2017),計算公式如表2所示。
(2) 詞匯復雜度指文本中復雜詞和高級詞的使用程度。本維度從詞匯難度、詞匯習得年齡和詞頻概貌3個層面出發,提出36項適用漢語的復雜度指標。其中,詞匯習得年齡指標尚未出現于漢語二語寫作質量研究中,詞頻概貌指標在漢語二語中的使用也相對較少。具體計算方法如下:
1) 詞匯難度指不同等級詞語在作文中的分布情況。由于 《漢語水平詞匯與漢字等級大綱》(2001) (簡稱“《大綱》”) 的使用時間與HSK作文的產出時間相契合,因此基于 《大綱》 統計作文中詞語的難度具有適切性。這一層面將從形符、類符出發,分別計算不同級別詞語比例等10項指標。
2) 詞匯習得年齡指母語者習得某個詞匯的平均年齡 (Kyle et al. 2017)。《義務教育常用詞表 (草案)》(2019) (簡稱“常用詞表”) 將15114個常用詞分為四個級別,本文以該表為依據,基于形符和類符分別統計不同級別詞語的占比情況。3) 詞頻概貌指文本中不同詞頻等級的詞語的分布特征 (Laufer & Nation 1995)。本文依據BCC詞頻表與國家語委現代漢語平衡語料詞頻表,對作文中的詞頻信息進行統計。首先分別計算兩個詞表中所有詞語的詞頻均值與標準差;隨后,以詞頻均值加減一個標準差為界,將詞匯劃分高、中、低三個等級。在此基礎上,提取每篇作文中不同詞頻等級詞語的占比等16項指標。
(3) 詞匯密度反映信息負載的大小和語言表達的準確性 (Biber et al. 2002)。研究認為文中實詞越多,信息量越高,語言表達能力隨之越強 (張會平 2020)。本文將實詞定義為名詞、動詞、形容詞、副詞、區別詞、數詞、量詞、代詞、嘆詞、擬聲詞,虛詞定義為介詞、連詞、助詞、語氣詞 (黃伯榮、廖序東 2017)。6項指標和其計算公式見表2。
(4) 詞匯錯誤體現學習者語言產出的準確性,是衡量學習者寫作質量的重要指標(Engber 1995; Laufer & Nation 1995; 張博 2008)。HSK語料庫將詞匯錯誤分為“錯詞錯誤”、“離合詞錯誤”、“外文詞錯誤”、“缺詞錯誤”和“多詞錯誤”五類。本文沿用此框架,分別統計每種錯誤類型的比例以及五種錯誤類型之和所占比例.
![]()
![]()
2.3 實驗流程設置本文采用隨機森林算法探究詞匯豐富性在寫作質量評估中的表現。首先,借助語言技術平臺 (language technology platform,LTP) 對作文文本進行預處理,包括分句、分詞、詞性標注等。隨后抽取并計算61項詞匯指標,并對所得數據進行人工校驗,以確保結果的準確性。上述實驗流程由Python語言實現。
針對研究問題一,首先利用隨機森林算法計算61項指標的重要性,隨后依據其重要程度將指標逐一納入評估模型。通過繪制模型性能隨指標數量變化的曲線圖,確定模型性能最優時的指標組合及其對應的評估效果。
研究問題二的操作流程同研究問題一,即分別計算四個維度下各指標重要性,再將其按重要性大小逐一加入模型,繪制性能變化圖,并比較四個維度的評估表現。此外,本文進一步將數據劃分為“低中組”、“中高組”與“低高組” (低、中、高分別代表三種質量),以比較四個維度指標在不同質量組別中的預測效果。最終通過精確率 (precision)、準確率 (accuracy)、召回率 (recall) 和F1值衡量預測表現。
03
研究結果
3.1 詞匯豐富性在寫作質量評估中的整體表現
本節展示了詞匯豐富性在漢語二語寫作質量評估中的整體表現。受篇幅限制,圖1僅顯示該任務下重要性排名前20的指標。圖2顯示將指標按重要性程度加入后,模型性能變化情況。
據圖2可知,當累加到第17項指標時,模型預測表現最佳,其準確率、精確率、召回率和F1值均為0.642。17項指標包括詞匯多樣度下的9項指標,分別為形符數、類符數、CTTR、動詞變化度、RTTR、WQ TTR、TTR、BTTR、名詞變化度;詞匯復雜度下的6項指標,分別為甲級詞比例_類符、BCC低頻詞比例_類符、語委未收錄詞比例_類符、語委高頻詞比例_類符、一級詞比例_類符、超綱詞比例_類符;詞匯錯誤維度下的2項指標,分別為錯誤總占比、錯詞比例。
3.2 各維度指標在寫作質量評估中的表現
圖3分別呈現了四個維度下指標在寫作質量預測中的重要性。具體來看,詞匯多樣度中,類符數、形符數、動詞變化度的重要性排名居前;詞匯復雜度中,甲級詞比例_類符、語委高頻詞比例_類符、語委未收錄詞比例_類符的預測效度較高;詞匯密度中,Halliday_類符、Halliday_形符、虛詞實詞比_類符的排名靠前;詞匯錯誤中,錯誤總占比、錯詞比例、多詞錯誤比例對寫作質量的解釋力較強。
隨后,分別將每個維度內部的指標按重要性依次納入評估模型,并繪制對應性能變化圖 (見圖4)。結果顯示,當詞匯多樣度、詞匯復雜度、詞匯密度與詞匯錯誤四個維度分別累加至第8項、第36項、第5項、第3項指標時,模型性能達到最優,對應的準確率分別為0.576、0.565、0.411和0.456 (其他性能指標詳見圖4)。綜合比較四個維度的最優表現可知,詞匯多樣度的預測能力最強,詞匯復雜度緊隨其后,詞匯錯誤位居第三位,而詞匯密度的表現相對較弱。
表3 進一步展示了四個維度指標在三個質量組別中的預測準確率。低中組和低高組中,四個維度的預測趨勢一致:詞匯多樣度表現最優,詞匯復雜度次之,詞匯錯誤居于第三,詞匯密度表現較差。然而,中高組中,詞匯復雜度表現突出,其后依次是詞匯多樣度、詞匯錯誤與詞匯密度。結果說明,詞匯多樣度在低中組、低高組間的區分能力更好,復雜度在中高組的區分表現更優,詞匯錯誤和詞匯密度指標在各組間區分能力均較弱。
![]()
![]()
![]()
04
討論與分析
4.1 詞匯豐富性整體表現分析
以往二語寫作質量評估多依賴小樣本語料和回歸分析,故僅能處理連續分布的線性數據。本文采用隨機森林算法,克服了傳統方法的局限。結果顯示,詞匯豐富性指標在漢語二語寫作質量評估中表現出色,準確率、精確率、召回率和F1 值均達到0.642。基于指標重要性排序選取的前17項指標構建的模型,其預測性能最佳。其中包括詞匯多樣度下9項指標,詞匯復雜度下6項指標,詞匯錯誤下2項指標。
詞匯多樣度下形符數、類符數、動詞變化度、CTTR、RTTR、WQ TTR、BTTR、TTR、名詞變化度在漢語二語寫作質量評估中表現突出。首先,類符和形符作為反映學習者詞匯儲備的重要指標 (Crossley et al. 2014),能夠顯著預測寫作質量,這一發現與吳繼峰、趙曉娜 (2020) 的研究結論一致。其次,動詞決定句子的基本結構和意義,是句子的核心成分 (陸儉明 2013);而名詞作為意義的主要承載者,在表意過程中同樣發揮關鍵作用。因此,動詞和名詞的多樣性有助于提升語言表達的豐富性。然而,現有研究對動詞及名詞變化度的關注相對有限。本文基于大規模數據,不僅驗證了這兩類指標的預測效度,也增強了“多樣度”在寫作評估中的表現力。最后,研究還發現相較于Uber index和TTR,CTTR、RTTR、WQ TTR、BTTR等經過數學變換的詞匯多樣性指標在整體寫作質量預測中的貢獻更大,表明改良型TTR指標在提升詞匯多樣度測量表現方面具有優勢 (吳繼峰 2016; 鄭詠滟 2018)。
詞匯復雜度下甲級詞比例_類符、BCC低頻詞比例_類符、語委未收錄詞比例_類符、語委高頻詞比例_類符、一級詞比例_類符、超綱詞比例_類符在寫作質量評估中較為關鍵。從語言屬性看,甲級詞、高頻詞和義務教育常用詞表中的一級詞均屬于簡單詞范疇,低頻詞、未收錄詞則可歸為復雜詞。已有研究指出,中高級學習者的書面表達仍以簡單詞為主,復雜詞的使用比例偏低 (張江麗 2018)。然而,高分作文的復雜詞比例顯著高于中低分組,簡單詞比例則相對較低,這就使得相關指標具備較強的區分和預測能力。上述6項指標均基于類符計算,進一步表明在語言測量中區分類符和形符具有重要意義。
詞匯錯誤中,錯誤總占比和錯詞比例在寫作質量評估中較為重要。已有研究表明,詞匯錯誤越少,作文分數越高 (吳繼峰 2016)。其次,在不同類型的詞匯錯誤中,錯詞的預測效果最為顯著。這一結果可能與其在不同質量作文中的分布差異有關。張博 (2017) 基于HSK語料庫的研究指出,錯詞是最常見的詞匯錯誤類型,其成因多與詞匯混淆有關。對于中高級學習者而言,隨著詞匯量的快速增長,易混淆詞的數量也同步增加。高分組學習者通常能較好地區分并準確使用相關詞匯,而低分組則更容易出現誤用,從而導致錯詞在不同質量組別中的分布呈現更明顯的區分特征。
4.2 詞匯豐富性各維度指標評估能力對比
詞匯復雜度在漢語二語寫作質量評估中貢獻較大,該結論與吳繼峰 (2016)的研究較為一致。Bulté et al. (2008) 指出詞匯復雜度與詞匯深度 (lexical width)密切相關,反映學習者對語義、語用及搭配關系的掌握程度,因而能夠區分學習者的詞匯產出質量。相較于僅從詞匯難度構建詞匯復雜度指標的研究,本研究綜合詞匯難度、詞匯習得年齡、詞頻概貌三個角度,能夠更為全面地捕捉詞匯層面的細微特征,提升詞匯復雜度在寫作評估中的作用。其次,吳繼峰 (2016)認為詞匯多樣度對寫作質量的預測貢獻較低,然而本文發現該維度的預測能力最強,其原因可能與具體指標的選取有關。吳文僅選用Uber Index一項指標衡量詞匯多樣性,然而本文發現該指標的重要性排名最低 (見圖3-1)。可見,從二語習得和評估視角出發,引入更為精細、更具操作性的指標體系 (Norris & Ortega 2009),對提升寫作質量評估尤為重要。
目前,圍繞詞匯錯誤與寫作質量評估開展的研究相對較少。盡管吳繼峰 (2016)、王藝璇 (2017) 曾發現詞匯錯誤能顯著預測漢語二語寫作質量,但上述研究僅在小規模數據上展開,研究結論是否具有普遍性有待驗證。本文引入HSK語料庫中的錯誤標簽,驗證了詞匯錯誤在大規模寫作質量評估中的有效性。此外,本文發現,詞匯密度在寫作質量評估中的表現雖低于其他維度,但準確率依舊達0.411,表明該維度在寫作評估中具有一定貢獻。已有研究表明,詞匯密度不僅能夠衡量篇章信息含量,也能體現篇章難度。相較低分組,高分組作文往往立意深刻,能夠熟練運用各類詞匯傳遞信息、論證觀點、表情達意。然而,部分研究卻發現詞匯密度與作文質量無顯著相關性 (吳繼峰 2016; 王藝璇 2017)。究其原因,可能與語料規模有關。梁琳琳等 (2013) 曾提出,語料的規模與計量研究結果之間均存在一定關系,語料數目太少,會使樣本缺乏代表性而發生較大誤差。本研究極大擴展作文數據規模,從而減少了因數據量不足可能帶來的誤差。
最后,本文將寫作質量區分為低中組、中高組、低高組,發現詞匯豐富性各維度在不同組別間的評估能力存在差異。具體來看,詞匯多樣度在低中組、低高組的區分能力最強,詞匯復雜度在中高組的區分能力最強,這種差異可能與各維度間的資源競爭有關。詞匯豐富性屬于多維度構念,在認知資源有限的情況下,各維度會以競爭的方式爭取有限的注意力資源 (Skehan 1998),從而出現詞匯產出不均衡的現象。低分組學習者的詞匯知識相對薄弱,難以有效協調不同維度間的競爭關系。中分組的資源分配能力有所提升,但由于其對復雜詞和高級詞的掌握仍處于發展階段,為提高寫作質量,只能將注意力資源集中于提升詞匯多樣度上。相較之下,高分組不僅在復雜詞和高級詞的掌握上更為熟練,且能將其靈活運用于寫作實踐,因此能將更多注意力資源用于處理復雜的詞匯結構中去,使得詞匯復雜度較中分組有顯著提升。因此,教師應根據學習者的詞匯使用情況提供針對性指導,對于低分組寫作者,應優先擴大其基礎詞匯量以增強詞匯多樣性;對于中分組的寫作者,則應更多關注復雜詞匯的使用,以進一步提升詞匯的復雜度。
05
結論
本研究依托大規模HSK寫作數據,構建了系統的詞匯豐富性指標體系,并引入隨機森林算法,系統考察了詞匯豐富性及其各維度指標在漢語二語寫作評估中的表現。結果顯示,基于重要性排序選取的前17項指標所構建的模型能夠有效預測二語寫作質量。進一步分析發現,各維度指標在預測效能上存在顯著差異,其中詞匯多樣度的預測效果最為突出,詞匯復雜度次之,詞匯錯誤位居其后,詞匯密度表現最弱。此外,不同維度指標在區分各質量組別時的表現亦不相同,這可能與注意力資源競爭有關。具體而言,詞匯多樣度在低中組、低高組的區分能力最強,詞匯復雜度在中高組的區分中更具優勢。教師應據此有針對性地設置寫作教學重點,幫助學習者提高寫作質量。同時,未來研究可進一步融合詞匯豐富性、句法豐富性、篇章連貫性等特征,深入探討不同層面及維度的語言特征在寫作評估中的作用機制與表現差異。
文章來源:現代外語
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.