![]()
文學計算( Literary Computing ),即通過計量的方式進行文學作品的挖掘、分析、比較和批評,是當前方興未艾的數字人文潮流的一個重要組成部分,但其傳統和源流又遠遠早于數字人文這一概念所通常涵蓋的時間范圍。在 19 世紀末,歐洲和美國的一些科學家就已經嘗試通過量化的方式,對文學作品進行分析,這可以看作是最早期的文學計算研究。顯然,這一領域屬于典型的跨學科研究,對文本的數字化和特定要素的讀取涉及信息科學,對數據的計算涉及統計學,對數據中隱藏模式和結構的提取涉及物理學,對作品中角色或創作者的性格、精神的量化分析涉及心理學,對文本中地理分布和變遷路徑的提取和可視化呈現涉及地理學,等等。
跨學科研究固然是令人興奮的,因為它打破學科的邊界,通過新的視角和范式來處理既有的問題,往往能帶來新的洞見,但也帶來了新的困惑、懷疑和批評。特別是那些嘗試在人文學科與自然學科之間架設有效聯系和方法論橋梁的努力,尤其容易遭受各方的質疑。正如查爾斯 · 珀西 · 斯諾( Charles Percy Snow )在《兩種文化與科學革命》的演講中提到的那樣,科學與人文之間 “ 存在互不理解的鴻溝 ” ( Snow , [1959]1990 )。作為一名科學家與作家,斯諾常常白天和科學家同事們一起工作,晚上則又和文學家朋友們聚在一起,因此他深刻地體會到在當時的社會環境中,文學家和科學家之間的互不理解甚至是厭惡、敵意。我非常理解斯諾的這種感受,因為我本身是做物理研究出身的,在我學術生涯的初期,我主要從事凝聚態物理學研究。與此同時,在讀研究生的時候,我就開始創作科幻小說,并一直持續至今。也正因為我對科幻小說的喜愛,后來,我從理學院轉到人文學院,開始接觸到更多人文學者和文學理論。我發現,斯諾所說的鴻溝,在今天并沒有彌合,因為兩類學者的基本學術素養、關心的問題和研究的范式都截然不同。但與斯諾所說不同的是,今天的兩類學者之間似乎并沒有太多敵意了,因為隨著人文學科在話語權利結構中的整體收縮,兩者 連產生 敵意的基礎都已經失去了。
事實上,在文學與自然科學的交融進程中,我們可以大致區分出兩種學科跨越的方向,每一種都引起了眾多爭議。一種是將自然科學的概念引入文學理論中,但拋棄了其數學上的復雜結構,而是僅將其作為一種類比物,以幫助闡明某種特定的理念、結構和關系。例如,當丹尼爾 · 奧爾布賴特( Daniel Albright )使用 “ 波浪美學 ” ( Wave-Aesthetics )分析葉芝的詩歌時,他只是借用量子力學中微粒和波之間的模糊關系,闡釋某些詩歌文本所具有的特征,比如內部邊界的喪失、主客體與主體間界限的喪失等。他并不是說,詩歌的內部結構與 波具有 數學上的同構性,因此,自然也不能將涉及波的一系列數學公式套用到詩歌結構分析之中。顯然,這類學科跨越的方式通常由人文學者發起。在后現代文化理論中,我們還可以找到很多這樣的例子,比如讓 - 弗朗索瓦 · 利奧塔( Jean-Francois Lyotard )對不確定性原理的借用、 讓 · 鮑德里亞( Jean Baudrillard )對熵的借用、雅克 · 拉康( Jacques Lacan )對拓撲學概念的借用,等等。這種做法在自然科學界引起了一些不滿,比如物理學教授艾倫 · 索卡爾( Alan Sokal )及其合著者在一本書中就批評道: “ 自然科學并非僅是可供人文科學隨時取用的隱喻庫。 ” (莫蘭, 2023 : 176 )
另一種跨越方式則是由自然科學家主動發起。他們將原本屬于自然科學的研究范式引入文學研究領域,發展出實證的、量化的文學研究。這個過程中有時候也會借用一些科學概念,比如信息熵、溫度等,但這類借用并不只是將概念作為某種隱喻,而是伴隨著其數學結構的引入。比如,對文學文本的信息熵的計算,使用的正是克勞德 · 艾爾伍德 · 香農( Claude Elwood Shannon )給出的公式,而當我們討論文本的溫度時,其背后的機制也正是熱力學中的麥克斯韋 - 玻爾茲曼分布。在 20 世紀后半葉,隨著計算機的出現和自然語言處理算法的發展,對文本的讀取、數值統計和數學建模變得更為方便,這類量化研究就逐漸變得流行起來。本書所涉及的內容大部分即是這一類的研究。為了與文學史考證等實證 型研究 相區別,我們統一將其稱為文學計算。
對文學計算的批評主要來自人文學界,他們的意見大致可以分為三類:其一,文學文本來自具有主觀性的人類,其中并不具有如物理學那樣的客觀規律;其二,量化研究只是復現了一些我們早已經知曉的結論,并沒有提出和解決有意義的文學問題;其三,大部分文學計算研究只是基于詞頻的模式分析,其數據不足以支撐它所聲稱的結論,或者說,文學文本和文學概念在計算過程中被簡單化了。
對于第一類批評,已經有大量的研究結果可以作為反駁的案例。 從齊普夫 定律( Zipf ’ s Law )到最近基于情感計算的文本敘事模式劃分,大量的研究都顯示,在看似隨機和主觀的文本中,的確存在著某些客觀的規律。這一點很好理解,因為作家的寫作過程并非完全自由,他會受到諸多客觀條件的限制:正確的語法、敘事的慣例、詞匯的有限性,等等。它們就像一個封閉的箱子一樣,將大量的隨機運動的分子約束在一起,雖然每個分子的運動軌跡是很難預測的,但作為一個整體,這個體系卻呈現出很多可以量化的特征,比如壓強、溫度、平均自由程、動能分布函數等。
第二類和第三類批評事實上指出了當前文學計算研究應該努力的方向。也就是說,多做探索性而非驗證性的工作,而且盡量超出詞頻、 句長等 簡單指標,對高層次文學概念進行更精細的數學建模,以處理真正的文學問題。當然,要進行探索性的工作,通常就需要處理新的概念和新的問題,自然也就需要進行復雜特征量的建構。所以,從某種程度上來講,這兩個問題是一體的。
《文學計算導論》
劉 洋 著
北京: 科學出版社, 2025. 12
ISBN978-7-03-083198-9
必須承認,在高層次文學概念和可計量的特征量之間建立穩定而有效的連接并不容易,但也絕不是不可能完成的任務。例如,在本書 (《文學計算導論》,劉洋著. 北京: 科學出版社, 2025. 12) 的第四章,我提出了一種對敘事節奏進行量化表征的方法。在文學計算領域,敘事研究一直相對匱乏。因為敘事研究中的要素難以量化,帶有強烈的主觀性,所以比其他文本特征更難處理。例如,研究文體風格、人物關系網絡、情感分析等可以分別通過詞頻統計、對話關系、情感詞典等手段實現量化,但敘事風格、手法、場景等要素的界定方式則極為模糊。在傳統的敘事學研究中,通常需要根據敘事場景的切換,將文本劃分為不同的敘事單元,這種工作通常只有具備較高文學素養的專業人員才能完成,因為敘事場景之間或許并不存在天然的分割線,要讓計算機準確分辨是十分困難的。但是,基于敘述的兩種形式 — 展示 和 告知 — 來體現 出敘事節奏的特征,可以繞開場景劃分的 障礙。具體來說,我設計了一種算法,可以將這兩種敘述形式進行自動識別,從而得到了一條敘述形式的時間序列。基于這個時間序列,通過傅里葉變換等數學手段,就可以從中提取出與敘事節奏相對應的特征量。
比起自然科學領域的概念,比如溫度、動量等,文學概念的量化不僅更難以處理,而且這些可計量的特征量與傳統的文學概念在匹配時往往具有與自然科學概念不同的三種特性。其一,非精確性,也就是說兩者并不是精確契合的。比如我之前提到的對敘事節奏進行量化的特征量,其本質上來源于從敘述形式時序數據中提取出的頻譜峰。雖然其與敘事節奏具有較強的關聯,但這畢竟只是一個間接的匹配方案。此外,實際的頻譜圖通常是一個連續譜,其中的峰值可能并不顯著,呈現出一個平臺狀結構,這也會影響到對峰值數據的提取。所以,從概念到數據,這中間其實經過了多次近似過程。其二,非唯一性,也就是說用于表征某個文學概念的特征量并非只有一種形式。比如對于 “ 詞匯豐富度 ” 這個概念,用以表征它的特征量就有數十種之多,從最簡單的型 — 例比 ( Type Token Ratio , TTR ), 到特征 量 K ( Characteristic K ),乃至文本的信息熵,等等。其三,非普適性,也就是說這些特征量并不是在任何情況下都適用的。比如我們剛才提到的特征量 K 和信息熵,在表征詞匯豐富度時,它們都具有一個難以克服的缺陷,即對雷同文本的不敏感。如果我們將同一段文字重復一遍合并成新的文本,那么根據兩者的計算公式,其計算結果和單一文本是完全相同的,而這顯然是不合理的。這意味著,對于具有較多雷同片段的文本來說,用特征量 K 和信息熵 來作 為詞匯豐富度的指標是不合適的。
在人工智能算法迅速發展的今天,我們越來越強烈地感到,文學計算研究不僅是可行的,而且是必要的。這種必要性至少體現在兩個方面。其一,傳統的文學細讀方法無法處理當前迅速涌現的巨量文學文本。除了由傳統出版社出版的紙質書籍,還有數量遠超前者的網絡文學作品 —— 其每部作品的文本長度也幾乎比前者大一個數量級。其二,人工智能文本生成正在逐漸進入人們的生活,其在大部分制式文章的寫作上都取得了較好的效果,但在文學創作領域仍然很不成熟。從已有的一些基于大語言模型的小說寫作實驗來看,其主要缺陷可以歸納為一點,就是缺少 “ 文學性 ” 。比如,它的敘事節奏很不穩定,在很多不重要的細節上花費大量筆墨,而在關鍵情節上卻一筆帶過;它的比喻和描寫都極為平庸,沒有新奇性和創造性;它的人物缺少鮮明的個性和深刻的行為動機;故事情節的套路化痕跡極為明顯;等等。克服上述這些缺陷的方法,就是加入一個文學插件,或者定制專業的文學創作大模型。想要向計算機系統傳達何謂 “ 文學性 ” ,自然需要采用計算機的語言 —— 也就是數字化的、量化的表述,這正是文學計算研究所要做的。當我們能用量化的方式對比喻、隱喻、風格化的描寫、敘事節奏等文學概念進行表征以后,它們就可以作為一些重要的控制指標參與到文本生成算法之中,幫助其增強生成內容的文學性。
然而,即使在當前這個普遍數字化的時代,進行文學計算研究的困難仍然是巨大的。除了來自領域本身的巨大挑戰,教育體系、學科壁壘等社會層面的客觀障礙也不容忽視。如何在學生培養和制度管理上克服這些障礙,是當前發展文學計算這類跨學科領域所必須思考的問題。
事實上,打破專業和學科的界限,不僅是文學計算的需要,也是當今眾多跨學科研究和前沿領域發展的需要。希望本書可以在跨學科研究的方法和路徑上為各領域的研究者提供一些有益的參考。
本文為《文學計算導論》(劉洋著. 北京: 科學出版社, 2025. 12)一書“緒論”,標題為編者所加。
ISBN978-7-03-083198-9
責任編輯:王 丹 張翠霞
《文學計算導論》是一部深入探討文學作品量化分析方法的專著。它系統介紹了文學計算這一領域,從 19 世紀的手工文本統計分析到數字時代利用計算機技術的系統研究方法,不僅回顧了歷史淵源,還探討了如何通過數學模型、特征量建構、數字細讀等方法解析文學作品,以揭示其內在的隱藏結構和普遍規律。全書覆蓋了作者歸屬與風格分析、人物關系網絡、計量敘事研究、文學文本的情感計算、文本分形結構分析及最新的人工智能技術在文學研究中的應用等多個方面,全面展示了文學計算這一前沿的跨學科領域的發展現狀和未來潛力。
本書適合數字人文、文學、語言學、自然語言處理、復雜系統等領域的研究者以及對文學計算感興趣的研究生和本科生閱讀。
(本文編輯:劉四旦)
專業品質 學術價值
原創好讀 科學品位
一起閱讀科學
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.