視域 | 數(shù)字人文在“主觀”與“主體”之間尋路

2025-12-14 12:10:46　來源: 社會科學(xué)報

上海舉報

分享至

近年來，數(shù)字人文作為一種新的研究范式蓬勃發(fā)展，而其從來不止于技術(shù)，歸根結(jié)底依然是由“人”來主導(dǎo)的，這絕非意在否定或消解數(shù)字人文的研究價值。一項數(shù)字人文研究真正有效，恰恰有賴于研究者“主體性”的深度參與。

原文：《數(shù)字人文研究中的“主觀性”與“主體性”》

作者 |復(fù)旦大學(xué)中文系副教授戰(zhàn)玉冰

圖片 |網(wǎng)絡(luò)

隨著計算機技術(shù)的不斷進步，數(shù)字人文作為一種研究方法在文學(xué)研究領(lǐng)域掀起熱潮，特別是在大語言模型人工智能興起之后，數(shù)字人文與計算批評更是以前所未有的速度蓬勃發(fā)展。在此過程中，逐漸形成了三個容易被忽視卻又相互關(guān)聯(lián)的認識誤區(qū)：其一，認為數(shù)字人文采用統(tǒng)計、計量、算法與模型等手段，相較于依賴個體閱讀的傳統(tǒng)研究方法，更為客觀、準確和科學(xué)；其二，認為數(shù)字人文更適用于處理“海量”文本，傳統(tǒng)人文研究則更適合針對個別具體文本而展開；其三，將“遠讀”（distant reading）與“細讀”（close reading）視為數(shù)字人文與傳統(tǒng)人文研究方法之間一組相互對立的概念。

作為干擾因素的“主觀性”

我曾在《網(wǎng)絡(luò)小說的數(shù)據(jù)法與類型論——以2018年的749部中國網(wǎng)絡(luò)小說為考察對象》一文中反思自己在運用數(shù)字人文方法研究網(wǎng)絡(luò)文學(xué)時陷入的一個誤區(qū)。在當時的研究中，我首先依據(jù)各網(wǎng)站平臺的類型標簽，將大量網(wǎng)絡(luò)文學(xué)作品劃分為“玄幻”與“修仙”兩大類（需注意，不同平臺的標簽并不統(tǒng)一，在分類過程中包含人為判斷）；隨后，對這兩類小說中的地理類詞匯進行詞頻統(tǒng)計，發(fā)現(xiàn)“玄幻小說”更傾向于使用遙遠、神秘、難以抵達的地理場景，“修仙小說”中的地名則更接近現(xiàn)實，多取材于歷史上可能真實存在的地點；最終，通過分析認為，“玄幻小說”偏向幻想，“修仙小說”側(cè)重現(xiàn)實，二者在地理空間選擇上的差異，構(gòu)成了不同類型小說想象歷史的敘事策略表征。然而，這項研究背后隱藏著一個關(guān)鍵問題：作為研究者，同時也是一個網(wǎng)絡(luò)小說讀者，我早已對不同小說類型形成了某種“前理解”。因此，在最初的分類階段，我就已經(jīng)在無意識中將作品按其風格歸入預(yù)設(shè)的類型范疇。在這樣的前提下，后續(xù)的數(shù)字人文分析不過是對我既有“舊”認知的驗證，而非真正生產(chǎn)出“新”的知識。換言之，我個人的“主觀性”（subjectivity）在所謂“客觀”的數(shù)字人文研究過程中，成為不容忽視的干擾性因素。

若將這一問題加以推廣來看，我們便不得不承認：所謂的數(shù)字人文研究，歸根結(jié)底依然是由“人”來主導(dǎo)的。此處所說的“人”，指的并不是算法工程師或程序員，而是人文領(lǐng)域的研究學(xué)者，其對于自身所處的人文研究領(lǐng)域及相關(guān)議題，不可避免地帶有大量且深刻的“前理解”。進一步而言，在整個統(tǒng)計與建模的過程中，無論是研究維度的選取、指標體系的建立，還是具體參數(shù)的調(diào)節(jié)，都難以擺脫研究者主觀判斷的介入。正如特德·安德伍德所指出的，數(shù)據(jù)建模在本質(zhì)上實為一種“視角建模”；大衛(wèi)·M.貝里也強調(diào)，代碼從來不止于技術(shù)，它本身就是一種敘事方式。

發(fā)揮研究者的“主體性”

然而，這絕非意在否定或消解數(shù)字人文的研究價值。恰恰相反，正如學(xué)者趙薇在《量化方法運用于古代文學(xué)研究的進展和問題——以近年數(shù)字人文脈絡(luò)中的個案探索為中心》一文中所指出的：“數(shù)字人文在這類實踐中引入模型的價值恰恰產(chǎn)生于研究者‘主觀介入’的環(huán)節(jié)。這是因為，大模型固然讓結(jié)果更趨精準，其內(nèi)部的每一個特征維度究竟是什么卻變得不可解釋。”正因如此，我們不可能期望一位對“紅學(xué)”一無所知的算法工程師，僅憑數(shù)據(jù)模型就能完成對《紅樓夢》的深入解讀。正如蘇真在《概念與實踐·主持人按語》中所指出的：“‘美麗的’（beautiful）這個詞在弗吉尼亞·伍爾夫的《達洛維夫人》中出現(xiàn)的次數(shù)并不能告訴我們與這部小說主旨有關(guān)的任何信息，也不能告訴我們它與其它類型的小說（比如現(xiàn)實主義作品）有何不同。”反之，正是基于研究者對相關(guān)人文學(xué)科議題的深厚素養(yǎng)與“前理解”，我們才擁有了刺破這個技術(shù)黑箱、賦予數(shù)據(jù)意義的洞察力和可能性。換言之，一項數(shù)字人文研究真正有效，恰恰有賴于研究者“主體性”（agency）的深度參與，而非對其刻意回避。很多時候，對數(shù)字人文技術(shù)“恰到好處”地使用，將量化方法深度融入具體的論述框架之中，從而為研究者的深入思考與解讀留出充足空間，往往能取得事半功倍的效果。

在這個意義上，呂繼北借助數(shù)字人文技術(shù)分析宋詩對唐詩的重復(fù)使用問題，這一研究個案頗具參考價值。宋詩素有承襲與點化唐詩的傳統(tǒng)，正如錢鍾書在《宋詩選注》中所言：“在宋代詩人里，偷竊變成師徒公開傳授的專門科學(xué)。”然而，宋詩究竟如何借鑒乃至挪用唐詩詞句？其偏好借鑒哪些唐代作品？這些借鑒又帶來怎樣的表達效果與文化意義？傳統(tǒng)研究方法很難對此進行全面、系統(tǒng)的梳理。呂繼北的研究方法在于，“使用NLP自然語言處理工具將《全唐詩》與《全宋詩》進行交叉比對，可以篩選出哪些唐代詩句又被宋人重復(fù)使用，其中的具體數(shù)量、內(nèi)容以及年代分布趨勢等，從而揭示宋人作詩用唐詩現(xiàn)象的突出特點、發(fā)展趨勢、審美典范等，證明宋詩重復(fù)唐詩大多并非出自偶然，他們在選擇使用唐詩詩句時也有較為明確的取向，體現(xiàn)出宋代詩學(xué)風潮的階段性特征”（呂繼北《數(shù)字人文視域下的宋詩用唐詩研究》）。

值得注意的是，該研究并未止步于數(shù)字工具的簡單“查重”，而是將其與傳統(tǒng)詩學(xué)深度融合。研究者不僅從統(tǒng)計學(xué)角度得出“直接使用唐人一句詩歌的做法則相當普遍”的觀察結(jié)論，更發(fā)現(xiàn)“大多數(shù)詩人會在使用時變換詩句的位置，有些甚至連詩歌體裁也會更換，采用近體變古體，絕句變排律等方式”。

“可伸縮”的閱讀

在前述研究案例中，數(shù)字人文技術(shù)所處理的或是749部（總字數(shù)約7億）網(wǎng)絡(luò)小說，或是11萬余名詩人的20余萬首詩歌，其對象均屬“海量”文本。面對此類傳統(tǒng)人力難以窮盡的研究對象，數(shù)字人文方法確有其天然優(yōu)勢。然而，這并不意味著它僅適用于宏觀尺度的“遠讀”，在針對單一文本的“細讀”工作中，它同樣能展現(xiàn)出不可替代的價值。正如鄭永曉所指出的：“目前的數(shù)字人文研究，雖長于宏觀研究，但也能解決微觀問題。例如，人物關(guān)系挖掘就是目前數(shù)字人文研究領(lǐng)域一個頗具特色的分支，可以利用信息抽取方法對人物進行社會網(wǎng)絡(luò)關(guān)系挖掘，可以對多個關(guān)聯(lián)作品的人物關(guān)系進行分析，這在小說研究中頗為實用。”（王兆鵬、鄭永曉、劉京臣《借器之勢，出道之新——“數(shù)字人文”浪潮下的古典文學(xué)研究三人談》）而在通過數(shù)字人文對人物關(guān)系網(wǎng)絡(luò)所進行的個案分析中，弗蘭克·莫萊蒂的《網(wǎng)絡(luò)理論，情節(jié)分析》（Network Theory，Plot Analysis）堪稱這方面的代表性論文。面對《哈姆雷特》的單一文學(xué)文本，莫萊蒂借助社會網(wǎng)絡(luò)分析法（social network analysis，簡稱SNA），通過對人物彼此間對話次數(shù)的統(tǒng)計，將人物作為關(guān)系網(wǎng)絡(luò)的節(jié)點（即“點”，node），將人物之間的聯(lián)系作為關(guān)系網(wǎng)絡(luò)的連接（即“邊”，tie），從而將莎士比亞這部經(jīng)典戲劇作品中的人物關(guān)系與情節(jié)結(jié)構(gòu)抽象為一個關(guān)系網(wǎng)絡(luò)模型，并通過對該模型的觀察和分析，指出看似是戲劇配角的霍拉旭，其實深刻影響著整個戲劇的人物關(guān)系與情節(jié)發(fā)展，而這在傳統(tǒng)所謂“圓形人物”與“扁平人物”的認知框架中很容易被忽略。

當然，細究起來，莫萊蒂的該項研究也并非無懈可擊。例如，他在構(gòu)建人物關(guān)系網(wǎng)絡(luò)時，將人物之間的每一次對話均呈現(xiàn)為連接兩點的一條“線”。這一操作看似客觀中立，實則暗含了特定的簡化處理。眾所周知，小說或戲劇中的對話，其背后所包含的戲劇沖突、情感強度與表意功能千差萬別。將每一次對話均計為一條等值的“線”，相當于對其進行了均值化處理，從而忽略了對話內(nèi)在的質(zhì)性與量級差異。換言之，莫萊蒂表面上未對各條“線”進行人為加權(quán)賦值，這在方法論上等同于將所有對話的權(quán)重都預(yù)設(shè)為“1”，其結(jié)果的準確性自然值得商榷。

與數(shù)字人文既能處理“海量”文本，又能深入單一文本內(nèi)部的能力相呼應(yīng)的，是“遠讀”與“細讀”方法之間復(fù)雜交錯、互為補充的關(guān)系。正如“遠讀”概念的提出者莫萊蒂所言，這種方法“讓你聚焦于那些比文本小得多或大得多的單位：裝置，主題，比喻——或文類與系統(tǒng)”。而在處理這些比文本“小得多”或“大得多”的單位與對象時，研究者還是離不開“細讀”，只是“細讀”的對象已不再是結(jié)構(gòu)主義意義上的封閉文本。我們甚至可以說，“遠讀”在本質(zhì)上正是對更宏大或更細微對象的另一種“細讀”。就此而言，真正具有前瞻性的研究方法，正如同芝加哥大學(xué)“文本光學(xué)實驗室”（Textual Optics Lab）倡導(dǎo)的“可伸縮”（scalable）的閱讀方法所提示我們的，是一種能夠自由調(diào)節(jié)距離、融合宏觀與微觀的“變焦式”閱讀。在“未來已來”的計算批評時代中，這或許才是那些兼具算法素養(yǎng)與人文傳統(tǒng)的“賽博研究者”們所真正需要去探索和踐行的研究方法與路徑。

文章為社會科學(xué)報“思想工坊”融媒體原創(chuàng)出品，原載于社會科學(xué)報第1980期第5版，未經(jīng)允許禁止轉(zhuǎn)載，文中內(nèi)容僅代表作者觀點，不代表本報立場。

本期責編：程鑫云

《社會科學(xué)報》2026年征訂

點擊下方圖片網(wǎng)上訂報↓↓↓

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.