
近年來,數(shù)字人文作為一種新的研究范式蓬勃發(fā)展,而其從來不止于技術(shù),歸根結(jié)底依然是由“人”來主導(dǎo)的,這絕非意在否定或消解數(shù)字人文的研究價值。一項數(shù)字人文研究真正有效,恰恰有賴于研究者“主體性”的深度參與。
原文 :《數(shù)字人文研究中的“主觀性”與“主體性”》
作者 |復(fù)旦大學(xué)中文系副教授 戰(zhàn)玉冰
圖片 |網(wǎng)絡(luò)
隨著計算機技術(shù)的不斷進步,數(shù)字人文作為一種研究方法在文學(xué)研究領(lǐng)域掀起熱潮,特別是在大語言模型人工智能興起之后,數(shù)字人文與計算批評更是以前所未有的速度蓬勃發(fā)展。在此過程中,逐漸形成了三個容易被忽視卻又相互關(guān)聯(lián)的認識誤區(qū):其一,認為數(shù)字人文采用統(tǒng)計、計量、算法與模型等手段,相較于依賴個體閱讀的傳統(tǒng)研究方法,更為客觀、準確和科學(xué);其二,認為數(shù)字人文更適用于處理“海量”文本,傳統(tǒng)人文研究則更適合針對個別具體文本而展開;其三,將“遠讀”(distant reading)與“細讀”(close reading)視為數(shù)字人文與傳統(tǒng)人文研究方法之間一組相互對立的概念。
![]()
01
![]()
作為干擾因素的“主觀性”
我曾在《網(wǎng)絡(luò)小說的數(shù)據(jù)法與類型論——以2018年的749部中國網(wǎng)絡(luò)小說為考察對象》一文中反思自己在運用數(shù)字人文方法研究網(wǎng)絡(luò)文學(xué)時陷入的一個誤區(qū)。在當時的研究中,我首先依據(jù)各網(wǎng)站平臺的類型標簽,將大量網(wǎng)絡(luò)文學(xué)作品劃分為“玄幻”與“修仙”兩大類(需注意,不同平臺的標簽并不統(tǒng)一,在分類過程中包含人為判斷);隨后,對這兩類小說中的地理類詞匯進行詞頻統(tǒng)計,發(fā)現(xiàn)“玄幻小說”更傾向于使用遙遠、神秘、難以抵達的地理場景,“修仙小說”中的地名則更接近現(xiàn)實,多取材于歷史上可能真實存在的地點;最終,通過分析認為,“玄幻小說”偏向幻想,“修仙小說”側(cè)重現(xiàn)實,二者在地理空間選擇上的差異,構(gòu)成了不同類型小說想象歷史的敘事策略表征。然而,這項研究背后隱藏著一個關(guān)鍵問題:作為研究者,同時也是一個網(wǎng)絡(luò)小說讀者,我早已對不同小說類型形成了某種“前理解”。因此,在最初的分類階段,我就已經(jīng)在無意識中將作品按其風格歸入預(yù)設(shè)的類型范疇。在這樣的前提下,后續(xù)的數(shù)字人文分析不過是對我既有“舊”認知的驗證,而非真正生產(chǎn)出“新”的知識。換言之,我個人的“主觀性”(subjectivity)在所謂“客觀”的數(shù)字人文研究過程中,成為不容忽視的干擾性因素。
![]()
若將這一問題加以推廣來看,我們便不得不承認:所謂的數(shù)字人文研究,歸根結(jié)底依然是由“人”來主導(dǎo)的。此處所說的“人”,指的并不是算法工程師或程序員,而是人文領(lǐng)域的研究學(xué)者,其對于自身所處的人文研究領(lǐng)域及相關(guān)議題,不可避免地帶有大量且深刻的“前理解”。進一步而言,在整個統(tǒng)計與建模的過程中,無論是研究維度的選取、指標體系的建立,還是具體參數(shù)的調(diào)節(jié),都難以擺脫研究者主觀判斷的介入。正如特德·安德伍德所指出的,數(shù)據(jù)建模在本質(zhì)上實為一種“視角建模”;大衛(wèi)·M.貝里也強調(diào),代碼從來不止于技術(shù),它本身就是一種敘事方式。
02
![]()
發(fā)揮研究者的“主體性”
然而,這絕非意在否定或消解數(shù)字人文的研究價值。恰恰相反,正如學(xué)者趙薇在《量化方法運用于古代文學(xué)研究的進展和問題——以近年數(shù)字人文脈絡(luò)中的個案探索為中心》一文中所指出的:“數(shù)字人文在這類實踐中引入模型的價值恰恰產(chǎn)生于研究者‘主觀介入’的環(huán)節(jié)。這是因為,大模型固然讓結(jié)果更趨精準,其內(nèi)部的每一個特征維度究竟是什么卻變得不可解釋。”正因如此,我們不可能期望一位對“紅學(xué)”一無所知的算法工程師,僅憑數(shù)據(jù)模型就能完成對《紅樓夢》的深入解讀。正如蘇真在《概念與實踐·主持人按語》中所指出的:“‘美麗的’(beautiful)這個詞在弗吉尼亞·伍爾夫的《達洛維夫人》中出現(xiàn)的次數(shù)并不能告訴我們與這部小說主旨有關(guān)的任何信息,也不能告訴我們它與其它類型的小說(比如現(xiàn)實主義作品)有何不同。”反之,正是基于研究者對相關(guān)人文學(xué)科議題的深厚素養(yǎng)與“前理解”,我們才擁有了刺破這個技術(shù)黑箱、賦予數(shù)據(jù)意義的洞察力和可能性。換言之,一項數(shù)字人文研究真正有效,恰恰有賴于研究者“主體性”(agency)的深度參與,而非對其刻意回避。很多時候,對數(shù)字人文技術(shù)“恰到好處”地使用,將量化方法深度融入具體的論述框架之中,從而為研究者的深入思考與解讀留出充足空間,往往能取得事半功倍的效果。
在這個意義上,呂繼北借助數(shù)字人文技術(shù)分析宋詩對唐詩的重復(fù)使用問題,這一研究個案頗具參考價值。宋詩素有承襲與點化唐詩的傳統(tǒng),正如錢鍾書在《宋詩選注》中所言:“在宋代詩人里,偷竊變成師徒公開傳授的專門科學(xué)。”然而,宋詩究竟如何借鑒乃至挪用唐詩詞句?其偏好借鑒哪些唐代作品?這些借鑒又帶來怎樣的表達效果與文化意義?傳統(tǒng)研究方法很難對此進行全面、系統(tǒng)的梳理。呂繼北的研究方法在于,“使用NLP自然語言處理工具將《全唐詩》與《全宋詩》進行交叉比對,可以篩選出哪些唐代詩句又被宋人重復(fù)使用,其中的具體數(shù)量、內(nèi)容以及年代分布趨勢等,從而揭示宋人作詩用唐詩現(xiàn)象的突出特點、發(fā)展趨勢、審美典范等,證明宋詩重復(fù)唐詩大多并非出自偶然,他們在選擇使用唐詩詩句時也有較為明確的取向,體現(xiàn)出宋代詩學(xué)風潮的階段性特征”(呂繼北《數(shù)字人文視域下的宋詩用唐詩研究》)。
![]()
值得注意的是,該研究并未止步于數(shù)字工具的簡單“查重”,而是將其與傳統(tǒng)詩學(xué)深度融合。研究者不僅從統(tǒng)計學(xué)角度得出“直接使用唐人一句詩歌的做法則相當普遍”的觀察結(jié)論,更發(fā)現(xiàn)“大多數(shù)詩人會在使用時變換詩句的位置,有些甚至連詩歌體裁也會更換,采用近體變古體,絕句變排律等方式”。
03
![]()
“可伸縮”的閱讀
在前述研究案例中,數(shù)字人文技術(shù)所處理的或是749部(總字數(shù)約7億)網(wǎng)絡(luò)小說,或是11萬余名詩人的20余萬首詩歌,其對象均屬“海量”文本。面對此類傳統(tǒng)人力難以窮盡的研究對象,數(shù)字人文方法確有其天然優(yōu)勢。然而,這并不意味著它僅適用于宏觀尺度的“遠讀”,在針對單一文本的“細讀”工作中,它同樣能展現(xiàn)出不可替代的價值。正如鄭永曉所指出的:“目前的數(shù)字人文研究,雖長于宏觀研究,但也能解決微觀問題。例如,人物關(guān)系挖掘就是目前數(shù)字人文研究領(lǐng)域一個頗具特色的分支,可以利用信息抽取方法對人物進行社會網(wǎng)絡(luò)關(guān)系挖掘,可以對多個關(guān)聯(lián)作品的人物關(guān)系進行分析,這在小說研究中頗為實用。”(王兆鵬、鄭永曉、劉京臣《借器之勢,出道之新——“數(shù)字人文”浪潮下的古典文學(xué)研究三人談》)而在通過數(shù)字人文對人物關(guān)系網(wǎng)絡(luò)所進行的個案分析中,弗蘭克·莫萊蒂的《網(wǎng)絡(luò)理論,情節(jié)分析》(Network Theory,Plot Analysis)堪稱這方面的代表性論文。面對《哈姆雷特》的單一文學(xué)文本,莫萊蒂借助社會網(wǎng)絡(luò)分析法(social network analysis,簡稱SNA),通過對人物彼此間對話次數(shù)的統(tǒng)計,將人物作為關(guān)系網(wǎng)絡(luò)的節(jié)點(即“點”,node),將人物之間的聯(lián)系作為關(guān)系網(wǎng)絡(luò)的連接(即“邊”,tie),從而將莎士比亞這部經(jīng)典戲劇作品中的人物關(guān)系與情節(jié)結(jié)構(gòu)抽象為一個關(guān)系網(wǎng)絡(luò)模型,并通過對該模型的觀察和分析,指出看似是戲劇配角的霍拉旭,其實深刻影響著整個戲劇的人物關(guān)系與情節(jié)發(fā)展,而這在傳統(tǒng)所謂“圓形人物”與“扁平人物”的認知框架中很容易被忽略。
當然,細究起來,莫萊蒂的該項研究也并非無懈可擊。例如,他在構(gòu)建人物關(guān)系網(wǎng)絡(luò)時,將人物之間的每一次對話均呈現(xiàn)為連接兩點的一條“線”。這一操作看似客觀中立,實則暗含了特定的簡化處理。眾所周知,小說或戲劇中的對話,其背后所包含的戲劇沖突、情感強度與表意功能千差萬別。將每一次對話均計為一條等值的“線”,相當于對其進行了均值化處理,從而忽略了對話內(nèi)在的質(zhì)性與量級差異。換言之,莫萊蒂表面上未對各條“線”進行人為加權(quán)賦值,這在方法論上等同于將所有對話的權(quán)重都預(yù)設(shè)為“1”,其結(jié)果的準確性自然值得商榷。
![]()
與數(shù)字人文既能處理“海量”文本,又能深入單一文本內(nèi)部的能力相呼應(yīng)的,是“遠讀”與“細讀”方法之間復(fù)雜交錯、互為補充的關(guān)系。正如“遠讀”概念的提出者莫萊蒂所言,這種方法“讓你聚焦于那些比文本小得多或大得多的單位:裝置,主題,比喻——或文類與系統(tǒng)”。 而在處理這些比文本“小得多”或“大得多”的單位與對象時,研究者還是離不開“細讀”,只是“細讀”的對象已不再是結(jié)構(gòu)主義意義上的封閉文本。我們甚至可以說,“遠讀”在本質(zhì)上正是對更宏大或更細微對象的另一種“細讀”。就此而言,真正具有前瞻性的研究方法,正如同芝加哥大學(xué)“文本光學(xué)實驗室”(Textual Optics Lab)倡導(dǎo)的“可伸縮”(scalable)的閱讀方法所提示我們的,是一種能夠自由調(diào)節(jié)距離、融合宏觀與微觀的“變焦式”閱讀。在“未來已來”的計算批評時代中,這或許才是那些兼具算法素養(yǎng)與人文傳統(tǒng)的“賽博研究者”們所真正需要去探索和踐行的研究方法與路徑。
文章為社會科學(xué)報“思想工坊”融媒體原創(chuàng)出品,原載于社會科學(xué)報第1980期第5版,未經(jīng)允許禁止轉(zhuǎn)載,文中內(nèi)容僅代表作者觀點,不代表本報立場。
本期責編:程鑫云

《社會科學(xué)報》2026年征訂
點擊下方圖片網(wǎng)上訂報↓↓↓

![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.