
近年來,數字人文作為一種新的研究范式蓬勃發展,而其從來不止于技術,歸根結底依然是由“人”來主導的,這絕非意在否定或消解數字人文的研究價值。一項數字人文研究真正有效,恰恰有賴于研究者“主體性”的深度參與。
原文 :《數字人文研究中的“主觀性”與“主體性”》
作者 |復旦大學中文系副教授 戰玉冰
圖片 |網絡
隨著計算機技術的不斷進步,數字人文作為一種研究方法在文學研究領域掀起熱潮,特別是在大語言模型人工智能興起之后,數字人文與計算批評更是以前所未有的速度蓬勃發展。在此過程中,逐漸形成了三個容易被忽視卻又相互關聯的認識誤區:其一,認為數字人文采用統計、計量、算法與模型等手段,相較于依賴個體閱讀的傳統研究方法,更為客觀、準確和科學;其二,認為數字人文更適用于處理“海量”文本,傳統人文研究則更適合針對個別具體文本而展開;其三,將“遠讀”(distant reading)與“細讀”(close reading)視為數字人文與傳統人文研究方法之間一組相互對立的概念。
![]()
01
![]()
作為干擾因素的“主觀性”
我曾在《網絡小說的數據法與類型論——以2018年的749部中國網絡小說為考察對象》一文中反思自己在運用數字人文方法研究網絡文學時陷入的一個誤區。在當時的研究中,我首先依據各網站平臺的類型標簽,將大量網絡文學作品劃分為“玄幻”與“修仙”兩大類(需注意,不同平臺的標簽并不統一,在分類過程中包含人為判斷);隨后,對這兩類小說中的地理類詞匯進行詞頻統計,發現“玄幻小說”更傾向于使用遙遠、神秘、難以抵達的地理場景,“修仙小說”中的地名則更接近現實,多取材于歷史上可能真實存在的地點;最終,通過分析認為,“玄幻小說”偏向幻想,“修仙小說”側重現實,二者在地理空間選擇上的差異,構成了不同類型小說想象歷史的敘事策略表征。然而,這項研究背后隱藏著一個關鍵問題:作為研究者,同時也是一個網絡小說讀者,我早已對不同小說類型形成了某種“前理解”。因此,在最初的分類階段,我就已經在無意識中將作品按其風格歸入預設的類型范疇。在這樣的前提下,后續的數字人文分析不過是對我既有“舊”認知的驗證,而非真正生產出“新”的知識。換言之,我個人的“主觀性”(subjectivity)在所謂“客觀”的數字人文研究過程中,成為不容忽視的干擾性因素。
![]()
若將這一問題加以推廣來看,我們便不得不承認:所謂的數字人文研究,歸根結底依然是由“人”來主導的。此處所說的“人”,指的并不是算法工程師或程序員,而是人文領域的研究學者,其對于自身所處的人文研究領域及相關議題,不可避免地帶有大量且深刻的“前理解”。進一步而言,在整個統計與建模的過程中,無論是研究維度的選取、指標體系的建立,還是具體參數的調節,都難以擺脫研究者主觀判斷的介入。正如特德·安德伍德所指出的,數據建模在本質上實為一種“視角建模”;大衛·M.貝里也強調,代碼從來不止于技術,它本身就是一種敘事方式。
02
![]()
發揮研究者的“主體性”
然而,這絕非意在否定或消解數字人文的研究價值。恰恰相反,正如學者趙薇在《量化方法運用于古代文學研究的進展和問題——以近年數字人文脈絡中的個案探索為中心》一文中所指出的:“數字人文在這類實踐中引入模型的價值恰恰產生于研究者‘主觀介入’的環節。這是因為,大模型固然讓結果更趨精準,其內部的每一個特征維度究竟是什么卻變得不可解釋。”正因如此,我們不可能期望一位對“紅學”一無所知的算法工程師,僅憑數據模型就能完成對《紅樓夢》的深入解讀。正如蘇真在《概念與實踐·主持人按語》中所指出的:“‘美麗的’(beautiful)這個詞在弗吉尼亞·伍爾夫的《達洛維夫人》中出現的次數并不能告訴我們與這部小說主旨有關的任何信息,也不能告訴我們它與其它類型的小說(比如現實主義作品)有何不同。”反之,正是基于研究者對相關人文學科議題的深厚素養與“前理解”,我們才擁有了刺破這個技術黑箱、賦予數據意義的洞察力和可能性。換言之,一項數字人文研究真正有效,恰恰有賴于研究者“主體性”(agency)的深度參與,而非對其刻意回避。很多時候,對數字人文技術“恰到好處”地使用,將量化方法深度融入具體的論述框架之中,從而為研究者的深入思考與解讀留出充足空間,往往能取得事半功倍的效果。
在這個意義上,呂繼北借助數字人文技術分析宋詩對唐詩的重復使用問題,這一研究個案頗具參考價值。宋詩素有承襲與點化唐詩的傳統,正如錢鍾書在《宋詩選注》中所言:“在宋代詩人里,偷竊變成師徒公開傳授的專門科學。”然而,宋詩究竟如何借鑒乃至挪用唐詩詞句?其偏好借鑒哪些唐代作品?這些借鑒又帶來怎樣的表達效果與文化意義?傳統研究方法很難對此進行全面、系統的梳理。呂繼北的研究方法在于,“使用NLP自然語言處理工具將《全唐詩》與《全宋詩》進行交叉比對,可以篩選出哪些唐代詩句又被宋人重復使用,其中的具體數量、內容以及年代分布趨勢等,從而揭示宋人作詩用唐詩現象的突出特點、發展趨勢、審美典范等,證明宋詩重復唐詩大多并非出自偶然,他們在選擇使用唐詩詩句時也有較為明確的取向,體現出宋代詩學風潮的階段性特征”(呂繼北《數字人文視域下的宋詩用唐詩研究》)。
![]()
值得注意的是,該研究并未止步于數字工具的簡單“查重”,而是將其與傳統詩學深度融合。研究者不僅從統計學角度得出“直接使用唐人一句詩歌的做法則相當普遍”的觀察結論,更發現“大多數詩人會在使用時變換詩句的位置,有些甚至連詩歌體裁也會更換,采用近體變古體,絕句變排律等方式”。
03
![]()
“可伸縮”的閱讀
在前述研究案例中,數字人文技術所處理的或是749部(總字數約7億)網絡小說,或是11萬余名詩人的20余萬首詩歌,其對象均屬“海量”文本。面對此類傳統人力難以窮盡的研究對象,數字人文方法確有其天然優勢。然而,這并不意味著它僅適用于宏觀尺度的“遠讀”,在針對單一文本的“細讀”工作中,它同樣能展現出不可替代的價值。正如鄭永曉所指出的:“目前的數字人文研究,雖長于宏觀研究,但也能解決微觀問題。例如,人物關系挖掘就是目前數字人文研究領域一個頗具特色的分支,可以利用信息抽取方法對人物進行社會網絡關系挖掘,可以對多個關聯作品的人物關系進行分析,這在小說研究中頗為實用。”(王兆鵬、鄭永曉、劉京臣《借器之勢,出道之新——“數字人文”浪潮下的古典文學研究三人談》)而在通過數字人文對人物關系網絡所進行的個案分析中,弗蘭克·莫萊蒂的《網絡理論,情節分析》(Network Theory,Plot Analysis)堪稱這方面的代表性論文。面對《哈姆雷特》的單一文學文本,莫萊蒂借助社會網絡分析法(social network analysis,簡稱SNA),通過對人物彼此間對話次數的統計,將人物作為關系網絡的節點(即“點”,node),將人物之間的聯系作為關系網絡的連接(即“邊”,tie),從而將莎士比亞這部經典戲劇作品中的人物關系與情節結構抽象為一個關系網絡模型,并通過對該模型的觀察和分析,指出看似是戲劇配角的霍拉旭,其實深刻影響著整個戲劇的人物關系與情節發展,而這在傳統所謂“圓形人物”與“扁平人物”的認知框架中很容易被忽略。
當然,細究起來,莫萊蒂的該項研究也并非無懈可擊。例如,他在構建人物關系網絡時,將人物之間的每一次對話均呈現為連接兩點的一條“線”。這一操作看似客觀中立,實則暗含了特定的簡化處理。眾所周知,小說或戲劇中的對話,其背后所包含的戲劇沖突、情感強度與表意功能千差萬別。將每一次對話均計為一條等值的“線”,相當于對其進行了均值化處理,從而忽略了對話內在的質性與量級差異。換言之,莫萊蒂表面上未對各條“線”進行人為加權賦值,這在方法論上等同于將所有對話的權重都預設為“1”,其結果的準確性自然值得商榷。
![]()
與數字人文既能處理“海量”文本,又能深入單一文本內部的能力相呼應的,是“遠讀”與“細讀”方法之間復雜交錯、互為補充的關系。正如“遠讀”概念的提出者莫萊蒂所言,這種方法“讓你聚焦于那些比文本小得多或大得多的單位:裝置,主題,比喻——或文類與系統”。 而在處理這些比文本“小得多”或“大得多”的單位與對象時,研究者還是離不開“細讀”,只是“細讀”的對象已不再是結構主義意義上的封閉文本。我們甚至可以說,“遠讀”在本質上正是對更宏大或更細微對象的另一種“細讀”。就此而言,真正具有前瞻性的研究方法,正如同芝加哥大學“文本光學實驗室”(Textual Optics Lab)倡導的“可伸縮”(scalable)的閱讀方法所提示我們的,是一種能夠自由調節距離、融合宏觀與微觀的“變焦式”閱讀。在“未來已來”的計算批評時代中,這或許才是那些兼具算法素養與人文傳統的“賽博研究者”們所真正需要去探索和踐行的研究方法與路徑。
文章為社會科學報“思想工坊”融媒體原創出品,原載于社會科學報第1980期第5版,未經允許禁止轉載,文中內容僅代表作者觀點,不代表本報立場。
本期責編:程鑫云

《社會科學報》2026年征訂
點擊下方圖片網上訂報↓↓↓

![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.