![]()
![]()
陳茁
南京大學(xué)
社會(huì)學(xué)院
博士研究生
![]()
陳云松
南京大學(xué)
社會(huì)學(xué)院
教授
計(jì)算扎根:定量研究的理論生產(chǎn)方法
來源 | 《社會(huì)學(xué)研究》2023年第4期
作者 | 陳茁、陳云松
責(zé)任編輯 |劉保中
扎根理論的歸納邏輯和避免理論先入為主的原則與傳統(tǒng)定量研究的演繹邏輯和假說檢驗(yàn)大相徑庭。在回顧傳統(tǒng)定量研究理論生產(chǎn)局限的基礎(chǔ)上,本文提出一種以定量方式直接助產(chǎn)理論的“計(jì)算扎根”方法:借助機(jī)器學(xué)習(xí)和歸因算法,按照因果是可預(yù)測(cè)性的充分不必要條件之原理,根據(jù)對(duì)因變量的預(yù)測(cè)力篩選出以往研究未曾關(guān)注的自變量,以提出新的理論假說。本文對(duì)計(jì)算扎根的基本思路、邏輯前提、方法基礎(chǔ)進(jìn)行了系統(tǒng)闡述,并基于實(shí)際案例進(jìn)行了演示。該方法彌補(bǔ)了定量研究理論生產(chǎn)的不足,在理論、學(xué)科、知識(shí)體系和社會(huì)治理等方面具有重要價(jià)值。
一、導(dǎo)言
依托于客觀數(shù)據(jù)和模型的社會(huì)學(xué)定量研究對(duì)長(zhǎng)期根植于邏輯思辨和歷史情境的社會(huì)學(xué)傳統(tǒng)研究方法形成了極為重要的補(bǔ)充,伴隨著大型社會(huì)調(diào)查的開展和數(shù)據(jù)模型的普及,已成為社會(huì)學(xué)研究的重要范式。隨著社會(huì)學(xué)學(xué)科共同體對(duì)定量研究科學(xué)性、規(guī)范性和因果解釋力的追求,利用基于多來源數(shù)據(jù)的回歸模型結(jié)果從樣本中進(jìn)行統(tǒng)計(jì)推斷和因果識(shí)別,以此對(duì)提出的理論假說進(jìn)行證偽檢驗(yàn),逐步成為定量社會(huì)學(xué)者普遍遵守的方法論范式。
定量研究原本只是對(duì)數(shù)字?jǐn)?shù)據(jù)進(jìn)行分析研究的統(tǒng)稱(Scott & MarShall, 2009: 538),但伴隨著范式的固化,特別是定性和定量研究的二元分立,學(xué)術(shù)圈逐漸將量化研究自我限定在以演繹法為邏輯、以理論驗(yàn)證為目的、以統(tǒng)計(jì)推論為手段的單一面向。這種假設(shè)檢驗(yàn)的方法無疑打破了無涉社會(huì)現(xiàn)象的純粹哲學(xué)思辨,但它在和質(zhì)性研究的長(zhǎng)期角逐中,卻似乎逐漸失去了理論生產(chǎn)和發(fā)展的主動(dòng)權(quán):質(zhì)性研究者在不斷地觀察、發(fā)現(xiàn)和提煉新的概念與理論,并以此形成理論發(fā)展的“先導(dǎo)”,而定量研究者則是對(duì)現(xiàn)有理論或基于文獻(xiàn)和作者社會(huì)學(xué)想象力提出的假說進(jìn)行“后置”的統(tǒng)計(jì)檢驗(yàn)。定量研究者重視卡爾·波普對(duì)于科學(xué)的定義,也因此往往容易迷失在對(duì)證偽檢驗(yàn)重要性的自我欣賞之中,不覺中忽視了數(shù)據(jù)和模型對(duì)于直接啟發(fā)理論的價(jià)值、歸納邏輯對(duì)于定量研究的應(yīng)用可能性。
有沒有一種新的邏輯路徑和模型,能讓定量學(xué)者不僅能進(jìn)行“后置”的科學(xué)檢驗(yàn),也能利用數(shù)據(jù)資料直接助產(chǎn)理論假說?事實(shí)上,使用量化資料直接助產(chǎn)理論假說的研究有非常悠久的歷史,經(jīng)典案例如涂爾干的自殺研究,統(tǒng)計(jì)上也有各種特征選擇方法。但伴隨著幾十年量化方法的建制化,大家反倒忘了定量數(shù)據(jù)曾經(jīng)也可以用來發(fā)展理論。究其緣由,對(duì)著變量列表進(jìn)行隨機(jī)的甚至遍歷式N×(N-1)兩兩關(guān)聯(lián)的頭腦風(fēng)暴,可能會(huì)產(chǎn)生大量了無實(shí)據(jù)甚至荒誕的假說;用傳統(tǒng)的回歸模型來進(jìn)行各種X-Y組合的循環(huán)檢驗(yàn),無法解決控制變量的數(shù)量限制、選取組合和多重共線性等諸多問題。因此,借助數(shù)據(jù)和模型直接助產(chǎn)理論的研究路徑在相當(dāng)長(zhǎng)時(shí)期內(nèi)被定量學(xué)者所忽略。
但隨著大規(guī)模社會(huì)調(diào)查數(shù)據(jù)的日益豐富和機(jī)器學(xué)習(xí)等方法在社會(huì)學(xué)中的應(yīng)用,我們已經(jīng)發(fā)現(xiàn)了這種可能。在本文里,我們將提出一種基于大量數(shù)據(jù)和機(jī)器學(xué)習(xí)模型的量化理論生產(chǎn)方法:對(duì)于既定的Y和大量的解釋變量X,通過監(jiān)督學(xué)習(xí)方法對(duì)一系列X對(duì)于Y的預(yù)測(cè)能力進(jìn)行量化分析。利用因果關(guān)系和可預(yù)測(cè)性之間的邏輯關(guān)聯(lián),我們可以對(duì)具有強(qiáng)大預(yù)測(cè)力的諸多X進(jìn)行挖掘和篩選,從而直接助產(chǎn)理論假說,為Y尋找到潛在的具有理論價(jià)值的新X,進(jìn)而幫助社會(huì)學(xué)家生成、發(fā)展和修正理論。這一方法雖然是典型的計(jì)算社會(huì)科學(xué)方法,但其邏輯起點(diǎn)和扎根理論的核心原則有異曲同工之妙:打破理論的先入為主,在不做任何理論假說前提的條件下扎根于數(shù)據(jù)本身,從而打破“演繹-驗(yàn)證”的邏輯,打通經(jīng)驗(yàn)研究到理論研究的生成路徑。因此,我們將其命名為“計(jì)算扎根”(computing grounded theory)。
本文將首先對(duì)傳統(tǒng)定量研究的假設(shè)檢驗(yàn)路徑進(jìn)行簡(jiǎn)要剖析,然后詳細(xì)介紹計(jì)算扎根方法的具體邏輯和思路。在此基礎(chǔ)上,本文進(jìn)一步從理論和方法層面分別論述計(jì)算扎根何以可能,并以 “主觀幸福感”為例進(jìn)行案例演示,以檢驗(yàn)計(jì)算扎根的信效度。最后,本文對(duì)計(jì)算扎根的方法意義和可能帶來的潛在問題進(jìn)行反思。
二、證偽的限度:傳統(tǒng)定量研究的理論生產(chǎn)瓶頸
(一)假設(shè)檢驗(yàn)與科學(xué)環(huán)
近四十年來,定量社會(huì)學(xué)研究的基本模式是基于調(diào)查問卷數(shù)據(jù),采用多元模型回歸的方法,對(duì)解釋變量是否和被解釋變量存在關(guān)聯(lián)或因果進(jìn)行統(tǒng)計(jì)推斷。彭玉生曾形象地把定量研究比作“洋八股文”。他指出,國(guó)內(nèi)外主流社會(huì)科學(xué)刊物,都采用了比較標(biāo)準(zhǔn)化的“模板式”格式,按照問題、文獻(xiàn)、假設(shè)、測(cè)量、數(shù)據(jù)、方法、分析、結(jié)論八個(gè)部分各司其職,環(huán)環(huán)相扣(彭玉生,2010)。國(guó)外學(xué)者(Wells & Picou, 1981)通過對(duì)《美國(guó)社會(huì)學(xué)評(píng)論》的內(nèi)容分析,也對(duì)假設(shè)檢驗(yàn)?zāi)J阶鞒鲱愃频目偨Y(jié)。有趣的是,定量研究的八股范式并非社會(huì)學(xué)獨(dú)有,而是業(yè)已滲透進(jìn)經(jīng)濟(jì)學(xué)、政治學(xué)、心理學(xué)等各個(gè)學(xué)科(林毅夫,1995)。盡管相關(guān)的環(huán)節(jié)可以合并或細(xì)化,但其基本思路就是對(duì)所提出的零假說進(jìn)行證偽。
但檢驗(yàn)理論并非科學(xué)研究的全部工作。華萊士在《社會(huì)學(xué)中的科學(xué)邏輯》中提出“科學(xué)環(huán)”概念,指出社會(huì)學(xué)研究是包括理論建構(gòu)和理論檢驗(yàn)的循環(huán)往復(fù)、螺旋上升、永無止境的過程(Wallace, 1971: 18)。很明顯,假設(shè)檢驗(yàn)的定量范式都集中在科學(xué)環(huán)的右半部分。從理論建構(gòu)到理論檢驗(yàn)本是一項(xiàng)科學(xué)研究的完整路徑,但伴隨著定量和定性的分野,理論建構(gòu)似乎成了定性研究的專屬使命,而定量研究日益將理論驗(yàn)證奉為圭臬。實(shí)際上,正如默頓所說,經(jīng)驗(yàn)研究遠(yuǎn)遠(yuǎn)超出檢驗(yàn)理論的被動(dòng)功能,它不僅僅是證實(shí)或反駁假設(shè),在塑造理論的發(fā)展上至少執(zhí)行著四個(gè)功能:創(chuàng)立、修訂、轉(zhuǎn)變和澄清理論(默頓,2006:224)。
![]()
(二)假設(shè)檢驗(yàn)旨趣的歷史淵源
假設(shè)檢驗(yàn)范式起源于實(shí)證主義方法論傳統(tǒng),經(jīng)過哥倫比亞學(xué)派對(duì)定量研究的規(guī)范建制化運(yùn)動(dòng)之后得到強(qiáng)化。拉扎斯菲爾德和斯托弗都主張用經(jīng)驗(yàn)材料驗(yàn)證理論的目的取向和科學(xué)化運(yùn)動(dòng)(Lazarsfeld et al.,1967;Stouffer, 1962)。斯托弗專門撰寫了《檢驗(yàn)思想的社會(huì)研究》一書,進(jìn)一步使得用數(shù)據(jù)驗(yàn)證理論的方法在整個(gè)定量界得到充分普及。這一方法論傳統(tǒng)針對(duì)傳統(tǒng)理論話語包含大量形而上學(xué)的思辨和未經(jīng)檢驗(yàn)的論斷等特點(diǎn),將其視為不能提高有關(guān)社會(huì)事實(shí)的可靠判斷的“空洞的陳述”,也因此不屬于精確的科學(xué)知識(shí)。在學(xué)術(shù)熏陶和方法訓(xùn)練之中,定量社會(huì)學(xué)研究者逐漸形成一種“實(shí)證型人格”,他們要求自己不斷地修正腦海中對(duì)于社會(huì)的構(gòu)想,致力于提升社會(huì)科學(xué)對(duì)于實(shí)質(zhì)性問題的回答效力(Pawson, 2000)。
假設(shè)檢驗(yàn)的定量范式是社會(huì)學(xué)彌合理論與經(jīng)驗(yàn)的鴻溝、確保結(jié)論科學(xué)性而形成的集體學(xué)科共識(shí)。但如果我們不加反思地將“理論先行-數(shù)據(jù)驗(yàn)證”的分析路徑視為當(dāng)然,那這種曾經(jīng)作為知識(shí)解放力量的方法論就很容易轉(zhuǎn)化為束縛,制約理論的生產(chǎn)創(chuàng)造力。事實(shí)上,使用量化資料探索理論并不始自今日,早在四十年前,一套從資料中自動(dòng)篩選進(jìn)行變量選擇的分析的方法模式就已經(jīng)具備。從統(tǒng)計(jì)學(xué)的角度看,有向前選擇、向后選擇、逐步回歸等方法為模型挑選出最合適的變量,而后還出現(xiàn)了基于特征降維的偏最小平方、基于信息準(zhǔn)則的AIC和BIC標(biāo)準(zhǔn)比較方法,基于正則化的嶺回歸、套索回歸方法等。盡管這些方法或多或少遭受過批判,被指出變量篩選標(biāo)準(zhǔn)不科學(xué)、相關(guān)關(guān)系不等同于因果等問題(Rubin, 1974),但不得不承認(rèn),量化學(xué)者在實(shí)際的研究過程中都曾經(jīng)得到過數(shù)據(jù)本身帶來的啟發(fā),只不過很多研究者在從數(shù)據(jù)中得到新發(fā)現(xiàn)后并不會(huì)按照真實(shí)的研究過程來表述自己的研究,而是通過文獻(xiàn)梳理的方式把自己的發(fā)現(xiàn)“裝扮”成已有的理論假設(shè),好像這些假設(shè)在分析數(shù)據(jù)之前就已經(jīng)想出了,然后再按照假設(shè)檢驗(yàn)的邏輯來證明它(Glaser,2008:15;吳肅然、李名薈,2020)。
(三)假設(shè)檢驗(yàn)旨趣的后果
量化研究的“假設(shè)檢驗(yàn)”會(huì)從兩個(gè)方面對(duì)定量研究的知識(shí)生產(chǎn)形成束縛。
1.導(dǎo)致定量探索性研究的缺位
長(zhǎng)期以來學(xué)界逐漸形成一種實(shí)踐者和旁觀者的共同印象:經(jīng)驗(yàn)研究是被用來校驗(yàn)理論的,理論則要通過研究者的奇思妙想來獲得(Merton & Barber, 2011)。這盡管促成了不同研究范式的共同繁榮,但也導(dǎo)致了定量研究在科學(xué)發(fā)現(xiàn)之旅中的后置化甚至缺席:量化研究使得現(xiàn)有理論更為精致化了,但卻很少產(chǎn)生新的理論建構(gòu)(卡麥茲, 2009)。
2.導(dǎo)致定量研究過度依賴常識(shí)而失去洞察力
定量研究所驗(yàn)證的假設(shè)基本來自現(xiàn)有理論的推導(dǎo)或社會(huì)學(xué)家的常識(shí)和靈感。常識(shí)的矛盾之處在于它既能幫助我們理解世界,也會(huì)削弱我們的理解能力(Watts, 2011)。饒有趣味的是,一方面,社會(huì)學(xué)家需要帶著與常識(shí)決裂的學(xué)科使命來懷疑并驗(yàn)證常識(shí)的科學(xué)性,但另一方面,在建立假設(shè)時(shí)又不得不在現(xiàn)有常識(shí)的窠臼中選取可能的解釋變量,進(jìn)而常常遭受“用復(fù)雜方法驗(yàn)證常識(shí)”的質(zhì)疑(劉潤(rùn)澤、鞏宜萱,2020)。
三、數(shù)據(jù)、變量與分析策略
計(jì)算扎根的思路是打通從數(shù)據(jù)到理論的“逆向”路徑,借助機(jī)器學(xué)習(xí)的預(yù)測(cè)能力和可解釋的歸因算法,基于因果是可預(yù)測(cè)性的充分不必要條件這一規(guī)律,實(shí)現(xiàn)用數(shù)據(jù)來直接生成關(guān)于既定因變量的機(jī)制理論。本章將分別對(duì)計(jì)算扎根的基本思路、邏輯前提和方法基礎(chǔ)等進(jìn)行詳細(xì)討論。
(一)計(jì)算扎根的基本思路
如圖2所示,計(jì)算扎根的基本步驟可以由以下六個(gè)環(huán)節(jié)組成。
第一步,制定研究問題。根據(jù)社會(huì)調(diào)查問卷數(shù)據(jù)指標(biāo),結(jié)合研究興趣和需要來確定研究對(duì)象Y。理論上我們也可以不事先確定Y,這樣每個(gè)非先賦性的變量都可以成為我們預(yù)測(cè)的對(duì)象Y,進(jìn)而用遍歷探索的方式來進(jìn)行。
第二步,準(zhǔn)備高維數(shù)據(jù)。社會(huì)調(diào)查數(shù)據(jù)往往是高維的,變量有上百個(gè)甚至更多。這些大量的指標(biāo),每一個(gè)都可能是潛在的Y的因,也即蘊(yùn)含了扎根結(jié)果的可能性。不同層次的數(shù)據(jù)可以匹配起來,甚至可以納入看不出任何與Y有關(guān)聯(lián)的特征。
第三步,開展社會(huì)預(yù)測(cè)。基于高維數(shù)據(jù),使用監(jiān)督學(xué)習(xí)的方法訓(xùn)練Y的預(yù)測(cè)模型。算法可以是多樣的,如支持向量機(jī)、隨機(jī)森林、梯度提升樹、神經(jīng)網(wǎng)絡(luò),等等。只要能達(dá)到相對(duì)較好的預(yù)測(cè)效果,不必拘泥于算法是否復(fù)雜以及是否可解釋。
第四步,比較預(yù)測(cè)能力。依賴機(jī)器學(xué)習(xí)模型的可解釋性算法,對(duì)預(yù)測(cè)生成的黑盒模型進(jìn)行歸因分析,根據(jù)X對(duì)Y的預(yù)測(cè)力排序?qū)ふ铱赡艿囊颉F浠舅悸肥牵捍騺y某些特征X是否影響模型預(yù)測(cè)的準(zhǔn)確率,改變特征將如何影響預(yù)測(cè)結(jié)果。
第五步,尋找潛在理論。根據(jù)一組按照預(yù)測(cè)力排序的X,尋找以往研究未曾涉及的社會(huì)關(guān)聯(lián)。可以依據(jù)潛在關(guān)系模式將它們與既有研究比照,驗(yàn)證或澄清理論;亦可以對(duì)相似的解釋項(xiàng)進(jìn)行歸類,抽象出概念或歸納理論命題。
第六步,補(bǔ)充交叉驗(yàn)證。驗(yàn)證計(jì)算扎根結(jié)果的穩(wěn)健性和理論假說的適用性。嘗試使用不同數(shù)據(jù)、其他機(jī)器學(xué)習(xí)和歸因算法對(duì)同一個(gè)因變量進(jìn)行計(jì)算扎根,也可以對(duì)生成理論推導(dǎo)出的其他假說進(jìn)行再檢驗(yàn),相互驗(yàn)證完成科學(xué)環(huán)閉環(huán)。
![]()
總體而言,該方法和假設(shè)檢驗(yàn)式的定量研究大相徑庭:它不預(yù)設(shè)理論假說,而是純粹依賴算法和數(shù)據(jù)來訓(xùn)練預(yù)測(cè)模型,通過精確估算X對(duì)Y的預(yù)測(cè)力并比較排序,來為可能的因果關(guān)系提供一組備選的理論假說,保證了對(duì)數(shù)據(jù)的無差別開放態(tài)度和對(duì)實(shí)際問題的精確目標(biāo)導(dǎo)向。根據(jù)霍夫曼等提出的社科研究方法四象限框架,計(jì)算扎根方法屬于綜合了預(yù)測(cè)和解釋的綜合建模研究(Hofman et al., 2021)。從周濤等人劃分的五大社科方法類型來看(周濤等,2022),計(jì)算扎根的基本路徑屬于“基于(大)數(shù)據(jù)的探索性研究”;如果在生成探索性理論假說后進(jìn)一步使用其他數(shù)據(jù)驗(yàn)證,則又屬于“先探索后驗(yàn)證的整合研究”。
事實(shí)上,機(jī)器學(xué)習(xí)輔助科學(xué)研究目前正在成為一股前沿的研究趨勢(shì),《自然》雜志曾以“AI-guided Intuition”為封面標(biāo)題來預(yù)言人工智能將引導(dǎo)科學(xué)直覺,在數(shù)學(xué)(Davies et al., 2021)和管理學(xué)(Shrestha et al., 2021)領(lǐng)域也都出現(xiàn)了使用類似的方法指導(dǎo)直覺和提出猜想的具體路徑。同時(shí),已有相關(guān)實(shí)證研究踐行了機(jī)器學(xué)習(xí)和可解釋性AI相結(jié)合的方法路徑,如尋找導(dǎo)致焦慮的潛在因子(Nemesure et al., 2021)、挖掘提高乳腺癌生存率的潛在變量等(Moncada-Torres et al., 2021)。國(guó)內(nèi)學(xué)者如羅家德等用相關(guān)方法對(duì)中國(guó)人脈圈層理論模型進(jìn)行多輪修正和澄清(羅家德等,2021),周濤等也針對(duì)團(tuán)隊(duì)創(chuàng)新能力給出了類似的分析路徑(周濤等,2022)。在這些相關(guān)實(shí)證探索的基礎(chǔ)上,我們立足其運(yùn)用于社會(huì)學(xué)研究的可能性,聚焦其通用的方法論價(jià)值和與傳統(tǒng)研究模式的巨大差異,把算法模型的可解釋性和理論生產(chǎn)在方法論層面進(jìn)行了實(shí)質(zhì)性關(guān)聯(lián),對(duì)這一思路進(jìn)行系統(tǒng)化、標(biāo)準(zhǔn)化的提煉,正式提出完整的方法與實(shí)操路徑。
(二)計(jì)算扎根的邏輯前提
作為理論生產(chǎn)方法的計(jì)算扎根理論,有著清晰的邏輯基礎(chǔ)。對(duì)于計(jì)算扎根理論而言,其邏輯前提主要是兩個(gè)方面。
一是扎根理論的歸納邏輯。扎根理論產(chǎn)生于實(shí)證研究對(duì)定量假設(shè)檢驗(yàn)這一范式的反思。其創(chuàng)立者之一格拉澤指出,社會(huì)學(xué)過于強(qiáng)調(diào)理論驗(yàn)證,縮小理論與經(jīng)驗(yàn)研究的努力主要集中在改進(jìn)檢驗(yàn)理論的方法,而試圖從理論層面縮小這一差距的努力幾乎沒有什么成果;研究者應(yīng)該從數(shù)據(jù)中發(fā)現(xiàn)理論, 以打通經(jīng)驗(yàn)研究到理論研究的生成路徑(Glaser, 2008:7)。他主張以逐級(jí)歸納的方法從經(jīng)驗(yàn)材料中直接創(chuàng)造出理論,再將其與現(xiàn)有理論和研究相比照。避免在研究開始前先入為主的觀念或猜想是確保“扎根”有效的重要原則。
值得一提的是,創(chuàng)立者格拉澤強(qiáng)調(diào)扎根理論是一種普適的方法論,既適用于質(zhì)性資料,也適用于定量數(shù)據(jù);而定量數(shù)據(jù)和定性資料在目的與能力上沒有根本沖突,對(duì)理論的產(chǎn)生和驗(yàn)證都是有幫助的(Glaser, 2008:17)。但隨著扎根理論的實(shí)際發(fā)展,人們發(fā)現(xiàn)它似乎還是更適合做質(zhì)性研究。扎根理論的另一提出者斯特勞斯甚至把它當(dāng)作質(zhì)性研究的“專屬工具”(Strauss & Corbin, 1994)。其原因不難理解:質(zhì)性資料的深度和可解讀性往往更有利于運(yùn)用社會(huì)學(xué)想象力直接提出理論假說,而定量數(shù)據(jù)作為一種數(shù)值指標(biāo)具有高度簡(jiǎn)化的抽象特征,其內(nèi)在的數(shù)理統(tǒng)計(jì)關(guān)聯(lián)難以通過直觀的方式加以發(fā)現(xiàn)。
實(shí)際上,為打破學(xué)界對(duì)扎根理論只適用于質(zhì)性數(shù)據(jù)的刻板印象,格拉澤專門撰寫了《做定量扎根理論》手冊(cè)以詳細(xì)闡述量化扎根的步驟。其基本思路是:在所有可能的兩個(gè)變量間計(jì)算反映關(guān)系正負(fù)變化的粗指標(biāo);如果變量始終與一系列變量相關(guān),將這些變量放在一起就會(huì)涌現(xiàn)理論的潛在模式;下一步是精化分析,即進(jìn)行三個(gè)及以上的變量分析,通過發(fā)展類別的屬性進(jìn)一步飽和類別,實(shí)現(xiàn)更密集的理論(Glaser, 2008: 54)。但問題在于,大量變量難以通過人腦直接進(jìn)行關(guān)聯(lián);使用統(tǒng)計(jì)方法時(shí),對(duì)于哪些變量應(yīng)納入模型,實(shí)際上缺乏清晰的選取規(guī)則。特別是當(dāng)自變量多到一定程度時(shí),會(huì)出現(xiàn)自由度不夠或共線性等諸多問題。總之,定量扎根理論邏輯可行,但當(dāng)時(shí)尚無合適的方法來開展令人信服的應(yīng)用。
二是因果關(guān)系的可預(yù)測(cè)邏輯。社會(huì)現(xiàn)象之間的可預(yù)測(cè)性和因果機(jī)制是兩個(gè)不同但又高度關(guān)聯(lián)的范疇。根據(jù)韋伯的定義,社會(huì)學(xué)是提供關(guān)于行為過程和結(jié)果的因果性解釋的科學(xué)(Weber, 1968: 4),可將社會(huì)學(xué)理論理解為指標(biāo)之間的因果關(guān)系。按照這個(gè)邏輯進(jìn)一步推演,社會(huì)學(xué)指標(biāo)中的因變量對(duì)于自變量來說就一定具有可預(yù)測(cè)性。這是因?yàn)榭深A(yù)測(cè)性是因果關(guān)系成立的必要非充分條件,同時(shí)也是驗(yàn)證機(jī)制性原理的最基本手段(Watts, 2014)。
不過,由于受到數(shù)理統(tǒng)計(jì)工具的限制,社會(huì)學(xué)家們對(duì)于預(yù)測(cè)往往不太關(guān)心。在討論到社會(huì)學(xué)中的因果、關(guān)聯(lián)和預(yù)測(cè)等概念時(shí),社會(huì)學(xué)家們多施以遁詞:或強(qiáng)調(diào)預(yù)測(cè)不等于因果,但對(duì)因果必然可以預(yù)測(cè)的邏輯則束之高閣、不加利用;或者強(qiáng)調(diào)復(fù)雜的、納入太多自變量的回歸模型不夠簡(jiǎn)約;或批評(píng)能進(jìn)行數(shù)據(jù)預(yù)測(cè)的算法模型因其黑箱過程而無法解釋,等等。針對(duì)這一類論點(diǎn),鄧肯·沃茲曾一一概括并加以嚴(yán)厲的批評(píng)(Watts, 2014)。
計(jì)算扎根方法的邏輯基礎(chǔ)之一就是充分地運(yùn)用預(yù)測(cè)和因果之間的重要關(guān)系,也即因果是預(yù)測(cè)的充分而非必要條件。這意味著,如果一個(gè)X可以很好地預(yù)測(cè)Y,那么X的確可能構(gòu)成Y的原因。雖然這一關(guān)系只是可能而非必然,但其構(gòu)成因果的概率總比不具備預(yù)測(cè)性的關(guān)聯(lián)要高得多。在社會(huì)學(xué)家逐漸把學(xué)科旨趣壓縮到兩兩變量的分析而放棄社會(huì)預(yù)測(cè)的大背景下(Hofman et al., 2017),以機(jī)器學(xué)習(xí)的預(yù)測(cè)力來推動(dòng)理論的生產(chǎn)對(duì)于定量研究具有重要意義。
(三)計(jì)算扎根的方法實(shí)現(xiàn)
計(jì)算扎根允許幾十、上百甚至上千個(gè)變量的互動(dòng),其通過對(duì)算法模型的相關(guān)特征值的預(yù)測(cè)力進(jìn)行比較,比通過個(gè)人思維靈感來發(fā)現(xiàn)理論的過程要穩(wěn)定和可靠得多。其具體的實(shí)現(xiàn)過程包括社會(huì)預(yù)測(cè)和預(yù)測(cè)力比較兩個(gè)方面。
1.社會(huì)預(yù)測(cè):運(yùn)用監(jiān)督學(xué)習(xí)的算法模型擬合
傳統(tǒng)定量研究回歸模型不擅長(zhǎng)預(yù)測(cè),而只擅長(zhǎng)關(guān)聯(lián)和因果推斷。那么什么樣的模型適用于復(fù)雜社會(huì)過程中的預(yù)測(cè)?著名統(tǒng)計(jì)學(xué)家布雷曼(Leo Breiman)曾將統(tǒng)計(jì)建模方法分為兩種取向:一是數(shù)據(jù)模型,二是算法模型。數(shù)據(jù)模型事先假定數(shù)據(jù)服從某個(gè)函數(shù)分布f(x)(如線性回歸模型),然后對(duì)事先假定的f(x)的參數(shù)進(jìn)行擬合估計(jì);而算法模型不假定數(shù)據(jù)的任何分布特征,旨在找到一個(gè)函數(shù)g(x),通過g(x)可以對(duì)y進(jìn)行預(yù)測(cè)(Breiman, 2001a)。實(shí)際上,這種分類恰恰切中了社會(huì)學(xué)的傳統(tǒng)計(jì)量模型和機(jī)器學(xué)習(xí)之間的最本質(zhì)差異。布雷曼進(jìn)一步指出,當(dāng)前社會(huì)和行為科學(xué)中廣泛采用數(shù)據(jù)模型的思維方式,強(qiáng)調(diào)對(duì)模型參數(shù)的無偏估計(jì)而不是預(yù)測(cè)準(zhǔn)確性。也就是說,社會(huì)科學(xué)中公認(rèn)的實(shí)踐模式,不是詢問特定的數(shù)據(jù)和模型是否可以預(yù)測(cè)某些感興趣的結(jié)果,而是詢問理想化模型中的特定系數(shù)是否具有統(tǒng)計(jì)顯著性以及影響的方向。
但數(shù)據(jù)模型存在兩個(gè)明顯的問題:第一,為擬合特定參數(shù)模型,數(shù)據(jù)必須滿足一定的假定。以線性回歸為例,數(shù)據(jù)需要滿足自變量和因變量關(guān)系是線性的、各自變量非多重共線性、殘差服從正態(tài)分布、擾動(dòng)項(xiàng)滿足同方差、無自相關(guān)等多重假設(shè)。而現(xiàn)實(shí)社會(huì)復(fù)雜多樣,要求數(shù)據(jù)滿足嚴(yán)格假設(shè)未免過于苛刻,因此學(xué)術(shù)界采取了一種鴕鳥政策,逐漸將重要性轉(zhuǎn)移至對(duì)顯著性的強(qiáng)調(diào),而對(duì)數(shù)據(jù)是否滿足模型假定持開放或懸置態(tài)度(Freedman, 1991)。第二,結(jié)論是關(guān)于模型的機(jī)制而非關(guān)于事實(shí)的機(jī)制。將簡(jiǎn)單的參數(shù)模型強(qiáng)加于復(fù)雜系統(tǒng)生成的數(shù)據(jù)之上,會(huì)導(dǎo)致準(zhǔn)確性和關(guān)鍵信息的損失。模型錯(cuò)誤指定或研究者在數(shù)據(jù)分析中引入大量自由裁量權(quán)會(huì)導(dǎo)致潛在偏差(Simmons et al., 2011)。如果模型不能很好地模擬自然情況,則結(jié)論可能是錯(cuò)誤的(Breiman, 2001a)。
以機(jī)器學(xué)習(xí)為代表的算法模型則為以上問題提供了一個(gè)非常好的替代方案。算法模型隱含的認(rèn)識(shí)論假設(shè)是:事實(shí)數(shù)據(jù)的內(nèi)在機(jī)制是未知和復(fù)雜的,關(guān)鍵是盡可能找到一個(gè)算法可以很好地通過x預(yù)測(cè)y,即用算法擬合數(shù)據(jù)。算法模型往往采用非線性、非參數(shù)方法,通過一個(gè)或多個(gè)超參數(shù)來調(diào)整模型的復(fù)雜性。機(jī)器學(xué)習(xí)對(duì)數(shù)據(jù)復(fù)雜性的尊重使得被分析的數(shù)據(jù)可以服從任意分布,而不需要滿足任何假設(shè)條件。我們認(rèn)為,這種解放將至少?gòu)膬蓚€(gè)方面提高生產(chǎn)理論的能力。
第一,滿足真實(shí)社會(huì)過程中的非線性數(shù)據(jù)關(guān)系。數(shù)據(jù)模型的線性假定往往難以符合社會(huì)真實(shí)情況。盡管模型的簡(jiǎn)約性可以作為理由,但簡(jiǎn)化只是手段而不是目的。大部分機(jī)器學(xué)習(xí)擬合過程不需要滿足既有的函數(shù)設(shè)定,而是以追求預(yù)測(cè)準(zhǔn)確性為最高宗旨(Breiman, 2001a)。
第二,滿足真實(shí)社會(huì)過程中的高維復(fù)雜數(shù)據(jù)關(guān)系。傳統(tǒng)計(jì)量模型只能納入有限的解釋變量。監(jiān)督學(xué)習(xí)算法可以在單個(gè)學(xué)習(xí)模型中同時(shí)考慮數(shù)千個(gè)不同的因素和各種復(fù)雜的交互作用模式(Linthicum et al., 2019)。一個(gè)社會(huì)現(xiàn)象的影響因素紛繁復(fù)雜,納入更多潛在的“因”,發(fā)現(xiàn)新的解釋維度的可能性也就更大。
2.預(yù)測(cè)力比較:解決黑箱模型可解釋性的歸因算法
盡管機(jī)器學(xué)習(xí)打破了以往統(tǒng)計(jì)模型的種種預(yù)設(shè)限制,帶來了數(shù)據(jù)生產(chǎn)力的解放,更好地模擬了事物的真實(shí)狀態(tài),但它最廣為詬病的問題則在于其“黑箱過程”導(dǎo)致無法解釋。不過,較新的機(jī)器學(xué)習(xí)文獻(xiàn)中越來越多的證據(jù)表明,預(yù)測(cè)準(zhǔn)確性和可解釋性之間的矛盾并沒有想象的那么嚴(yán)重。隨著對(duì)復(fù)雜模型可解釋性的迫切需求,越來越多“拆解黑箱”的方法得以發(fā)明且獲得了成熟應(yīng)用(Ribeiro et al., 2016)。哈佛大學(xué)教授的高被引論文指出,對(duì)機(jī)器學(xué)習(xí)的黑箱模型進(jìn)行解釋性分析是一種基于數(shù)據(jù)驅(qū)動(dòng)發(fā)現(xiàn)可解釋因素的有效方法(Doshi-Velez & Kim, 2017)。
我們以沙普利值解釋方法SHAP(SHapley Additive exPlanations)為例詳細(xì)介紹解釋黑箱模型的具體路徑。該方法根據(jù)聯(lián)盟博弈理論來計(jì)算每個(gè)X的沙普利值,以此作為衡量其重要性的指標(biāo)。考慮到不同參與者的數(shù)量和順序都會(huì)影響最終的整體收益,該方法通過窮盡各種參與者的排列組合情況,對(duì)每種組合都計(jì)算包括該參與者和不包括該參與者的狀態(tài)下整體收益的差值,記為該單個(gè)參與者的邊際貢獻(xiàn);再對(duì)各種排列組合求該參與者邊際貢獻(xiàn)的均值,記為該參與者的沙普利值(Shapley, 1953)。所有參與者的沙普利值相加則為整體收益。
具體來說,每個(gè)參與者i的沙普利值的具體計(jì)算公式如下:
![]()
其中,N是所有參與者組成的集合,|N|是這個(gè)集合中包含參與者的數(shù)量;S是一種參與者的組合方式,是N的一個(gè)子集;表示集合N刪除特征i后的全部子集;![]()
為包括參與者i的整體收益相對(duì)于不包括參與者i的平均邊際貢獻(xiàn);該平均邊際貢獻(xiàn)在總的排列中出現(xiàn)次。為提高計(jì)算效率,數(shù)據(jù)科學(xué)家們開發(fā)了SHAP算法,通過條件期望函數(shù)來近似估計(jì)沙普利值,具體技術(shù)細(xì)節(jié)在此不再詳述。沙普利值充分考慮了變量之間的交互作用,具有堅(jiān)實(shí)的博弈理論基礎(chǔ),是同時(shí)滿足有效性、對(duì)稱性、虛擬性、可加性的公平分配方法(Lundberg & Lee, 2017)。
當(dāng)然,除了沙普利值,對(duì)黑箱模型進(jìn)行可解釋性分析的方法還有很多,如置換特征重要性,即通過比較置換某列特征前后模型預(yù)測(cè)誤差的變化來衡量該特征的重要程度(Breiman, 2001b);再如部分依賴圖,即通過對(duì)一個(gè)特征反復(fù)修改,建構(gòu)出本不存在的事實(shí)狀態(tài)并再次預(yù)測(cè),比較修改前和修改后因變量預(yù)測(cè)結(jié)果的差異(Zhao & Trevor, 2021);抑或使用可解釋的代理模型來模擬原始的黑箱模型(Ribeiro et al., 2016)。這些方法的創(chuàng)立和成熟為重新平衡預(yù)測(cè)的準(zhǔn)確性與可理解性提供了可能,為計(jì)算扎根奠定了堅(jiān)實(shí)的方法基礎(chǔ)。
四、計(jì)算扎根的實(shí)操和標(biāo)準(zhǔn):理論生產(chǎn)示例
(一)研究問題與數(shù)據(jù)
我們以“主觀幸福感”為例展示計(jì)算扎根如何助力于幸福感理論的啟發(fā)和澄清。本案例使用的數(shù)據(jù)為中國(guó)綜合社會(huì)調(diào)查(CGSS)2017年數(shù)據(jù),共包含樣本12582個(gè)、變量783個(gè),為幸福感的計(jì)算扎根分析提供了相對(duì)全面可靠的數(shù)據(jù)依據(jù)。本研究的被預(yù)測(cè)變量為“總的來說,您覺得生活是否幸福——非常不幸福、比較不幸福、說不上幸福不幸福、比較幸福、非常幸福”,預(yù)測(cè)變量為問卷中除被預(yù)測(cè)變量以外的其他所有變量。
(二)研究方法與步驟
第一步,數(shù)據(jù)預(yù)處理。首先,二分類的Y有助于提高算法預(yù)測(cè)的準(zhǔn)確度,我們將“非常不幸福、比較不幸福、說不上幸福不幸福”記為0,即非幸福樣本;將“比較幸福和非常幸福”的填答者記為1,即幸福樣本。其次,我們將類別變量轉(zhuǎn)化為虛擬變量。再次,我們刪去缺失值大于30%的變量。最后,由于1類樣本的明顯數(shù)量高于0類樣本的數(shù)量,數(shù)據(jù)不平衡可能帶來算法偏差,我們采用Bootstrap采樣對(duì)少數(shù)樣本進(jìn)行過采樣補(bǔ)全,保證兩類別的重新平衡。
第二步,模型訓(xùn)練。使用梯度提升算法XGboost訓(xùn)練預(yù)測(cè)模型,參數(shù)為1000個(gè)子決策樹和其他默認(rèn)參數(shù)。經(jīng)70%的訓(xùn)練集迭代收斂后,余下30%的測(cè)試集顯示,模型準(zhǔn)確率為0.92,召回率為 0.86,F(xiàn)1分?jǐn)?shù)為0.92,模型整體表現(xiàn)良好。
第三步,模型歸因。主要采用沙普利值的SHAP模型全局可解釋性方法進(jìn)行可解釋性分析,揭示影響預(yù)測(cè)的最重要因素和影響的方式。具體來說,針對(duì)每一個(gè)個(gè)案的每一個(gè)自變量X,我們都為其計(jì)算了一個(gè)沙普利值(SHAP value)。該指標(biāo)的意義是:對(duì)于該個(gè)案,加入這個(gè)X會(huì)比沒有加入時(shí)對(duì)預(yù)測(cè)結(jié)果帶來多少平均邊際貢獻(xiàn)。該值為正,則意味著該X的加入會(huì)導(dǎo)致幸福感的增加,該值為負(fù),意味著該X的加入會(huì)導(dǎo)致幸福感的減少。
(三)研究主要發(fā)現(xiàn)
圖3a展示了歸因算法提取的對(duì)預(yù)測(cè)幸福貢獻(xiàn)最大的前20個(gè)變量,衡量指標(biāo)為所有個(gè)案在各個(gè)X上的沙普利值絕對(duì)值的平均值,也即變量X的平均邊際貢獻(xiàn)。圖3b通過散點(diǎn)圖的形式展示了不同預(yù)測(cè)變量影響的具體細(xì)節(jié)。圖中的每一個(gè)點(diǎn)代表一個(gè)真實(shí)的樣本;對(duì)于每一行來說,顏色代表該行變量特征值X的大小,X越大,點(diǎn)的顏色越黑;橫軸為SHAP值大小;相同SHAP值的點(diǎn)越多,“蜂窩”的截面積就越大,看起來就會(huì)越粗。總的來說,該圖能反映出變量間作用的方式和大小,也能反映個(gè)案的分布狀況。以公平感為例,散點(diǎn)圖顯示,公平感越高的個(gè)案(黑色點(diǎn))往往集中在橫軸的右側(cè),即SHAP值為正,幸福感增加;公平感較低的個(gè)案(灰色點(diǎn))往往集中在橫軸左側(cè),即SHAP值為負(fù),幸福感減少。這意味著公平感對(duì)幸福的影響方式為典型的正向影響。
圖3的分析結(jié)果顯示,問卷的所有變量中,對(duì)幸福感預(yù)測(cè)最大的特征是公平感,SHAP值約為1.4;其次是健康程度。為便于歸納,我們按照變量含義的相似性將幸福感最主要的影響維度歸納為五個(gè)方面:(1)主觀認(rèn)知:公平感、信任感;(2)主客觀地位:自我階層定位、10年后自我階層預(yù)期、當(dāng)?shù)丶彝ルA層定位、自評(píng)社會(huì)經(jīng)濟(jì)地位、住房面積;(3)人口學(xué)和健康因素:健康程度、出生年、健康影響;(4)婚姻家庭:配偶同住、配偶工作小時(shí)、配偶年收入、夫妻應(yīng)分擔(dān)家務(wù);(5)生活方式:休息放松、看電視、聽音樂、每周工作時(shí)間。理論上,我們可以針對(duì)所有范疇進(jìn)行層層歸納,抽象出更高層次的概念和關(guān)于幸福感的總體理論模型;也可以針對(duì)以往研究未曾關(guān)注的某一變量或某一具體維度作更深層次的挖掘和比較,探尋共同因素和共變規(guī)律,歸納出微觀層面的理論假說。考慮到以上變量和維度涉及多學(xué)科領(lǐng)域,在以往的理論和實(shí)證研究中都或多或少的被關(guān)注討論(劉軍強(qiáng)等,2012;丘海雄、李敢,2012;Diener et al., 2018),本著預(yù)測(cè)力優(yōu)先的原則,我們僅選擇一個(gè)以往研究未曾關(guān)注過的,且預(yù)測(cè)力排在前十的變量“配偶每周工作小時(shí)”進(jìn)行展示。
![]()
1.幸福感的新發(fā)現(xiàn):尋找預(yù)測(cè)力強(qiáng)的新變量
從扎根結(jié)果生成理論假說的詳細(xì)過程可以由以下幾個(gè)步驟組成:(1)生成潛在假說的經(jīng)驗(yàn)命題;(2)虛假相關(guān)的排除和因果關(guān)系的確立;(3)相關(guān)范疇的歸納與概念提煉;(4)與既有理論的對(duì)話和邏輯推導(dǎo);(5)總結(jié)理論命題并使用其他數(shù)據(jù)方法進(jìn)行再驗(yàn)證。具體來說,第一步是直接通過變量的預(yù)測(cè)力排序,發(fā)現(xiàn)關(guān)于變量間相關(guān)關(guān)系的事實(shí)命題。但命題還沒有在現(xiàn)象和本質(zhì)之間建立起一種基于因果的理性認(rèn)識(shí),我們可以進(jìn)一步借助步驟2~5來相互補(bǔ)充,以填補(bǔ)命題到理論的鴻溝并增加理論的科學(xué)性。
我們首先提出經(jīng)驗(yàn)命題。根據(jù)圖3(a),“配偶每周工作小時(shí)”這一變量排在預(yù)測(cè)的第9位,但既往研究卻沒有充分關(guān)注。我們將兩者的關(guān)系表述為一個(gè)新的經(jīng)驗(yàn)命題:配偶工作時(shí)間會(huì)影響另一半的主觀幸福感。
第二步,我們使用雙向機(jī)器學(xué)習(xí)(Chernozhukov et al., 2018),盡可能排除可能存在的其他混淆變量,從而凈化出兩者的真實(shí)關(guān)系。以問卷中涉及的全部其他變量為混淆變量,Lasso,Random Forest,Decision Tree和XGboost四種算法都顯示兩者之間存在顯著的因果關(guān)系,限于篇幅,具體結(jié)果不再呈現(xiàn)。
第三步,為排除數(shù)據(jù)偶然性導(dǎo)致的預(yù)測(cè)力,應(yīng)尋求和X內(nèi)涵高度接近的其他變量,觀察是否具有解釋上的穩(wěn)定性和邏輯性,進(jìn)而創(chuàng)造出某個(gè)概念或某組概念來對(duì)數(shù)據(jù)間的關(guān)系模式歸納出一種統(tǒng)合理解。本例中,“配偶每周工作小時(shí)”指涉配偶在工作和家庭中的時(shí)間分配問題,我們篩選了SHAP值排在前列的,且都涉及夫妻雙方在工作和家庭中的時(shí)間分配的其他類似變量:“每周工作小時(shí)(排名19)”和“家人當(dāng)面交流時(shí)間(排名21)”。
我們通過進(jìn)一步比較以上三個(gè)變量來啟發(fā)理論直覺。圖4通過全樣本沙普利值的“宏觀特征影響圖”,展示了沙普利值在三個(gè)變量上的變化曲線。圖中,灰色的點(diǎn)代表每一個(gè)樣本,橫軸代表這個(gè)樣本的相關(guān)特征X的真實(shí)值,縱軸代表的這個(gè)樣本對(duì)應(yīng)的X的平均邊際貢獻(xiàn)也即沙普利值,黑色的線為該X在各個(gè)取值上的沙普利值均值的連線,連線的變化可以反映兩變量間關(guān)系的變化。
![]()
可以看出,不管是配偶還是自身的每周工作時(shí)間,0~40小時(shí)內(nèi)的幸福感都隨著工作時(shí)間的增加而增加。但超過40小時(shí)后,夫妻雙方的工作小時(shí)形成了一種截然相反的張力:配偶更長(zhǎng)的工作時(shí)間能明顯提高幸福感,但自身工作時(shí)間的增多則明顯降低幸福感。這意味著,配偶更多地承擔(dān)社會(huì)角色并減少待在家中的時(shí)間將有利于另一半幸福感的提高,我們將這種現(xiàn)象抽象化為“家庭距離”概念。同時(shí),過遠(yuǎn)的家庭距離,也即配偶每周工作時(shí)間超過60小時(shí)將會(huì)導(dǎo)致幸福感的提升效應(yīng)減弱。與之類似,“家人當(dāng)面交流時(shí)間”也呈現(xiàn)峰狀分布,即最好的家人當(dāng)面交流時(shí)間在每周20小時(shí)左右,低于或高于20小時(shí)對(duì)幸福感的提升效果都相對(duì)減弱。通過以上變量的比較我們發(fā)現(xiàn),提高幸福感需要配偶間保持一定的家庭距離,但這個(gè)距離不宜過低也不宜過高。這樣,我們通過變量的比較和概念抽象構(gòu)造出家庭距離影響幸福感的核心理論假說。
第四步,我們需要與既有理論展開對(duì)話,邏輯推導(dǎo)出變量間因果關(guān)系的詳細(xì)機(jī)制,包括影響路徑(中介效應(yīng))和不同群體影響的異質(zhì)性(調(diào)節(jié)效應(yīng)),形成更豐富的一系列邏輯遞進(jìn)的假說命題。我們還對(duì)男性和女性群體分別進(jìn)行計(jì)算扎根,為豐富理論提供更多證據(jù),限于篇幅,在文中不再具體展示。研究者可以根據(jù)性別、城鄉(xiāng)、職業(yè)等不同群體做更精細(xì)化的分析,以進(jìn)一步啟發(fā)和豐富理論假說。心理學(xué)的研究認(rèn)為,時(shí)間的分配、個(gè)體的獨(dú)立自主性和與他人的聯(lián)系是影響個(gè)體幸福感的重要因素(Becker, 1965; Reis et al., 2000)。而家庭距離假說則主張夫妻雙方在時(shí)間分配上保持獨(dú)立和與他人聯(lián)系的平衡狀態(tài)。低家庭距離意味著家庭成員共處的時(shí)間增多,直接擠壓另一半的獨(dú)立自主性并增加夫妻雙方產(chǎn)生矛盾的風(fēng)險(xiǎn)窗口。高家庭距離則導(dǎo)致與家人的疏離。同時(shí),我們考慮還有其他壓力伴隨著家庭距離產(chǎn)生。
既有研究顯示,出于對(duì)工作的重視和對(duì)個(gè)人責(zé)任的強(qiáng)調(diào),社會(huì)上對(duì)無業(yè)者存在嚴(yán)重的污名化現(xiàn)象。失業(yè)的人常被視為懶惰、無用或不可靠的人(Brand, 2015)。工作除了賺取收入的明顯后果外,還具有相當(dāng)重要的“非金錢成本”,包括為一天提供時(shí)間結(jié)構(gòu)、定義個(gè)人的地位和身份等(Jahoda, 1981)。這意味著工作時(shí)間較短的人或多或少也正在遭受家庭內(nèi)部的污名化以及非金錢成本的損失。一方面,有著低工作時(shí)間的配偶可能會(huì)被定義為懶惰和失敗,與其共同生活的另一半會(huì)產(chǎn)生強(qiáng)烈的被剝奪感;而工作時(shí)間較長(zhǎng)的配偶則會(huì)被定義為勤勞、可靠或成功,與其共同生活的另一半進(jìn)而會(huì)產(chǎn)生相對(duì)滿足感。
但另一方面,過遠(yuǎn)的家庭距離也不利于提高幸福感。配偶過度工作則意味著與另一半聯(lián)系的減少,而由于夫妻溝通是平衡沖突和婚姻滿意度的重要中介變量(Carroll et al., 2013),家庭距離過遠(yuǎn)往往會(huì)導(dǎo)致情感疏離和矛盾的積累。同時(shí),家庭距離過遠(yuǎn)會(huì)使得另一半不得不承擔(dān)過多的家庭責(zé)任,導(dǎo)致家庭義務(wù)分配的轉(zhuǎn)嫁與失衡(Bianchi et al., 2000)。
限于篇幅,本部分僅作為數(shù)據(jù)扎根步驟的案例演示之用,不再對(duì)產(chǎn)生的理論假說使用其他數(shù)據(jù)進(jìn)行驗(yàn)證。基于以上的計(jì)算扎根分析結(jié)果和推導(dǎo)步驟,歸納出“家庭距離理論”,也即夫妻家庭距離過遠(yuǎn)或過近都不利于提高幸福感。我們進(jìn)一步將其表達(dá)為邏輯遞進(jìn)的假說系列。
(1)配偶的家庭距離會(huì)影響個(gè)體的幸福感,但這種關(guān)系是非線性的。
(2)配偶過近的家庭距離會(huì)壓縮自身自主時(shí)間,并增加共處矛盾;適當(dāng)?shù)募彝ゾ嚯x會(huì)增加自身自主時(shí)間,并減少共處矛盾。但過遠(yuǎn)的家庭距離會(huì)減少家庭成員的交流機(jī)會(huì),帶來情感疏離和矛盾累積。
(3)配偶的家庭距離會(huì)通過影響夫妻認(rèn)同而影響幸福感。配偶過近的家庭距離會(huì)導(dǎo)致對(duì)配偶認(rèn)同感的下降,與其共同生活會(huì)產(chǎn)生被剝奪感;適當(dāng)或稍遠(yuǎn)的家庭距離會(huì)導(dǎo)致對(duì)配偶認(rèn)同感的上升,與其共同生活會(huì)產(chǎn)生相對(duì)滿足感。
(4)家庭距離影響家庭權(quán)利義務(wù)的分配,過遠(yuǎn)的家庭距離會(huì)使另一半被迫承擔(dān)更多的家庭責(zé)任,由于家庭義務(wù)分配失衡造成雙方矛盾積累,進(jìn)而降低幸福感。
2.理論的精細(xì)化發(fā)展:探究復(fù)雜關(guān)系的多元模式
前文發(fā)現(xiàn)“配偶每周工作小時(shí)”的沙普利值曲線呈現(xiàn)非線性模式,那么,這種X和Y之間的復(fù)雜關(guān)系還有哪些常見模式?我們另外選取了一些變量并繪制沙普利值宏觀特征圖(圖5)。不難發(fā)現(xiàn),我們能夠從中找到大量傳統(tǒng)回歸分析模型所無法或者無力發(fā)現(xiàn)的細(xì)節(jié),而這些細(xì)節(jié)對(duì)于進(jìn)一步拓展、補(bǔ)充、驗(yàn)證和澄清理論非常重要。圍繞SHAP值隨X取值的變化,我們可以獲得如下五種復(fù)雜關(guān)系的基本模式。
第一,“梯”狀分布。X對(duì)Y的影響在某個(gè)轉(zhuǎn)折點(diǎn)后迅速變化,之后趨于平緩,如上一個(gè)階梯一般。典型變量如“自我階層定位”“10年后自我階層預(yù)期”和“10年前自我階層定位”(圖5a-5c)。其中,“自我階層定位”的關(guān)鍵性轉(zhuǎn)折點(diǎn)是4(圖5a),也即如果自我定位在4以上,則其對(duì)幸福感的影響是正向的,且階層間相差不大(SHAP值在0.6~0.8)。而一旦定位低于4后,則迅速變成負(fù)向影響(-0.2左右),更低的階層間(1~3)影響變化也不大(保持在-0.5左右)。更有趣的是,這個(gè)轉(zhuǎn)折點(diǎn)和人們對(duì)未來預(yù)期的階層轉(zhuǎn)折點(diǎn)(圖5b)不同:后者的轉(zhuǎn)折點(diǎn)為5。這個(gè)微妙的差異意味著:人們?cè)诋?dāng)下生活中,只要認(rèn)為處在社會(huì)中層(=5),就會(huì)覺得還不錯(cuò),但人們對(duì)未來給予了更高的期望,未來處于第5階層對(duì)幸福的平均邊際貢獻(xiàn)只有0。
![]()
第二,“廠”字型分布。X對(duì)Y的影響前期陡峭上升,后期趨于平緩,以 “個(gè)人年收入”和 “配偶年收入”為典型表現(xiàn)(圖5d-5e)。這和幸福飽和理論所預(yù)期的一致:收入對(duì)幸福的正向影響服從平均邊際貢獻(xiàn)遞減。這對(duì)社會(huì)治理政策具有重要的啟發(fā)意義:扶貧應(yīng)該把有限的資金投入到最為困難的群體中去。
第三,“谷”狀分布。X對(duì)Y的影響兩端群體較高,而中間群體則比較低,形成谷狀,以“出生年”為典型表現(xiàn)(圖5f)。出生在1955年前的老人和1995年后的年輕人的幸福感明顯高于中間人群。另外,處于中間的人其年齡與幸福感沒有太大關(guān)系,沙普利值幾乎呈水平分布。這些結(jié)果與近年來研究年齡與幸福感的突破性文獻(xiàn)結(jié)果頗為符合(Blanchflower & Oswald, 2008)。
第四,“峰”狀分布。X對(duì)Y的影響中部群體較高,而兩側(cè)逐步降低形成峰狀。如上文所述的“配偶每周工作小時(shí)”(圖4a)和“家人當(dāng)面交流時(shí)間”(圖4c),這里不再贅述。
第五,“同質(zhì)—異質(zhì)”效應(yīng)。同質(zhì)效應(yīng)表現(xiàn)為對(duì)同一類人群幸福感的影響一致,組內(nèi)SHAP方差小;異質(zhì)效應(yīng)表現(xiàn)為對(duì)同一類人群幸福感的影響差異大,組內(nèi)SHAP方差大。以“每周工作小時(shí)”為例(圖4b),工作時(shí)間為0~40小時(shí)的SHAP值均在-0.5~0.5,分布較均勻,工作時(shí)間對(duì)幸福感的影響較為同質(zhì);70~80小時(shí)的SHAP值則分布在-1.5~0.1,對(duì)幸福感的影響有較大的異質(zhì)效應(yīng)。這提示,工作時(shí)間較短的人基本上更幸福,但工作時(shí)間較長(zhǎng)的人可能更幸福,也可能更不幸,可能存在其他重要交互變量一起影響幸福感。
3.穩(wěn)健性檢驗(yàn):羅生門效應(yīng)的解決
數(shù)據(jù)和算法在計(jì)算扎根中被推到一個(gè)相當(dāng)重要的位置。已有相當(dāng)一部分學(xué)者注意到算法的羅生門效應(yīng),即因參數(shù)設(shè)定不同而帶來的內(nèi)部異質(zhì)性和因算法不同而帶來的外部異質(zhì)性(Breiman, 2001a; 胡安寧等,2021)。計(jì)算扎根是否存在羅生門效應(yīng)?在多大程度上存在?本部分從以下三個(gè)方面進(jìn)行測(cè)試。
第一,數(shù)據(jù)的異質(zhì)性。穩(wěn)健的扎根結(jié)果不會(huì)隨著數(shù)據(jù)量大小和構(gòu)成變化而產(chǎn)生較大變化。我們通過Bootstrap自助抽樣,分別在經(jīng)過平衡后的原樣本中隨機(jī)抽取原始數(shù)據(jù)的50%,60%,70%,80%,90%,100%進(jìn)行計(jì)算扎根。
第二,預(yù)測(cè)算法的異質(zhì)性。穩(wěn)健的扎根結(jié)果應(yīng)該在不同預(yù)測(cè)算法下相似。我們比較了XGboost、Catboost、LightGBM、Gradient Boosting和Random Forest五種算法的計(jì)算扎根結(jié)果。
第三,算法參數(shù)的異質(zhì)性。同一算法不同的內(nèi)部參數(shù)也可能帶來不同的分析結(jié)果。我們替換了XGboost算法的內(nèi)部參數(shù),包括最大樹深度(max_depth)、正則化系數(shù)(alpha)、學(xué)習(xí)率(learning rate)、子樣本比例(subsample),等等。
在每一種條件下,我們都得到了一個(gè)包括所有特征及其SHAP絕對(duì)值均值的表格。我們對(duì)不同條件模型計(jì)算的SHAP結(jié)果計(jì)算皮爾遜相關(guān)系數(shù),具體結(jié)果如圖6所示。總的來說,這些模型的訓(xùn)練結(jié)果高度相似,兩兩模型計(jì)算的相關(guān)系數(shù)基本都在0.95以上,相關(guān)系數(shù)的顯著性都為0.000。數(shù)據(jù)的異質(zhì)性和算法參數(shù)的內(nèi)部異質(zhì)性基本不存在;預(yù)測(cè)算法存在一定程度的異質(zhì)性,但最低也達(dá)到0.88以上。我們亦根據(jù)排序計(jì)算了斯皮爾曼等級(jí)相關(guān)系數(shù),分析結(jié)果與皮爾遜系數(shù)高度相似,故在此不再報(bào)告。綜上所述,就幸福感這一案例來說,計(jì)算扎根方法具有相當(dāng)大程度的穩(wěn)健性。
![]()
(四)計(jì)算扎根的推薦技術(shù)標(biāo)準(zhǔn)
運(yùn)用于社會(huì)科學(xué)領(lǐng)域的機(jī)器學(xué)習(xí)訓(xùn)練方法一直以來并沒有較為統(tǒng)一的標(biāo)準(zhǔn)。為此,我們從Web of Science核心合集中,以“機(jī)器學(xué)習(xí)”為關(guān)鍵詞篩選出60篇社科領(lǐng)域高被引論文,歸納出訓(xùn)練模型常用的變量數(shù)量、樣本數(shù)量、模型選擇、模型評(píng)估指標(biāo)等信息,為算法模型訓(xùn)練給出經(jīng)驗(yàn)參照標(biāo)準(zhǔn)。
(1)樣本數(shù)量。從文獻(xiàn)統(tǒng)計(jì)結(jié)果看,樣本數(shù)使用的中位數(shù)為1888,2015年之后的文獻(xiàn)中位數(shù)為11196。在保證樣本可得性和代表性的基礎(chǔ)上,我們建議探索性分析的樣本數(shù)應(yīng)大于2000,探索加驗(yàn)證的分析樣本應(yīng)該更大。
(2)樣本平衡。樣本數(shù)應(yīng)根據(jù)所要預(yù)測(cè)變量的類別數(shù)和難易程度調(diào)整。特別需要注意的是,罕見類別的樣本數(shù)不能過少。對(duì)于非平衡樣本,應(yīng)通過重新采樣的方法以平衡各類樣本數(shù)量(Chen et al., 2022)。
(3)特征值數(shù)量。即用于訓(xùn)練的X變量的數(shù)量。從文獻(xiàn)統(tǒng)計(jì)結(jié)果看,最多的使用了1821個(gè)變量,中位數(shù)為22.5。更豐富的X變量會(huì)帶來更好的訓(xùn)練結(jié)果,并更利于發(fā)現(xiàn)新的潛在理論;但也要考慮某些模型可能對(duì)數(shù)據(jù)噪聲較為敏感。
(4)算法模型選擇。60篇論文中,運(yùn)用最多的算法是隨機(jī)森林(29%),其次是支持向量機(jī)(26%)。神經(jīng)網(wǎng)絡(luò)類和梯度提升類算法約占17%和15%。大部分論文都采用了不止一種算法并比較了模型的表現(xiàn)結(jié)果。因此我們建議,比較多種算法的預(yù)測(cè)性能和扎根結(jié)果,盡可能選擇最優(yōu)模型并進(jìn)行穩(wěn)健性檢驗(yàn)。
(5)模型預(yù)測(cè)效果。統(tǒng)計(jì)的文獻(xiàn)中模型準(zhǔn)確度的中位數(shù)為0.79。計(jì)算扎根的有效性以模型預(yù)測(cè)的準(zhǔn)確性為前提,考慮到既有論文的預(yù)測(cè)變量大多是二分變量,我們建議,二分變量的準(zhǔn)確率應(yīng)大于0.8,連續(xù)變量準(zhǔn)確率可以適當(dāng)降低。
五、計(jì)算扎根方法的多重價(jià)值
計(jì)算扎根對(duì)傳統(tǒng)定量研究的補(bǔ)充是多方面的。在數(shù)據(jù)層面,模型納入的指標(biāo)不再僅限于有限的幾個(gè)變量,而是盡可能地納入各類指標(biāo);在目標(biāo)層面,不再?gòu)?qiáng)調(diào)模型系數(shù)的統(tǒng)計(jì)顯著性,而是重新平衡社會(huì)預(yù)測(cè)的準(zhǔn)確性和機(jī)制的可解釋性;在觀察視野層面,不再局限于回歸系數(shù)大小和方向,而是細(xì)致挖掘變量間的非線性關(guān)系和群體異質(zhì)效應(yīng)。這些革新能夠?yàn)橛?jì)算扎根方法帶來多方面的價(jià)值。
(一)理論創(chuàng)生價(jià)值:發(fā)現(xiàn)潛在模式
相比于傳統(tǒng)數(shù)據(jù)模型,算法為導(dǎo)向的機(jī)器學(xué)習(xí)方法可以克服模型形式和變量選擇的限制,并考慮變量間各種交互關(guān)系。對(duì)自變量數(shù)量瓶頸和關(guān)系限制的打破使得我們可以獲得更完備的搜索、思考與檢驗(yàn)解釋變量的能力。這意味著只要數(shù)據(jù)本身足夠豐富,“計(jì)算扎根”就能引導(dǎo)研究者通過發(fā)現(xiàn)新的解釋變量啟發(fā)新理論假說(陳云松等,2020)。通過一次“計(jì)算扎根”,我們就能夠?qū)φ麄€(gè)調(diào)查數(shù)據(jù)的上百個(gè)指標(biāo)進(jìn)行篩選比較。
(二)理論發(fā)展價(jià)值:捕捉復(fù)雜關(guān)系
傳統(tǒng)計(jì)量方法使用數(shù)據(jù)擬合模型,容易造成關(guān)鍵信息的丟失甚至錯(cuò)誤(Varian,2014)。計(jì)算扎根方法通過超參數(shù)擬合數(shù)據(jù),只要模型能盡可能地模擬真實(shí)社會(huì)情境,就能充分捕捉變量之間的復(fù)雜關(guān)系,解放傳統(tǒng)計(jì)量模型的線性枷鎖,驗(yàn)證或者發(fā)展理論。前文的案例清晰地展示了其揭示和解釋復(fù)雜關(guān)系的能力,更提醒我們,真實(shí)社會(huì)中數(shù)據(jù)的兩兩關(guān)系遠(yuǎn)沒有我們預(yù)期得那么整齊劃一:沙普利曲線幾乎沒有接近直線的分布。
(三)學(xué)科范式價(jià)值:第二種想象力
霍夫曼和鄧肯沃茲等在2021年的《自然》雜志上發(fā)文呼吁在計(jì)算社會(huì)科學(xué)中整合解釋與預(yù)測(cè)(Hofman et al., 2021)。他們指出,整合解釋性和預(yù)測(cè)性思維的研究活動(dòng)具有很大價(jià)值,但目前的研究屈指可數(shù),該領(lǐng)域理應(yīng)得到比迄今為止更多的關(guān)注。本方法正是整合社會(huì)科學(xué)解釋性和預(yù)測(cè)性的全新嘗試。對(duì)于定量研究范式而言,掌握計(jì)算機(jī)扎根方法不啻獲得了米爾斯所提出的社會(huì)學(xué)想象力之外的補(bǔ)充。米爾斯的社會(huì)學(xué)想象力是基于個(gè)人體驗(yàn)的視角提升的思維(米爾斯,2017),而計(jì)算扎根則提供了一種基于數(shù)據(jù)的以算法模型來直接助產(chǎn)理論的思維能力。第二種社會(huì)學(xué)想象力蘊(yùn)含了驅(qū)動(dòng)理論新發(fā)現(xiàn)和放飛思維的磅礴力量。
(四)知識(shí)體系價(jià)值:自主知識(shí)生產(chǎn)
計(jì)算扎根方法天然具有一種更適合系統(tǒng)化知識(shí)生產(chǎn)的能力:有更多的新理論假說可以從數(shù)據(jù)中大量得到啟發(fā)、更細(xì)微的機(jī)制和關(guān)系特征可以通過詳實(shí)的預(yù)測(cè)力貢獻(xiàn)分析被同時(shí)發(fā)現(xiàn),以進(jìn)行理論拓展和澄清。這對(duì)處于知識(shí)生產(chǎn)后發(fā)進(jìn)程中的中國(guó)社會(huì)學(xué)來說尤其顯得重要。要建立自主的知識(shí)體系,僅靠對(duì)具有先發(fā)優(yōu)勢(shì)的西方社會(huì)學(xué)的概念和理論進(jìn)行異地驗(yàn)證是無法完成的。真正的自主知識(shí)體系需要一種足以對(duì)大規(guī)模社會(huì)、大時(shí)空跨度、高通量信息的中國(guó)數(shù)據(jù)進(jìn)行復(fù)雜關(guān)系發(fā)現(xiàn)和理論提煉的工具。計(jì)算扎根無疑是這樣的工具中最為重要的部件之一。
(五)社會(huì)治理價(jià)值:尋找干預(yù)因素
社會(huì)學(xué)是一門經(jīng)世致用之學(xué),社會(huì)公眾和治理主體往往不會(huì)滿足于概念提煉、過程解讀和統(tǒng)計(jì)判斷。這意味著定量社會(huì)學(xué)的學(xué)科使命不能僅局限于驗(yàn)證理論假說,還要掌握一種為社會(huì)現(xiàn)象找出關(guān)鍵干預(yù)因素的能力,才能真正為服務(wù)國(guó)之大者建言獻(xiàn)策。計(jì)算扎根立足于社會(huì)預(yù)測(cè)的問題導(dǎo)向,通過不斷模擬本身不存在的社會(huì)現(xiàn)象,對(duì)于為社會(huì)治理找出關(guān)鍵干預(yù)變量具有重要實(shí)用價(jià)值。
六、結(jié)語
定量研究作為社會(huì)學(xué)領(lǐng)域的重要研究范式,深深根植于實(shí)證主義方法論傳統(tǒng),并形成了假設(shè)檢驗(yàn)的單一路徑依賴。我們強(qiáng)調(diào),定量研究對(duì)于理論驗(yàn)證的過分強(qiáng)調(diào)很可能忽視了數(shù)據(jù)本身蘊(yùn)含的巨大理論能量。基于此,本文提出了一種基于量化數(shù)據(jù)進(jìn)行理論生產(chǎn)的方法:計(jì)算扎根。借助機(jī)器學(xué)習(xí)的預(yù)測(cè)能力和歸因算法的可解釋性,計(jì)算扎根恰恰能夠在挖掘潛在關(guān)系模式、捕捉非線性關(guān)系等方面為定量研究的理論發(fā)展打開了一扇大門,打通從經(jīng)驗(yàn)觀察到理論生產(chǎn)的逆向路徑。
回顧定量方法的發(fā)展歷史,四十多年前,社會(huì)科學(xué)曾出現(xiàn)過基于數(shù)據(jù)資料和模型探索變量之間關(guān)系的學(xué)術(shù)風(fēng)潮,但并沒有形成成熟的研究范式。究其緣由,一是大量變量的納入分析難以滿足假設(shè)并導(dǎo)致多重共線性等問題;二是通過刪除或添加單一指標(biāo)篩選變量的方法僅僅是局部而非全局最優(yōu)解,控制變量的變化會(huì)給結(jié)果帶來較大擾動(dòng);三是預(yù)設(shè)的函數(shù)模式難以窮盡變量間復(fù)雜的關(guān)系作用模式。四十多年后,我們?cè)僖淮魏粲醵垦芯垦a(bǔ)足其生產(chǎn)理論的缺角,吸取歷史的教訓(xùn),正視數(shù)據(jù)中蘊(yùn)含的巨大理論能量。計(jì)算扎根方法的優(yōu)勢(shì)在于:第一,算法模型可打破模型預(yù)制的假設(shè)和關(guān)系模式,充分納入大量變量并考慮變量間復(fù)雜的關(guān)系作用模式;第二,可解釋性機(jī)器學(xué)習(xí)可憑借算法算力,在充分考慮變量各種排列組合的情況下得出全局最優(yōu)解;第三,基于預(yù)測(cè)力的變量重要性排序比簡(jiǎn)單的變量相關(guān)性在分析邏輯上更能接近因果關(guān)系的范疇;第四,變量間各種非線性關(guān)系模式的挖掘和可視化呈現(xiàn)為引導(dǎo)直覺提供了更堅(jiān)實(shí)細(xì)致的信息。
在為算法和數(shù)據(jù)可以直接助產(chǎn)理論而歡呼的同時(shí),我們也提醒讀者,本文并非否定傳統(tǒng)的定量方法及其價(jià)值。任何一種方法都有前提、假設(shè)和局限,更有適用的特定的研究情境。它們都是定量社會(huì)學(xué)方法中的重要組成部分。我們強(qiáng)調(diào),計(jì)算扎根不是對(duì)理論的拒斥,而是跳脫出已有理論和常識(shí)的限制,為提出新假說創(chuàng)造機(jī)會(huì);計(jì)算扎根也并不排斥驗(yàn)證理論,而是同時(shí)強(qiáng)調(diào)將從數(shù)據(jù)中產(chǎn)生理論作為定量工作者檢驗(yàn)理論之前的一個(gè)科學(xué)環(huán)節(jié)。
我們充分意識(shí)到,新的分析方法往往也會(huì)帶來新的研究問題。計(jì)算扎根面臨的挑戰(zhàn)并不比它能帶來的知識(shí)生產(chǎn)價(jià)值少。這些挑戰(zhàn)包括:第一,數(shù)據(jù)維度的限制。就像遺漏變量永遠(yuǎn)不可能窮盡一樣,盡管計(jì)算扎根嘗試拓寬分析的數(shù)據(jù)維度,但這也無異于“戴著數(shù)據(jù)可得性的鐐銬跳舞”。第二,社會(huì)預(yù)測(cè)的限制。對(duì)社會(huì)復(fù)雜現(xiàn)象的可預(yù)測(cè)性一直有懷疑的聲音(Taleb, 2010)。由于數(shù)據(jù)或模型的不足以及復(fù)雜社會(huì)系統(tǒng)固有的不可預(yù)測(cè)性,計(jì)算扎根方法并不適用于所有研究場(chǎng)景。第三,計(jì)算扎根的異質(zhì)性。研究者知識(shí)生產(chǎn)的位置從研究的前端轉(zhuǎn)移到后端,數(shù)據(jù)和模型被推到一個(gè)相當(dāng)重要的位置,并可能導(dǎo)致潛在偏差。第四,相關(guān)性并非因果性。可預(yù)測(cè)并不等同于因果,對(duì)于因果關(guān)系和更深入的影響機(jī)制鏈條的挖掘仍需要進(jìn)一步探索。
任何一種方法的成熟必然都要經(jīng)歷漫長(zhǎng)的過程,要不斷被實(shí)踐和科學(xué)共同體所檢驗(yàn)和修正。計(jì)算扎根方法未來需要探索和完善的有很多,如計(jì)算扎根方法的推薦標(biāo)準(zhǔn)和規(guī)范仍需進(jìn)一步檢驗(yàn)提升,計(jì)算扎根的適用場(chǎng)景和信效度尚需探索,計(jì)算扎根與統(tǒng)計(jì)推斷和因果推斷方法的對(duì)話有待推進(jìn)……同時(shí),本文提出的計(jì)算扎根方法主要基于結(jié)構(gòu)化數(shù)據(jù)的分析。伴隨著形式多樣的大數(shù)據(jù)和人工智能的持續(xù)進(jìn)步,計(jì)算扎根方法能否運(yùn)用、如何運(yùn)用于海量非結(jié)構(gòu)化數(shù)據(jù)和更復(fù)雜的深度學(xué)習(xí)算法,也值得我們持續(xù)思考。作為混合了定性范式思維和邏輯的定量研究新范式,計(jì)算扎根需要學(xué)界更多的重視包容、推廣實(shí)踐與研究反思。我們呼吁在實(shí)證層面進(jìn)行更多的檢驗(yàn)和開拓,更為積極地把計(jì)算扎根這一方法在當(dāng)前社會(huì)學(xué)研究中加以探索應(yīng)用。只有當(dāng)計(jì)算扎根方法能夠?qū)崒?shí)在在地為當(dāng)代社會(huì)學(xué)生成更多概念和理論,為中國(guó)社會(huì)學(xué)生成更多的自主知識(shí),我們才會(huì)對(duì)計(jì)算扎根這一方法的力量和局限有更為深入的認(rèn)識(shí)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.