![]()
科技部近日聯合相關部門,重點關注自然科學領域內中國學者在國際期刊上的撤稿論文,針對虛構偽造數據等學術不端行為,部署開展專項整治行動,引發學界關注。
數據是科學研究的基礎,其真實性與規范性共同構成學術成果可信度的核心。在社會科學研究中,數據科學的嚴謹要求與自然科學具有同等重要性。當前該領域存在虛構偽造數據等不當使用數據行為,具體表現為“P值操縱”“篡改或捏造調查數據”“選擇性報告結果”等多種形式。這類行為不僅違背科學研究的基本準則,也嚴重破壞公平競爭的科研環境,對學科發展和學術生態造成深遠負面影響。
為深入剖析社會科學研究中數據操縱的表現、成因及后果,探尋治理之策,本報記者面向相關學者開展問卷調查,最終收回236份有效問卷。數據顯示,30.5%的受訪者認為,所在學科中數據操縱現象較為普遍或非常普遍,表明該問題亟須引起重視。
數據操縱存在多種形式
問卷調查中,分別有52.54%、33.47%、28.39%、21.61%的受訪者表示,曾目睹或聽說過,身邊其他研究者曾有過選擇性報告調查數據、捏造調查數據、篡改調查數據、P值操縱等四類數據操縱行為。這表明,相關問題在當前社會科學研究中并非個例。
具體而言,“P值操縱”指在定量分析中,通過多次檢驗、選擇性報告等方式讓不顯著的結果“變顯著”。“選擇性報告”則指僅呈現與假設一致的回歸結果,而弱化或省略不顯著部分。總體上看,數據操縱在不同學科、不同類型的研究中,普遍程度和表現形式存在差異。調查中,更多學者傾向認為,定量研究更容易出現數據操縱。“經濟學在各門社會科學中最為定量化,專業期刊也更偏愛量化研究論文,數據操縱行為出現的概率可能比其他社會科學高。”首都經濟貿易大學教授安樹偉表示。
長期從事應用經濟學研究的王偉(化名)也觀察到,社會科學研究更依賴個人判斷,這讓數據處理環節容易出現操作不規范甚至人為操縱的情況。他將定量研究中常見的數據操縱行為歸納為兩種典型:一是在缺乏理論支持的情況下反復更換變量、調整模型或篩選樣本,以獲得顯著結果。二是選擇性報告,即僅呈現與假設一致的回歸結果,而弱顯著或不顯著的部分被有意弱化或省略。
依賴質性文本數據開展的定性研究,是否也可能會出現數據不當使用問題?在中國農業大學人文與發展學院教授葉敬忠看來,定性研究不是為了證明特定事實,而是為了建構理論,只有從實踐獲取鮮活素材,才能做出好的研究。但依靠偽造數據、編造故事無法真正促進理論的提煉,因而數據操縱在這個領域還是鮮有發生。不過,山東大學人文社科期刊社社長魏建注意到,AI的普及使偽造案例和訪談對話變得更加簡單,客觀上對定性研究中的數據可靠性提出了挑戰。同樣有學者反映,在學生的課堂作業中,有時會發現疑似使用AI生成訪談記錄的情況。
盡管問題值得警惕,但廈門大學中國能源政策研究院院長林伯強也強調,隨著學術成果發表管理的日趨規范,近年來學術不端現象已經顯著改善,數據操縱如今整體上仍屬少數現象。
數據操縱源于多種因素
數據操縱對學科發展和學術生態具有多重負面影響。從問卷數據來看,約八成的受訪者認為,數據操縱會降低學術成果可靠性和學科公信力。“經過數據操縱生成的虛假結論,會導致后續研究在錯誤的基礎上繼續推進,從而削弱學術研究的科學性,也有可能對決策者產生誤導。”安樹偉說。
此外,數據操縱如若形成風氣,將會對學術生態和科研環境造成嚴重破壞,致使“劣幣驅逐良幣”。在王偉看來,部分研究者在量化考核壓力的驅使下,通過數據操縱,可能會形成為追求快速發表而漠視結論可靠性的不良傾向,這會使真正投入時間、誠信開展研究的學者在科研競爭中處于不利地位,嚴重惡化學術生態。
究竟是哪些因素造成了社會科學研究中數據操縱現象的產生?
當前,社會科學研究的收集和處理數據手段不斷更新,數據來源日趨多樣化,主要包括:國家統計局和有關政策部門公布的宏觀和產業數據、研究機構和企業發布的調研數據以及學者自己收集的田野數據。其中,第一類官方數據最為可靠。第三類數據獲取方式較為靈活,但也是在研究中最易招致質疑的數據。受訪學者普遍認為,大部分學者并不會主觀捏造或篡改數據,但不排除學者個人調研獲取的數據具有偏差性。比如,因受調研資金約束,所獲數據廣度和深度可能不足,數據來源復雜度導致可靠性需驗證。這對學者而言,或是一種兩難選擇:國家公布數據可靠但宏觀性強,研究微觀經濟問題時面臨數據不足的困難;依賴田野調查所獲微觀數據可能偏離真實。
中國社會科學院經濟研究所研究員劉霞輝提出,數據處理環節是問題的多發區。社會科學難以進行封閉實驗,所得數據易受到波動和干擾,導致統計結果不盡如人意,難以得出有效結論。因此,學者會采用特定的統計方法來補全數據、剔除極端值、處理內生性問題等等。然而,有些統計方法缺乏公認的使用標準,不同學者處理相同數據時,得出的結論可能存在差異,這會引起人們的質疑。
在社會科學定量研究中,如果初始研究發現不符合預期假設,研究者仍可以通過更換代理變量、重新進行變量操作化等技術手段繼續改進研究。然而,也正是因為研究過程的靈活性,必要的數據處理和有意的數據操縱,二者邊界并非涇渭分明。對此,王偉認為,只要每一步處理都可復現、有明確理由,并能在附錄中公開解釋,就屬于正當的數據處理;但若為了顯著性或迎合預期而反復試驗模型、刪除不符數據,則違背了學術規范,滑向了數據操縱的一端。
調查結果表明,“降低科研成本,縮短寫作周期,緩解發表壓力”是研究者實施數據操縱的首要原因。在魏建看來,由于發表需求和供給之間存在嚴重失衡,為達到既定期限內的考核發表要求,難免會有學者走上歧途。
探索多方協同治理之路
治理數據操縱現象,需要學者、期刊、高校和主管部門多方主體共同努力。
對于學者來說,學術道德素養與科研經驗是避免數據操縱行為的關鍵內在因素。在東南大學社會學系教授程誠看來,每位研究者都會遭遇外部壓力,但一個具備良好學術道德素養的研究者,會通過反思研究設計不斷精進,甚至在必要時果斷放棄選題,而非萌生操縱數據的念頭。據劉霞輝的觀察,由于欠缺科研經驗,學生階段的論文撰寫更容易出現相關的數據問題,這需要導師的嚴格把關和及時糾正。
劉霞輝還特別從數據處理角度提出建議。他以奇異值舉例說明,這類研究數據中的個別特殊值,能對統計結果造成顯著影響。由于難以從中提取有效信息,許多學者常將其簡單作刪除處理。“實際上,奇異值背后可能隱藏著季節、地域甚至文化因素的影響。雖然從統計學角度將其剔除有合理性,但如果學者能從中挖掘出有價值的研究發現,無疑將是更好的處理方式。”劉霞輝強調。林伯強有同樣的看法:“初步結論不符合合理預期和邏輯,就要深挖原因和考慮調整研究角度。”
近年來,越來越多的社會科學專業期刊開始要求作者在提交論文時,同步提供數據和程序代碼等相關文件。多數受訪學者認為,通過提升可復現性,不僅可以使研究者更加謹慎地處理數據,有效抑制數據操縱行為的發生,還能方便初學者進行復現研究,更快地掌握相關知識,降低專業門檻。
目前,采取上述措施的期刊還主要是經濟學領域的專業期刊。魏建表示,受制于經濟和時間成本,很多期刊暫時還難以執行這項措施,主要依靠審稿人的豐富經驗來識別潛在的數據問題。“如果匿名審稿制度得到有效推行,且審稿人忠實履行職責,在很大程度上能緩解或杜絕數據操縱問題。”劉霞輝補充道。
對于高校以及主管部門而言,如果能夠在規范科研評價體系方面取得更大進展,破除“唯論文”導向,將有助于消除研究者實施數據操縱的主觀動機。也有學者提出,進一步完善調查數據共享平臺,加強統一數據庫建設,讓研究者更便捷地使用更多公開、高質量的研究數據,同樣是抑制數據操縱現象的可行之策。
社會科學研究的生命力,在于為社會問題的解決提供植根于真實世界的真知灼見。這必然要求其建立在真實可靠的數據與嚴謹客觀的過程之上。整治數據操縱,非一日之功,亦非一方之責。唯有研究者堅守底線、學術期刊筑牢堤壩、管理機構革新土壤,方能共建清朗學術生態,保障中國社會科學在追求真理的道路上行穩致遠,煥發持久生機。
中國社會科學報記者 張清俐 實習生 劉開泰
來源:中國社會科學報
新媒體編輯:張雨楠
如需交流可聯系我們
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.