一個令人不安的數字
最近,《自然》雜志發表了一組重磅論文,揭示了一個科學界不愿面對卻不得不正視的事實:在對3900篇社會科學論文進行重復驗證后,只有大約一半的研究結果能夠被成功復制。
![]()
這項名為SCORE的大型項目由美國國防部高級研究計劃局資助,歷時整整7年。865名研究人員對發表在62種期刊上的論文進行了系統性檢驗,涵蓋經濟學、教育學、心理學和社會學等多個領域。
這個數字聽起來刺眼,卻并非首次出現。斯坦福大學知名學者John Ioannidis表示,結果"并不令人意外"——此前的小規模研究早已發出過類似警告。
那么,問題究竟出在哪里?
三重檢驗:科學研究的"體檢報告"
SCORE團隊設計了三道關卡來檢驗論文的可靠性,就像給科學研究做了一次全面體檢。
第一關:可復現性
研究人員嘗試用原始數據和相同方法重新分析結果。在600篇論文中,僅有145篇提供了足夠詳細的操作說明,而在這145篇中,只有53%能夠完全復現原始發現。
![]()
開放科學中心的研究負責人Tim Errington指出,許多失敗并非源于學術造假,而是因為作者沒有充分公開數據細節,或者外部研究者不得不"猜測"原始的操作步驟。
第二關:穩健性
如果換一種合理的統計方法分析同一批數據,結論是否依然成立?在對100篇論文的測試中,約四分之三通過了這一關。但有2%的論文在新分析下得出了完全相反的結論——這個比例雖小,卻足以讓人警醒。
![]()
第三關:可復制性
這是最嚴格的一關:從頭開始,重新做一次實驗。在164項研究中,僅有49%在統計學意義上實現了成功復制。
![]()
透明度是解藥
面對這一困境,Errington給出了一個關鍵詞:透明。
許多研究之所以無法被驗證,不是因為結論本身錯誤,而是因為發表時省略了關鍵細節。數據共享不充分、方法描述不完整、代碼不公開——這些看似技術層面的疏漏,實際上構成了科學交流的巨大障礙。
更令人欣慰的是,技術正在提供新的解決方案。"多元宇宙分析"等自動化工具允許研究者用多種合理方法檢驗同一數據,在論文發表前就能發現潛在的方法敏感性。
人工智能能預測可靠的研究嗎?
SCORE項目的另一個雄心是開發自動化評估工具,為每篇論文打一個"可信度分數"。
為此,他們先測試了人類的判斷能力。通過在線市場和結構化群聊兩種方式,研究者預測論文可復制性的最高準確率達到76%至78%。
這為AI工具設立了基準線。在去年10月的首輪競賽中,10支使用大語言模型的隊伍表現甚至不如隨機猜測。但在剛剛結束的第二輪競賽中,最佳模型的準確率已提升至68.5%。
Errington對此保持審慎樂觀:AI輔助科學評估的愿景值得期待,但距離實用化仍有相當長的路要走。
危機還是轉機?
"這并不意味著科學研究的質量低下。"Errington的這句話值得深思。
可重復性危機暴露的不僅是問題,更是改進的契機。當一半發現無法被驗證時,另一半經受住考驗的研究反而更加值得信賴。這種篩選機制,長期來看有利于科學知識的提純。
對于普通讀者而言,這項研究也是一個提醒:面對各種"研究表明",保持適度的懷疑精神并非否定科學,而是尊重科學的體現。真正的科學精神,恰恰包含了對自身局限的清醒認知。
對于研究者來說,開放數據、透明方法、預注冊研究設計——這些正在興起的實踐,或許將成為未來學術發表的新常態。
7年、3900篇論文、865名研究者——SCORE項目的規模本身就說明了科學界直面問題的決心。
科學的自我糾錯能力,或許正是它最可靠的特征。當一個問題被清晰地界定,解決的路徑往往也隨之浮現。
在這個信息爆炸的時代,我們比任何時候都更需要可靠的知識。而可靠性的建立,始于承認脆弱性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.