![]()
圖源:Unsplash / Lush Kooch
撰文|張天祁
溫州醫科大學一名大四學生,最近引起了不小的關注。
他的 Google Scholar 個人主頁顯示,從 2024 年 7 月至今的一年多時間里,他已累計發表學術論文 48 篇。如果將時間進一步壓縮到 2025 年,這一數字就顯得更為集中。一年之內發表論文超過 40 篇,平均下來,幾乎不到 10 天就有一篇新作上線。
初步梳理發現,其中僅有 4 篇未被 SCI 收錄,其余 44 篇均被 SCI 期刊收錄。這些論文并非主要集中在低分區期刊。按中科院期刊分區口徑估算,約有 10 篇發表在一區期刊,20 篇左右發表于二區期刊。
需要說明的是,這 48 篇成果不全是研究論文,其中包含了致編輯的通信(letter)、綜述性文章以及觀點類短文。但即便不計這些文章,他的發表量和發表速率也足夠驚人,特別是對本科生來說。
從作者結構看,這位學生本人多以第一作者身份出現,并兼任通訊作者。因為一作數量極多,外界有人懷疑他是靠家庭或者導師提攜的學二代。但單看他的論文署名情況,“學界大佬”掛名通訊的情況并不多見,甚至連導師作為通訊作者署名的比例也并不高。實際上,論文的合作者更多來自同一所學校、和他年紀相仿的本科生。
在發表渠道上,這些論文多發表于開放獲取(Open Access)期刊。這類期刊通常需要作者在論文接收后支付一定數額的版面費。相關費用從何而來尚不清楚,不過從學校現行制度來看,僅通過校內渠道,他就可能獲得至少兩類與論文直接相關的經費支持。
據溫州醫科大學官方通知,本專科學生在創新創業方面取得成果的學生、指導教師和學院予以獎勵。獎勵的成果包括學生為第一作者公開發表的論文(二級及以上)、學生為第一發明人獲得的專利、學生參加各級“挑戰杯”競賽所獲獎項等。
2021年公布的《溫州醫科大學大學生創新創業工作獎勵辦法》顯示,溫州醫科大學大學生創新創業資金,每年投入預算500萬元。本專科學生作為第一作者發表SCI、SSCI、A&HCI收錄刊物獎勵4000元。對學科競賽獲獎的學生集體,也有根據競賽級別和獲獎名次的獎勵[1]。
在校內,各類科技創新項目幾乎貫穿了這位學生的整個大學階段。僅在院級公眾號上,就能搜索到該同學申報2024年度溫州醫科大學本專科學生科研課題、年度大學生創新創業重點孵化團隊。2024年浙江省大學生科技創新活動計劃(新苗人才計劃),以及2025年國家級大學生創新創業訓練計劃項目、2025年第十屆全國大學生生命科學競賽的記錄。這些科技創新項目也有各自的資助。
這位學生發表論文的合作者,很多就是各個科技創新項目的小組成員。同一批項目中,多名學生都以不同方式參與論文產出,陸續獲得了多篇論文署名,甚至共同第一作者。只是由于其個人發表數量更為集中,相關關注更多聚焦于他一人。
這些文章在研究對象上,涉及腫瘤、免疫、神經系統疾病、醫學影像、藥物和醫療器械評價等多個領域,但在具體做法上卻高度接近。多數論文采用的是孟德爾隨機化(Mendelian Randomization,MR)、組學、生物信息學篩選或網絡毒理學方法,也有一部分直接基于 GBD 等公共數據庫撰寫流行病學研究。這些研究幾乎都建立在現成數據之上,并不需要進入實驗室開展實驗。
這種方法上的集中,在論文標題中就能直接看出來。在他 Google Scholar 主頁顯示的 48 篇文章中,至少有 11 篇在標題中明確標注了“孟德爾隨機化”。即便不計算那些未寫入標題、但在正文中同樣以孟德爾隨機化作為主要分析工具的論文,相關方法在其研究中所占的比重也已經十分突出。
很多文章都是統計A成分與B疾病之間的關系。例如,圍繞 PFAS(全氟和多氟烷基物質)與癌癥的關系,他在不同時間點陸續發表了多篇論文。先是 PFAS 與肝癌,隨后是 PFAS 與乳腺癌,又有將 PFAS 放入多種癌癥框架中同時討論的研究。同樣的數據庫,相似的分析邏輯,只需更換疾病的靶點數據,就能像拼積木一樣拼湊出新的成果。
部分論文的內容還有復用的嫌疑。他在2025年初發表了一篇關于Busulfan導致無精癥的機制論文,而在同年年末的全國大學生生命科學競賽中,類似的內容又以《多組學整合揭示Busulfan誘導無精癥的關鍵靶點與分子機制》為題出現。
很難判斷這些論文是否有論文工廠的助力,但如果幾位本科生已經能夠搭建一條論文生產流水線,這或許并非孤立現象。與以往依賴家庭背景或導師支持的學術不端事件相比,它同樣需要被認真對待。
01 AI時代,制造流水線論文只要兩小時?
類似溫州醫科大學這位學生,利用公共數據庫和特定的方法,越過做實驗的步驟大量快速發表論文,現在已經被視為一條論文發表捷徑。
一個難以忽視的現象是,低質量、重復性論文的快速增長,在時間上幾乎與AI生成能力的躍升同步發生。這種重合并不必然意味著因果關系,但已經足以引起警覺。
研究者們也注意到了這一點。來自英國薩里大學和澳大利亞昆士蘭科技大學 的兩位研究者,近期專門對 AI 工具與這類快速生產論文之間的關系展開了調查。研究者對 2021 年至 2025 年(截至 7 月底)已發表的相關研究進行了系統性梳理,試圖回答:圍繞同一套數據,學術界到底出現了多少“換題不換數據”的重復研究?
梳理對象聚焦于使用美國疾病控制與預防中心(CDC)國家健康與營養調查(NHANES)數據庫的論文。在統計時,研究者將“重復”界定為這樣一類研究:研究對象來自同一國家、同一人群,討論的仍是相同的暴露因素與相同的健康后果,只是在題目、表述或分析方法上作出細微調整。
在對文獻進行系統檢索和匹配后,研究者共識別出 411 篇成對的重復“暴露—后果”論文。最常見的情形是:同一個暴露—后果組合,被發表成兩篇論文,這一情況涉及 190 篇文章。某些主題的密集程度尤其高,例如“氧化平衡得分與慢性腎臟病之間的關聯”,在一年之內就被發表了 6 次。
從時間維度看,這類重復發表幾乎是一個近幾年才迅速放大的現象。在 2023 年之前,圍繞 NHANES 的重復論文仍然十分有限:2021 年僅 3 篇,2022 年為 12 篇。但到了 2024 年,這一數字驟然攀升至 198 篇,短短兩年間增長了 17 倍。
更進一步,研究者們基于已發表的論文,使用大模型直接生產了三篇看似全新的稿件。求新文本在句法結構上必須與原文不同,以降低被剽竊檢測工具識別的可能性。研究者坦言,LLM 并不能被指令生成完全無誤的論文,但即便如此,每一篇論文從頭到尾的生產時間,也僅僅只需要兩個小時。
研究者隨后將三篇由大語言模型生成的合成稿件提交至 iThenticate。三篇稿件在剔除參考文獻后的總體相似度均低于 30%,且沒有任何單一來源的相似度超過 5%。按照當前主流編輯流程的標準,這樣的得分不會觸發自動的預警。
當然,越過了第一道關卡,不意味著一篇論文就能夠被接收。但是僅僅兩個小時就能出產一篇通過自動檢測的論文,如此之低的制造成本下,即便單篇論文的成功率并不高,只要不斷重復提交,總會有一部分進入發表通道[2]。
這一問題在中國尤其嚴重。今年年初的一項研究顯示,基于 NHANES 健康數據庫垃圾論文數量的激增幾乎完全集中在中國。2021至2024年間,全球共發表了316篇此類論文,其中有292篇的第一作者來自中國單位,占比超過92%。作者猜測,AI能夠很方便的調用NHANES數據,是論文暴增的來源之一[3]。
類似的“數據挖掘論文”服務,在國內社交平臺上并不難找到。在一些平臺的廣告中,造假的暗示已非常露骨。例如有平臺寫道:“因公共數據庫的開放性,我們提供的統計服務可不斷更換研究主題,挖掘數據,直至分析出發表級的統計分析結果。”
甚至在一些稍早的廣告公眾號文章里,溫州醫科大學這位同學發布的論文成了正面的宣傳案例,“抓住一個研究目標,換個疾病就能復制粘貼出多篇文章”,這種方法適合“急需文章”的人群。公眾號的目標也很明確,推銷論文定制與“個性化”服務。
02 期刊開始收緊標準
今年很多出版商已經對此做出了限制。Frontiers 將這種方式炮制的論文稱為“快速生產的科學”(Fast-churn science),指出這類研究會“讓期刊充斥著低質量、重復性的發現”。
2024 年年中,Frontiers 的編輯部注意到一個異常現象:基于孟德爾隨機化的投稿量在短時間內激增。緊隨其后,又出現了一波大量使用美國國家健康與營養檢查調查(NHANES)公共數據集的論文。
佛羅里達大學教授 Arch G. Mainous III 指出。大型公共數據庫中可調用的變量數量極其龐大,當可用變量足夠多時,研究者只需不斷調整變量組合,憑借純粹的數據篩選制造出看似顯著的相關性。
他直言,這些數據庫本來是許多重要流行病學研究和疾病負擔評估的基礎工具,問題在于,一些研究并非從清晰的科學問題出發,而是反其道而行之.先在數據中尋找顯著性,再為結果補寫假設。
"由于可用變量太多,一些投機團體似乎只是構建一個龐大的變量矩陣,通過窮舉相關性來尋找統計學顯著結果。這些分析中缺失的,是具有明確結果的假設”。Mainous說。
Mainous 進一步指出,嚴肅的研究還必須考慮 NHANES 這類美國數據集所依賴的社會背景與制度條件,以及研究結論在其他國家和文化情境下是否成立的問題。但在大量涌現的稿件中,這些討論往往被完全省略。
“不幸的是,這些在科學上存疑、但在統計學上顯著的關系,恰恰可以被論文工廠用作待售稿件的基礎。”Mainous 說。只要結果顯著,論文被接收和發表的概率就會大幅提高。然而在進行足夠多次統計比較的前提下,即便純屬偶然,也會有一些結果顯示出統計學意義。結果是,大量質量可疑的稿件在短時間內涌入期刊系統,給編輯和審稿人帶來了極大的壓力。
2024 年 7 月,Frontiers 成為首批對這一問題作出明確回應的出版商之一。期刊宣布:所有基于健康數據集的孟德爾隨機化研究,必須提供獨立的外部驗證。凡是僅依賴公共數據庫、缺乏新增驗證數據或機構數據支持的 MR 稿件,將在編輯初審階段直接被拒。
政策實施后的第一個月,Frontiers 接收到的 MR 投稿量下降了 61%。今年年初,Frontiers 又進一步收緊了標準,明確要求所有“僅基于公共數據簡單查詢”的論文必須進行外部驗證。在新政策實施后,Frontiers 已累計拒絕了 5,513 篇孟德爾隨機化研究投稿(自 2024 年 7 月起),以及 1,382 篇基于 NHANES 數據的論文(自 2025 年 5 月起)[4]。
PLOS ONE也進行了類似的改革。PLOS ONE總編輯 Emily Chenette 表示,PLOS 旗下的期刊收到的投稿量激增,這些論文通常在特定人群(如 35 歲以下的女性)中尋找健康狀況(如抑郁癥)與潛在原因(如維生素 D 水平)之間的統計聯系。研究人員推測,“論文工廠”可能正在大量產出此類論文,可能是通過AI進行助力,并向研究人員出售。
PLOS ONE更新了“評估使用公開健康和社會科學數據庫進行研究的標準”。PLOS 旗下期刊的編輯將自動拒收基于這些數據集的論文,除非研究人員做了額外的后續工作(如實驗)。Chenette 稱,在新政策實施的第一個月,此類論文的退稿率已從 40% 上升至 94%[5]。
一些專門領域也有同樣的現象。在藥物安全領域,基于FDA 不良事件報告系統(FAERS)的數據,進行單一藥物及其與特定不良事件關聯的研究。2021 年,大約有 100 項。2024 年 ,這一數字達到了 600 項。
為了應對論文泛濫的情況,《藥理學前沿》(Frontiers in Pharmacology)今年開始要求使用公共數據集的研究必須經過獨立驗證。 《藥物安全專家意見》(Expert Opinion on Drug Safety )則在 7 月下旬決定完全停止接收使用 FAERS 數據庫進行此類研究的稿件[6]。
參考文獻:
- [1] 溫州醫科大學大學生科研工作委員會辦公室. (2023, October 30). 關于做好溫州醫科大學2022年度本專科學生創新創業成果報送工作的通知. 溫州醫科大學.
- [2] Maupin, D., Suchak, T., Barnett, A., & Spick, M. (2025, September 12). Dramatic increases in redundant publications in the Generative AI era (Preprint). medRxiv.
- [3] Suchak, T., Aliu, A. E., Harrison, C., Zwiggelaar, R., Geifman, N., & Spick, M. (2025). Explosion of formulaic research articles, including inappropriate study designs and false discoveries, based on the NHANES US national health database. PLOS Biology, 23(5), e3003152.
- [4] Frontiers Communications Editor, F. C. (2025, September 15). Cutting through fast-churn science: How Frontiers raised the bar. Frontiers | Science news.
- [5] O’Grady, C. (2025, October 8). Journals and publishers crack down on research from open health data sets. Science.
- [6] Travis, K. (2025, September 16). Exclusive: Journal bans drug safety database papers as they flood the literature. Retraction Watch.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.