2026年1月30日,BMJ發表了一篇文章,該文章訓練并驗證機器學習模型,以區分癌癥領域疑似出自論文工廠的論文與真實研究論文。研究發現,癌癥出版領域可疑論文的比例在不斷上升,論文工廠日益擴大,并且將目標瞄準了更高影響因子的期刊。
![]()
原文鏈接:https://www.bmj.com/content/392/bmj-2025-087581
01
研究背景
論文工廠通過快速批量生產低質量研究論文來最大化收益。這些文章可能存在以下特征:通常使用已有模板,只替換特定的術語;可能包含錯誤試劑、偽造數據與實驗,存在經過修圖或重復使用的圖表;通常內容泛泛、寫作粗糙、章節間缺乏連貫性,且僅提供膚淺的研究論證;可能會創建從未合作過,或者未作出任何實質貢獻的虛假作者;常自引文章;可能賄賂編輯并操縱同行評審以促成發表。
癌癥領域受其影響尤為嚴重。該領域發表壓力大、專業數據與技術相對易偽造,以及同行評審能力有限,造假論文更易生產且難以識別。
跨學科研究顯示,機器學習方法可以基于撤稿觀察數據庫的文本數據,預測撤稿和論文工廠產出文章,但該方法在癌癥研究領域的效能尚未經過驗證。
假設論文工廠使用的文本模板會覆蓋標題和摘要,且這些模板具有領域和文章類型特異性,可為機器學習模型提供強信號。本研究基于BERT構建機器學習流程,輸入癌癥領域已撤稿的論文工廠文章的標題和摘要,通過模型識別文本模式,進而檢測現有論文與已撤稿的論文工廠文章的相似性。
02
研究方法
本研究首要目標是訓練并評估模型的可靠分類能力,以區分撤稿文章(疑似出自論文工廠)與真實癌癥研究論文的標題摘要。其次,使用模型篩查數百萬篇癌癥研究論文,評估被標記的可疑論文隨時間的變化趨勢,被標記論文的國家、出版商、研究領域的變化,并分析其在高影響因子期刊中的演變情況。
癌癥研究數據集
2025年3月下載pubmed中所有生物醫學研究文獻,排除摘要非英文、空白、截斷、無標點、少于250字或大于4000字的文章。納入1999-2024年的所有文章,去掉重復、撤稿、更正、關注文章后,保留1740萬篇文章。通過MeSH術語和美國國家癌癥研究所術語庫構建關鍵詞,在論文標題和摘要中進行匹配,最終得到包含2,647,471篇論文的癌癥研究數據集,這些論文發表于11,632種期刊。
提取數據進行可視化分析:第一作者所屬國家、出版商、癌癥類型、主要癌癥研究領域以及SCImago期刊影響因子。
注:?Scimago是一個基于Scopus數據庫的學術評估平臺?,提供期刊排名、機構排名等多種科研評價工具。
論文工廠數據集
論文工廠數據集通過兩個來源構建:一是撤稿觀察網數據庫中標記為論文工廠來源的論文(https://retractiondatabase.org/RetractionSearch.aspx);另一個是圖像誠信專家(學術偵探)整理的在線列表,其中列出了圖像篡改的證據。得益于PubPeer平臺的匿名貢獻者,論文工廠論文的匯編資料已在線發布在電子表格中(鏈接:https://docs.google.com/spreadsheets/d/1zKxfaqug4ZhwHyGzslF38pFyC8xtU8lzmmOFMGYITDI/edit?gid=1473413779#gid=1473413779)
撤稿觀察數據庫中的論文用于模型開發,最終納入2,202篇論文工廠撤稿論文。圖像誠信專家數據集用于外部驗證,最終選取3,094篇疑似論文工廠論文。
模型選擇和訓練
訓練數據集包含50%論文工廠論文和50%真實論文。前者假定其為論文工廠產出,后者用作對照,選擇后均在PubPeer上進行人工核查。對照組文獻從癌癥研究數據集中篩選,以下三部分各占約三分之一:中國機構發表在《Cell》,《Cancer Cell》,《Molecular Cell》,《The EMBO Journal》上的論文(為減少語言上可能存在的偏倚);隨機選取瑞典/芬蘭/挪威機構的論文(因撤稿觀察網數據庫中無相關撤稿記錄);隨機選取上述四個期刊中除外上述國家的論文。
訓練數據集中4404篇論文被分為三部分,70%用于訓練、17.5%用于優化、12.5%用于內部驗證,每部分論文工廠論文和對照論文保持1:1。
模型性能(準確率、靈敏度和特異度)首先在內部驗證集上評估,然后使用圖像誠信專家整理的在線清單進行外部驗證。另外進行了補充驗證,使用了疑似涉及論文工廠的873篇癌癥研究論文,這些論文來自三項研究,這些研究探討了存在核苷酸序列/細胞系問題的癌癥相關論文。
癌癥文獻篩查
使用經過微調的BERT模型對1999-2024年間發表的260萬篇癌癥研究文獻進行篩查,經過訓練,該模型可識別與被撤論文工廠論文相似的文本特征,將識別出的論文稱為"標記論文"。
03
研究結果
模型性能
內部驗證準確率達到0.91,靈敏度為0.87,特異度為0.96。外部驗證中這些指標分別為:0.93,0.87和0.99。補充驗證中,模型共標記了72%的論文。
由于內部驗證集與外部驗證集的錯誤分類相似,二者合并分析時,假陽性文章,即將對照論文誤判為論文工廠論文,僅39篇(共3375篇)。
癌癥研究數據集的篩查
使用模型篩查1999-2024年的癌癥研究數據集,261,245篇論文被標記為可疑,占數據集中所有論文的9.87%。
時間趨勢
1999-2022年間標記論文的數量呈指數級增長,于2022年達到峰值,隨后兩年略有下降。2000年初標記論文的比例保持在1%左右,2020年代初,這一比例已超過當年癌癥研究產出的15%。
![]()
圖.每年的標記論文數量
國家
各國產出的論文中,標記論文占比最高的是中國(497,672/177,907,36%),其次是伊朗(6,801/33,935,20%)。就標記論文數量而言,美國位列第二,被標記10,511篇論文,占其發表論文的2%。
出版商及其期刊
標記論文比例最高為67%,來自Verduci Editore旗下的癌癥研究期刊《European Review for Medical and Pharmacological Sciences》。排名第二的出版商是International Scientific Literature,旗下《Medical Science Monitor》的標記論文比例約45%。其余四家出版商依次為E-Century Publishing Corporation(44%)、Spandidos Publications(38%)、Ivyspring International Publisher(30%)和IOS Press(30%)。
大型出版商Springer Nature,Elsevier,和Wiley標記論文比例較低,但標記論文的絕對數量較高。
研究領域
標記論文主要集中于癌癥生物學與基礎研究領域、新療法研發或評估、診斷與預后領域,標記比例均超過10%。生存研究、支持性照護與臨終關懷;流行病學與人群研究;衛生系統、政策與實施等領域的標記論文比例較低,均不足2%。
![]()
圖.標記論文比例較高的研究領域
影響因子前10%的期刊
影響因子排名前10%的期刊中,標記論文比例呈現出隨時間推移而明顯上升的趨勢,于2022年超過10%。
![]()
圖.影響因子前10%期刊中的標記論文比例
04
模型在不同驗證集上表現一致,證實了其對論文工廠文本特征的可靠識別能力,并強化了“此類論文共享通用標題與摘要模板”的假說。標記論文的多項特征與既往研究一致,如標記論文隨時間的指數增長趨勢與已知的論文工廠發展歷程吻合;標記論文在基礎研究領域更集中等。
研究局限性
兩個論文工廠數據集可能存在局限性。撤稿觀察網數據庫中的“論文工廠”標簽僅反映其工作人員對出版商撤稿聲明的解讀,而出版商調查這些論文的方式缺乏統一標準,導致該標簽可能對應不同證據強度。圖像誠信專家數據集中包含圖像篡改證據,這些文章可能與論文工廠無關,且專家的調查方法與透明度存在差異。模型檢測到的更可能是訓練集中代表的文本特征,而非論文工廠論文的全部特征。
訓練集中中國論文占比過高,存在模型將中文語言模式識別為論文工廠文本特征的可能。
對照組論文來源可能造成偏倚。
深度學習模型的不可解釋性導致無法直接識別BERT捕捉的特征。本研究并非旨在直接識別論文工廠論文或指控任何個人欺詐,而是關注整體模式與趨勢。該分類器是一個概率模型,而非不端行為的最終判定。
05
研究結論
利用機器學習模型,通過標題和摘要識別與已撤稿論文工廠論文相似的論文是可行且有效的。研究結果揭示,癌癥研究出版領域的標記論文比例不斷上升,論文工廠日益擴大,現已將目標瞄準更高影響因子的期刊,這強調了期刊、審稿人和研究人員保持警惕的必要性。
參考文獻:BMJ. 2026 Jan 29;392:e087581. doi: 10.1136/bmj-2025-087581.
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.