<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      BMJ研究:利用機器學習篩查疑似造假的論文

      0
      分享至

      2026年1月30日,BMJ發表了一篇文章,該文章訓練并驗證機器學習模型,以區分癌癥領域疑似出自論文工廠的論文與真實研究論文。研究發現,癌癥出版領域可疑論文的比例在不斷上升,論文工廠日益擴大,并且將目標瞄準了更高影響因子的期刊


      原文鏈接:https://www.bmj.com/content/392/bmj-2025-087581

      01

      研究背景

      論文工廠通過快速批量生產低質量研究論文來最大化收益。這些文章可能存在以下特征:通常使用已有模板,只替換特定的術語;可能包含錯誤試劑、偽造數據與實驗,存在經過修圖或重復使用的圖表;通常內容泛泛、寫作粗糙、章節間缺乏連貫性,且僅提供膚淺的研究論證;可能會創建從未合作過,或者未作出任何實質貢獻的虛假作者;常自引文章;可能賄賂編輯并操縱同行評審以促成發表。

      癌癥領域受其影響尤為嚴重。該領域發表壓力大、專業數據與技術相對易偽造,以及同行評審能力有限,造假論文更易生產且難以識別。

      跨學科研究顯示,機器學習方法可以基于撤稿觀察數據庫的文本數據,預測撤稿和論文工廠產出文章,但該方法在癌癥研究領域的效能尚未經過驗證。

      假設論文工廠使用的文本模板會覆蓋標題和摘要,且這些模板具有領域和文章類型特異性,可為機器學習模型提供強信號。本研究基于BERT構建機器學習流程,輸入癌癥領域已撤稿的論文工廠文章的標題和摘要,通過模型識別文本模式,進而檢測現有論文與已撤稿的論文工廠文章的相似性

      02

      研究方法

      本研究首要目標是訓練并評估模型的可靠分類能力,以區分撤稿文章(疑似出自論文工廠)與真實癌癥研究論文的標題摘要。其次,使用模型篩查數百萬篇癌癥研究論文,評估被標記的可疑論文隨時間的變化趨勢,被標記論文的國家、出版商、研究領域的變化,并分析其在高影響因子期刊中的演變情況。

      癌癥研究數據集

      2025年3月下載pubmed中所有生物醫學研究文獻,排除摘要非英文、空白、截斷、無標點、少于250字或大于4000字的文章。納入1999-2024年的所有文章,去掉重復、撤稿、更正、關注文章后,保留1740萬篇文章。通過MeSH術語和美國國家癌癥研究所術語庫構建關鍵詞,在論文標題和摘要中進行匹配,最終得到包含2,647,471篇論文的癌癥研究數據集,這些論文發表于11,632種期刊

      提取數據進行可視化分析:第一作者所屬國家、出版商、癌癥類型、主要癌癥研究領域以及SCImago期刊影響因子。

      注:?Scimago是一個基于Scopus數據庫的學術評估平臺?,提供期刊排名、機構排名等多種科研評價工具。

      論文工廠數據集

      論文工廠數據集通過兩個來源構建:一是撤稿觀察網數據庫中標記為論文工廠來源的論文(https://retractiondatabase.org/RetractionSearch.aspx);另一個是圖像誠信專家(學術偵探)整理的在線列表,其中列出了圖像篡改的證據。得益于PubPeer平臺的匿名貢獻者,論文工廠論文的匯編資料已在線發布在電子表格中(鏈接:https://docs.google.com/spreadsheets/d/1zKxfaqug4ZhwHyGzslF38pFyC8xtU8lzmmOFMGYITDI/edit?gid=1473413779#gid=1473413779)

      撤稿觀察數據庫中的論文用于模型開發,最終納入2,202論文工廠撤稿論文。圖像誠信專家數據集用于外部驗證,最終選取3,094疑似論文工廠論文。

      模型選擇和訓練

      訓練數據集包含50%論文工廠論文和50%真實論文前者假定其為論文工廠產出,后者用作對照,選擇后均在PubPeer上進行人工核查。對照組文獻從癌癥研究數據集中篩選,以下三部分各占約三分之一:中國機構發表在《Cell》,《Cancer Cell》,《Molecular Cell》,《The EMBO Journal》上的論文(為減少語言上可能存在的偏倚);隨機選取瑞典/芬蘭/挪威機構的論文(因撤稿觀察網數據庫中無相關撤稿記錄);隨機選取上述四個期刊中除外上述國家的論文。

      訓練數據集中4404篇論文被分為三部分,70%用于訓練、17.5%用于優化、12.5%用于內部驗證,每部分論文工廠論文和對照論文保持1:1。

      模型性能(準確率、靈敏度和特異度)首先在內部驗證集上評估,然后使用圖像誠信專家整理的在線清單進行外部驗證。另外進行了補充驗證,使用了疑似涉及論文工廠的873癌癥研究論文,這些論文來自三項研究,這些研究探討了存在核苷酸序列/細胞系問題的癌癥相關論文。

      癌癥文獻篩查

      使用經過微調的BERT模型對1999-2024年間發表的260萬篇癌癥研究文獻進行篩查,經過訓練,該模型可識別與被撤論文工廠論文相似的文本特征,將識別出的論文稱為"標記論文"

      03

      研究結果

      模型性能

      內部驗證準確率達到0.91,靈敏度為0.87,特異度為0.96。外部驗證中這些指標分別為:0.93,0.87和0.99。補充驗證中,模型共標記了72%的論文。

      由于內部驗證集與外部驗證集的錯誤分類相似,二者合并分析時,假陽性文章,即將對照論文誤判為論文工廠論文,僅39篇(共3375篇)。

      癌癥研究數據集的篩查

      使用模型篩查1999-2024年的癌癥研究數據集,261,245篇論文被標記為可疑,占數據集中所有論文的9.87%

      時間趨勢

      1999-2022年間標記論文的數量呈指數級增長,于2022年達到峰值,隨后兩年略有下降。2000年初標記論文的比例保持在1%左右,2020年代初,這一比例已超過當年癌癥研究產出的15%。


      圖.每年的標記論文數量

      國家

      各國產出的論文中,標記論文占比最高的是中國(497,672/177,907,36%),其次是伊朗(6,801/33,935,20%)。就標記論文數量而言,美國位列第二,被標記10,511篇論文,占其發表論文的2%。

      出版商及其期刊

      標記論文比例最高為67%,來自Verduci Editore旗下的癌癥研究期刊《European Review for Medical and Pharmacological Sciences》。排名第二的出版商是International Scientific Literature,旗下《Medical Science Monitor》的標記論文比例約45%。其余四家出版商依次為E-Century Publishing Corporation(44%)、Spandidos Publications(38%)、Ivyspring International Publisher(30%)和IOS Press(30%)。

      大型出版商Springer Nature,Elsevier,和Wiley標記論文比例較低,但標記論文的絕對數量較高。

      研究領域

      標記論文主要集中于癌癥生物學與基礎研究領域、新療法研發或評估、診斷與預后領域,標記比例均超過10%。生存研究、支持性照護與臨終關懷;流行病學與人群研究;衛生系統、政策與實施等領域的標記論文比例較低,均不足2%。


      圖.標記論文比例較高的研究領域

      影響因子前10%的期刊

      影響因子排名前10%的期刊中,標記論文比例呈現出隨時間推移而明顯上升的趨勢,于2022年超過10%。


      圖.影響因子前10%期刊中的標記論文比例

      04

      模型在不同驗證集上表現一致,證實了其對論文工廠文本特征的可靠識別能力,并強化了“此類論文共享通用標題與摘要模板”的假說。標記論文的多項特征與既往研究一致,如標記論文隨時間的指數增長趨勢與已知的論文工廠發展歷程吻合;標記論文在基礎研究領域更集中等。

      研究局限性

      • 兩個論文工廠數據集可能存在局限性。撤稿觀察網數據庫中的“論文工廠”標簽僅反映其工作人員對出版商撤稿聲明的解讀,而出版商調查這些論文的方式缺乏統一標準,導致該標簽可能對應不同證據強度。圖像誠信專家數據集中包含圖像篡改證據,這些文章可能與論文工廠無關,且專家的調查方法與透明度存在差異。模型檢測到的更可能是訓練集中代表的文本特征,而非論文工廠論文的全部特征。

      • 訓練集中中國論文占比過高,存在模型將中文語言模式識別為論文工廠文本特征的可能

      • 對照組論文來源可能造成偏倚。

      • 深度學習模型的不可解釋性導致無法直接識別BERT捕捉的特征。本研究并非旨在直接識別論文工廠論文或指控任何個人欺詐,而是關注整體模式與趨勢。該分類器是一個概率模型,而非不端行為的最終判定。

      05

      研究結論

      利用機器學習模型,通過標題和摘要識別與已撤稿論文工廠論文相似的論文是可行且有效的。研究結果揭示,癌癥研究出版領域的標記論文比例不斷上升,論文工廠日益擴大,現已將目標瞄準更高影響因子的期刊,這強調了期刊、審稿人和研究人員保持警惕的必要性。

      參考文獻:BMJ. 2026 Jan 29;392:e087581. doi: 10.1136/bmj-2025-087581.


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      合同僅剩不到1年!當紅國腳仍未與國安續約,將成下一個王子銘?

      合同僅剩不到1年!當紅國腳仍未與國安續約,將成下一個王子銘?

      體壇鑒春秋
      2026-02-22 12:03:12
      老伴手術急需25萬,老漢拿紀念鈔去銀行兌錢,銀行的做法讓老人愣住

      老伴手術急需25萬,老漢拿紀念鈔去銀行兌錢,銀行的做法讓老人愣住

      懸案解密檔案
      2025-09-22 11:05:28
      取暖費太貴?波蘭小哥把甜甜圈當柴燒,嘗到“甜頭”

      取暖費太貴?波蘭小哥把甜甜圈當柴燒,嘗到“甜頭”

      新歐洲
      2026-02-22 20:56:14
      曲婉婷國內開新號復出唱歌,妝容非常歐美,網友態度一致:抵制

      曲婉婷國內開新號復出唱歌,妝容非常歐美,網友態度一致:抵制

      韓小娛
      2026-02-22 19:20:40
      七旬老夫妻的悔悟:退休后,一個錯誤的決定,讓晚年生活大打折扣

      七旬老夫妻的悔悟:退休后,一個錯誤的決定,讓晚年生活大打折扣

      惟來
      2026-02-22 10:20:28
      武漢街頭突發!警車緊急掉頭,現場畫面曝光

      武漢街頭突發!警車緊急掉頭,現場畫面曝光

      環球網資訊
      2026-02-22 07:35:11
      新加坡大滿貫賽:太遺憾!國乒女單0:3日本削球手,正賽一輪游

      新加坡大滿貫賽:太遺憾!國乒女單0:3日本削球手,正賽一輪游

      國乒二三事
      2026-02-22 14:33:02
      去過養老院才發現:健康的老人并不受歡迎,有錢的也比沒錢的痛苦

      去過養老院才發現:健康的老人并不受歡迎,有錢的也比沒錢的痛苦

      人間百態大全
      2026-01-07 06:40:02
      清算終于開始了!一個要求,震動東京:中國要求日本限期內歸還

      清算終于開始了!一個要求,震動東京:中國要求日本限期內歸還

      愿你余生安好嘴角帶笑
      2026-01-28 20:28:13
      全球大學排名巨變:中國占8席,浙大第一哈佛第三

      全球大學排名巨變:中國占8席,浙大第一哈佛第三

      阿釗是個小小評論員
      2026-02-22 18:34:08
      金巧巧一家三亞過年,富豪老公于東罕攜子女追星顯恩愛

      金巧巧一家三亞過年,富豪老公于東罕攜子女追星顯恩愛

      無人傾聽無人傾聽
      2026-02-21 17:36:50
      全球最“倒霉”夫妻,花費240萬買下“鬼屋”,沒水沒電沒網,94個房間全是垃圾,7年后突然火爆全網!

      全球最“倒霉”夫妻,花費240萬買下“鬼屋”,沒水沒電沒網,94個房間全是垃圾,7年后突然火爆全網!

      背包旅行
      2026-02-21 10:34:33
      岳父退休宴不請我,我關機出國旅游,老婆說450萬遺產全給了助理

      岳父退休宴不請我,我關機出國旅游,老婆說450萬遺產全給了助理

      真實檔案
      2026-02-16 16:15:17
      因長得太漂亮,七次拒絕導演“要求”被封殺,43歲終憑實力拿影后

      因長得太漂亮,七次拒絕導演“要求”被封殺,43歲終憑實力拿影后

      近史博覽
      2026-01-23 11:33:12
      43歲男保姆哭訴:大媽每月給我10000工資,卻讓我每天做這樣的事

      43歲男保姆哭訴:大媽每月給我10000工資,卻讓我每天做這樣的事

      孢木情感
      2026-02-22 11:24:07
      女子稱被“半臉試效”后強制消費20萬,美容院:正協商處理

      女子稱被“半臉試效”后強制消費20萬,美容院:正協商處理

      澎湃新聞
      2026-02-22 18:56:27
      0-8落后,單桿53分逆轉!趙心童救賽點追到5平,進決賽PK希金斯?

      0-8落后,單桿53分逆轉!趙心童救賽點追到5平,進決賽PK希金斯?

      劉姚堯的文字城堡
      2026-02-22 06:39:32
      "重大發現":《神界》成人場景重播量全片最高!

      "重大發現":《神界》成人場景重播量全片最高!

      游民星空
      2026-02-21 22:24:15
      大年初四,中方通告全球,美軍機敢闖入黃海,解放軍第一時間反制

      大年初四,中方通告全球,美軍機敢闖入黃海,解放軍第一時間反制

      伴君終老
      2026-02-21 01:51:15
      離大譜!亞裔女護士勇敢救人,卻因說出“施暴者是黑人少年”遭網暴!

      離大譜!亞裔女護士勇敢救人,卻因說出“施暴者是黑人少年”遭網暴!

      華人生活網
      2026-02-22 01:57:02
      2026-02-22 21:32:49
      醫咖會
      醫咖會
      生動有趣的形式傳遞醫學新進展
      2764文章數 10973關注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發射超過10000顆衛星

      頭條要聞

      中國第五金 谷愛凌U型場地技巧決賽奪金李方慧摘銀

      頭條要聞

      中國第五金 谷愛凌U型場地技巧決賽奪金李方慧摘銀

      體育要聞

      自由式滑雪U型池 谷愛凌成功衛冕

      娛樂要聞

      裴世矩養侄為刃 看懂兩次放行裴行儼!

      財經要聞

      特朗普新加征關稅稅率從10%提升至15%

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      手機
      本地
      教育
      藝術
      數碼

      手機要聞

      消息稱一加恢復15s手機研發計劃,預計基于15T

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      教育要聞

      本科生,就業去哪了?

      藝術要聞

      冷軍:超小幅名人肖像油畫新作

      數碼要聞

      Omdia:2025年全球DDIC顯示驅動集成電路市場同比微幅下降1%

      無障礙瀏覽 進入關懷版