2026年1月30日,BMJ發(fā)表了一篇文章,該文章訓(xùn)練并驗(yàn)證機(jī)器學(xué)習(xí)模型,以區(qū)分癌癥領(lǐng)域疑似出自論文工廠的論文與真實(shí)研究論文。研究發(fā)現(xiàn),癌癥出版領(lǐng)域可疑論文的比例在不斷上升,論文工廠日益擴(kuò)大,并且將目標(biāo)瞄準(zhǔn)了更高影響因子的期刊。
![]()
原文鏈接:https://www.bmj.com/content/392/bmj-2025-087581
01
研究背景
論文工廠通過快速批量生產(chǎn)低質(zhì)量研究論文來最大化收益。這些文章可能存在以下特征:通常使用已有模板,只替換特定的術(shù)語(yǔ);可能包含錯(cuò)誤試劑、偽造數(shù)據(jù)與實(shí)驗(yàn),存在經(jīng)過修圖或重復(fù)使用的圖表;通常內(nèi)容泛泛、寫作粗糙、章節(jié)間缺乏連貫性,且僅提供膚淺的研究論證;可能會(huì)創(chuàng)建從未合作過,或者未作出任何實(shí)質(zhì)貢獻(xiàn)的虛假作者;常自引文章;可能賄賂編輯并操縱同行評(píng)審以促成發(fā)表。
癌癥領(lǐng)域受其影響尤為嚴(yán)重。該領(lǐng)域發(fā)表壓力大、專業(yè)數(shù)據(jù)與技術(shù)相對(duì)易偽造,以及同行評(píng)審能力有限,造假論文更易生產(chǎn)且難以識(shí)別。
跨學(xué)科研究顯示,機(jī)器學(xué)習(xí)方法可以基于撤稿觀察數(shù)據(jù)庫(kù)的文本數(shù)據(jù),預(yù)測(cè)撤稿和論文工廠產(chǎn)出文章,但該方法在癌癥研究領(lǐng)域的效能尚未經(jīng)過驗(yàn)證。
假設(shè)論文工廠使用的文本模板會(huì)覆蓋標(biāo)題和摘要,且這些模板具有領(lǐng)域和文章類型特異性,可為機(jī)器學(xué)習(xí)模型提供強(qiáng)信號(hào)。本研究基于BERT構(gòu)建機(jī)器學(xué)習(xí)流程,輸入癌癥領(lǐng)域已撤稿的論文工廠文章的標(biāo)題和摘要,通過模型識(shí)別文本模式,進(jìn)而檢測(cè)現(xiàn)有論文與已撤稿的論文工廠文章的相似性。
02
研究方法
本研究首要目標(biāo)是訓(xùn)練并評(píng)估模型的可靠分類能力,以區(qū)分撤稿文章(疑似出自論文工廠)與真實(shí)癌癥研究論文的標(biāo)題摘要。其次,使用模型篩查數(shù)百萬篇癌癥研究論文,評(píng)估被標(biāo)記的可疑論文隨時(shí)間的變化趨勢(shì),被標(biāo)記論文的國(guó)家、出版商、研究領(lǐng)域的變化,并分析其在高影響因子期刊中的演變情況。
癌癥研究數(shù)據(jù)集
2025年3月下載pubmed中所有生物醫(yī)學(xué)研究文獻(xiàn),排除摘要非英文、空白、截?cái)唷o標(biāo)點(diǎn)、少于250字或大于4000字的文章。納入1999-2024年的所有文章,去掉重復(fù)、撤稿、更正、關(guān)注文章后,保留1740萬篇文章。通過MeSH術(shù)語(yǔ)和美國(guó)國(guó)家癌癥研究所術(shù)語(yǔ)庫(kù)構(gòu)建關(guān)鍵詞,在論文標(biāo)題和摘要中進(jìn)行匹配,最終得到包含2,647,471篇論文的癌癥研究數(shù)據(jù)集,這些論文發(fā)表于11,632種期刊。
提取數(shù)據(jù)進(jìn)行可視化分析:第一作者所屬國(guó)家、出版商、癌癥類型、主要癌癥研究領(lǐng)域以及SCImago期刊影響因子。
注:?Scimago是一個(gè)基于Scopus數(shù)據(jù)庫(kù)的學(xué)術(shù)評(píng)估平臺(tái)?,提供期刊排名、機(jī)構(gòu)排名等多種科研評(píng)價(jià)工具。
論文工廠數(shù)據(jù)集
論文工廠數(shù)據(jù)集通過兩個(gè)來源構(gòu)建:一是撤稿觀察網(wǎng)數(shù)據(jù)庫(kù)中標(biāo)記為論文工廠來源的論文(https://retractiondatabase.org/RetractionSearch.aspx);另一個(gè)是圖像誠(chéng)信專家(學(xué)術(shù)偵探)整理的在線列表,其中列出了圖像篡改的證據(jù)。得益于PubPeer平臺(tái)的匿名貢獻(xiàn)者,論文工廠論文的匯編資料已在線發(fā)布在電子表格中(鏈接:https://docs.google.com/spreadsheets/d/1zKxfaqug4ZhwHyGzslF38pFyC8xtU8lzmmOFMGYITDI/edit?gid=1473413779#gid=1473413779)
撤稿觀察數(shù)據(jù)庫(kù)中的論文用于模型開發(fā),最終納入2,202篇論文工廠撤稿論文。圖像誠(chéng)信專家數(shù)據(jù)集用于外部驗(yàn)證,最終選取3,094篇疑似論文工廠論文。
模型選擇和訓(xùn)練
訓(xùn)練數(shù)據(jù)集包含50%論文工廠論文和50%真實(shí)論文。前者假定其為論文工廠產(chǎn)出,后者用作對(duì)照,選擇后均在PubPeer上進(jìn)行人工核查。對(duì)照組文獻(xiàn)從癌癥研究數(shù)據(jù)集中篩選,以下三部分各占約三分之一:中國(guó)機(jī)構(gòu)發(fā)表在《Cell》,《Cancer Cell》,《Molecular Cell》,《The EMBO Journal》上的論文(為減少語(yǔ)言上可能存在的偏倚);隨機(jī)選取瑞典/芬蘭/挪威機(jī)構(gòu)的論文(因撤稿觀察網(wǎng)數(shù)據(jù)庫(kù)中無相關(guān)撤稿記錄);隨機(jī)選取上述四個(gè)期刊中除外上述國(guó)家的論文。
訓(xùn)練數(shù)據(jù)集中4404篇論文被分為三部分,70%用于訓(xùn)練、17.5%用于優(yōu)化、12.5%用于內(nèi)部驗(yàn)證,每部分論文工廠論文和對(duì)照論文保持1:1。
模型性能(準(zhǔn)確率、靈敏度和特異度)首先在內(nèi)部驗(yàn)證集上評(píng)估,然后使用圖像誠(chéng)信專家整理的在線清單進(jìn)行外部驗(yàn)證。另外進(jìn)行了補(bǔ)充驗(yàn)證,使用了疑似涉及論文工廠的873篇癌癥研究論文,這些論文來自三項(xiàng)研究,這些研究探討了存在核苷酸序列/細(xì)胞系問題的癌癥相關(guān)論文。
癌癥文獻(xiàn)篩查
使用經(jīng)過微調(diào)的BERT模型對(duì)1999-2024年間發(fā)表的260萬篇癌癥研究文獻(xiàn)進(jìn)行篩查,經(jīng)過訓(xùn)練,該模型可識(shí)別與被撤論文工廠論文相似的文本特征,將識(shí)別出的論文稱為"標(biāo)記論文"。
03
研究結(jié)果
模型性能
內(nèi)部驗(yàn)證準(zhǔn)確率達(dá)到0.91,靈敏度為0.87,特異度為0.96。外部驗(yàn)證中這些指標(biāo)分別為:0.93,0.87和0.99。補(bǔ)充驗(yàn)證中,模型共標(biāo)記了72%的論文。
由于內(nèi)部驗(yàn)證集與外部驗(yàn)證集的錯(cuò)誤分類相似,二者合并分析時(shí),假陽(yáng)性文章,即將對(duì)照論文誤判為論文工廠論文,僅39篇(共3375篇)。
癌癥研究數(shù)據(jù)集的篩查
使用模型篩查1999-2024年的癌癥研究數(shù)據(jù)集,261,245篇論文被標(biāo)記為可疑,占數(shù)據(jù)集中所有論文的9.87%。
時(shí)間趨勢(shì)
1999-2022年間標(biāo)記論文的數(shù)量呈指數(shù)級(jí)增長(zhǎng),于2022年達(dá)到峰值,隨后兩年略有下降。2000年初標(biāo)記論文的比例保持在1%左右,2020年代初,這一比例已超過當(dāng)年癌癥研究產(chǎn)出的15%。
![]()
圖.每年的標(biāo)記論文數(shù)量
國(guó)家
各國(guó)產(chǎn)出的論文中,標(biāo)記論文占比最高的是中國(guó)(497,672/177,907,36%),其次是伊朗(6,801/33,935,20%)。就標(biāo)記論文數(shù)量而言,美國(guó)位列第二,被標(biāo)記10,511篇論文,占其發(fā)表論文的2%。
出版商及其期刊
標(biāo)記論文比例最高為67%,來自Verduci Editore旗下的癌癥研究期刊《European Review for Medical and Pharmacological Sciences》。排名第二的出版商是International Scientific Literature,旗下《Medical Science Monitor》的標(biāo)記論文比例約45%。其余四家出版商依次為E-Century Publishing Corporation(44%)、Spandidos Publications(38%)、Ivyspring International Publisher(30%)和IOS Press(30%)。
大型出版商Springer Nature,Elsevier,和Wiley標(biāo)記論文比例較低,但標(biāo)記論文的絕對(duì)數(shù)量較高。
研究領(lǐng)域
標(biāo)記論文主要集中于癌癥生物學(xué)與基礎(chǔ)研究領(lǐng)域、新療法研發(fā)或評(píng)估、診斷與預(yù)后領(lǐng)域,標(biāo)記比例均超過10%。生存研究、支持性照護(hù)與臨終關(guān)懷;流行病學(xué)與人群研究;衛(wèi)生系統(tǒng)、政策與實(shí)施等領(lǐng)域的標(biāo)記論文比例較低,均不足2%。
![]()
圖.標(biāo)記論文比例較高的研究領(lǐng)域
影響因子前10%的期刊
影響因子排名前10%的期刊中,標(biāo)記論文比例呈現(xiàn)出隨時(shí)間推移而明顯上升的趨勢(shì),于2022年超過10%。
![]()
圖.影響因子前10%期刊中的標(biāo)記論文比例
04
模型在不同驗(yàn)證集上表現(xiàn)一致,證實(shí)了其對(duì)論文工廠文本特征的可靠識(shí)別能力,并強(qiáng)化了“此類論文共享通用標(biāo)題與摘要模板”的假說。標(biāo)記論文的多項(xiàng)特征與既往研究一致,如標(biāo)記論文隨時(shí)間的指數(shù)增長(zhǎng)趨勢(shì)與已知的論文工廠發(fā)展歷程吻合;標(biāo)記論文在基礎(chǔ)研究領(lǐng)域更集中等。
研究局限性
兩個(gè)論文工廠數(shù)據(jù)集可能存在局限性。撤稿觀察網(wǎng)數(shù)據(jù)庫(kù)中的“論文工廠”標(biāo)簽僅反映其工作人員對(duì)出版商撤稿聲明的解讀,而出版商調(diào)查這些論文的方式缺乏統(tǒng)一標(biāo)準(zhǔn),導(dǎo)致該標(biāo)簽可能對(duì)應(yīng)不同證據(jù)強(qiáng)度。圖像誠(chéng)信專家數(shù)據(jù)集中包含圖像篡改證據(jù),這些文章可能與論文工廠無關(guān),且專家的調(diào)查方法與透明度存在差異。模型檢測(cè)到的更可能是訓(xùn)練集中代表的文本特征,而非論文工廠論文的全部特征。
訓(xùn)練集中中國(guó)論文占比過高,存在模型將中文語(yǔ)言模式識(shí)別為論文工廠文本特征的可能。
對(duì)照組論文來源可能造成偏倚。
深度學(xué)習(xí)模型的不可解釋性導(dǎo)致無法直接識(shí)別BERT捕捉的特征。本研究并非旨在直接識(shí)別論文工廠論文或指控任何個(gè)人欺詐,而是關(guān)注整體模式與趨勢(shì)。該分類器是一個(gè)概率模型,而非不端行為的最終判定。
05
研究結(jié)論
利用機(jī)器學(xué)習(xí)模型,通過標(biāo)題和摘要識(shí)別與已撤稿論文工廠論文相似的論文是可行且有效的。研究結(jié)果揭示,癌癥研究出版領(lǐng)域的標(biāo)記論文比例不斷上升,論文工廠日益擴(kuò)大,現(xiàn)已將目標(biāo)瞄準(zhǔn)更高影響因子的期刊,這強(qiáng)調(diào)了期刊、審稿人和研究人員保持警惕的必要性。
參考文獻(xiàn):BMJ. 2026 Jan 29;392:e087581. doi: 10.1136/bmj-2025-087581.
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.