<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      BMJ研究:利用機器學習篩查疑似造假的論文

      0
      分享至

      2026年1月30日,BMJ發表了一篇文章,該文章訓練并驗證機器學習模型,以區分癌癥領域疑似出自論文工廠的論文與真實研究論文。研究發現,癌癥出版領域可疑論文的比例在不斷上升,論文工廠日益擴大,并且將目標瞄準了更高影響因子的期刊


      原文鏈接:https://www.bmj.com/content/392/bmj-2025-087581

      01

      研究背景

      論文工廠通過快速批量生產低質量研究論文來最大化收益。這些文章可能存在以下特征:通常使用已有模板,只替換特定的術語;可能包含錯誤試劑、偽造數據與實驗,存在經過修圖或重復使用的圖表;通常內容泛泛、寫作粗糙、章節間缺乏連貫性,且僅提供膚淺的研究論證;可能會創建從未合作過,或者未作出任何實質貢獻的虛假作者;常自引文章;可能賄賂編輯并操縱同行評審以促成發表。

      癌癥領域受其影響尤為嚴重。該領域發表壓力大、專業數據與技術相對易偽造,以及同行評審能力有限,造假論文更易生產且難以識別。

      跨學科研究顯示,機器學習方法可以基于撤稿觀察數據庫的文本數據,預測撤稿和論文工廠產出文章,但該方法在癌癥研究領域的效能尚未經過驗證。

      假設論文工廠使用的文本模板會覆蓋標題和摘要,且這些模板具有領域和文章類型特異性,可為機器學習模型提供強信號。本研究基于BERT構建機器學習流程,輸入癌癥領域已撤稿的論文工廠文章的標題和摘要,通過模型識別文本模式,進而檢測現有論文與已撤稿的論文工廠文章的相似性

      02

      研究方法

      本研究首要目標是訓練并評估模型的可靠分類能力,以區分撤稿文章(疑似出自論文工廠)與真實癌癥研究論文的標題摘要。其次,使用模型篩查數百萬篇癌癥研究論文,評估被標記的可疑論文隨時間的變化趨勢,被標記論文的國家、出版商、研究領域的變化,并分析其在高影響因子期刊中的演變情況。

      癌癥研究數據集

      2025年3月下載pubmed中所有生物醫學研究文獻,排除摘要非英文、空白、截斷、無標點、少于250字或大于4000字的文章。納入1999-2024年的所有文章,去掉重復、撤稿、更正、關注文章后,保留1740萬篇文章。通過MeSH術語和美國國家癌癥研究所術語庫構建關鍵詞,在論文標題和摘要中進行匹配,最終得到包含2,647,471篇論文的癌癥研究數據集,這些論文發表于11,632種期刊

      提取數據進行可視化分析:第一作者所屬國家、出版商、癌癥類型、主要癌癥研究領域以及SCImago期刊影響因子。

      注:?Scimago是一個基于Scopus數據庫的學術評估平臺?,提供期刊排名、機構排名等多種科研評價工具。

      論文工廠數據集

      論文工廠數據集通過兩個來源構建:一是撤稿觀察網數據庫中標記為論文工廠來源的論文(https://retractiondatabase.org/RetractionSearch.aspx);另一個是圖像誠信專家(學術偵探)整理的在線列表,其中列出了圖像篡改的證據。得益于PubPeer平臺的匿名貢獻者,論文工廠論文的匯編資料已在線發布在電子表格中(鏈接:https://docs.google.com/spreadsheets/d/1zKxfaqug4ZhwHyGzslF38pFyC8xtU8lzmmOFMGYITDI/edit?gid=1473413779#gid=1473413779)

      撤稿觀察數據庫中的論文用于模型開發,最終納入2,202論文工廠撤稿論文。圖像誠信專家數據集用于外部驗證,最終選取3,094疑似論文工廠論文。

      模型選擇和訓練

      訓練數據集包含50%論文工廠論文和50%真實論文前者假定其為論文工廠產出,后者用作對照,選擇后均在PubPeer上進行人工核查。對照組文獻從癌癥研究數據集中篩選,以下三部分各占約三分之一:中國機構發表在《Cell》,《Cancer Cell》,《Molecular Cell》,《The EMBO Journal》上的論文(為減少語言上可能存在的偏倚);隨機選取瑞典/芬蘭/挪威機構的論文(因撤稿觀察網數據庫中無相關撤稿記錄);隨機選取上述四個期刊中除外上述國家的論文。

      訓練數據集中4404篇論文被分為三部分,70%用于訓練、17.5%用于優化、12.5%用于內部驗證,每部分論文工廠論文和對照論文保持1:1。

      模型性能(準確率、靈敏度和特異度)首先在內部驗證集上評估,然后使用圖像誠信專家整理的在線清單進行外部驗證。另外進行了補充驗證,使用了疑似涉及論文工廠的873癌癥研究論文,這些論文來自三項研究,這些研究探討了存在核苷酸序列/細胞系問題的癌癥相關論文。

      癌癥文獻篩查

      使用經過微調的BERT模型對1999-2024年間發表的260萬篇癌癥研究文獻進行篩查,經過訓練,該模型可識別與被撤論文工廠論文相似的文本特征,將識別出的論文稱為"標記論文"

      03

      研究結果

      模型性能

      內部驗證準確率達到0.91,靈敏度為0.87,特異度為0.96。外部驗證中這些指標分別為:0.93,0.87和0.99。補充驗證中,模型共標記了72%的論文。

      由于內部驗證集與外部驗證集的錯誤分類相似,二者合并分析時,假陽性文章,即將對照論文誤判為論文工廠論文,僅39篇(共3375篇)。

      癌癥研究數據集的篩查

      使用模型篩查1999-2024年的癌癥研究數據集,261,245篇論文被標記為可疑,占數據集中所有論文的9.87%

      時間趨勢

      1999-2022年間標記論文的數量呈指數級增長,于2022年達到峰值,隨后兩年略有下降。2000年初標記論文的比例保持在1%左右,2020年代初,這一比例已超過當年癌癥研究產出的15%。


      圖.每年的標記論文數量

      國家

      各國產出的論文中,標記論文占比最高的是中國(497,672/177,907,36%),其次是伊朗(6,801/33,935,20%)。就標記論文數量而言,美國位列第二,被標記10,511篇論文,占其發表論文的2%。

      出版商及其期刊

      標記論文比例最高為67%,來自Verduci Editore旗下的癌癥研究期刊《European Review for Medical and Pharmacological Sciences》。排名第二的出版商是International Scientific Literature,旗下《Medical Science Monitor》的標記論文比例約45%。其余四家出版商依次為E-Century Publishing Corporation(44%)、Spandidos Publications(38%)、Ivyspring International Publisher(30%)和IOS Press(30%)。

      大型出版商Springer Nature,Elsevier,和Wiley標記論文比例較低,但標記論文的絕對數量較高。

      研究領域

      標記論文主要集中于癌癥生物學與基礎研究領域、新療法研發或評估、診斷與預后領域,標記比例均超過10%。生存研究、支持性照護與臨終關懷;流行病學與人群研究;衛生系統、政策與實施等領域的標記論文比例較低,均不足2%。


      圖.標記論文比例較高的研究領域

      影響因子前10%的期刊

      影響因子排名前10%的期刊中,標記論文比例呈現出隨時間推移而明顯上升的趨勢,于2022年超過10%。


      圖.影響因子前10%期刊中的標記論文比例

      04

      模型在不同驗證集上表現一致,證實了其對論文工廠文本特征的可靠識別能力,并強化了“此類論文共享通用標題與摘要模板”的假說。標記論文的多項特征與既往研究一致,如標記論文隨時間的指數增長趨勢與已知的論文工廠發展歷程吻合;標記論文在基礎研究領域更集中等。

      研究局限性

      • 兩個論文工廠數據集可能存在局限性。撤稿觀察網數據庫中的“論文工廠”標簽僅反映其工作人員對出版商撤稿聲明的解讀,而出版商調查這些論文的方式缺乏統一標準,導致該標簽可能對應不同證據強度。圖像誠信專家數據集中包含圖像篡改證據,這些文章可能與論文工廠無關,且專家的調查方法與透明度存在差異。模型檢測到的更可能是訓練集中代表的文本特征,而非論文工廠論文的全部特征。

      • 訓練集中中國論文占比過高,存在模型將中文語言模式識別為論文工廠文本特征的可能

      • 對照組論文來源可能造成偏倚。

      • 深度學習模型的不可解釋性導致無法直接識別BERT捕捉的特征。本研究并非旨在直接識別論文工廠論文或指控任何個人欺詐,而是關注整體模式與趨勢。該分類器是一個概率模型,而非不端行為的最終判定。

      05

      研究結論

      利用機器學習模型,通過標題和摘要識別與已撤稿論文工廠論文相似的論文是可行且有效的。研究結果揭示,癌癥研究出版領域的標記論文比例不斷上升,論文工廠日益擴大,現已將目標瞄準更高影響因子的期刊,這強調了期刊、審稿人和研究人員保持警惕的必要性。

      參考文獻:BMJ. 2026 Jan 29;392:e087581. doi: 10.1136/bmj-2025-087581.


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      新金碟豹女團爆火!承接各大宴會,一場不到2萬,滿滿的青春洋溢

      新金碟豹女團爆火!承接各大宴會,一場不到2萬,滿滿的青春洋溢

      TVB的四小花
      2026-03-11 00:13:36
      特朗普:伊朗一直“咄咄逼人”,不如現在就做個了斷,幫助伊朗人民是有條件的

      特朗普:伊朗一直“咄咄逼人”,不如現在就做個了斷,幫助伊朗人民是有條件的

      大風新聞
      2026-03-10 19:23:11
      加倉65%!北向資金重倉鎖定機器人第一真龍,算力+芯片+先進封裝

      加倉65%!北向資金重倉鎖定機器人第一真龍,算力+芯片+先進封裝

      財報翻譯官
      2026-03-10 19:56:39
      恐怖的87-2!CCTV5直播,中國女足vs中國臺北沖4強,賽程有變!

      恐怖的87-2!CCTV5直播,中國女足vs中國臺北沖4強,賽程有變!

      大秦壁虎白話體育
      2026-03-11 00:33:42
      30艘船安全通過!“裝”成中國的,“保命”

      30艘船安全通過!“裝”成中國的,“保命”

      觀察者網
      2026-03-10 10:49:04
      利物浦恥辱夜!天價巨星全場夢游,球迷怒噴:最爛引援沒有之一

      利物浦恥辱夜!天價巨星全場夢游,球迷怒噴:最爛引援沒有之一

      瀾歸序
      2026-03-11 05:05:19
      騰訊QClaw官網上線:可一鍵部署“龍蝦”,兼容QQ、微信

      騰訊QClaw官網上線:可一鍵部署“龍蝦”,兼容QQ、微信

      PChome電腦之家
      2026-03-09 14:37:39
      給廳長開車6年我從不提私事,父親貨車被扣,廳長遞來一個眼神

      給廳長開車6年我從不提私事,父親貨車被扣,廳長遞來一個眼神

      小月故事
      2026-03-06 14:48:51
      娶個外國媳婦是種什么樣的體驗?網友:誰不喜歡美好的東西

      娶個外國媳婦是種什么樣的體驗?網友:誰不喜歡美好的東西

      另子維愛讀史
      2026-03-07 19:15:01
      中國女籃世資賽12人名單:韓旭李月汝張子宇三塔 王思雨+楊舒予

      中國女籃世資賽12人名單:韓旭李月汝張子宇三塔 王思雨+楊舒予

      醉臥浮生
      2026-03-10 11:06:26
      韓媒解讀平壤馬拉松取消原因:擔心大量外國人入境,禁用GPS功能

      韓媒解讀平壤馬拉松取消原因:擔心大量外國人入境,禁用GPS功能

      楊華評論
      2026-03-10 16:45:29
      麻煩了,狄龍:若與森林狼季后賽相遇,我們已經摸透了他們的套路

      麻煩了,狄龍:若與森林狼季后賽相遇,我們已經摸透了他們的套路

      好火子
      2026-03-11 06:41:56
      聚餐后瘋狂砸家后續:原因曝光,想讓兒子擔保借錢,女兒再曝黑料

      聚餐后瘋狂砸家后續:原因曝光,想讓兒子擔保借錢,女兒再曝黑料

      奇思妙想草葉君
      2026-03-10 01:26:22
      林徽因落選的國徽方案,網友看后感嘆:審美確實一絕,但真不合適

      林徽因落選的國徽方案,網友看后感嘆:審美確實一絕,但真不合適

      興趣知識
      2026-03-08 19:32:42
      深圳一幼兒園學費217360元!網友:都說經濟下滑,只是我窮而已

      深圳一幼兒園學費217360元!網友:都說經濟下滑,只是我窮而已

      火山詩話
      2026-03-10 13:22:20
      不要亂吃維生素了!美國研究:長期吃復合維生素,或增加死亡風險

      不要亂吃維生素了!美國研究:長期吃復合維生素,或增加死亡風險

      醫學原創故事會
      2026-03-10 15:34:04
      美媒評論東風5C導彈:恐怖!如果丟一枚到美國,會造成怎樣的景象

      美媒評論東風5C導彈:恐怖!如果丟一枚到美國,會造成怎樣的景象

      朝子亥
      2026-03-10 19:15:03
      景甜瑜伽寫真引爆熱搜!緊身衣難掩豐滿身材,這腰臀比太絕了?

      景甜瑜伽寫真引爆熱搜!緊身衣難掩豐滿身材,這腰臀比太絕了?

      娛樂領航家
      2026-03-11 00:00:08
      記者:又有3名伊朗女足球員脫離球隊;伊朗足協主席敦促球員回國

      記者:又有3名伊朗女足球員脫離球隊;伊朗足協主席敦促球員回國

      懂球帝
      2026-03-10 12:47:21
      是否刺殺伊朗新領袖?特朗普突然“共情”了:那樣說不合適,我以前也曾是暗殺目標;想在伊朗復制“委內瑞拉模式”

      是否刺殺伊朗新領袖?特朗普突然“共情”了:那樣說不合適,我以前也曾是暗殺目標;想在伊朗復制“委內瑞拉模式”

      極目新聞
      2026-03-10 14:47:01
      2026-03-11 07:48:49
      醫咖會
      醫咖會
      生動有趣的形式傳遞醫學新進展
      2782文章數 10983關注度
      往期回顧 全部

      科技要聞

      蔚來今年要少虧150億,沖擊年度盈利

      頭條要聞

      "一對老夫妻雙雙129歲相戀100年"視頻引熱議 當地回應

      頭條要聞

      "一對老夫妻雙雙129歲相戀100年"視頻引熱議 當地回應

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      《逐玉》注水風波升級!315評論區淪陷

      財經要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規劃曝光

      態度原創

      時尚
      家居
      親子
      公開課
      軍事航空

      看來看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質

      家居要聞

      自然肌理 溫度質感婚房

      親子要聞

      老婆懷的是女孩嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      剛說完戰爭很快結束 特朗普改口

      無障礙瀏覽 進入關懷版