衡宇 發自 凹非寺
量子位 | 公眾號 QbitAI
ICLR 2026,居然有21%的評審是純純由AI生成的?!
上面這個相當扎心的答案,來自Pangram實驗室的分析報告。
這件事被發現的起因頗具戲劇色彩:CMU的AI研究員Graham Neubig,感覺自己收到的同行評審AI味超級重。
他之所以起疑心,是因為這些評審內容“非常冗長,且包含大量符號”,并且所要求的分析方式并非“審稿人通常在AI或ML論文中所要求的那種標準統計分析方式”。
做事嘛,不能光靠直覺,要真憑實據啦。
Graham Neubig自己干不了這個事兒,就在上發布了一個懸賞令,希望有人能做一輪系統性的檢測,看ICLR的論文和審稿中到底夾雜了多少AI文本。
- 我愿意懸賞50美元,給第一個做了這件事的人~
![]()
Pangram實驗室就是那個接黃榜的。
這個實驗室的業務之一,正好是開發檢測AI生成文本的工具。
結論簡單粗暴:
- 75800條評審中,15899條高度疑似完全由AI生成,占比21%。
- 大量論文正文中也檢測出AI參與的痕跡,有的論文甚至大半字數都是AI的產出。
一個頂級AI學術會議,審稿和投稿兩頭都出現大規模AI代寫……
是怎么測出“AI味”的?
Pangram這次對ICLR的全部提交論文和所有評審做了系統分析,并且在博客中公開了全過程。
他們先在OpenReview上,把ICLR 2026的數據全部拉了下來,總計約19490篇論文投稿,以及75800條審稿意見。
這些論文多為PDF格式,普通PDF解析工具面對公式、圖表、行號、表格等內容時容易抽風,會干擾后續的文本分析。所以常規的PDF解析器,比如PyMuPDF就用不了了。
于是Pangram用OCR模型(他們用的是Mistral OCR) 把PDF轉成Markdown,再統一轉成純文本,盡量減少格式噪音。
![]()
檢測兩類文本時,Pangram實驗室用了兩種不同的模型——
檢測論文正文時,用的是extended text classifier。
具體流程是先把整篇論文按段落或語義片段切分成若干segment,判斷每個segment“更像人寫”還是“更像AI寫”。
之后匯總結果,得到整篇論文中AI生成內容的大致比例,最后標記出“人類為主”“混合寫作”“幾乎完全AI生成”“極端outlier”等類別。
為了驗證模型的準確程度,Pangram還拿2022年之前的ICLR論文和NeurIPS論文做了測試。
結果顯示,這些論文由AI生成的概率是0%(盡管有部分論文用于模型訓練)。
![]()
檢測評審內容時,使用了新模型EditLens。
這個模型除了判斷評審內容是否為AI生成外,還嘗試判斷AI在其中的參與程度。
分為五個級別:完全人工撰寫、AI潤色、中等程度AI編輯/輔助、AI重度參與、完全由AI生成。
在一個已知完全由人類撰寫的對照語料上,EditLens把純人類寫作內容錯判成AI潤色過的內容的誤報率,差不多是1/1000;錯判成中等程度AI編輯/輔助內容的誤報率是1/50000;錯判成AI重度參與的錯誤率是1/100000。
![]()
回到實驗室對ICLR 2026論文和評審的檢測,結果如下。
有15899篇評審完全由AI生成,占評審總數的21%。
此外,超過一半的評審涉及不同程度的AI參與行為。
![]()
此外,61%的ICLR 2026論文是人工撰寫的,但有199篇論文(占總數量的1%)完全由AI生成。
但實驗室提到,部分完全由AI生成的論文,可能在此前已經被ICLR拒稿了,不會出現在OpenReview中。
![]()
AI頂會審稿正陷入一種奇妙的惡性循環
Pangram表示,他們做這個事情當然是因為有個懸賞貼在(doge),但并不是為了“點人名、批判某幾個個體”,而是希望揭示一個趨勢,一種現象。
ICLR 2026高級項目主席、康奈爾大學伊薩卡分校副教授Bharath Hariharan表示,這是ICLR首次大規模遇到此類問題。
ICLR開始用自動化工具,來評估提交的論文和同行評審是否違反了會議規定。
是的,其實ICLR對論文和評審中使用AI/禁止使用AI有非常清晰和詳細的規定。
首先,如果使用了AI,必須披露,需要遵循“所有對研究的貢獻都必須得到承認”和“貢獻者應該期望……獲得對其工作的認可”的道德準則政策。
其次,ICLR作者和評審者最終對其貢獻負責,遵循“研究人員不得故意做出虛假或誤導性聲明,編造或篡改數據,或歪曲結果”的道德準則政策。
同時,ICLR還規定了作者在使用AI撰寫論文和進行評審時應遵循的指南。
總結來說,論文作者可以用AI幫自己撰寫論文,或者配合自己做研究,但必須聲明自己使用了AI,并對論文的科學性和誠信負責。
同行可以用AI潤色自己的評審,但純用AI寫評審可能違反道德準則,因為這既不是同行本人的觀點而是外部意見,也違反了保密原則。
![]()
值得一提的是,Pangram實驗室還把“AI 使用程度”和“評審分數”做了關聯。
結果呈現出來的是兩個相當微妙的趨勢:
第一,論文中AI內容越多,平均收到的審稿評分就越低。
這可能意味著現階段的AI寫作,還是無法代替人類原創的論文的質量。
![]()
第二,審稿中AI參與程度越高,給出的評分就會越高。
換句話說,AI審稿更傾向于寬松友好的態度,評分就會偏高。
![]()
此外,AI生成的審稿內容往往字數較多,但信息密度低,建設性建議少,評論很多都很空洞,要不就是一堆車轱轆話。
這和以前 “長審稿=高質量審稿” 的情況完全相反。
而且論文作者們為了更好地rebuttal,一定會很認真地看評審意見。結果可能就是讀了一些又長又沒用的屁話,攤手。
這真的很消耗同行之間的信任。
![]()
怎么判斷你得到的review是不是AI生成的?
Pangram實驗室總結了一些AI生成的評審內容的特點,供大家參考,判斷自己得到的review人工含量高不高。
先說標題。
AI生成的同行評審喜歡用粗體章節標題,標題往往由2-3個摘要標簽組成,后面會跟冒號。
一個例子:
![]()
整體內容上,AI生成的評審內容總是吹毛求疵,沒給出啥真正的分析。
這些評審基本都在關注表面問題。典型的AI評審內容包括提出讓論文作者做更多已展示的消融實驗、要求增加測試集大小或控制數量,或要求提供更多示例。
當然,最明顯的就是說一些沒啥用的片湯話,讓人聽君一席話,如聽一席話那種。
不過,一個新的問題出現了。
正如芝加哥大學經濟學家 Alex Imas最近一條推文中說的那樣:
- 我們是否希望在同行評審中包含人類判斷?
![]()
One More Thing
又有坑慘階躍AI研究員的蘋果論文,又有雙盲評審制度一夜失效的bug,現在還有這么大規模的AI評審內容被揪出來……
今年的ICLR真的是抓馬十足,而且開盒事件的余波還沒有完全平息。
能理解大家知道是誰給自己的論文打低分后,情感上絕對會感覺到被背刺。
但事后值得關注的重中之重,還是“如何保證雙盲評審能繼續按規則施行”,任何頂會都不要再有這種驚天bug發生。
這關乎到整個學術共同體,是大家要一起面對的問題。
![]()
就像謝賽寧說的那樣,“請務必善待我們的社區。它已經如此脆弱,請不要讓它消亡。”
![]()
參考鏈接:
[1]https://www.pangram.com/blog/pangram-predicts-21-of-iclr-reviews-are-ai-generated
[2]https://www.nature.com/articles/d41586-025-03506-6
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.