學術圈變狼人殺!21%評審是AI寫的,評分大放水,兩邊互相猜忌
大家好,我是老陳瞰世界。
最近ICLR2026的瓜,真是讓我長見識了!本來打著“史上最嚴AI管控”的旗號,結果評審區(qū)反倒讓AI給“霸屏”了。
說出來你可能都覺得離譜,平均每五條審稿意見,就有一條是大模型直接生成的。
這學術圈現(xiàn)在搞得跟“狼人殺”似的,一邊是官方喊著“用AI必須報備”,一邊是第三方工具查出近半評審摻了AI。
今天我就跟大家好好嘮嘮,這事兒到底離譜到啥程度。
說實話,現(xiàn)在學術頂會的審稿壓力,真不是以前能比的。
ICLR和NeurIPS、ICML并稱“AI三巨頭”,那可是頂流學術會議,今年的投稿量直接飆到了近兩萬篇,比往年多了不少。
現(xiàn)在近兩萬篇論文堆過來,審稿人手里少則幾十篇多則上百篇,有人調(diào)侃自己堪比“高考閱卷老師”,一天下來眼睛都快熬瞎了。
現(xiàn)在大家工作學習壓力都不小,AI不知不覺就成了很多人偷個懶、省點力的好幫手。
![]()
卡內(nèi)基梅隆大學的Graham Neubig教授,把ICLR 公開的75800條評審意見都仔細篩查了一遍。
結果一出來,整個學術圈都炸開了鍋——有21%的評審意見是AI從頭寫到尾的,有35%是人類寫好后再讓AI潤色過的,真正完全靠人手寫的,只剩43%了。
從統(tǒng)計結果能看出來,純AI寫的評審意見平均分能到4.43分,比人類評審的4.13分足足高了0.3分。而且 AI 寫起來還特能嘮,平均篇幅快接近3700個字符。
不少投稿的年輕人跟我吐槽,碰到那種“話多又大方”的審稿人,還以為遇到了伯樂,結果查了一下,大概率是AI寫的評語,這心里能不膈應嗎?
![]()
PangramLabs也對外喊話說,他們這工具“假陽性率低到離譜”,輕度AI編輯的假陽性率才千分之一,完全AI生成的更是零假陽性,現(xiàn)在已經(jīng)被不少期刊和高校用來篩查AI寫作了。
相當于一家做AI檢測的公司,親手把頂會的“潛規(guī)則”給扒了出來,這戲碼也太足了。
我跟你講,最諷刺的不是AI審稿占比高,而是ICLR剛立了“史上最嚴AI新規(guī)”,結果轉頭就被現(xiàn)實狠狠打臉。
今年8月,會議組委會在官網(wǎng)上明明白白發(fā)布了《大型語言模型使用政策》,兩條鐵律說得斬釘截鐵:用沒用到大模型必須如實披露;不管用啥工具,責任都算在人身上。
規(guī)則里還寫了明確的懲罰措施:作者用LLM不報備,直接拒稿不再審;審稿人用AI寫評審不承認,可能連自己的論文都要被拒。
可現(xiàn)實呢?第三方工具直接甩出數(shù)據(jù):“純AI生成評審15899條,占比21%”。這不是明擺著打組委會的臉嗎?
輿情爆發(fā)后,ICLR只給了個簡短回應,說已經(jīng)注意到問題,正在討論措施,讓收到AI評審的作者標注后反饋給領域主席。
這回應跟沒說一樣,壓根沒提怎么處理那些違規(guī)的審稿人。難怪不少作者炸了鍋,覺得這新規(guī)就是個擺設,中看不中用。
其實這屆ICLR的評審本來就爭議不斷。投稿量漲到1.9萬多篇,平均得分卻從去年的5.12掉到4.20,不少人人生第一次在頂會拿到“0分”,心理能平衡嗎?
![]()
更讓人無語的是,有個審稿人居然用“精神病”這種帶人身攻擊的詞評價論文,一下子激起了全網(wǎng)的怒火。
后來這條評論被刪掉了,審稿人也出面道歉,但他還硬撐著,說自己的判斷根本沒毛病。
另一邊,審稿人也滿肚子委屈。
很多論文質(zhì)量參差不齊,花好幾個小時好不容易看懂了,作者一句“撤稿”就換個會議重投,純屬浪費時間。
![]()
現(xiàn)在再加上21%的AI評審,學術圈徹底變成了雙向猜忌:
作者猜評審是AI寫的,審稿人疑論文是AI拼的,組委會夾在中間,一邊用檢測工具排查,一邊又在想怎么合法用AI減負,這場面別提多魔幻了。
就連其他頂會也出現(xiàn)了類似問題,AAAI2026就有審稿人爆料,說自己認真寫了上千字負面評語,結果另一個評審用AI寫了兩行優(yōu)點打滿分,最后論文還真被接收了,搞得他都不想再審稿了。
從另一個角度看,ICLR不是唯一被AI沖擊的頂會,只是作為AI頂會,顯得格外諷刺。現(xiàn)在各個頂會都在想辦法應對,態(tài)度卻大不相同,真是八仙過海各顯神通。
![]()
計算機視覺頂會CVPR2025直接下了“死命令”,搞零容忍政策:
大模型不能用于寫評審或元評審,只要評審意見是一兩句話、明顯AI生成,或者和論文無關,就會被標記為“高度不負責任”,嚴重時審稿人自己的投稿都會被拒。
這招夠狠,雖然嚴格,但至少能剎住一些歪風。
NeurIPS2025則溫和很多,走“謹慎開放”的路線。允許寫論文時用LLM,但要求說明方法性使用,還專門開了頁面教大家怎么合規(guī)用AI,重點強調(diào)“不能把模型生成的引用直接塞進去”。
![]()
這種做法我覺得更靠譜,畢竟現(xiàn)在完全不用AI也不現(xiàn)實,關鍵是要規(guī)范使用。
其實ICLR自己也試過“溫和用AI”。
結果還不錯,26.6%的審稿人照著AI建議改了評審,平均多寫80個字,89%的人類評估者更偏好修改后的版本,而且論文錄用率沒被明顯拉高。
現(xiàn)在不少機構都在開發(fā)這類輔助工具,有的能幫著校驗數(shù)據(jù),有的能翻譯非英語評審,還有的能識別抄襲,這些都是實實在在的幫助。
但關鍵是要守住底線,AI只能當助手,不能替人做決定,更不能搞暗箱操作。
學術這事兒,拼的是真才實學,不是算法的花架子。
AI是個好東西,能幫著減輕負擔、提高效率,但不能讓它毀了學術的根兒。現(xiàn)在社會的困境,說白了就是AI跑得太快,規(guī)則沒跟上,人心沒穩(wěn)住。
![]()
說到底,咱們?nèi)钡牟皇歉悄艿哪P停窃敢鉃槊恳黄撐摹⒚恳粭l評審多花點心思的認真。AI可以當工具,但不能讓學術變成“算法自嗨”,這事兒,你說對不?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.