衡宇 發自 凹非寺
量子位 | 公眾號 QbitAI
大無語事件天天有,今天特別多——
AI大模型公司階躍星辰的研究員,自曝被蘋果掛在arXiv上的論文,狠狠坑了一把。
自己去反饋問題,對方簡單回了兩句就把issue關了;直到自己留下公開評論,對方才撤稿下架代碼了。
![]()
別著急,我們先來梗概一下故事線:
這個月月初,階躍研究員Lei Yang被同事安利了一篇arXiv上蘋果出品的論文(該論文也在投ICLR 2026),論文中提出的benchmark和Lei Yang最近做的研究非常契合。
他超級開心,馬上停下手頭的工作,開始適配這個benchmark。
結果這個聲稱“小模型全面超越GPT-5、數據經人工精心把控”的視覺benchmark,實際上卻存在荒謬的官方代碼bug和高達約30%的GT(Ground Truth)錯誤率。
![]()
看到這兒,你是不是已經覺得夠離譜了?
不好意思了朋友們,這還不是最離譜的……后續的故事看得人腦子上一個問號接一個問號冒出來。
這場鬧劇的荒誕程度,一步步升級,直到最終Lei Yang“公開把它噴撤稿了”。
總之看得圍觀的Reddit吃瓜網友連連搖頭:
- 我們曾擁有BatchNorm、ResNet、Dropout、Transformer這些革命性成果。
但到了大模型時代看起來真的是一團糟。
![]()
好了,咱們一起來詳細看看這個大無語事件到底是怎么回事。
什么,GT的錯誤率可能高達30%?
這個荒誕故事涉及的論文名為《Where Did the Reasoning Go Wrong? A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection》。
它提出了一個基于謎題的視覺推理任務的診斷benmark。
巧的是,論文中提出的這個新benchmark,和Lei Yang近期的研究方向挺契合。
所以Lei Yang讀完論文后,停下手頭其他工作,開始著手適配。
![]()
沒想到的是,熬了一個周末的通宵完成適配后,模型跑出來的點數極其之低,遠低于預期。
“我非常沮喪。”Lei Yang又開始做各種檢查和嘗試。
這個階段就開始出現不對勁了。Lei Yang發現了官方代碼的bug:
- 請求VLM的時候只用了圖片路徑的字符串,而不包含圖片本身。
行,有bug咱們就修bug唄!
好家伙,修復這個bug后,模型的點數更低了……
這結果給Lei Yang干懵了。他在多個平臺公開的小作文中寫道:“由于結果過于離譜,我不得不做更多的驗證工作,最終結論仍然是修了bug后點會更低。”
![]()
不得已,Lei Yang決定一條一條地分析錯題,看看自家的模型是怎么做錯的。
他抽查了前20道階躍模型答錯的題,結果令人大吃一驚:
- 里面有6道題明確屬于GT錯誤。
- 從GT錯誤風格來看,很可能是模型自動生成的GT加上質檢嚴重不足,導致GT包含大量幻覺。
這意味著,寫進論文里、作者精心挑選用于展示的內容存在大問題。
他初步估算了一下,GT錯誤率可能高達30%。
“我公開把它噴撤稿了”
于是,Lei Yang選擇在GitHub上向作者反饋,指出其中的錯誤。
6天過后,論文作者簡單回復了一下,然后直接關閉了issue。
![]()
給Lei Yang氣的呀,組織語言一通回擊。
然而這件荒謬事件沒有最離譜,只有更離譜——
ICLR review公布后,Lei Yang看了看該論文的5條reviews,居然沒有任何一個審稿人發現GT質量問題,也沒人發現論文中的例子存在幻覺和錯誤。
(這里中插一下Openreview的直通車:https://openreview.net/forum?id=pS9jc2zxQz)
憤怒之下,他撰寫了一份詳盡的Public Comment。
內容大概是列舉GT問題的實例,提醒ICLR審稿人和社區這個數據集質量堪憂、極易誤導研究方向。
![]()
在這條評論最后,Lei Yang留了句話
- 我在這里評論是為了防止有興趣的研究人員重復我經歷的相同循環——看到第一個錯誤檢測任務時的興奮,運行它后的震驚和失望,以及追蹤底層GT問題后的沮喪——從而節省每個人的時間和精力
Fine,看似是輸出憤怒,實則是真沒招了,順便警醒一下后來人不要再被坑。
不少網友為Lei Yang的這個行為超棒的:
![]()
最后,在這條公開評論發表的第二天,論文作者就宣布撤稿,并刪除了GitHub上的repo。
![]()
原論文作者公開回應
這兩天Lei Yang在多個平臺分享自己的慘痛踩坑經歷,希望通過分享這一遭遇,讓更多研究者警覺起來,尤其不要盲目信任表面包裝,哪怕是來自大公司。
今天上午,論文作者在小地瓜(沒錯就是那個平臺)上現身回應了。
他首先聲明自己這邊已經和Lei Yang詳細交流,也感謝和尊重推動學術社區進展的每個人。
![]()
我們梳理了一下論文作者的回應。
首先關于數據質量,作者承認審核不周。
雖然當初對injected error(人為注入錯誤)的樣本做了人工檢查,但沒有認真審核更關鍵的部分。
所以也就沒有留意到GT解答思路由GPT自動轉換成分步驟CoT時出現了幻覺,導致step label出現了問題。
這部分實質上承認了此次荒謬事件中最核心的問題,即自動構建數據時的質檢嚴重不足。
其次說了說關于論文中example inference的事兒。
他解釋稱項目中的example inference代碼是一個dummy示例,不是正式的演示代碼。
在o3的輸出例子中,是可以看到模型確實看到了圖片的。
然后,他表示當時接收到Lei Yang的提醒后,修改了dummy代碼,并且回復了Lei Yang。
最后他對自己當時直接關閉了issue感到非常抱歉。
“當時reopen并且回復了新提出的問題,下次也會一直開著直到問題全部解決。”
回應貼的最后一點是這么寫的:
- 我們的目標包括這個benchmark的目的都是推進各個研究方向,在做數據時有不應出現的疏忽,但我們各自都是出于對這個方向的興趣,利用業余時間在做這個項目,也在其中花費了大量時間精力為了推進這個小方向的發展。
會認真總結這次的經驗教訓,再接再厲。
![]()
參考鏈接:
[1]https://x.com/diyerxx/status/1994042370376032701
[2]https://www.reddit.com/r/MachineLearning/comments/1p82cto/d_got_burned_by_an_apple_iclr_paper_it_was/
[3]https://www.xiaohongshu.com/explore/6928aaf8000000001b022d64?app_platform=ios&app_version=9.10&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBLEH7cvuVDNN78gtS-RUB8YQp0_GXstBHlQAk14v6t8I=&author_share=1&xhsshare=WeixinSession&shareRedId=NzxHOEQ6OTw6Pjw3Sj81SD1HQUk5R0lK&apptime=1764289526&share_id=c73caa18d27a408898ea99622f8e0360
[4]https://openreview.net/forum?id=pS9jc2zxQz
[5]https://openreview.net/pdf/e5917f72a8373c7f56b3cb9c0ac881d991294ee2.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.