網易首頁 > 網易號 > 正文申請入駐

蘋果AI論文太坑了！用GPT寫的GT，導致北京程序員通宵加班

2025-11-28 17:06:59　來源: 量子位

北京舉報

分享至

衡宇發自凹非寺
量子位 | 公眾號 QbitAI

大無語事件天天有，今天特別多——

AI大模型公司階躍星辰的研究員，自曝被蘋果掛在arXiv上的論文，狠狠坑了一把。

自己去反饋問題，對方簡單回了兩句就把issue關了；直到自己留下公開評論，對方才撤稿下架代碼了。

別著急，我們先來梗概一下故事線：

這個月月初，階躍研究員Lei Yang被同事安利了一篇arXiv上蘋果出品的論文（該論文也在投ICLR 2026），論文中提出的benchmark和Lei Yang最近做的研究非常契合。

他超級開心，馬上停下手頭的工作，開始適配這個benchmark。

結果這個聲稱“小模型全面超越GPT-5、數據經人工精心把控”的視覺benchmark，實際上卻存在荒謬的官方代碼bug和高達約30%的GT（Ground Truth）錯誤率。

看到這兒，你是不是已經覺得夠離譜了？

不好意思了朋友們，這還不是最離譜的……后續的故事看得人腦子上一個問號接一個問號冒出來。

這場鬧劇的荒誕程度，一步步升級，直到最終Lei Yang“公開把它噴撤稿了”。

總之看得圍觀的Reddit吃瓜網友連連搖頭：

我們曾擁有BatchNorm、ResNet、Dropout、Transformer這些革命性成果。
但到了大模型時代看起來真的是一團糟。

好了，咱們一起來詳細看看這個大無語事件到底是怎么回事。

什么，GT的錯誤率可能高達30%？

這個荒誕故事涉及的論文名為《Where Did the Reasoning Go Wrong? A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection》。

它提出了一個基于謎題的視覺推理任務的診斷benmark。

巧的是，論文中提出的這個新benchmark，和Lei Yang近期的研究方向挺契合。

所以Lei Yang讀完論文后，停下手頭其他工作，開始著手適配。

沒想到的是，熬了一個周末的通宵完成適配后，模型跑出來的點數極其之低，遠低于預期。

“我非常沮喪。”Lei Yang又開始做各種檢查和嘗試。

這個階段就開始出現不對勁了。Lei Yang發現了官方代碼的bug：

請求VLM的時候只用了圖片路徑的字符串，而不包含圖片本身。

行，有bug咱們就修bug唄！

好家伙，修復這個bug后，模型的點數更低了……

這結果給Lei Yang干懵了。他在多個平臺公開的小作文中寫道：“由于結果過于離譜，我不得不做更多的驗證工作，最終結論仍然是修了bug后點會更低。”

不得已，Lei Yang決定一條一條地分析錯題，看看自家的模型是怎么做錯的。

他抽查了前20道階躍模型答錯的題，結果令人大吃一驚：

里面有6道題明確屬于GT錯誤。
從GT錯誤風格來看，很可能是模型自動生成的GT加上質檢嚴重不足，導致GT包含大量幻覺。

這意味著，寫進論文里、作者精心挑選用于展示的內容存在大問題。

他初步估算了一下，GT錯誤率可能高達30%。

“我公開把它噴撤稿了”

于是，Lei Yang選擇在GitHub上向作者反饋，指出其中的錯誤。

6天過后，論文作者簡單回復了一下，然后直接關閉了issue。

給Lei Yang氣的呀，組織語言一通回擊。

然而這件荒謬事件沒有最離譜，只有更離譜——

ICLR review公布后，Lei Yang看了看該論文的5條reviews，居然沒有任何一個審稿人發現GT質量問題，也沒人發現論文中的例子存在幻覺和錯誤。

（這里中插一下Openreview的直通車：https://openreview.net/forum?id=pS9jc2zxQz）

憤怒之下，他撰寫了一份詳盡的Public Comment。

內容大概是列舉GT問題的實例，提醒ICLR審稿人和社區這個數據集質量堪憂、極易誤導研究方向。

在這條評論最后，Lei Yang留了句話

我在這里評論是為了防止有興趣的研究人員重復我經歷的相同循環——看到第一個錯誤檢測任務時的興奮，運行它后的震驚和失望，以及追蹤底層GT問題后的沮喪——從而節省每個人的時間和精力

Fine，看似是輸出憤怒，實則是真沒招了，順便警醒一下后來人不要再被坑。

不少網友為Lei Yang的這個行為超棒的：

最后，在這條公開評論發表的第二天，論文作者就宣布撤稿，并刪除了GitHub上的repo。

原論文作者公開回應

這兩天Lei Yang在多個平臺分享自己的慘痛踩坑經歷，希望通過分享這一遭遇，讓更多研究者警覺起來，尤其不要盲目信任表面包裝，哪怕是來自大公司。

今天上午，論文作者在小地瓜（沒錯就是那個平臺）上現身回應了。

他首先聲明自己這邊已經和Lei Yang詳細交流，也感謝和尊重推動學術社區進展的每個人。

我們梳理了一下論文作者的回應。

首先關于數據質量，作者承認審核不周。

雖然當初對injected error（人為注入錯誤）的樣本做了人工檢查，但沒有認真審核更關鍵的部分。

所以也就沒有留意到GT解答思路由GPT自動轉換成分步驟CoT時出現了幻覺，導致step label出現了問題。

這部分實質上承認了此次荒謬事件中最核心的問題，即自動構建數據時的質檢嚴重不足。

其次說了說關于論文中example inference的事兒。

他解釋稱項目中的example inference代碼是一個dummy示例，不是正式的演示代碼。

在o3的輸出例子中，是可以看到模型確實看到了圖片的。

然后，他表示當時接收到Lei Yang的提醒后，修改了dummy代碼，并且回復了Lei Yang。

最后他對自己當時直接關閉了issue感到非常抱歉。

“當時reopen并且回復了新提出的問題，下次也會一直開著直到問題全部解決。”

回應貼的最后一點是這么寫的：

我們的目標包括這個benchmark的目的都是推進各個研究方向，在做數據時有不應出現的疏忽，但我們各自都是出于對這個方向的興趣，利用業余時間在做這個項目，也在其中花費了大量時間精力為了推進這個小方向的發展。
會認真總結這次的經驗教訓，再接再厲。

參考鏈接：
[1]https://x.com/diyerxx/status/1994042370376032701
[2]https://www.reddit.com/r/MachineLearning/comments/1p82cto/d_got_burned_by_an_apple_iclr_paper_it_was/
[3]https://www.xiaohongshu.com/explore/6928aaf8000000001b022d64?app_platform=ios&app_version=9.10&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBLEH7cvuVDNN78gtS-RUB8YQp0_GXstBHlQAk14v6t8I=&author_share=1&xhsshare=WeixinSession&shareRedId=NzxHOEQ6OTw6Pjw3Sj81SD1HQUk5R0lK&apptime=1764289526&share_id=c73caa18d27a408898ea99622f8e0360
[4]https://openreview.net/forum?id=pS9jc2zxQz
[5]https://openreview.net/pdf/e5917f72a8373c7f56b3cb9c0ac881d991294ee2.pdf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.