<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      蘋果AI論文太坑了!用GPT寫的GT,導致北京程序員通宵加班

      0
      分享至

      衡宇 發自 凹非寺
      量子位 | 公眾號 QbitAI

      大無語事件天天有,今天特別多——

      AI大模型公司階躍星辰的研究員,自曝被蘋果掛在arXiv上的論文,狠狠坑了一把。

      自己去反饋問題,對方簡單回了兩句就把issue關了;直到自己留下公開評論,對方才撤稿下架代碼了。



      別著急,我們先來梗概一下故事線:

      這個月月初,階躍研究員Lei Yang被同事安利了一篇arXiv上蘋果出品的論文(該論文也在投ICLR 2026),論文中提出的benchmark和Lei Yang最近做的研究非常契合。

      他超級開心,馬上停下手頭的工作,開始適配這個benchmark。

      結果這個聲稱“小模型全面超越GPT-5、數據經人工精心把控”的視覺benchmark,實際上卻存在荒謬的官方代碼bug和高達約30%的GT(Ground Truth)錯誤率



      看到這兒,你是不是已經覺得夠離譜了?

      不好意思了朋友們,這還不是最離譜的……后續的故事看得人腦子上一個問號接一個問號冒出來。

      這場鬧劇的荒誕程度,一步步升級,直到最終Lei Yang“公開把它噴撤稿了”。

      總之看得圍觀的Reddit吃瓜網友連連搖頭:

      • 我們曾擁有BatchNorm、ResNet、Dropout、Transformer這些革命性成果。
        但到了大模型時代看起來真的是一團糟。



      好了,咱們一起來詳細看看這個大無語事件到底是怎么回事。

      什么,GT的錯誤率可能高達30%?

      這個荒誕故事涉及的論文名為《Where Did the Reasoning Go Wrong? A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection》。

      它提出了一個基于謎題的視覺推理任務的診斷benmark。

      巧的是,論文中提出的這個新benchmark,和Lei Yang近期的研究方向挺契合。

      所以Lei Yang讀完論文后,停下手頭其他工作,開始著手適配。



      沒想到的是,熬了一個周末的通宵完成適配后,模型跑出來的點數極其之低,遠低于預期。

      “我非常沮喪。”Lei Yang又開始做各種檢查和嘗試。

      這個階段就開始出現不對勁了。Lei Yang發現了官方代碼的bug

      • 請求VLM的時候只用了圖片路徑的字符串,而不包含圖片本身。

      行,有bug咱們就修bug唄!

      好家伙,修復這個bug后,模型的點數更低了……

      這結果給Lei Yang干懵了。他在多個平臺公開的小作文中寫道:“由于結果過于離譜,我不得不做更多的驗證工作,最終結論仍然是修了bug后點會更低。”



      不得已,Lei Yang決定一條一條地分析錯題,看看自家的模型是怎么做錯的。

      他抽查了前20道階躍模型答錯的題,結果令人大吃一驚:

      • 里面有6道題明確屬于GT錯誤。
      • 從GT錯誤風格來看,很可能是模型自動生成的GT加上質檢嚴重不足,導致GT包含大量幻覺。

      這意味著,寫進論文里、作者精心挑選用于展示的內容存在大問題。

      他初步估算了一下,GT錯誤率可能高達30%

      “我公開把它噴撤稿了”

      于是,Lei Yang選擇在GitHub上向作者反饋,指出其中的錯誤。

      6天過后,論文作者簡單回復了一下,然后直接關閉了issue



      給Lei Yang氣的呀,組織語言一通回擊。

      然而這件荒謬事件沒有最離譜,只有更離譜——

      ICLR review公布后,Lei Yang看了看該論文的5條reviews,居然沒有任何一個審稿人發現GT質量問題,也沒人發現論文中的例子存在幻覺和錯誤

      (這里中插一下Openreview的直通車:https://openreview.net/forum?id=pS9jc2zxQz)

      憤怒之下,他撰寫了一份詳盡的Public Comment。

      內容大概是列舉GT問題的實例,提醒ICLR審稿人和社區這個數據集質量堪憂、極易誤導研究方向。



      在這條評論最后,Lei Yang留了句話

      • 我在這里評論是為了防止有興趣的研究人員重復我經歷的相同循環——看到第一個錯誤檢測任務時的興奮,運行它后的震驚和失望,以及追蹤底層GT問題后的沮喪——從而節省每個人的時間和精力

      Fine,看似是輸出憤怒,實則是真沒招了,順便警醒一下后來人不要再被坑。

      不少網友為Lei Yang的這個行為超棒的:



      最后,在這條公開評論發表的第二天,論文作者就宣布撤稿,并刪除了GitHub上的repo



      原論文作者公開回應

      這兩天Lei Yang在多個平臺分享自己的慘痛踩坑經歷,希望通過分享這一遭遇,讓更多研究者警覺起來,尤其不要盲目信任表面包裝,哪怕是來自大公司。

      今天上午,論文作者在小地瓜(沒錯就是那個平臺)上現身回應了。

      他首先聲明自己這邊已經和Lei Yang詳細交流,也感謝和尊重推動學術社區進展的每個人。



      我們梳理了一下論文作者的回應。

      首先關于數據質量,作者承認審核不周

      雖然當初對injected error(人為注入錯誤)的樣本做了人工檢查,但沒有認真審核更關鍵的部分。

      所以也就沒有留意到GT解答思路由GPT自動轉換成分步驟CoT時出現了幻覺,導致step label出現了問題。

      這部分實質上承認了此次荒謬事件中最核心的問題,即自動構建數據時的質檢嚴重不足。

      其次說了說關于論文中example inference的事兒。

      他解釋稱項目中的example inference代碼是一個dummy示例,不是正式的演示代碼。

      在o3的輸出例子中,是可以看到模型確實看到了圖片的。

      然后,他表示當時接收到Lei Yang的提醒后,修改了dummy代碼,并且回復了Lei Yang。

      最后他對自己當時直接關閉了issue感到非常抱歉。

      “當時reopen并且回復了新提出的問題,下次也會一直開著直到問題全部解決。”

      回應貼的最后一點是這么寫的:

      • 我們的目標包括這個benchmark的目的都是推進各個研究方向,在做數據時有不應出現的疏忽,但我們各自都是出于對這個方向的興趣,利用業余時間在做這個項目,也在其中花費了大量時間精力為了推進這個小方向的發展。
        會認真總結這次的經驗教訓,再接再厲。



      參考鏈接:
      [1]https://x.com/diyerxx/status/1994042370376032701
      [2]https://www.reddit.com/r/MachineLearning/comments/1p82cto/d_got_burned_by_an_apple_iclr_paper_it_was/
      [3]https://www.xiaohongshu.com/explore/6928aaf8000000001b022d64?app_platform=ios&app_version=9.10&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBLEH7cvuVDNN78gtS-RUB8YQp0_GXstBHlQAk14v6t8I=&author_share=1&xhsshare=WeixinSession&shareRedId=NzxHOEQ6OTw6Pjw3Sj81SD1HQUk5R0lK&apptime=1764289526&share_id=c73caa18d27a408898ea99622f8e0360
      [4]https://openreview.net/forum?id=pS9jc2zxQz
      [5]https://openreview.net/pdf/e5917f72a8373c7f56b3cb9c0ac881d991294ee2.pdf

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      震驚!吉林省道教協會一次性除名112名全真道士,并發布舉報公告

      震驚!吉林省道教協會一次性除名112名全真道士,并發布舉報公告

      火山詩話
      2025-12-08 13:51:32
      詹姆斯:今天東里都累了我不累 因此打得更主動

      詹姆斯:今天東里都累了我不累 因此打得更主動

      北青網-北京青年報
      2025-12-08 15:32:01
      楊振寧走后1個月,翁帆搬離別墅,穿帆布鞋吃食堂,帶走34箱東西

      楊振寧走后1個月,翁帆搬離別墅,穿帆布鞋吃食堂,帶走34箱東西

      禾寒敘
      2025-11-28 19:07:41
      巨星驗金石?濃眉2分、庫里11分、東里32分,超巨排隊遭雷霆毒打

      巨星驗金石?濃眉2分、庫里11分、東里32分,超巨排隊遭雷霆毒打

      奕辰說球
      2025-12-08 12:02:21
      農村馬上要挨家挨戶,將嚴查這3件事,件件都和老百姓有關系

      農村馬上要挨家挨戶,將嚴查這3件事,件件都和老百姓有關系

      三農雷哥
      2025-12-06 16:08:14
      馬斯克坦言,在中國,光靠微信就能把生活全管了,但它又不算壟斷

      馬斯克坦言,在中國,光靠微信就能把生活全管了,但它又不算壟斷

      我心縱橫天地間
      2025-12-07 15:52:53
      古代上京的考生盤纏豐厚,為何土匪不搶?土匪:你不看腰上綁的啥

      古代上京的考生盤纏豐厚,為何土匪不搶?土匪:你不看腰上綁的啥

      小豫講故事
      2025-12-08 06:00:07
      明年養老金應該怎么漲?

      明年養老金應該怎么漲?

      多村來信
      2025-12-08 07:38:11
      美國評選出中國最強的10所一本大學,西湖大學出圈,學生要清楚

      美國評選出中國最強的10所一本大學,西湖大學出圈,學生要清楚

      教育導向分享
      2025-12-07 14:40:03
      接親時新娘要12萬才下車,公公淡定刷卡,婚宴致辭:今天我得說件事

      接親時新娘要12萬才下車,公公淡定刷卡,婚宴致辭:今天我得說件事

      溫情郵局
      2025-11-21 11:13:13
      16人!湖北省委組織部發布干部任前公示,恩施州1人

      16人!湖北省委組織部發布干部任前公示,恩施州1人

      硒都身邊事兒
      2025-12-08 15:37:50
      留洋歐洲最炙手可熱的亞洲球星誕生:率隊爭冠+15場18球領跑射手榜

      留洋歐洲最炙手可熱的亞洲球星誕生:率隊爭冠+15場18球領跑射手榜

      側身凌空斬
      2025-12-08 11:40:57
      青島通報“便利店升降機困人事件”:1名被困人員已無生命體征

      青島通報“便利店升降機困人事件”:1名被困人員已無生命體征

      界面新聞
      2025-12-08 14:58:10
      楊瀚森:NBA生涯首次首發打得不咋的,向埃迪學習中鋒怎么生存

      楊瀚森:NBA生涯首次首發打得不咋的,向埃迪學習中鋒怎么生存

      狼叔評論
      2025-12-08 12:30:02
      火車員工用裝垃圾的簸箕接開水,12306回應:暫無規定不能用簸箕接水,會反饋改進

      火車員工用裝垃圾的簸箕接開水,12306回應:暫無規定不能用簸箕接水,會反饋改進

      極目新聞
      2025-12-07 16:35:20
      日本球迷炮轟教練排兵布陣無能,中澤睿缺席領獎臺,張本智和黑臉

      日本球迷炮轟教練排兵布陣無能,中澤睿缺席領獎臺,張本智和黑臉

      越嶺尋蹤
      2025-12-08 00:20:52
      互聯網巨頭聯合封殺豆包手機!羅永浩:比想象的要復雜……

      互聯網巨頭聯合封殺豆包手機!羅永浩:比想象的要復雜……

      柴狗夫斯基
      2025-12-08 11:46:08
      烏克蘭專家集體落淚:中國讓他們的技術重生

      烏克蘭專家集體落淚:中國讓他們的技術重生

      回京歷史夢
      2025-12-06 17:33:33
      豬肝再次成為關注對象!醫生發現:常吃豬肝,可能會收獲4大好處

      豬肝再次成為關注對象!醫生發現:常吃豬肝,可能會收獲4大好處

      搖感軍事
      2025-11-30 18:57:30
      詐騙14億!王麗坤全網社死前夫被法拍清單流出 才知他們有多奢靡

      詐騙14億!王麗坤全網社死前夫被法拍清單流出 才知他們有多奢靡

      千言娛樂記
      2025-11-27 22:16:17
      2025-12-08 16:16:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11823文章數 176340關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

      頭條要聞

      40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      游戲
      家居
      房產
      藝術
      公開課

      V社從未公開的科幻大作《Stars of Blood》概念圖泄露

      家居要聞

      有限無界 打破慣有思維

      房產要聞

      碧桂園,開始甩賣海口家底!

      藝術要聞

      一棵樹的力量

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品久久久久午夜福禁果tⅴ 免费看美女被靠到爽的视频 | 国产精品久久精品第一页| jizz日韩| 国产互换人妻XXXXXX6| 国产午夜福利视频在线观看| 一本色道久久综合亚洲精品按摩| 无码少妇视频| 亚洲性无码一区二区三区| 久久一本人碰碰人碰| www.国产在线| 保德县| 熟女视频在线观看| 国产爆乳美女娇喘呻吟| 青青青爽视频在线观看| 国产综合久久| 激情综合五月网| 日本高清不卡aⅴ免费网站| 亚洲男人av香蕉爽爽爽爽| 91色综合| 色色看片| 免费国产高清在线精品一区| 亚洲老熟女一区二区三区| 曰韩一级| 日本人妻中文| 成人性生交大片免费看| 国产精品流白浆无遮挡| 一区二区特级毛片| 熟妇图区| 亚洲爆乳精品无码一区二区| 亚洲经典在线中文字幕| 久久久久久AV无码免费网站动漫| 亚洲avav| 欧美老熟妇色XXXXX性| 色秘?乱码一码二码三码熟女| 狠狠爱无码一区二区三区| 亚洲综合欧美在线一区在线播放| 肉色丝袜足j视频国产| 4hu四虎永久免费地址ww416| 亚洲人妻在线一区二区| 吉木萨尔县| 国产一区二区波多野结衣|