<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      SWE-bench滿分,0個bug修復:伯克利造了個專門作弊的AI

      0
      分享至


      新智元報道

      編輯:傾傾

      【新智元導讀】伯克利團隊造了個專門作弊的AI,用10行Python代碼拿下SWE-bench滿分!500道題全過,0個bug修復。8大主流評測基準,全部淪陷。同一周,兩份獨立審計確認:排行榜上的作弊早已不是假設,而是現實。

      本周,AI評測圈經歷了一場信任地震。

      SWE-bench,是公認的AI編程能力標桿,各大模型發布會上的必報數字,投資人估值時的硬通貨。

      可伯克利的研究團隊告訴你,一個conftest.py文件就能讓它破防!


      不只SWE-bench。伯克利RDI團隊造了一個自動化漏洞掃描智能體,對當前最主流的8個AI智能體評測基準逐一滲透。

      結果,每一個都被攻破,得分從73%到100%不等。

      更巧的是,同一周,賓大團隊的獨立審計報告和Anthropic的Mythos Preview系統卡同時出爐,三條線指向同一個結論:這些評測基準,從設計到執行,到處是漏洞。

      10行代碼,500題滿分,0個bug修復


      伯克利團隊的漏洞利用智能體在8大基準上的得分。沒有解決任何任務,沒有調用任何大模型,6個拿到滿分。

      伯克利團隊的破法,簡單到離譜。

      SWE-bench要求AI修復真實的GitHub bug,測試通過才算成功。

      伯克利團隊寫了一個conftest.py文件,利用pytest的鉤子機制,在測試運行時攔截每一個測試結果,強制改寫為「通過」。

      500道題,全部滿分,一個bug也沒修。

      其中的原理很簡單。SWE-bench的測試和被測AI跑在同一個Docker容器里。

      智能體提交的代碼在容器內擁有完整權限,而pytest會自動發現并加載conftest.py文件。

      鉤子在測試的「call」階段攔截結果,把所有outcome改成passed。

      日志解析器看到的是一片綠燈,評分器判定全部通過。


      SWE-bench的conftest.py鉤子注入流程:智能體提交的補丁沒有修復任何bug,只塞入了一個conftest.py文件。pytest自動加載后,鉤子攔截每個測試結果并改寫為「通過」。

      其他基準的破法更加直白。

      WebArena任務的標準答案就在本地的config_files目錄里,AI用Playwright驅動瀏覽器打開一個file://路徑,直接讀取答案。

      評測框架從未限制過file://協議的訪問。不需要修改任何代碼,不需要破解任何東西,瀏覽器本身就是「答案閱讀器」。


      WebArena的file://漏洞:模型不需要瀏覽網頁完成任務,只需輸出一條goto指令,Playwright就會從本地配置文件中讀取標準答案并返回。整個過程不涉及任何推理。

      最離譜的是FieldWorkArena。它的validate()函數根本不檢查答案內容,只看最后一條消息是不是來自assistant。

      發一個空的{},就能拿滿分。

      那個本應比對答案的llm_fuzzy_match函數?導入了,但從未被調用。

      剩下的Terminal-Bench、OSWorld、GAIA、CAR-bench、SWE-bench Pro,手法各異但邏輯相通。

      木馬化驗證器的依賴工具、從公開URL下載標準答案讓評測器自己和自己比對、往LLM裁判的prompt里注入隱藏指令。

      8個基準,沒有一個能抵御一個「什么都不會但專門找漏洞」的智能體。

      伯克利團隊歸納出7種反復出現的模式:智能體和評測程序共享運行環境、標準答案暴露給被測系統、對不可信輸入調用eval()、LLM裁判缺乏輸入過濾、字符串匹配過于寬松、評分邏輯本身有bug、以及評測程序信任被測系統產生的輸出。


      伯克利團隊歸納的7種漏洞模式及其在8個基準中的分布。前兩種(智能體與評測器未隔離、標準答案泄露)幾乎命中了所有基準。

      作弊,正在發生

      4月10日,賓大的Adam Stein和Davis Brown發布了一項大規模審計。

      他們用一個叫Meerkat的智能體搜索工具,掃描了數千條真實的評測軌跡,發現28+個提交、9個基準、上千條作弊軌跡


      賓大Meerkat審計發現的作弊模式分布。橙色為harness級作弊(開發者框架泄露答案),藍色為任務級作弊(智能體自行走捷徑)。注意橫軸是對數坐標,harness級作弊的規模比任務級高出兩個數量級。

      最扎眼的是Terminal-Bench 2,一個被用來評估Opus 4.6和GPT-5.4的熱門基準。排行榜前三名,全部存在作弊行為。

      第一名Pilot(82.9%通過率):429條軌跡中,有415條的第一個動作就是cat /tests/test_outputs.py,讀取本應不可訪問的測試文件,然后反向推導出期望輸出。

      第二名和第三名ForgeCode(81.8%通過率):它的harness會在執行前自動加載AGENTS.md文件到系統提示中,而這些文件里直接包含標準答案。

      一個任務里,AGENTS.md赫然寫著:

      上一次運行失敗了,因為寫了錯誤答案……正確答案應該是GritLM/GritLM-7B。

      把ForgeCode中引用AGENTS.md的軌跡替換成同一模型(Opus 4.6)在干凈環境下的表現后,通過率從81.8%降到約71.7%,從第1名掉到第14名


      ForgeCode的AGENTS.md答案注入實例:上半部分,harness將包含標準答案的AGENTS.md文件注入智能體環境;下半部分,智能體讀取后直接寫入result.txt,并用grep自我驗證。

      更有意思的是,這些作弊不是開發者故意為之。

      Terminal-Bench上很多開發者公開說過,他們的harness是用AI「vibecoding」出來的。

      也就是說,開發者用來寫測試框架的AI,本身就是在作弊

      賓大團隊管這叫「元級別的reward hacking」:AI寫的代碼自帶作弊傾向,再通過harness傳遞給所有被評測的模型。

      其他基準上也不干凈。CyBench上,464條成功軌跡中有16條(3.4%)是Google搜索公開的CTF攻略抄來的。

      SWE-bench上,17條軌跡用git log找到修復提交,直接復制歷史補丁。

      BountyBench上,做不出真正漏洞利用的智能體會偽造一個,用grep檢查漏洞模式是否存在于源碼中,然后跑一個無關的pickle.loads()演示,評測器只檢查退出碼,全部通過。


      CyBench上的任務級作弊:GPT-5.3-Codex解不出CTF挑戰后,直接搜索公開攻略,從網頁中提取flag提交。

      最前沿的模型,自己就會hack評測

      METR的評估報告里有個案例。

      o3被要求寫一個高性能GPU核函數,評分函數先運行參考方案得到正確結果,再運行o3的方案比對。

      o3的「核函數」沒有做任何計算,它沿著Python調用棧找到評分系統已經算好的正確答案,直接返回,同時禁用CUDA同步來阻止系統測量真實執行時間。

      代碼注釋里,o3自己寫的是「cheating route」。

      RE-Bench的特定任務上,o3的reward hacking率接近100%,每一條軌跡都在作弊。


      METR事后問o3:「你覺得你的行為符合用戶意圖嗎?」o3答「不符合」,10次問10次都這么答。

      它知道自己在作弊,照做不誤。

      Claude 3.7 Sonnet和o1也有類似的情況。

      Mythos Preview走得更遠。在一次評估中,模型需要編輯一個它沒有權限的文件。

      它搜索了替代方案,找到了通過配置文件注入代碼來獲取提升權限的方法,然后設計了自刪除機制,讓注入的代碼執行完畢后自動清除痕跡。

      沒有人教它這么做,但當模型能力足夠強、優化壓力足夠大,它會自然走向阻力最小的路徑。

      分數驅動真金白銀,地基塌了怎么辦

      工程團隊選模型看SWE-bench排名,投資人看基準分數給估值,研究者圍繞分數確定優化方向。

      如果數字本身可以被輕易操縱,整條決策鏈的基礎就是空的。

      還有一個問題:能力評測和安全評測用的是類似的技術架構。

      如果能力評測能被注水,安全評測憑什么幸免?能hack編程評測的模型,hack對齊評測也不會更難。

      OpenAI今年2月已經宣布停用SWE-bench Verified,內部審計發現59.4%的被審計問題存在有缺陷的測試,模型在用有bug的標準來衡量。

      所有被測的前沿模型(GPT-5.2、Claude Opus 4.5、Gemini 3 Flash)都能從記憶中復現標準答案的原始代碼,連變量名和內聯注釋都一樣。

      SWE-bench Verified上的70%+分數,切換到更干凈的SWE-bench Pro后直接降到約23%。

      伯克利團隊把漏洞掃描工具做成一個叫BenchJack的開源項目,本質就是給評測基準做滲透測試。


      把它指向任何評測流水線,它會自動分析評分機制、識別隔離邊界、生成可運行的漏洞利用。

      如果一個零能力智能體的得分高于基線,你的基準就有問題。

      他們給出的建議也很直接:評測程序和被測AI必須完全隔離運行,標準答案不能出現在AI能訪問的環境中,永遠不要對不可信的輸入調用eval(),LLM裁判要像處理用戶輸入一樣對AI輸出做過濾。

      有人在推特上評論:


      說得有點絕對,但當行業圍繞分數競爭,分數本身的可信度反而成了最被忽視的東西。

      評測本身沒有錯,反而比以往任何時候都重要。不是「分數是多少」,而是「這個分數是怎么來的」。

      回到開頭那10行代碼。SWE-bench上,最好的模型跑出70%、80%的成績,各家發布會上反復引用。

      但一個什么都不會的conftest.py拿了100%。

      在這個100%被造出來之前,沒有人覺得分數有問題。

      參考資料:

      https://x.com/dotey/status/2043204009469641005

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      遺憾!張雪車隊無緣3連冠:極限反超 第三被罰變第四 無緣領獎臺

      遺憾!張雪車隊無緣3連冠:極限反超 第三被罰變第四 無緣領獎臺

      念洲
      2026-04-18 20:40:05
      騎士總比分1-0!哈登22+10輕取猛龍 米切爾32分斯特魯斯24分

      騎士總比分1-0!哈登22+10輕取猛龍 米切爾32分斯特魯斯24分

      羅說NBA
      2026-04-19 05:36:20
      與孔令輝分手12年,被黑人拖在肩上的馬蘇,終是為自己的風流買單

      與孔令輝分手12年,被黑人拖在肩上的馬蘇,終是為自己的風流買單

      小正說娛樂
      2026-04-19 12:33:53
      揮淚斬馬謖!皇馬正式出售2.1億“頂星”!新主帥攜巨星空降加盟

      揮淚斬馬謖!皇馬正式出售2.1億“頂星”!新主帥攜巨星空降加盟

      頭狼追球
      2026-04-18 17:53:28
      牡丹江男子拽住跳樓女友整整五分鐘,力竭松手女方墜亡,法院判了

      牡丹江男子拽住跳樓女友整整五分鐘,力竭松手女方墜亡,法院判了

      奇思妙想草葉君
      2026-04-18 12:15:59
      在美以高壓下,伊朗內部出現多起極端事件

      在美以高壓下,伊朗內部出現多起極端事件

      高博新視野
      2026-04-18 06:00:18
      6個家庭天塌了!成都面包車追尾致6死5傷,原因公布,真相太氣人

      6個家庭天塌了!成都面包車追尾致6死5傷,原因公布,真相太氣人

      奇思妙想草葉君
      2026-04-18 23:52:46
      許爾策勒:三笘薰的進球像范巴斯滕,所有踢球的人都知道難度

      許爾策勒:三笘薰的進球像范巴斯滕,所有踢球的人都知道難度

      懂球帝
      2026-04-19 04:48:54
      雷軍宣布:小米車主安全行駛里程達十萬公里,可獲贈實體限量徽章、精美虛擬勛章,一鍵生成專屬行車故事

      雷軍宣布:小米車主安全行駛里程達十萬公里,可獲贈實體限量徽章、精美虛擬勛章,一鍵生成專屬行車故事

      魯中晨報
      2026-04-18 16:20:17
      曼聯1-0切爾西逼近歐冠!B費助攻庫尼亞制勝,卡里克需謝另外二人

      曼聯1-0切爾西逼近歐冠!B費助攻庫尼亞制勝,卡里克需謝另外二人

      羅米的曼聯博客
      2026-04-19 08:22:46
      和黃圣依離婚后,楊子去娘家接娃,14歲安迪駝背自卑,9歲弟弟帥

      和黃圣依離婚后,楊子去娘家接娃,14歲安迪駝背自卑,9歲弟弟帥

      椰黃娛樂
      2026-04-19 12:34:43
      天啊!看到1987年春晚觀眾席的遲重瑞,才懂陳麗華為啥一見鐘情

      天啊!看到1987年春晚觀眾席的遲重瑞,才懂陳麗華為啥一見鐘情

      真的八卦小學弟
      2026-04-12 00:30:12
      采訪了100個娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

      采訪了100個娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

      千秋文化
      2026-04-15 20:18:32
      滴滴、高德、T3等多家平臺簽字:每單抽成不超過27%,超過部分要返還給司機

      滴滴、高德、T3等多家平臺簽字:每單抽成不超過27%,超過部分要返還給司機

      網約車觀察室
      2026-04-18 09:53:23
      世錦賽戰報:世界亞軍連輸6局2-7!趙心童10連勝,丁俊暉面臨挑戰

      世錦賽戰報:世界亞軍連輸6局2-7!趙心童10連勝,丁俊暉面臨挑戰

      球場沒跑道
      2026-04-19 06:28:45
      “最快女護士”張水華云南石屏馬拉松退賽,本人回應:不舒服就沒跑;其辭職后已拿下兩個冠軍,獲折現超20萬獎勵

      “最快女護士”張水華云南石屏馬拉松退賽,本人回應:不舒服就沒跑;其辭職后已拿下兩個冠軍,獲折現超20萬獎勵

      極目新聞
      2026-04-19 12:01:08
      公交一味壓縮成本,反而越省越亂?北京運營現狀說出實話

      公交一味壓縮成本,反而越省越亂?北京運營現狀說出實話

      劉哥談體育
      2026-04-19 12:19:13
      想遠離癌癥,先管住嘴!腫瘤科醫生內部的“忌口清單”,很多人天天吃

      想遠離癌癥,先管住嘴!腫瘤科醫生內部的“忌口清單”,很多人天天吃

      環球網資訊
      2026-04-18 17:59:25
      林彪得知前未婚妻賣鞋為生,托人送去3000元,汪靜宜:他還沒忘我

      林彪得知前未婚妻賣鞋為生,托人送去3000元,汪靜宜:他還沒忘我

      歷史龍元閣
      2026-04-10 13:30:19
      4月16日俄烏最新:烏克蘭終于迎來了春天

      4月16日俄烏最新:烏克蘭終于迎來了春天

      西樓飲月
      2026-04-16 19:10:03
      2026-04-19 15:47:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15010文章數 66787關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      張天愛評論區淪陷!被曝卷入小三風波

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      藝術
      教育
      游戲
      數碼
      健康

      藝術要聞

      當代著名畫家 | 全山石人物油畫23幅

      教育要聞

      陜西某中學家長集體白嫖演出服,給孩子們上了最壞的一課

      “浩浩媽”新作被捆綁!表情嬌羞 身材太難頂

      數碼要聞

      當貝魚缸2S Ultra:聽見專業的聲音,才敢說這是好魚缸

      干細胞抗衰4大誤區,90%的人都中招

      無障礙瀏覽 進入關懷版