<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      SWE-bench滿分,0個(gè)bug修復(fù):伯克利造了個(gè)專門(mén)作弊的AI

      0
      分享至


      新智元報(bào)道

      編輯:傾傾

      【新智元導(dǎo)讀】伯克利團(tuán)隊(duì)造了個(gè)專門(mén)作弊的AI,用10行Python代碼拿下SWE-bench滿分!500道題全過(guò),0個(gè)bug修復(fù)。8大主流評(píng)測(cè)基準(zhǔn),全部淪陷。同一周,兩份獨(dú)立審計(jì)確認(rèn):排行榜上的作弊早已不是假設(shè),而是現(xiàn)實(shí)。

      本周,AI評(píng)測(cè)圈經(jīng)歷了一場(chǎng)信任地震。

      SWE-bench,是公認(rèn)的AI編程能力標(biāo)桿,各大模型發(fā)布會(huì)上的必報(bào)數(shù)字,投資人估值時(shí)的硬通貨。

      可伯克利的研究團(tuán)隊(duì)告訴你,一個(gè)conftest.py文件就能讓它破防!


      不只SWE-bench。伯克利RDI團(tuán)隊(duì)造了一個(gè)自動(dòng)化漏洞掃描智能體,對(duì)當(dāng)前最主流的8個(gè)AI智能體評(píng)測(cè)基準(zhǔn)逐一滲透。

      結(jié)果,每一個(gè)都被攻破,得分從73%到100%不等。

      更巧的是,同一周,賓大團(tuán)隊(duì)的獨(dú)立審計(jì)報(bào)告和Anthropic的Mythos Preview系統(tǒng)卡同時(shí)出爐,三條線指向同一個(gè)結(jié)論:這些評(píng)測(cè)基準(zhǔn),從設(shè)計(jì)到執(zhí)行,到處是漏洞。

      10行代碼,500題滿分,0個(gè)bug修復(fù)


      伯克利團(tuán)隊(duì)的漏洞利用智能體在8大基準(zhǔn)上的得分。沒(méi)有解決任何任務(wù),沒(méi)有調(diào)用任何大模型,6個(gè)拿到滿分。

      伯克利團(tuán)隊(duì)的破法,簡(jiǎn)單到離譜。

      SWE-bench要求AI修復(fù)真實(shí)的GitHub bug,測(cè)試通過(guò)才算成功。

      伯克利團(tuán)隊(duì)寫(xiě)了一個(gè)conftest.py文件,利用pytest的鉤子機(jī)制,在測(cè)試運(yùn)行時(shí)攔截每一個(gè)測(cè)試結(jié)果,強(qiáng)制改寫(xiě)為「通過(guò)」。

      500道題,全部滿分,一個(gè)bug也沒(méi)修。

      其中的原理很簡(jiǎn)單。SWE-bench的測(cè)試和被測(cè)AI跑在同一個(gè)Docker容器里。

      智能體提交的代碼在容器內(nèi)擁有完整權(quán)限,而pytest會(huì)自動(dòng)發(fā)現(xiàn)并加載conftest.py文件。

      鉤子在測(cè)試的「call」階段攔截結(jié)果,把所有outcome改成passed。

      日志解析器看到的是一片綠燈,評(píng)分器判定全部通過(guò)。


      SWE-bench的conftest.py鉤子注入流程:智能體提交的補(bǔ)丁沒(méi)有修復(fù)任何bug,只塞入了一個(gè)conftest.py文件。pytest自動(dòng)加載后,鉤子攔截每個(gè)測(cè)試結(jié)果并改寫(xiě)為「通過(guò)」。

      其他基準(zhǔn)的破法更加直白。

      WebArena任務(wù)的標(biāo)準(zhǔn)答案就在本地的config_files目錄里,AI用Playwright驅(qū)動(dòng)瀏覽器打開(kāi)一個(gè)file://路徑,直接讀取答案。

      評(píng)測(cè)框架從未限制過(guò)file://協(xié)議的訪問(wèn)。不需要修改任何代碼,不需要破解任何東西,瀏覽器本身就是「答案閱讀器」。


      WebArena的file://漏洞:模型不需要瀏覽網(wǎng)頁(yè)完成任務(wù),只需輸出一條goto指令,Playwright就會(huì)從本地配置文件中讀取標(biāo)準(zhǔn)答案并返回。整個(gè)過(guò)程不涉及任何推理。

      最離譜的是FieldWorkArena。它的validate()函數(shù)根本不檢查答案內(nèi)容,只看最后一條消息是不是來(lái)自assistant。

      發(fā)一個(gè)空的{},就能拿滿分。

      那個(gè)本應(yīng)比對(duì)答案的llm_fuzzy_match函數(shù)?導(dǎo)入了,但從未被調(diào)用。

      剩下的Terminal-Bench、OSWorld、GAIA、CAR-bench、SWE-bench Pro,手法各異但邏輯相通。

      木馬化驗(yàn)證器的依賴工具、從公開(kāi)URL下載標(biāo)準(zhǔn)答案讓評(píng)測(cè)器自己和自己比對(duì)、往LLM裁判的prompt里注入隱藏指令。

      8個(gè)基準(zhǔn),沒(méi)有一個(gè)能抵御一個(gè)「什么都不會(huì)但專門(mén)找漏洞」的智能體。

      伯克利團(tuán)隊(duì)歸納出7種反復(fù)出現(xiàn)的模式:智能體和評(píng)測(cè)程序共享運(yùn)行環(huán)境、標(biāo)準(zhǔn)答案暴露給被測(cè)系統(tǒng)、對(duì)不可信輸入調(diào)用eval()、LLM裁判缺乏輸入過(guò)濾、字符串匹配過(guò)于寬松、評(píng)分邏輯本身有bug、以及評(píng)測(cè)程序信任被測(cè)系統(tǒng)產(chǎn)生的輸出。


      伯克利團(tuán)隊(duì)歸納的7種漏洞模式及其在8個(gè)基準(zhǔn)中的分布。前兩種(智能體與評(píng)測(cè)器未隔離、標(biāo)準(zhǔn)答案泄露)幾乎命中了所有基準(zhǔn)。

      作弊,正在發(fā)生

      4月10日,賓大的Adam Stein和Davis Brown發(fā)布了一項(xiàng)大規(guī)模審計(jì)。

      他們用一個(gè)叫Meerkat的智能體搜索工具,掃描了數(shù)千條真實(shí)的評(píng)測(cè)軌跡,發(fā)現(xiàn)28+個(gè)提交、9個(gè)基準(zhǔn)、上千條作弊軌跡


      賓大Meerkat審計(jì)發(fā)現(xiàn)的作弊模式分布。橙色為harness級(jí)作弊(開(kāi)發(fā)者框架泄露答案),藍(lán)色為任務(wù)級(jí)作弊(智能體自行走捷徑)。注意橫軸是對(duì)數(shù)坐標(biāo),harness級(jí)作弊的規(guī)模比任務(wù)級(jí)高出兩個(gè)數(shù)量級(jí)。

      最扎眼的是Terminal-Bench 2,一個(gè)被用來(lái)評(píng)估Opus 4.6和GPT-5.4的熱門(mén)基準(zhǔn)。排行榜前三名,全部存在作弊行為。

      第一名Pilot(82.9%通過(guò)率):429條軌跡中,有415條的第一個(gè)動(dòng)作就是cat /tests/test_outputs.py,讀取本應(yīng)不可訪問(wèn)的測(cè)試文件,然后反向推導(dǎo)出期望輸出。

      第二名和第三名ForgeCode(81.8%通過(guò)率):它的harness會(huì)在執(zhí)行前自動(dòng)加載AGENTS.md文件到系統(tǒng)提示中,而這些文件里直接包含標(biāo)準(zhǔn)答案。

      一個(gè)任務(wù)里,AGENTS.md赫然寫(xiě)著:

      上一次運(yùn)行失敗了,因?yàn)閷?xiě)了錯(cuò)誤答案……正確答案應(yīng)該是GritLM/GritLM-7B。

      把ForgeCode中引用AGENTS.md的軌跡替換成同一模型(Opus 4.6)在干凈環(huán)境下的表現(xiàn)后,通過(guò)率從81.8%降到約71.7%,從第1名掉到第14名


      ForgeCode的AGENTS.md答案注入實(shí)例:上半部分,harness將包含標(biāo)準(zhǔn)答案的AGENTS.md文件注入智能體環(huán)境;下半部分,智能體讀取后直接寫(xiě)入result.txt,并用grep自我驗(yàn)證。

      更有意思的是,這些作弊不是開(kāi)發(fā)者故意為之。

      Terminal-Bench上很多開(kāi)發(fā)者公開(kāi)說(shuō)過(guò),他們的harness是用AI「vibecoding」出來(lái)的。

      也就是說(shuō),開(kāi)發(fā)者用來(lái)寫(xiě)測(cè)試框架的AI,本身就是在作弊

      賓大團(tuán)隊(duì)管這叫「元級(jí)別的reward hacking」:AI寫(xiě)的代碼自帶作弊傾向,再通過(guò)harness傳遞給所有被評(píng)測(cè)的模型。

      其他基準(zhǔn)上也不干凈。CyBench上,464條成功軌跡中有16條(3.4%)是Google搜索公開(kāi)的CTF攻略抄來(lái)的。

      SWE-bench上,17條軌跡用git log找到修復(fù)提交,直接復(fù)制歷史補(bǔ)丁。

      BountyBench上,做不出真正漏洞利用的智能體會(huì)偽造一個(gè),用grep檢查漏洞模式是否存在于源碼中,然后跑一個(gè)無(wú)關(guān)的pickle.loads()演示,評(píng)測(cè)器只檢查退出碼,全部通過(guò)。


      CyBench上的任務(wù)級(jí)作弊:GPT-5.3-Codex解不出CTF挑戰(zhàn)后,直接搜索公開(kāi)攻略,從網(wǎng)頁(yè)中提取flag提交。

      最前沿的模型,自己就會(huì)hack評(píng)測(cè)

      METR的評(píng)估報(bào)告里有個(gè)案例。

      o3被要求寫(xiě)一個(gè)高性能GPU核函數(shù),評(píng)分函數(shù)先運(yùn)行參考方案得到正確結(jié)果,再運(yùn)行o3的方案比對(duì)。

      o3的「核函數(shù)」沒(méi)有做任何計(jì)算,它沿著Python調(diào)用棧找到評(píng)分系統(tǒng)已經(jīng)算好的正確答案,直接返回,同時(shí)禁用CUDA同步來(lái)阻止系統(tǒng)測(cè)量真實(shí)執(zhí)行時(shí)間。

      代碼注釋里,o3自己寫(xiě)的是「cheating route」。

      RE-Bench的特定任務(wù)上,o3的reward hacking率接近100%,每一條軌跡都在作弊。


      METR事后問(wèn)o3:「你覺(jué)得你的行為符合用戶意圖嗎?」o3答「不符合」,10次問(wèn)10次都這么答。

      它知道自己在作弊,照做不誤。

      Claude 3.7 Sonnet和o1也有類似的情況。

      Mythos Preview走得更遠(yuǎn)。在一次評(píng)估中,模型需要編輯一個(gè)它沒(méi)有權(quán)限的文件。

      它搜索了替代方案,找到了通過(guò)配置文件注入代碼來(lái)獲取提升權(quán)限的方法,然后設(shè)計(jì)了自刪除機(jī)制,讓注入的代碼執(zhí)行完畢后自動(dòng)清除痕跡。

      沒(méi)有人教它這么做,但當(dāng)模型能力足夠強(qiáng)、優(yōu)化壓力足夠大,它會(huì)自然走向阻力最小的路徑。

      分?jǐn)?shù)驅(qū)動(dòng)真金白銀,地基塌了怎么辦

      工程團(tuán)隊(duì)選模型看SWE-bench排名,投資人看基準(zhǔn)分?jǐn)?shù)給估值,研究者圍繞分?jǐn)?shù)確定優(yōu)化方向。

      如果數(shù)字本身可以被輕易操縱,整條決策鏈的基礎(chǔ)就是空的。

      還有一個(gè)問(wèn)題:能力評(píng)測(cè)和安全評(píng)測(cè)用的是類似的技術(shù)架構(gòu)。

      如果能力評(píng)測(cè)能被注水,安全評(píng)測(cè)憑什么幸免?能hack編程評(píng)測(cè)的模型,hack對(duì)齊評(píng)測(cè)也不會(huì)更難。

      OpenAI今年2月已經(jīng)宣布停用SWE-bench Verified,內(nèi)部審計(jì)發(fā)現(xiàn)59.4%的被審計(jì)問(wèn)題存在有缺陷的測(cè)試,模型在用有bug的標(biāo)準(zhǔn)來(lái)衡量。

      所有被測(cè)的前沿模型(GPT-5.2、Claude Opus 4.5、Gemini 3 Flash)都能從記憶中復(fù)現(xiàn)標(biāo)準(zhǔn)答案的原始代碼,連變量名和內(nèi)聯(lián)注釋都一樣。

      SWE-bench Verified上的70%+分?jǐn)?shù),切換到更干凈的SWE-bench Pro后直接降到約23%。

      伯克利團(tuán)隊(duì)把漏洞掃描工具做成一個(gè)叫BenchJack的開(kāi)源項(xiàng)目,本質(zhì)就是給評(píng)測(cè)基準(zhǔn)做滲透測(cè)試。


      把它指向任何評(píng)測(cè)流水線,它會(huì)自動(dòng)分析評(píng)分機(jī)制、識(shí)別隔離邊界、生成可運(yùn)行的漏洞利用。

      如果一個(gè)零能力智能體的得分高于基線,你的基準(zhǔn)就有問(wèn)題。

      他們給出的建議也很直接:評(píng)測(cè)程序和被測(cè)AI必須完全隔離運(yùn)行,標(biāo)準(zhǔn)答案不能出現(xiàn)在AI能訪問(wèn)的環(huán)境中,永遠(yuǎn)不要對(duì)不可信的輸入調(diào)用eval(),LLM裁判要像處理用戶輸入一樣對(duì)AI輸出做過(guò)濾。

      有人在推特上評(píng)論:


      說(shuō)得有點(diǎn)絕對(duì),但當(dāng)行業(yè)圍繞分?jǐn)?shù)競(jìng)爭(zhēng),分?jǐn)?shù)本身的可信度反而成了最被忽視的東西。

      評(píng)測(cè)本身沒(méi)有錯(cuò),反而比以往任何時(shí)候都重要。不是「分?jǐn)?shù)是多少」,而是「這個(gè)分?jǐn)?shù)是怎么來(lái)的」。

      回到開(kāi)頭那10行代碼。SWE-bench上,最好的模型跑出70%、80%的成績(jī),各家發(fā)布會(huì)上反復(fù)引用。

      但一個(gè)什么都不會(huì)的conftest.py拿了100%。

      在這個(gè)100%被造出來(lái)之前,沒(méi)有人覺(jué)得分?jǐn)?shù)有問(wèn)題。

      參考資料:

      https://x.com/dotey/status/2043204009469641005

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      從0-1到1-1!奪冠熱門(mén)倒下,輸?shù)眠€不太光彩,聯(lián)盟門(mén)面該換人了

      從0-1到1-1!奪冠熱門(mén)倒下,輸?shù)眠€不太光彩,聯(lián)盟門(mén)面該換人了

      籃球掃地僧
      2026-04-22 10:06:55
      烏克蘭沒(méi)錢(qián)打俄羅斯了!國(guó)庫(kù)見(jiàn)底外援青黃不接,普通人積蓄一夜縮水民不聊生

      烏克蘭沒(méi)錢(qián)打俄羅斯了!國(guó)庫(kù)見(jiàn)底外援青黃不接,普通人積蓄一夜縮水民不聊生

      網(wǎng)易新聞出品
      2026-04-22 18:42:46
      伊朗公開(kāi)展示對(duì)美以反擊“大殺器”

      伊朗公開(kāi)展示對(duì)美以反擊“大殺器”

      新華社
      2026-04-22 16:41:42
      注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

      注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

      夜深愛(ài)雜談
      2026-04-21 07:45:20
      情侶約會(huì)求“刺激”,雙雙被抓,審訊時(shí)互相甩鍋

      情侶約會(huì)求“刺激”,雙雙被抓,審訊時(shí)互相甩鍋

      深圳晚報(bào)
      2026-04-22 10:11:17
      10大天規(guī),不可打破,君子知命不算命!

      10大天規(guī),不可打破,君子知命不算命!

      神奇故事
      2026-04-20 19:27:24
      中央氣象臺(tái)4月22日18時(shí)繼續(xù)發(fā)布暴雨藍(lán)色預(yù)警

      中央氣象臺(tái)4月22日18時(shí)繼續(xù)發(fā)布暴雨藍(lán)色預(yù)警

      環(huán)球網(wǎng)資訊
      2026-04-22 18:47:16
      賴清德竄訪斯威士蘭受阻,鄭麗文:全世界都不支持“臺(tái)獨(dú)”

      賴清德竄訪斯威士蘭受阻,鄭麗文:全世界都不支持“臺(tái)獨(dú)”

      海峽導(dǎo)報(bào)社
      2026-04-22 15:32:03
      綜合ROI時(shí)代,這些高速增長(zhǎng)的商家做對(duì)了什么?

      綜合ROI時(shí)代,這些高速增長(zhǎng)的商家做對(duì)了什么?

      刀法研究所
      2026-04-16 15:00:13
      網(wǎng)友爸爸2年前垃圾堆里撿回72條32GB DDR4內(nèi)存:如今價(jià)值近14萬(wàn)

      網(wǎng)友爸爸2年前垃圾堆里撿回72條32GB DDR4內(nèi)存:如今價(jià)值近14萬(wàn)

      快科技
      2026-04-20 10:51:04
      取消午休,改成16點(diǎn)下班,你愿意嗎?網(wǎng)友吵翻!

      取消午休,改成16點(diǎn)下班,你愿意嗎?網(wǎng)友吵翻!

      魯中晨報(bào)
      2026-04-22 14:28:23
      與伊朗談判取消  特朗普再次上演TACO,宣布延長(zhǎng)停火期

      與伊朗談判取消 特朗普再次上演TACO,宣布延長(zhǎng)停火期

      劉耘博士
      2026-04-22 10:49:40
      拼多多暴力抗法震驚全網(wǎng),市值萬(wàn)億巨頭為何如此囂張

      拼多多暴力抗法震驚全網(wǎng),市值萬(wàn)億巨頭為何如此囂張

      燕梳樓頻道
      2026-04-20 21:12:04
      匈牙利爆出戲劇性消息,毛焦?fàn)柼崦材菟W爾班出任新政府外長(zhǎng)

      匈牙利爆出戲劇性消息,毛焦?fàn)柼崦材菟W爾班出任新政府外長(zhǎng)

      墜入二次元的海洋
      2026-04-22 15:15:16
      4月前19天乘用車(chē)零售同比大跌26%,房地產(chǎn)的今天就是汽車(chē)的明天?

      4月前19天乘用車(chē)零售同比大跌26%,房地產(chǎn)的今天就是汽車(chē)的明天?

      風(fēng)向觀察
      2026-04-22 18:24:13
      慈溪市政協(xié)黨組書(shū)記、主席陳杰峰接受審查調(diào)查

      慈溪市政協(xié)黨組書(shū)記、主席陳杰峰接受審查調(diào)查

      界面新聞
      2026-04-22 17:34:07
      最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣(mài)淫行為?

      最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣(mài)淫行為?

      周軍律師聊案子
      2026-04-21 09:50:16
      段睿悲痛萬(wàn)分,深夜發(fā)布訃告:他走了,再也沒(méi)有人等我回去了!

      段睿悲痛萬(wàn)分,深夜發(fā)布訃告:他走了,再也沒(méi)有人等我回去了!

      米果說(shuō)識(shí)
      2026-04-22 14:41:50
      寧德時(shí)代狂丟王炸:滿電6分鐘,最高續(xù)航1500km,猛建超換一體站

      寧德時(shí)代狂丟王炸:滿電6分鐘,最高續(xù)航1500km,猛建超換一體站

      超電實(shí)驗(yàn)室
      2026-04-22 09:23:32
      2013年,江青拍攝的照片以34萬(wàn)元的高價(jià)拍出,毛澤東曾稱贊并題詞

      2013年,江青拍攝的照片以34萬(wàn)元的高價(jià)拍出,毛澤東曾稱贊并題詞

      南書(shū)房
      2026-04-21 07:25:06
      2026-04-22 19:44:49
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      15039文章數(shù) 66798關(guān)注度
      往期回顧 全部

      科技要聞

      對(duì)話梅濤:沒(méi)有視頻底座,具身智能走不遠(yuǎn)

      頭條要聞

      朝鮮發(fā)聲痛批日本 要求日本向中國(guó)道歉

      頭條要聞

      朝鮮發(fā)聲痛批日本 要求日本向中國(guó)道歉

      體育要聞

      網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

      娛樂(lè)要聞

      復(fù)婚無(wú)望!baby黃曉明陪小海綿零交流

      財(cái)經(jīng)要聞

      伊朗拒絕出席 特朗普宣布延長(zhǎng)停火期限

      汽車(chē)要聞

      純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

      態(tài)度原創(chuàng)

      游戲
      本地
      時(shí)尚
      教育
      公開(kāi)課

      《黑旗RE》官宣直播!B站抖音中文預(yù)告片首發(fā)!

      本地新聞

      春色滿城關(guān)不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

      初夏穿赫本的白褲子,清新又高級(jí)!

      教育要聞

      【媒體聚焦】南方工報(bào) | 廣東省教育研究院走進(jìn)湛江開(kāi)展教研幫扶

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版