<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      GPT-5編程成績有貓膩!自刪23道測試題,關(guān)鍵基準(zhǔn)還是自己提的

      0
      分享至

      白交 發(fā)自 凹非寺
      量子位 | 公眾號 QbitAI

      別急著用GPT-5編程了,可能它能力沒有你想象中那么強(qiáng)。

      有人發(fā)現(xiàn),官方測試編程能力用的SWE-bench Verified,但貨不對板,只用了477個問題。



      什么意思呢?我們知道,SWE-bench是評估模型/智能體自主編程能力的一個通用且常用的指標(biāo)。而SWE-bench Verified作為它的子集,本來一共有500個問題。

      現(xiàn)在相當(dāng)于OpenAI自行省略的那23個問題,自己搞了個子集的“子集”來評估模型能力。

      而如果這些題默認(rèn)零分,那么得分實際上是比Claude Opus 4.1還要低的。因為現(xiàn)在僅有0.4%的差距。



      OpenAI這種自行忽略23道題的操作,已經(jīng)不是第一次了。

      早在GPT-4.1發(fā)布時就信誓旦旦地說,之所以忽略是因為這些問題的解決方案無法在他們的基礎(chǔ)設(shè)施運行。



      離譜了朋友們!要知道SWE-bench Verified這個OpenAI自己提的,理由也是因為SWE-bench無法系統(tǒng)評估模型的編程能力,所以決定自己再提煉一個子集。

      現(xiàn)在又因為測試題無法正常運行,所以自行又搞了個子集的“子集”。

      本來以為GPT-5直播里出現(xiàn)圖表錯誤已經(jīng)夠離譜了,結(jié)果現(xiàn)在告訴我這里面的成績可能還有假?



      OpenAI一直省略23個問題

      已經(jīng)開始有網(wǎng)友發(fā)現(xiàn),GPT-5能力并不比Claude 4.1 Opus好多少。

      現(xiàn)在來看,這個官方給的結(jié)果或許根本沒有參考價值。

      網(wǎng)友們除了自行忽略部分測試題,“偽造了結(jié)果”這一發(fā)現(xiàn)外,還發(fā)現(xiàn),他們是將具有最大思維努力的GPT-5與沒有擴(kuò)展思維僅靠原始模型輸出的Opus 4.1進(jìn)行比較。這種比較實際上沒有參考意義。



      而他們之所以只使用477個問題來測試,理由也跟GPT-4.1發(fā)布時一樣,因為他們內(nèi)部的基礎(chǔ)設(shè)施運行不了剩下的23個問題。



      今年4月份發(fā)布GPT-4.1時,在同一基準(zhǔn)僅使用477個問題下得得分在54.6%。

      當(dāng)時官方還指出,如果保守地將這些問題的得分定為 0,那么54.6%的得分就變成了52.1%。即便是這樣,這個數(shù)值放在當(dāng)時也是最高的。



      而Anthropic這邊,其實也已經(jīng)發(fā)現(xiàn)了OpenAI這個操作。

      就在Claude Opus 4.1發(fā)布公布編程成績之時,在文章的末尾有這么一句話。



      對于Claude 4系列模型,他們繼續(xù)使用相同的簡單框架,該框架僅為模型配備了兩種工具——一個Bash工具和一個通過字符串替換進(jìn)行文件編輯的工具,并且不再包含Claude 3.7 Sonnet中使用的第三個“規(guī)劃工具”。

      并在最后注明:在所有Claude 4模型中,他們報告的分?jǐn)?shù)基于完整的500個問題。OpenAI模型的得分基于477問題的子集進(jìn)行報告



      基準(zhǔn)還是OpenAI自己提的

      如果說,SWE-bench Verified還是OpenAI自己提的基準(zhǔn),那這件事就更離譜了。

      這不就相當(dāng)于自己搬起石頭砸自己的腳啦嘛。



      當(dāng)時啊還是因為類似的原因——他們測試發(fā)現(xiàn)SWE-bench的一些任務(wù)可能難以解決甚至無法解決,導(dǎo)致SWE-bench無法系統(tǒng)性評估模型的自主編程能力。

      于是乎,他們決定與SWE-bench的作者合作,決定弄出個新版本,希望能夠提供更準(zhǔn)確的評估。

      他們共同發(fā)起了一項人工注釋活動,共有93位資深程序員參與進(jìn)來,以篩選SWE-bench測試集每個樣本,從而獲得適當(dāng)范圍的單元測試和明確指定的問題描述。

      他們隨機(jī)抽取了1699個樣本,然后基于統(tǒng)一標(biāo)準(zhǔn)來進(jìn)行標(biāo)注。

      比如,問題描述是否明確?每個注釋都有一個標(biāo)簽,范圍從 [0, 1, 2, 3],嚴(yán)重程度依次遞增。

      標(biāo)簽0和1 表示輕微;標(biāo)簽2和3表示嚴(yán)重,表示樣本在某些方面存在缺陷,應(yīng)予以丟棄。



      此外,我們還會評估每個示例的難度,方法是讓注釋者估算開發(fā)人員確定并實現(xiàn)解決方案所需的時間。

      最終得到了500個經(jīng)過驗證的樣本,并且按照難度對數(shù)據(jù)集進(jìn)行細(xì)分。“簡單”子集包含196個小于15分鐘的修復(fù)任務(wù),而“困難”子集包含 45 個大于 1 小時的任務(wù)。

      結(jié)果現(xiàn)在這個子集又被OpenAI縮減了。

      One More Thing

      不過,還是有個總榜單或許值得參考,就是那個最原始的SWE-bench。

      在這個榜單中,Claude 4 Opus還是占據(jù)著領(lǐng)先位置。



      GPT-5也已經(jīng)發(fā)過好一陣了,不知道你有沒有這樣類似的編程體驗呀?歡迎在評論區(qū)與我們分享。

      參考鏈接:
      [1]https://www.swebench.com/
      [2]https://openai.com/index/introducing-gpt-5/
      [3]https://www.anthropic.com/news/claude-opus-4-1
      [4]https://x.com/SemiAnalysis_/status/1955028150217478177
      [5]https://x.com/DavidOndrej1/status/1954158161721487482

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      最新 | 張又俠、劉振立涉嫌嚴(yán)重違紀(jì)違法被立案審查調(diào)查

      最新 | 張又俠、劉振立涉嫌嚴(yán)重違紀(jì)違法被立案審查調(diào)查

      天津廣播
      2026-01-24 15:18:05
      1996年, 施瓦辛格在家中無事,和35歲200斤女傭發(fā)生不當(dāng)關(guān)系

      1996年, 施瓦辛格在家中無事,和35歲200斤女傭發(fā)生不當(dāng)關(guān)系

      南權(quán)先生
      2026-01-20 15:49:53
      21-15,24-22!陳雨菲KO手下敗將,2026年首進(jìn)決賽,打破冠軍荒?

      21-15,24-22!陳雨菲KO手下敗將,2026年首進(jìn)決賽,打破冠軍荒?

      劉姚堯的文字城堡
      2026-01-24 14:43:42
      廣東省委原常委、廣州市委原書記郭永航獲增補(bǔ)為省政協(xié)委員

      廣東省委原常委、廣州市委原書記郭永航獲增補(bǔ)為省政協(xié)委員

      澎湃新聞
      2026-01-24 18:12:15
      凝聚力拉滿!廣東為林醫(yī)生慶生!杜鋒講話致敬,球員砸蛋糕未果!

      凝聚力拉滿!廣東為林醫(yī)生慶生!杜鋒講話致敬,球員砸蛋糕未果!

      籃球資訊達(dá)人
      2026-01-24 21:05:56
      它被評為“中國十大最丑”,卻成了魔都最火打卡點!

      它被評為“中國十大最丑”,卻成了魔都最火打卡點!

      GA環(huán)球建筑
      2026-01-23 23:59:12
      睡完首富睡首相:從廠妹到頂級名媛,靠男人撈到268億,她憑什么

      睡完首富睡首相:從廠妹到頂級名媛,靠男人撈到268億,她憑什么

      深度報
      2026-01-21 22:54:05
      健美選手睪丸萎縮成“蠶豆”大小:瘋狂的肌肉與不可逆的代價

      健美選手睪丸萎縮成“蠶豆”大小:瘋狂的肌肉與不可逆的代價

      聽心堂
      2026-01-24 13:11:09
      突發(fā)!菲律賓宣布封鎖黃巖島空域,將連續(xù)軍演70天

      突發(fā)!菲律賓宣布封鎖黃巖島空域,將連續(xù)軍演70天

      頭條爆料007
      2026-01-24 06:17:26
      老婆漂亮有多重要?這些長相平平的男明星,生的兒子顏值終于翻盤

      老婆漂亮有多重要?這些長相平平的男明星,生的兒子顏值終于翻盤

      大鐵貓娛樂
      2026-01-24 16:10:02
      炸鍋!馬斯克當(dāng)眾自曝:我就是外星人!9000顆衛(wèi)星佐證,真相曝光

      炸鍋!馬斯克當(dāng)眾自曝:我就是外星人!9000顆衛(wèi)星佐證,真相曝光

      丁丁鯉史紀(jì)
      2026-01-23 16:30:04
      官媒親宣,33歲韋東奕再破天花板,讓王虹和整個學(xué)術(shù)圈“沉默”了

      官媒親宣,33歲韋東奕再破天花板,讓王虹和整個學(xué)術(shù)圈“沉默”了

      趣文說娛
      2026-01-24 15:17:05
      想不到吧?大蟲羅德曼的女兒剛剛簽下世界女足的最高薪!

      想不到吧?大蟲羅德曼的女兒剛剛簽下世界女足的最高薪!

      籃球大圖
      2026-01-24 13:22:49
      深夜利好,41股業(yè)績大超預(yù)期,108股業(yè)績暴雷,千萬別搞錯方向

      深夜利好,41股業(yè)績大超預(yù)期,108股業(yè)績暴雷,千萬別搞錯方向

      風(fēng)風(fēng)順
      2026-01-24 07:42:57
      湖北荊州市原住房和城鄉(xiāng)建設(shè)局黨組副書記接受紀(jì)律審查和監(jiān)察調(diào)查

      湖北荊州市原住房和城鄉(xiāng)建設(shè)局黨組副書記接受紀(jì)律審查和監(jiān)察調(diào)查

      瀟湘晨報
      2026-01-24 16:48:12
      21歲患白血病女大學(xué)生急需配型,全網(wǎng)尋親后疑似生父出現(xiàn),稱曾在女友懷孕時分別失去聯(lián)系:“不管是不是,都希望能幫到她”

      21歲患白血病女大學(xué)生急需配型,全網(wǎng)尋親后疑似生父出現(xiàn),稱曾在女友懷孕時分別失去聯(lián)系:“不管是不是,都希望能幫到她”

      極目新聞
      2026-01-24 20:39:46
      火箭終結(jié)活塞4連勝:杜蘭特32+7超特里迎里程碑 阿門15+9+7

      火箭終結(jié)活塞4連勝:杜蘭特32+7超特里迎里程碑 阿門15+9+7

      醉臥浮生
      2026-01-24 10:50:05
      這家A股公司,擬重大資產(chǎn)重組!下周一停牌

      這家A股公司,擬重大資產(chǎn)重組!下周一停牌

      每日經(jīng)濟(jì)新聞
      2026-01-24 21:09:03
      女子稱為籌治病錢賣掉勞力士 收錢后賬戶被凍結(jié):系涉詐資金 案件在辦理無法解封

      女子稱為籌治病錢賣掉勞力士 收錢后賬戶被凍結(jié):系涉詐資金 案件在辦理無法解封

      紅星新聞
      2026-01-24 11:33:24
      爛尾10多年!浙江百棟別墅成“羊圈”,如今砸73億能翻身嗎?

      爛尾10多年!浙江百棟別墅成“羊圈”,如今砸73億能翻身嗎?

      GA環(huán)球建筑
      2026-01-20 18:30:20
      2026-01-24 23:00:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      12056文章數(shù) 176362關(guān)注度
      往期回顧 全部

      科技要聞

      特斯拉Cybercrab即將落地 每公里不到1塊錢

      頭條要聞

      被雪豹咬傷女子從急診轉(zhuǎn)出 目擊者:她沒有去摸豹子

      頭條要聞

      被雪豹咬傷女子從急診轉(zhuǎn)出 目擊者:她沒有去摸豹子

      體育要聞

      當(dāng)家球星打替補(bǔ),他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現(xiàn)身馬年春晚

      財經(jīng)要聞

      “百年老字號”張小泉遭60億債務(wù)壓頂

      汽車要聞

      有增程和純電版可選 日產(chǎn)NX8或于3-4月間上市

      態(tài)度原創(chuàng)

      時尚
      教育
      本地
      健康
      公開課

      冬天最佳“顯瘦”公式:上短+下長

      教育要聞

      傅佩榮:陪伴變監(jiān)工,放養(yǎng)又不敢,當(dāng)代父母養(yǎng)娃焦慮,看完就好了

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 性欧美老妇另类xxxx| 免费超碰| 免费av网站| 在线观看亚洲欧美日本| 男女性高爱潮免费网站| 日韩精品人妻中文字幕有码| 国产老熟妇| 亚洲欧洲AV| 东乡县| 亚洲激情视频一区二区三区| 久久永久免费人妻精品| 天堂网国产| 女人与公狼做交十配视频| 九九精品在线观| 国产欧美日韩va另类在线播放| 妺妺窝人体色www看美女| 成人国内精品久久久久一区| 韩国乱码片免费看| 欧美国产精品啪啪| 亚洲熟妇色自偷自拍另类| 阿片免费看| 年轻女教师hd中字3| 亚洲午夜无码极品久久| 无码人妻精品中文字幕免费东京热| 亚洲综合专区| 亚洲一卡2卡三卡四卡精品| 污污内射在线观看一区二区少妇| 永久免费无码av网站在线观看| 人妻熟妇久久久久久精| 一个人看的www免费视频在线观看| 浓毛老太交欧美老妇热爱乱| 成人动漫综合网| 99久久精品久久久久久婷婷| 中文字幕日韩有码| 峨山| 男女互操视频网站在线观看 | 吉林省| 醉酒后少妇被疯狂内射视频| 国产片av片永久免费观看| 99精品全国免费观看视频| 早起邻居人妻奶罩太松av|