<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      超6萬GitHub項(xiàng)目實(shí)測(cè):Agent寫代碼效率暴漲,通過率仍落后人類

      0
      分享至

      當(dāng) AI 用 3 天完成人類程序員原本3年的代碼任務(wù)量,人類的角色會(huì)發(fā)生怎樣的變化?

      當(dāng)前,AI 正在從工具變?yōu)槿祟惖摹瓣?duì)友”。隨著大模型的加速發(fā)展,AI 在軟件工程領(lǐng)域的作用已不再是輔助代碼補(bǔ)全,而是正在成為可自主編碼的智能體(Agent)。

      現(xiàn)在,我們只需向 AI 描述代碼想要實(shí)現(xiàn)的功能,它就能自動(dòng)生成完整代碼;借助 Agent,甚至能在十幾分鐘內(nèi)完成千行級(jí)別的代碼生成或修改。

      近期,加拿大女王大學(xué)博士后李豪與所在團(tuán)隊(duì)在一項(xiàng)研究中首次構(gòu)建了一個(gè)大規(guī)模數(shù)據(jù)集 AIDev,系統(tǒng)分析和統(tǒng)計(jì)了自主編碼 Agent 在 7,000 多個(gè)較流行的軟件中的實(shí)際表現(xiàn)和影響。

      其覆蓋范圍包括在 GitHub 平臺(tái)上已提交的超 45.6 萬條 Agent 代碼合并請(qǐng)求(PR,pull requests),涵蓋 6.1 萬個(gè)代碼庫和 4.7 萬名開發(fā)者,包括主流的 AI 編碼工具 OpenAI Codex、GitHub Copilot、Devin、Cursor 和 Claude Code。


      圖丨李豪(來源:受訪者)

      研究人員在 AI 領(lǐng)域和軟件工程做相關(guān)研究時(shí),往往會(huì)選擇用 SWE-bench 做測(cè)試,通過交給 AI 一些高質(zhì)量、有測(cè)試樣例的任務(wù),來優(yōu)化 AI 性能以及優(yōu)化系統(tǒng)設(shè)計(jì)等。

      但這也帶來了很多挑戰(zhàn)性的問題。例如,一家公司如果將測(cè)試題目用于訓(xùn)練模型,極有可能因“作弊”導(dǎo)致分?jǐn)?shù)虛高。此外,由于 SWE-bench 是一個(gè)靜態(tài)的基準(zhǔn)集(benchmark),部分?jǐn)?shù)據(jù)有可能存在一定滯后性。

      李豪指出,該研究最大的不同點(diǎn)在于,AIDev 是真實(shí)世界、大規(guī)模、實(shí)時(shí)采集數(shù)據(jù)的數(shù)據(jù)集,更貼近于業(yè)界實(shí)踐和生產(chǎn)。此外,研究人員還可以利用該數(shù)據(jù)集打造更新的 benchmark。


      (來源:arXiv)

      研究團(tuán)隊(duì)在 AI 編碼 Agent 的速度和質(zhì)量方面找到了有趣的發(fā)現(xiàn)。一項(xiàng)個(gè)例分析結(jié)果顯示,有開發(fā)者在使用 AI 編碼 Agent 后,3 天內(nèi)完成的任務(wù)量接近其過去 3 年的總量。

      而 AI 在自然語言處理方面的優(yōu)勢(shì),也同樣值得關(guān)注。他們發(fā)現(xiàn),AI 在編寫代碼或文本方面的任務(wù)中表現(xiàn)優(yōu)異,例如從文檔相關(guān)的合并請(qǐng)求接受率來看,OpenAI Codex 和 Claude Code 分別為 88.6% 和 85.7%,而人類在該方面表現(xiàn)為 76.5%。


      (來源:arXiv)

      合并請(qǐng)求接受率是衡量 AI 產(chǎn)出質(zhì)量和可信度的關(guān)鍵指標(biāo),它與人類開發(fā)者/項(xiàng)目維護(hù)者對(duì) AI 貢獻(xiàn)的認(rèn)可度密切相關(guān)。該團(tuán)隊(duì)還發(fā)現(xiàn),編碼 Agent 的合并請(qǐng)求接受率比人類開發(fā)者低 15% 至 40%(不同任務(wù)類型下區(qū)間差異顯著),尤其是在新功能開發(fā)、修復(fù) Bug 等復(fù)雜的任務(wù)方面。例如,OpenAI Codex 的 PR 接受率為 64%,而人類開發(fā)者的 PR 接受率高達(dá) 76.8%。

      這意味著,AI 寫代碼并非全面超越了人類。需要看到的是,盡管目前 AI 編碼 Agent 生成速度很快,但性能方面還有一些缺陷,在結(jié)構(gòu)上也相對(duì)較簡單,需要研究人員繼續(xù)對(duì)其進(jìn)行增強(qiáng),以確保代碼的長期可維護(hù)性。

      李豪對(duì) DeepTech 表示:“短期看,AI Agent 的代碼接受率相對(duì)人類較低,效率與質(zhì)量的取舍仍需權(quán)衡(trade-off),但這種磨合期對(duì)應(yīng)的是數(shù)據(jù)飛輪的啟動(dòng)階段,形成飛輪效應(yīng)后,我們有望獲得生產(chǎn)力的顯著提升。”


      (來源:arXiv)

      該研究通過分析自主編碼 Agent 的表現(xiàn),為未來更好地優(yōu)化人與 AI 協(xié)作提供了數(shù)據(jù)基礎(chǔ)。這也帶來了一種全新的生成模式,開發(fā)者面臨的問題不是如何寫更多的代碼,而是接到一項(xiàng)任務(wù)后,如何拆分成更細(xì)的任務(wù),再管理這些 AI 更好地執(zhí)行。

      “該方向在學(xué)界和產(chǎn)業(yè)界還存在較大的空白。編程人員的角色也會(huì)逐漸從寫代碼的人,轉(zhuǎn)換成提供代碼審查或提供管理模式的人。目前,我們也在做相關(guān)的研究,來探索新一代軟件開發(fā)流程來支持開發(fā)者們利用 AI Agent。”李豪表示。

      此外研究還揭示出,盡管 AI 的出現(xiàn)推動(dòng)了人機(jī)協(xié)同審查流程,但同時(shí)也可能會(huì)帶來偏見等問題。例如,假如 AI 寫代碼的 Agent 與審查代碼的機(jī)器人自同一公司,很有可能在AI審查環(huán)節(jié)忽視某些特定類型的錯(cuò)誤。

      在未來的研究中,該團(tuán)隊(duì)計(jì)劃建立更全面的 benchmark,對(duì) AI 編程 Agent 進(jìn)行真實(shí)的表現(xiàn)評(píng)測(cè)。他們還打算建立新知識(shí)庫,推動(dòng)領(lǐng)域內(nèi)的研究人員共同改進(jìn)相關(guān)方向,包括如何更好地預(yù)測(cè)和分析AI可能的失敗場(chǎng)景,以及失敗原因等。從更長遠(yuǎn)的發(fā)展來看,探索更自動(dòng)化與標(biāo)準(zhǔn)化的審查機(jī)制,也是一個(gè)值得深入研究的方向。

      相關(guān)論文以《軟件工程 3.0 中 AI 隊(duì)友的崛起:自主編碼 Agent 如何重塑軟件工程》(The Rise of AI Teammates in Software Engineering (SE) 3.0: How Autonomous Coding Agents Are Reshaping Software Engineering)為題發(fā)表在 arXiv[1]。目前,相關(guān)代碼已在 GitHub 開源。

      參考資料:

      1.相關(guān)論文:https://arxiv.org/abs/2507.15003v1

      2.AIDev 數(shù)據(jù)集獲取:https://github.com/SAILResearch/AI_Teammates_in_SE3

      排版:胡莉花

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      世界最偉大的10個(gè)工程奇跡!三峽工程僅排第四,最后一個(gè)無法超越

      世界最偉大的10個(gè)工程奇跡!三峽工程僅排第四,最后一個(gè)無法超越

      阿器談史
      2025-12-27 21:44:40
      美國發(fā)明的高新技術(shù),卻被中國做成了,90%產(chǎn)能坐落在寧波和贛州

      美國發(fā)明的高新技術(shù),卻被中國做成了,90%產(chǎn)能坐落在寧波和贛州

      墨蘭史書
      2026-02-05 19:16:14
      谷愛凌成為獲冬奧獎(jiǎng)牌最多的女子自由式滑雪運(yùn)動(dòng)員,“這就是我的金牌”

      谷愛凌成為獲冬奧獎(jiǎng)牌最多的女子自由式滑雪運(yùn)動(dòng)員,“這就是我的金牌”

      上觀新聞
      2026-02-17 09:27:15
      2014年,北京女博士李香蓉因接受不了新郎身份,在車內(nèi)將其幾刀刺死

      2014年,北京女博士李香蓉因接受不了新郎身份,在車內(nèi)將其幾刀刺死

      紅豆講堂
      2024-10-14 15:30:03
      2026春晚吐槽:最夯最拉節(jié)目很明顯,魔術(shù)節(jié)目很好解密

      2026春晚吐槽:最夯最拉節(jié)目很明顯,魔術(shù)節(jié)目很好解密

      手工制作阿殲
      2026-02-17 02:23:10
      英媒:中國將中子彈納入常規(guī)裝備,若屬實(shí),代理人戰(zhàn)爭(zhēng)算是廢了

      英媒:中國將中子彈納入常規(guī)裝備,若屬實(shí),代理人戰(zhàn)爭(zhēng)算是廢了

      我心縱橫天地間
      2026-01-29 15:24:36
      朋友圈的精神狀態(tài)太顛了,承包了我一整天的快樂

      朋友圈的精神狀態(tài)太顛了,承包了我一整天的快樂

      另子維愛讀史
      2026-02-05 23:21:03
      全球只有5位領(lǐng)導(dǎo)人被永久保留遺體,他們都是誰

      全球只有5位領(lǐng)導(dǎo)人被永久保留遺體,他們都是誰

      扶蘇聊歷史
      2026-01-29 16:13:42
      81年彭真會(huì)見江青,江青大罵一句,彭真一臉淡定:你還有什么要求

      81年彭真會(huì)見江青,江青大罵一句,彭真一臉淡定:你還有什么要求

      輿圖看世界
      2025-12-09 08:45:05
      美專家:中國兩艘航母都不行!但福建艦扼殺了美日最后一絲希望

      美專家:中國兩艘航母都不行!但福建艦扼殺了美日最后一絲希望

      顧史
      2026-01-23 20:41:45
      4-2重演!本菲卡1-1逼平皇馬,姆巴佩孤立無援,穆帥知根知底

      4-2重演!本菲卡1-1逼平皇馬,姆巴佩孤立無援,穆帥知根知底

      番茄體壇
      2026-02-17 14:17:04
      富人家的保姆有多好?網(wǎng)友:我要去當(dāng)保姆,哪里去培訓(xùn)

      富人家的保姆有多好?網(wǎng)友:我要去當(dāng)保姆,哪里去培訓(xùn)

      帶你感受人間冷暖
      2025-12-07 00:20:08
      李亞鵬聚餐飲酒后,由83歲母親開車接回家!網(wǎng)友:這才是頂級(jí)幸福

      李亞鵬聚餐飲酒后,由83歲母親開車接回家!網(wǎng)友:這才是頂級(jí)幸福

      隨性的海浪
      2026-02-16 11:06:59
      34歲東北姑娘拿下81歲全球首富,長的很漂亮,一年抱倆娃身價(jià)上億

      34歲東北姑娘拿下81歲全球首富,長的很漂亮,一年抱倆娃身價(jià)上億

      云舟史策
      2025-09-13 07:37:04
      為什么解放內(nèi)蒙的最大敵人,不是軍隊(duì),卻是梅毒?

      為什么解放內(nèi)蒙的最大敵人,不是軍隊(duì),卻是梅毒?

      混沌錄
      2026-02-14 23:48:07
      鐵了心對(duì)付中國?暴跌58%,俄羅斯大幅加稅,中國汽車出口驟降

      鐵了心對(duì)付中國?暴跌58%,俄羅斯大幅加稅,中國汽車出口驟降

      卷史
      2026-02-02 12:01:46
      花200萬補(bǔ)課后續(xù):380分兒子執(zhí)意補(bǔ)課,母親重病陪讀,曝更痛隱情

      花200萬補(bǔ)課后續(xù):380分兒子執(zhí)意補(bǔ)課,母親重病陪讀,曝更痛隱情

      觀察鑒娛
      2026-01-27 09:36:51
      破防了!順風(fēng)車乘客提出奇葩要求,你敢接嗎?

      破防了!順風(fēng)車乘客提出奇葩要求,你敢接嗎?

      王曉愛體彩
      2026-02-16 22:20:54
      王菲當(dāng)年在大理被堵,推開李嫣自己沖向人堆的視頻,你們誰還記得

      王菲當(dāng)年在大理被堵,推開李嫣自己沖向人堆的視頻,你們誰還記得

      西樓知趣雜談
      2026-02-11 22:13:21
      離譜!中國生產(chǎn)和制造了幾乎所有的東西,但美國經(jīng)濟(jì)仍比中國強(qiáng)大

      離譜!中國生產(chǎn)和制造了幾乎所有的東西,但美國經(jīng)濟(jì)仍比中國強(qiáng)大

      小蔣愛嘮嗑
      2026-02-02 23:18:10
      2026-02-17 16:24:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評(píng)論獨(dú)家合作
      16280文章數(shù) 514616關(guān)注度
      往期回顧 全部

      科技要聞

      春晚這些機(jī)器人是怎樣做到的?

      頭條要聞

      易烊千璽提醒:境外勢(shì)力滲透手法極具欺騙性

      頭條要聞

      易烊千璽提醒:境外勢(shì)力滲透手法極具欺騙性

      體育要聞

      谷愛凌:'不小心"拿到了銀牌 祝大家馬年大吉

      娛樂要聞

      春晚三大感人瞬間:周深于和偉上榜

      財(cái)經(jīng)要聞

      大年初一,這三件事很不尋常

      汽車要聞

      問界M6更多信息:乾崑智駕ADS4.0+鴻蒙座艙5.0

      態(tài)度原創(chuàng)

      家居
      時(shí)尚
      數(shù)碼
      藝術(shù)
      游戲

      家居要聞

      中古雅韻 樂韻伴日常

      今年春天最流行的4組配色,過年穿時(shí)髦又高級(jí)!

      數(shù)碼要聞

      戰(zhàn)意永燃:雷蛇推出《反恐精英》職業(yè)選手NiKo聯(lián)名款外設(shè)

      藝術(shù)要聞

      這幅字調(diào)查百人,無人識(shí)別,竟如此難懂!

      5月見真章?《GTA6》或?qū)㈤_啟長達(dá)四個(gè)月暴力營銷

      無障礙瀏覽 進(jìn)入關(guān)懷版