<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      超6萬GitHub項目實測:Agent寫代碼效率暴漲,通過率仍落后人類

      0
      分享至

      當 AI 用 3 天完成人類程序員原本3年的代碼任務量,人類的角色會發生怎樣的變化?

      當前,AI 正在從工具變為人類的“隊友”。隨著大模型的加速發展,AI 在軟件工程領域的作用已不再是輔助代碼補全,而是正在成為可自主編碼的智能體(Agent)。

      現在,我們只需向 AI 描述代碼想要實現的功能,它就能自動生成完整代碼;借助 Agent,甚至能在十幾分鐘內完成千行級別的代碼生成或修改。

      近期,加拿大女王大學博士后李豪與所在團隊在一項研究中首次構建了一個大規模數據集 AIDev,系統分析和統計了自主編碼 Agent 在 7,000 多個較流行的軟件中的實際表現和影響。

      其覆蓋范圍包括在 GitHub 平臺上已提交的超 45.6 萬條 Agent 代碼合并請求(PR,pull requests),涵蓋 6.1 萬個代碼庫和 4.7 萬名開發者,包括主流的 AI 編碼工具 OpenAI Codex、GitHub Copilot、Devin、Cursor 和 Claude Code。


      圖丨李豪(來源:受訪者)

      研究人員在 AI 領域和軟件工程做相關研究時,往往會選擇用 SWE-bench 做測試,通過交給 AI 一些高質量、有測試樣例的任務,來優化 AI 性能以及優化系統設計等。

      但這也帶來了很多挑戰性的問題。例如,一家公司如果將測試題目用于訓練模型,極有可能因“作弊”導致分數虛高。此外,由于 SWE-bench 是一個靜態的基準集(benchmark),部分數據有可能存在一定滯后性。

      李豪指出,該研究最大的不同點在于,AIDev 是真實世界、大規模、實時采集數據的數據集,更貼近于業界實踐和生產。此外,研究人員還可以利用該數據集打造更新的 benchmark。


      (來源:arXiv)

      研究團隊在 AI 編碼 Agent 的速度和質量方面找到了有趣的發現。一項個例分析結果顯示,有開發者在使用 AI 編碼 Agent 后,3 天內完成的任務量接近其過去 3 年的總量。

      而 AI 在自然語言處理方面的優勢,也同樣值得關注。他們發現,AI 在編寫代碼或文本方面的任務中表現優異,例如從文檔相關的合并請求接受率來看,OpenAI Codex 和 Claude Code 分別為 88.6% 和 85.7%,而人類在該方面表現為 76.5%。


      (來源:arXiv)

      合并請求接受率是衡量 AI 產出質量和可信度的關鍵指標,它與人類開發者/項目維護者對 AI 貢獻的認可度密切相關。該團隊還發現,編碼 Agent 的合并請求接受率比人類開發者低 15% 至 40%(不同任務類型下區間差異顯著),尤其是在新功能開發、修復 Bug 等復雜的任務方面。例如,OpenAI Codex 的 PR 接受率為 64%,而人類開發者的 PR 接受率高達 76.8%。

      這意味著,AI 寫代碼并非全面超越了人類。需要看到的是,盡管目前 AI 編碼 Agent 生成速度很快,但性能方面還有一些缺陷,在結構上也相對較簡單,需要研究人員繼續對其進行增強,以確保代碼的長期可維護性。

      李豪對 DeepTech 表示:“短期看,AI Agent 的代碼接受率相對人類較低,效率與質量的取舍仍需權衡(trade-off),但這種磨合期對應的是數據飛輪的啟動階段,形成飛輪效應后,我們有望獲得生產力的顯著提升。”


      (來源:arXiv)

      該研究通過分析自主編碼 Agent 的表現,為未來更好地優化人與 AI 協作提供了數據基礎。這也帶來了一種全新的生成模式,開發者面臨的問題不是如何寫更多的代碼,而是接到一項任務后,如何拆分成更細的任務,再管理這些 AI 更好地執行。

      “該方向在學界和產業界還存在較大的空白。編程人員的角色也會逐漸從寫代碼的人,轉換成提供代碼審查或提供管理模式的人。目前,我們也在做相關的研究,來探索新一代軟件開發流程來支持開發者們利用 AI Agent。”李豪表示。

      此外研究還揭示出,盡管 AI 的出現推動了人機協同審查流程,但同時也可能會帶來偏見等問題。例如,假如 AI 寫代碼的 Agent 與審查代碼的機器人自同一公司,很有可能在AI審查環節忽視某些特定類型的錯誤。

      在未來的研究中,該團隊計劃建立更全面的 benchmark,對 AI 編程 Agent 進行真實的表現評測。他們還打算建立新知識庫,推動領域內的研究人員共同改進相關方向,包括如何更好地預測和分析AI可能的失敗場景,以及失敗原因等。從更長遠的發展來看,探索更自動化與標準化的審查機制,也是一個值得深入研究的方向。

      相關論文以《軟件工程 3.0 中 AI 隊友的崛起:自主編碼 Agent 如何重塑軟件工程》(The Rise of AI Teammates in Software Engineering (SE) 3.0: How Autonomous Coding Agents Are Reshaping Software Engineering)為題發表在 arXiv[1]。目前,相關代碼已在 GitHub 開源。

      參考資料:

      1.相關論文:https://arxiv.org/abs/2507.15003v1

      2.AIDev 數據集獲取:https://github.com/SAILResearch/AI_Teammates_in_SE3

      排版:胡莉花

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      世界上最燒錢的十項運動,沒錢你真玩不起!

      世界上最燒錢的十項運動,沒錢你真玩不起!

      馬拉松跑步健身
      2026-02-28 11:37:18
      這么看侯佩岑挺慘,還在等周杰倫求復合呢,周杰倫跑去追田馥甄了

      這么看侯佩岑挺慘,還在等周杰倫求復合呢,周杰倫跑去追田馥甄了

      一盅情懷
      2026-03-06 16:27:03
      這家船廠宣布:史上最大幅度加薪協議達成

      這家船廠宣布:史上最大幅度加薪協議達成

      龍de船人
      2026-03-07 20:07:13
      隨著蘭帕德率隊2-0,萊斯特城1-1,赫爾城1-3,英冠最新積分榜出爐

      隨著蘭帕德率隊2-0,萊斯特城1-1,赫爾城1-3,英冠最新積分榜出爐

      側身凌空斬
      2026-03-08 07:03:56
      王曼昱退賽,太原賽8人名單公布,4男4女,陳熠無緣

      王曼昱退賽,太原賽8人名單公布,4男4女,陳熠無緣

      東球貓貓
      2026-03-08 10:01:42
      江西母女喝了3瓶牛奶,被老公數落2小時,眼神太嚇人,網友炸鍋

      江西母女喝了3瓶牛奶,被老公數落2小時,眼神太嚇人,網友炸鍋

      青梅侃史啊
      2026-03-08 07:18:01
      霍爾木茲海峽如果斷供,中國的石油能撐多久?我查完數據算了一遍

      霍爾木茲海峽如果斷供,中國的石油能撐多久?我查完數據算了一遍

      何毅商業財經
      2026-03-08 09:07:44
      蘋果在美升級地理封鎖:字節跳動中文應用遭全面限制,跨區下載已成歷史

      蘋果在美升級地理封鎖:字節跳動中文應用遭全面限制,跨區下載已成歷史

      驅動中國
      2026-03-06 11:12:05
      美軍或用對付伊拉克的方法,對付中國?一旦開戰,衛星必然不保!

      美軍或用對付伊拉克的方法,對付中國?一旦開戰,衛星必然不保!

      阿籫你好
      2026-03-08 10:28:25
      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      南權先生
      2026-01-26 15:41:26
      難辨真偽,但確實有可能,美媒:中國用殲16的舊雷達來升級殲11B

      難辨真偽,但確實有可能,美媒:中國用殲16的舊雷達來升級殲11B

      嘯鷹評
      2026-03-07 23:24:42
      葛薈婕的男友吳海峰,32歲,廣西農村初中學歷,曾是薇婭公司司機

      葛薈婕的男友吳海峰,32歲,廣西農村初中學歷,曾是薇婭公司司機

      靜若梨花
      2026-03-08 11:15:50
      政府工作報告:加強初婚初育家庭住房保障;落實職工帶薪錯峰休假制度

      政府工作報告:加強初婚初育家庭住房保障;落實職工帶薪錯峰休假制度

      每日經濟新聞
      2026-03-07 20:19:10
      全國人大代表、北京協和醫院院長張抒揚建議:年輕人,別錯過最佳生育年齡,為人父母的幸福感是無可替代的

      全國人大代表、北京協和醫院院長張抒揚建議:年輕人,別錯過最佳生育年齡,為人父母的幸福感是無可替代的

      觀威海
      2026-03-07 12:07:22
      地中海又傳來一聲巨響,俄6萬噸巨輪慘遭擊沉,普京:絕不輕饒!

      地中海又傳來一聲巨響,俄6萬噸巨輪慘遭擊沉,普京:絕不輕饒!

      甜檸聊史
      2026-03-08 01:56:33
      全新一代雷克薩斯ES美國售價揭曉:48795美元起,下月登陸國內

      全新一代雷克薩斯ES美國售價揭曉:48795美元起,下月登陸國內

      IT之家
      2026-03-06 18:19:38
      朝鮮戰爭期間:美軍原本已接近擊敗中國,卻碰上中國決死的指揮官

      朝鮮戰爭期間:美軍原本已接近擊敗中國,卻碰上中國決死的指揮官

      別人都叫我阿腈
      2026-02-13 21:25:33
      中央定調!15年最低繳費成歷史,2030年15年繳費還能正常退休嗎?

      中央定調!15年最低繳費成歷史,2030年15年繳費還能正常退休嗎?

      另子維愛讀史
      2026-03-03 21:58:41
      羅永浩怒懟算命大V!稱沒了膽也不慣著,網友:踢到鋼板了

      羅永浩怒懟算命大V!稱沒了膽也不慣著,網友:踢到鋼板了

      雷科技
      2026-03-07 23:58:00
      請12人吃飯結賬變四桌,我悄悄結賬走人,半小時飯店來電:人被扣了,我直接回答:和我沒關系

      請12人吃飯結賬變四桌,我悄悄結賬走人,半小時飯店來電:人被扣了,我直接回答:和我沒關系

      奶茶麥子
      2026-03-08 00:01:07
      2026-03-08 12:07:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16376文章數 514725關注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      伊朗公布行動細節 有導彈配備集束彈頭均命中目標

      頭條要聞

      伊朗公布行動細節 有導彈配備集束彈頭均命中目標

      體育要聞

      大傷后被交易,他說:22歲的我已經死了

      娛樂要聞

      周迅新戀情曝光,李亞鵬等人已成過去

      財經要聞

      油價要失控?

      汽車要聞

      9分鐘充飽 全新騰勢Z9GT首搭閃充技術26.98萬起

      態度原創

      旅游
      教育
      親子
      游戲
      公開課

      旅游要聞

      有一億人?無錫這些地方擠爆了

      教育要聞

      給孩子減負重磅消息

      親子要聞

      孩子總生病沒胃口多半是脾胃弱

      數毛社評NS2《生化7/8》:掌機原生分辨率僅432p

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版