網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

超6萬GitHub項(xiàng)目實(shí)測(cè)：Agent寫代碼效率暴漲，通過率仍落后人類

2026-02-17 14:06:07　來源: DeepTech深科技

河南舉報(bào)

分享至

當(dāng) AI 用 3 天完成人類程序員原本3年的代碼任務(wù)量，人類的角色會(huì)發(fā)生怎樣的變化？

當(dāng)前，AI 正在從工具變?yōu)槿祟惖摹瓣?duì)友”。隨著大模型的加速發(fā)展，AI 在軟件工程領(lǐng)域的作用已不再是輔助代碼補(bǔ)全，而是正在成為可自主編碼的智能體（Agent）。

現(xiàn)在，我們只需向 AI 描述代碼想要實(shí)現(xiàn)的功能，它就能自動(dòng)生成完整代碼；借助 Agent，甚至能在十幾分鐘內(nèi)完成千行級(jí)別的代碼生成或修改。

近期，加拿大女王大學(xué)博士后李豪與所在團(tuán)隊(duì)在一項(xiàng)研究中首次構(gòu)建了一個(gè)大規(guī)模數(shù)據(jù)集 AIDev，系統(tǒng)分析和統(tǒng)計(jì)了自主編碼 Agent 在 7,000 多個(gè)較流行的軟件中的實(shí)際表現(xiàn)和影響。

其覆蓋范圍包括在 GitHub 平臺(tái)上已提交的超 45.6 萬條 Agent 代碼合并請(qǐng)求（PR，pull requests），涵蓋 6.1 萬個(gè)代碼庫和 4.7 萬名開發(fā)者，包括主流的 AI 編碼工具 OpenAI Codex、GitHub Copilot、Devin、Cursor 和 Claude Code。

圖丨李豪（來源：受訪者）

研究人員在 AI 領(lǐng)域和軟件工程做相關(guān)研究時(shí)，往往會(huì)選擇用 SWE-bench 做測(cè)試，通過交給 AI 一些高質(zhì)量、有測(cè)試樣例的任務(wù)，來優(yōu)化 AI 性能以及優(yōu)化系統(tǒng)設(shè)計(jì)等。

但這也帶來了很多挑戰(zhàn)性的問題。例如，一家公司如果將測(cè)試題目用于訓(xùn)練模型，極有可能因“作弊”導(dǎo)致分?jǐn)?shù)虛高。此外，由于 SWE-bench 是一個(gè)靜態(tài)的基準(zhǔn)集（benchmark），部分?jǐn)?shù)據(jù)有可能存在一定滯后性。

李豪指出，該研究最大的不同點(diǎn)在于，AIDev 是真實(shí)世界、大規(guī)模、實(shí)時(shí)采集數(shù)據(jù)的數(shù)據(jù)集，更貼近于業(yè)界實(shí)踐和生產(chǎn)。此外，研究人員還可以利用該數(shù)據(jù)集打造更新的 benchmark。

（來源：arXiv）

研究團(tuán)隊(duì)在 AI 編碼 Agent 的速度和質(zhì)量方面找到了有趣的發(fā)現(xiàn)。一項(xiàng)個(gè)例分析結(jié)果顯示，有開發(fā)者在使用 AI 編碼 Agent 后，3 天內(nèi)完成的任務(wù)量接近其過去 3 年的總量。

而 AI 在自然語言處理方面的優(yōu)勢(shì)，也同樣值得關(guān)注。他們發(fā)現(xiàn)，AI 在編寫代碼或文本方面的任務(wù)中表現(xiàn)優(yōu)異，例如從文檔相關(guān)的合并請(qǐng)求接受率來看，OpenAI Codex 和 Claude Code 分別為 88.6% 和 85.7%，而人類在該方面表現(xiàn)為 76.5%。

（來源：arXiv）

合并請(qǐng)求接受率是衡量 AI 產(chǎn)出質(zhì)量和可信度的關(guān)鍵指標(biāo)，它與人類開發(fā)者/項(xiàng)目維護(hù)者對(duì) AI 貢獻(xiàn)的認(rèn)可度密切相關(guān)。該團(tuán)隊(duì)還發(fā)現(xiàn)，編碼 Agent 的合并請(qǐng)求接受率比人類開發(fā)者低 15% 至 40%（不同任務(wù)類型下區(qū)間差異顯著），尤其是在新功能開發(fā)、修復(fù) Bug 等復(fù)雜的任務(wù)方面。例如，OpenAI Codex 的 PR 接受率為 64%，而人類開發(fā)者的 PR 接受率高達(dá) 76.8%。

這意味著，AI 寫代碼并非全面超越了人類。需要看到的是，盡管目前 AI 編碼 Agent 生成速度很快，但性能方面還有一些缺陷，在結(jié)構(gòu)上也相對(duì)較簡單，需要研究人員繼續(xù)對(duì)其進(jìn)行增強(qiáng)，以確保代碼的長期可維護(hù)性。

李豪對(duì) DeepTech 表示：“短期看，AI Agent 的代碼接受率相對(duì)人類較低，效率與質(zhì)量的取舍仍需權(quán)衡（trade-off），但這種磨合期對(duì)應(yīng)的是數(shù)據(jù)飛輪的啟動(dòng)階段，形成飛輪效應(yīng)后，我們有望獲得生產(chǎn)力的顯著提升。”

（來源：arXiv）

該研究通過分析自主編碼 Agent 的表現(xiàn)，為未來更好地優(yōu)化人與 AI 協(xié)作提供了數(shù)據(jù)基礎(chǔ)。這也帶來了一種全新的生成模式，開發(fā)者面臨的問題不是如何寫更多的代碼，而是接到一項(xiàng)任務(wù)后，如何拆分成更細(xì)的任務(wù)，再管理這些 AI 更好地執(zhí)行。

“該方向在學(xué)界和產(chǎn)業(yè)界還存在較大的空白。編程人員的角色也會(huì)逐漸從寫代碼的人，轉(zhuǎn)換成提供代碼審查或提供管理模式的人。目前，我們也在做相關(guān)的研究，來探索新一代軟件開發(fā)流程來支持開發(fā)者們利用 AI Agent。”李豪表示。

此外研究還揭示出，盡管 AI 的出現(xiàn)推動(dòng)了人機(jī)協(xié)同審查流程，但同時(shí)也可能會(huì)帶來偏見等問題。例如，假如 AI 寫代碼的 Agent 與審查代碼的機(jī)器人自同一公司，很有可能在AI審查環(huán)節(jié)忽視某些特定類型的錯(cuò)誤。

在未來的研究中，該團(tuán)隊(duì)計(jì)劃建立更全面的 benchmark，對(duì) AI 編程 Agent 進(jìn)行真實(shí)的表現(xiàn)評(píng)測(cè)。他們還打算建立新知識(shí)庫，推動(dòng)領(lǐng)域內(nèi)的研究人員共同改進(jìn)相關(guān)方向，包括如何更好地預(yù)測(cè)和分析AI可能的失敗場(chǎng)景，以及失敗原因等。從更長遠(yuǎn)的發(fā)展來看，探索更自動(dòng)化與標(biāo)準(zhǔn)化的審查機(jī)制，也是一個(gè)值得深入研究的方向。

相關(guān)論文以《軟件工程 3.0 中 AI 隊(duì)友的崛起：自主編碼 Agent 如何重塑軟件工程》（The Rise of AI Teammates in Software Engineering (SE) 3.0: How Autonomous Coding Agents Are Reshaping Software Engineering）為題發(fā)表在 arXiv[1]。目前，相關(guān)代碼已在 GitHub 開源。

參考資料：

1.相關(guān)論文：https://arxiv.org/abs/2507.15003v1

2.AIDev 數(shù)據(jù)集獲取：https://github.com/SAILResearch/AI_Teammates_in_SE3

排版：胡莉花

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.