當(dāng) AI 用 3 天完成人類程序員原本3年的代碼任務(wù)量,人類的角色會(huì)發(fā)生怎樣的變化?
當(dāng)前,AI 正在從工具變?yōu)槿祟惖摹瓣?duì)友”。隨著大模型的加速發(fā)展,AI 在軟件工程領(lǐng)域的作用已不再是輔助代碼補(bǔ)全,而是正在成為可自主編碼的智能體(Agent)。
現(xiàn)在,我們只需向 AI 描述代碼想要實(shí)現(xiàn)的功能,它就能自動(dòng)生成完整代碼;借助 Agent,甚至能在十幾分鐘內(nèi)完成千行級(jí)別的代碼生成或修改。
近期,加拿大女王大學(xué)博士后李豪與所在團(tuán)隊(duì)在一項(xiàng)研究中首次構(gòu)建了一個(gè)大規(guī)模數(shù)據(jù)集 AIDev,系統(tǒng)分析和統(tǒng)計(jì)了自主編碼 Agent 在 7,000 多個(gè)較流行的軟件中的實(shí)際表現(xiàn)和影響。
其覆蓋范圍包括在 GitHub 平臺(tái)上已提交的超 45.6 萬條 Agent 代碼合并請(qǐng)求(PR,pull requests),涵蓋 6.1 萬個(gè)代碼庫和 4.7 萬名開發(fā)者,包括主流的 AI 編碼工具 OpenAI Codex、GitHub Copilot、Devin、Cursor 和 Claude Code。
![]()
圖丨李豪(來源:受訪者)
研究人員在 AI 領(lǐng)域和軟件工程做相關(guān)研究時(shí),往往會(huì)選擇用 SWE-bench 做測(cè)試,通過交給 AI 一些高質(zhì)量、有測(cè)試樣例的任務(wù),來優(yōu)化 AI 性能以及優(yōu)化系統(tǒng)設(shè)計(jì)等。
但這也帶來了很多挑戰(zhàn)性的問題。例如,一家公司如果將測(cè)試題目用于訓(xùn)練模型,極有可能因“作弊”導(dǎo)致分?jǐn)?shù)虛高。此外,由于 SWE-bench 是一個(gè)靜態(tài)的基準(zhǔn)集(benchmark),部分?jǐn)?shù)據(jù)有可能存在一定滯后性。
李豪指出,該研究最大的不同點(diǎn)在于,AIDev 是真實(shí)世界、大規(guī)模、實(shí)時(shí)采集數(shù)據(jù)的數(shù)據(jù)集,更貼近于業(yè)界實(shí)踐和生產(chǎn)。此外,研究人員還可以利用該數(shù)據(jù)集打造更新的 benchmark。
![]()
(來源:arXiv)
研究團(tuán)隊(duì)在 AI 編碼 Agent 的速度和質(zhì)量方面找到了有趣的發(fā)現(xiàn)。一項(xiàng)個(gè)例分析結(jié)果顯示,有開發(fā)者在使用 AI 編碼 Agent 后,3 天內(nèi)完成的任務(wù)量接近其過去 3 年的總量。
而 AI 在自然語言處理方面的優(yōu)勢(shì),也同樣值得關(guān)注。他們發(fā)現(xiàn),AI 在編寫代碼或文本方面的任務(wù)中表現(xiàn)優(yōu)異,例如從文檔相關(guān)的合并請(qǐng)求接受率來看,OpenAI Codex 和 Claude Code 分別為 88.6% 和 85.7%,而人類在該方面表現(xiàn)為 76.5%。
![]()
(來源:arXiv)
合并請(qǐng)求接受率是衡量 AI 產(chǎn)出質(zhì)量和可信度的關(guān)鍵指標(biāo),它與人類開發(fā)者/項(xiàng)目維護(hù)者對(duì) AI 貢獻(xiàn)的認(rèn)可度密切相關(guān)。該團(tuán)隊(duì)還發(fā)現(xiàn),編碼 Agent 的合并請(qǐng)求接受率比人類開發(fā)者低 15% 至 40%(不同任務(wù)類型下區(qū)間差異顯著),尤其是在新功能開發(fā)、修復(fù) Bug 等復(fù)雜的任務(wù)方面。例如,OpenAI Codex 的 PR 接受率為 64%,而人類開發(fā)者的 PR 接受率高達(dá) 76.8%。
這意味著,AI 寫代碼并非全面超越了人類。需要看到的是,盡管目前 AI 編碼 Agent 生成速度很快,但性能方面還有一些缺陷,在結(jié)構(gòu)上也相對(duì)較簡單,需要研究人員繼續(xù)對(duì)其進(jìn)行增強(qiáng),以確保代碼的長期可維護(hù)性。
李豪對(duì) DeepTech 表示:“短期看,AI Agent 的代碼接受率相對(duì)人類較低,效率與質(zhì)量的取舍仍需權(quán)衡(trade-off),但這種磨合期對(duì)應(yīng)的是數(shù)據(jù)飛輪的啟動(dòng)階段,形成飛輪效應(yīng)后,我們有望獲得生產(chǎn)力的顯著提升。”
![]()
(來源:arXiv)
該研究通過分析自主編碼 Agent 的表現(xiàn),為未來更好地優(yōu)化人與 AI 協(xié)作提供了數(shù)據(jù)基礎(chǔ)。這也帶來了一種全新的生成模式,開發(fā)者面臨的問題不是如何寫更多的代碼,而是接到一項(xiàng)任務(wù)后,如何拆分成更細(xì)的任務(wù),再管理這些 AI 更好地執(zhí)行。
“該方向在學(xué)界和產(chǎn)業(yè)界還存在較大的空白。編程人員的角色也會(huì)逐漸從寫代碼的人,轉(zhuǎn)換成提供代碼審查或提供管理模式的人。目前,我們也在做相關(guān)的研究,來探索新一代軟件開發(fā)流程來支持開發(fā)者們利用 AI Agent。”李豪表示。
此外研究還揭示出,盡管 AI 的出現(xiàn)推動(dòng)了人機(jī)協(xié)同審查流程,但同時(shí)也可能會(huì)帶來偏見等問題。例如,假如 AI 寫代碼的 Agent 與審查代碼的機(jī)器人自同一公司,很有可能在AI審查環(huán)節(jié)忽視某些特定類型的錯(cuò)誤。
在未來的研究中,該團(tuán)隊(duì)計(jì)劃建立更全面的 benchmark,對(duì) AI 編程 Agent 進(jìn)行真實(shí)的表現(xiàn)評(píng)測(cè)。他們還打算建立新知識(shí)庫,推動(dòng)領(lǐng)域內(nèi)的研究人員共同改進(jìn)相關(guān)方向,包括如何更好地預(yù)測(cè)和分析AI可能的失敗場(chǎng)景,以及失敗原因等。從更長遠(yuǎn)的發(fā)展來看,探索更自動(dòng)化與標(biāo)準(zhǔn)化的審查機(jī)制,也是一個(gè)值得深入研究的方向。
相關(guān)論文以《軟件工程 3.0 中 AI 隊(duì)友的崛起:自主編碼 Agent 如何重塑軟件工程》(The Rise of AI Teammates in Software Engineering (SE) 3.0: How Autonomous Coding Agents Are Reshaping Software Engineering)為題發(fā)表在 arXiv[1]。目前,相關(guān)代碼已在 GitHub 開源。
參考資料:
1.相關(guān)論文:https://arxiv.org/abs/2507.15003v1
2.AIDev 數(shù)據(jù)集獲取:https://github.com/SAILResearch/AI_Teammates_in_SE3
排版:胡莉花
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.