![]()
過去一年,大模型寫代碼的能力幾乎以肉眼可見的速度提升。從簡單腳本到完整功能模塊,GPT、Claude、DeepSeek 等模型已經能夠在幾秒鐘內生成看起來相當 “專業” 的代碼。
這種能力的提升,讓很多人開始認真思考一個問題:AI 能不能真正參與到軟件工程的核心流程中?
但越接近真實開發,這個問題就越顯得復雜。因為在工業界,“寫出一段能跑的代碼” 遠遠不夠。
代碼是否能被合并,取決于它能否通過完整的持續集成(Continuous Integration,簡稱 CI)流水線——這是一種在代碼開發過程中,通過自動化的構建、測試和代碼檢查,確保每一次改動都能在真實工程環境下穩定運行的機制。
此外,代碼還需符合項目規范、經得起代碼審查,并在多輪修改中保持穩定可靠。遺憾的是,現有主流代碼評測基準,幾乎都停留在“能否通過幾個單元測試”的層面。
SwingArena 的出發點,正是填補這塊長期缺失的評測空白。
該論文已被ICLR 2026正式接收。目前,SwingArena 已實現全棧開源。
![]()
![]()
- 論文標題:SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving
- 論文鏈接:https://arxiv.org/abs/2505.23932
- 項目鏈接:https://swing-bench.github.io/
從 “寫對代碼” 到 “通過審查”,
評測邏輯需要一次轉向
在傳統評測中,模型面對的是一個高度簡化的問題:給定函數簽名和說明,只要輸出能通過測試的實現即可。這種設定對于衡量基礎編程能力是有效的,但它忽略了真實軟件開發中最關鍵的一環 ——審查與迭代。
在現實中,一段代碼往往要經歷多個回合的反饋與修改,才能最終被接受。CI 系統會自動檢查編譯、測試、代碼風格和潛在風險,而審查者則會從邏輯正確性、邊界情況和可維護性等角度不斷提出質疑。這種過程,本質上是一種持續博弈。
SwingArena 將這種博弈引入評測之中。它不再讓模型 “單打獨斗”,而是通過對抗式設定,讓兩個模型分別扮演 “提交者” 和 “審查者”,在真實 CI 環境中反復交鋒。
![]()
提交者需要寫出足夠穩健的補丁才能通過流水線,而審查者則試圖通過精心設計的測試暴露潛在問題。最終的得分,完全由真實執行結果決定。
![]()
真實工程環境,意味著真實復雜度
要讓評測真正貼近工業場景,僅有對抗機制還不夠。另一個更現實的挑戰在于:真實項目的代碼規模,遠遠超出了大模型的上下文窗口。
一個常見的開源倉庫往往包含數萬行代碼,分布在數百個文件中。模型不可能 “通讀全庫”,只能在極其有限的上下文中做判斷。SwingArena 因此設計了一套完整的檢索增強流水線 RACG(Retrieval-Augmented Code Generation),試圖在 “給模型多少代碼” 與 “給對代碼” 之間取得平衡。
RACG 的核心思路,是先通過經典信息檢索方法快速縮小文件范圍,再以語法結構為單位對代碼進行切塊,并使用語義模型進行精排。在嚴格的 token 預算下,系統會動態調整上下文粒度,確保模型看到的是最關鍵、最相關的代碼片段,而不是噪聲。
消融實驗顯示,這種分層檢索策略,能夠顯著提升補丁定位的準確率,相比僅使用關鍵詞匹配,Top-10 命中率提升超過一倍。這意味著模型不只是 “寫代碼”,而是在更接近人類工程師的認知范圍內工作。
當模型真正對抗,差異才開始顯現
在 SwingArena 的評測中,一個有趣的現象逐漸浮現:不同模型在工程決策上的 “性格差異”,被前所未有地放大了。
以 GPT-4o 為例,它在提交者角色中表現得極為激進,往往能夠快速生成足以擊敗對手測試的補丁,因此勝率很高。但這種策略的代價是 CI 通過率并不穩定,代碼在規范性和魯棒性上更容易出現問題。
相比之下,DeepSeek 和 Gemini 的表現則明顯更為保守。它們生成的代碼風格更加規范,通過 CI 的概率也更高,尤其在多語言場景下展現出更強的穩定性。這類差異,在傳統基準中往往被 “平均分” 所掩蓋,而在對抗式評測中卻變得非常直觀。
更重要的是,這些結果為實際應用提供了清晰的參考:當目標是快速原型和探索性開發時,激進策略可能更有效;而在生產環境和長期項目中,穩定性顯然更重要。
從評測到實踐:
為什么 SwingArena 值得被重視
SwingArena 的意義,并不僅僅在于提出了一個新的 benchmark。它更重要的價值,在于推動了一次評測視角的轉變:從 “功能正確性” 走向 “工程可用性”。
通過將 CI 流水線、代碼審查和多輪迭代引入評測過程,SwingArena 讓我們第一次能夠系統性地回答這樣的問題:哪些模型真的適合進入生產環境?在不同工程場景下,應該如何選擇和使用它們?又該如何設計更符合現實需求的 AI 編程助手?
在論文匿名期結束后,SwingArena 將完整開源,包括數據集、評測框架、檢索流水線以及所有實驗復現代碼。團隊希望,這套框架不僅能成為研究者比較模型的新工具,也能為工業界評估和落地 AI 編程能力提供參考。
當 AI 生成的代碼真正走進 CI 流水線,評測的標準,也必須隨之升級。
SwingArena,正是向這個方向邁出的一步。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.