網易首頁 > 網易號 > 正文申請入駐

SwingArena：從「寫對代碼Commit」到「通過CI審查」

2026-02-12 15:32:02　來源: 機器之心Pro

河北舉報

分享至

過去一年，大模型寫代碼的能力幾乎以肉眼可見的速度提升。從簡單腳本到完整功能模塊，GPT、Claude、DeepSeek 等模型已經能夠在幾秒鐘內生成看起來相當 “專業” 的代碼。

這種能力的提升，讓很多人開始認真思考一個問題：AI 能不能真正參與到軟件工程的核心流程中？

但越接近真實開發，這個問題就越顯得復雜。因為在工業界，“寫出一段能跑的代碼” 遠遠不夠。

代碼是否能被合并，取決于它能否通過完整的持續集成（Continuous Integration，簡稱 CI）流水線——這是一種在代碼開發過程中，通過自動化的構建、測試和代碼檢查，確保每一次改動都能在真實工程環境下穩定運行的機制。

此外，代碼還需符合項目規范、經得起代碼審查，并在多輪修改中保持穩定可靠。遺憾的是，現有主流代碼評測基準，幾乎都停留在“能否通過幾個單元測試”的層面。

SwingArena 的出發點，正是填補這塊長期缺失的評測空白。

該論文已被ICLR 2026正式接收。目前，SwingArena 已實現全棧開源。

論文標題：SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving
論文鏈接：https://arxiv.org/abs/2505.23932
項目鏈接：https://swing-bench.github.io/

從 “寫對代碼” 到 “通過審查”，

評測邏輯需要一次轉向

在傳統評測中，模型面對的是一個高度簡化的問題：給定函數簽名和說明，只要輸出能通過測試的實現即可。這種設定對于衡量基礎編程能力是有效的，但它忽略了真實軟件開發中最關鍵的一環 ——審查與迭代。

在現實中，一段代碼往往要經歷多個回合的反饋與修改，才能最終被接受。CI 系統會自動檢查編譯、測試、代碼風格和潛在風險，而審查者則會從邏輯正確性、邊界情況和可維護性等角度不斷提出質疑。這種過程，本質上是一種持續博弈。

SwingArena 將這種博弈引入評測之中。它不再讓模型 “單打獨斗”，而是通過對抗式設定，讓兩個模型分別扮演 “提交者” 和 “審查者”，在真實 CI 環境中反復交鋒。

提交者需要寫出足夠穩健的補丁才能通過流水線，而審查者則試圖通過精心設計的測試暴露潛在問題。最終的得分，完全由真實執行結果決定。

真實工程環境，意味著真實復雜度

要讓評測真正貼近工業場景，僅有對抗機制還不夠。另一個更現實的挑戰在于：真實項目的代碼規模，遠遠超出了大模型的上下文窗口。

一個常見的開源倉庫往往包含數萬行代碼，分布在數百個文件中。模型不可能 “通讀全庫”，只能在極其有限的上下文中做判斷。SwingArena 因此設計了一套完整的檢索增強流水線 RACG（Retrieval-Augmented Code Generation），試圖在 “給模型多少代碼” 與 “給對代碼” 之間取得平衡。

RACG 的核心思路，是先通過經典信息檢索方法快速縮小文件范圍，再以語法結構為單位對代碼進行切塊，并使用語義模型進行精排。在嚴格的 token 預算下，系統會動態調整上下文粒度，確保模型看到的是最關鍵、最相關的代碼片段，而不是噪聲。

消融實驗顯示，這種分層檢索策略，能夠顯著提升補丁定位的準確率，相比僅使用關鍵詞匹配，Top-10 命中率提升超過一倍。這意味著模型不只是 “寫代碼”，而是在更接近人類工程師的認知范圍內工作。

當模型真正對抗，差異才開始顯現

在 SwingArena 的評測中，一個有趣的現象逐漸浮現：不同模型在工程決策上的 “性格差異”，被前所未有地放大了。

以 GPT-4o 為例，它在提交者角色中表現得極為激進，往往能夠快速生成足以擊敗對手測試的補丁，因此勝率很高。但這種策略的代價是 CI 通過率并不穩定，代碼在規范性和魯棒性上更容易出現問題。

相比之下，DeepSeek 和 Gemini 的表現則明顯更為保守。它們生成的代碼風格更加規范，通過 CI 的概率也更高，尤其在多語言場景下展現出更強的穩定性。這類差異，在傳統基準中往往被 “平均分” 所掩蓋，而在對抗式評測中卻變得非常直觀。

更重要的是，這些結果為實際應用提供了清晰的參考：當目標是快速原型和探索性開發時，激進策略可能更有效；而在生產環境和長期項目中，穩定性顯然更重要。

從評測到實踐：

為什么 SwingArena 值得被重視

SwingArena 的意義，并不僅僅在于提出了一個新的 benchmark。它更重要的價值，在于推動了一次評測視角的轉變：從 “功能正確性” 走向 “工程可用性”。

通過將 CI 流水線、代碼審查和多輪迭代引入評測過程，SwingArena 讓我們第一次能夠系統性地回答這樣的問題：哪些模型真的適合進入生產環境？在不同工程場景下，應該如何選擇和使用它們？又該如何設計更符合現實需求的 AI 編程助手？

在論文匿名期結束后，SwingArena 將完整開源，包括數據集、評測框架、檢索流水線以及所有實驗復現代碼。團隊希望，這套框架不僅能成為研究者比較模型的新工具，也能為工業界評估和落地 AI 編程能力提供參考。

當 AI 生成的代碼真正走進 CI 流水線，評測的標準，也必須隨之升級。

SwingArena，正是向這個方向邁出的一步。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.