<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      SwingArena:從「寫對代碼Commit」到「通過CI審查」

      0
      分享至



      過去一年,大模型寫代碼的能力幾乎以肉眼可見的速度提升。從簡單腳本到完整功能模塊,GPT、Claude、DeepSeek 等模型已經能夠在幾秒鐘內生成看起來相當 “專業” 的代碼。

      這種能力的提升,讓很多人開始認真思考一個問題:AI 能不能真正參與到軟件工程的核心流程中?

      但越接近真實開發,這個問題就越顯得復雜。因為在工業界,“寫出一段能跑的代碼” 遠遠不夠。

      代碼是否能被合并,取決于它能否通過完整的持續集成(Continuous Integration,簡稱 CI)流水線——這是一種在代碼開發過程中,通過自動化的構建、測試和代碼檢查,確保每一次改動都能在真實工程環境下穩定運行的機制。

      此外,代碼還需符合項目規范、經得起代碼審查,并在多輪修改中保持穩定可靠。遺憾的是,現有主流代碼評測基準,幾乎都停留在“能否通過幾個單元測試”的層面。

      SwingArena 的出發點,正是填補這塊長期缺失的評測空白。

      該論文已被ICLR 2026正式接收。目前,SwingArena 已實現全棧開源。





      • 論文標題:SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving
      • 論文鏈接:https://arxiv.org/abs/2505.23932
      • 項目鏈接:https://swing-bench.github.io/

      從 “寫對代碼” 到 “通過審查”,

      評測邏輯需要一次轉向


      在傳統評測中,模型面對的是一個高度簡化的問題:給定函數簽名和說明,只要輸出能通過測試的實現即可。這種設定對于衡量基礎編程能力是有效的,但它忽略了真實軟件開發中最關鍵的一環 ——審查與迭代。

      在現實中,一段代碼往往要經歷多個回合的反饋與修改,才能最終被接受。CI 系統會自動檢查編譯、測試、代碼風格和潛在風險,而審查者則會從邏輯正確性、邊界情況和可維護性等角度不斷提出質疑。這種過程,本質上是一種持續博弈。

      SwingArena 將這種博弈引入評測之中。它不再讓模型 “單打獨斗”,而是通過對抗式設定,讓兩個模型分別扮演 “提交者” 和 “審查者”,在真實 CI 環境中反復交鋒。



      提交者需要寫出足夠穩健的補丁才能通過流水線,而審查者則試圖通過精心設計的測試暴露潛在問題。最終的得分,完全由真實執行結果決定。



      真實工程環境,意味著真實復雜度


      要讓評測真正貼近工業場景,僅有對抗機制還不夠。另一個更現實的挑戰在于:真實項目的代碼規模,遠遠超出了大模型的上下文窗口。

      一個常見的開源倉庫往往包含數萬行代碼,分布在數百個文件中。模型不可能 “通讀全庫”,只能在極其有限的上下文中做判斷。SwingArena 因此設計了一套完整的檢索增強流水線 RACG(Retrieval-Augmented Code Generation),試圖在 “給模型多少代碼” 與 “給對代碼” 之間取得平衡。

      RACG 的核心思路,是先通過經典信息檢索方法快速縮小文件范圍,再以語法結構為單位對代碼進行切塊,并使用語義模型進行精排。在嚴格的 token 預算下,系統會動態調整上下文粒度,確保模型看到的是最關鍵、最相關的代碼片段,而不是噪聲。

      消融實驗顯示,這種分層檢索策略,能夠顯著提升補丁定位的準確率,相比僅使用關鍵詞匹配,Top-10 命中率提升超過一倍。這意味著模型不只是 “寫代碼”,而是在更接近人類工程師的認知范圍內工作。

      當模型真正對抗,差異才開始顯現


      在 SwingArena 的評測中,一個有趣的現象逐漸浮現:不同模型在工程決策上的 “性格差異”,被前所未有地放大了。

      以 GPT-4o 為例,它在提交者角色中表現得極為激進,往往能夠快速生成足以擊敗對手測試的補丁,因此勝率很高。但這種策略的代價是 CI 通過率并不穩定,代碼在規范性和魯棒性上更容易出現問題。

      相比之下,DeepSeek 和 Gemini 的表現則明顯更為保守。它們生成的代碼風格更加規范,通過 CI 的概率也更高,尤其在多語言場景下展現出更強的穩定性。這類差異,在傳統基準中往往被 “平均分” 所掩蓋,而在對抗式評測中卻變得非常直觀。

      更重要的是,這些結果為實際應用提供了清晰的參考:當目標是快速原型和探索性開發時,激進策略可能更有效;而在生產環境和長期項目中,穩定性顯然更重要。

      從評測到實踐:

      為什么 SwingArena 值得被重視


      SwingArena 的意義,并不僅僅在于提出了一個新的 benchmark。它更重要的價值,在于推動了一次評測視角的轉變:從 “功能正確性” 走向 “工程可用性”。

      通過將 CI 流水線、代碼審查和多輪迭代引入評測過程,SwingArena 讓我們第一次能夠系統性地回答這樣的問題:哪些模型真的適合進入生產環境?在不同工程場景下,應該如何選擇和使用它們?又該如何設計更符合現實需求的 AI 編程助手?

      在論文匿名期結束后,SwingArena 將完整開源,包括數據集、評測框架、檢索流水線以及所有實驗復現代碼。團隊希望,這套框架不僅能成為研究者比較模型的新工具,也能為工業界評估和落地 AI 編程能力提供參考。

      當 AI 生成的代碼真正走進 CI 流水線,評測的標準,也必須隨之升級。

      SwingArena,正是向這個方向邁出的一步。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      年薪超五十萬元還不滿足,浙江3名研究生兼職當黑客被蒼南警方抓獲

      年薪超五十萬元還不滿足,浙江3名研究生兼職當黑客被蒼南警方抓獲

      都市快報橙柿互動
      2026-02-12 14:27:38
      大風追蹤 | “母親派出所遭民警責罵,男子插話后被拖進女廁群毆”,終審維持原判,涉案民輔警刑罰不變

      大風追蹤 | “母親派出所遭民警責罵,男子插話后被拖進女廁群毆”,終審維持原判,涉案民輔警刑罰不變

      大風新聞
      2026-02-12 11:43:13
      31歲安徽農村小伙迎娶“00后”埃及姑娘:社交平臺認識,備了3萬元彩禮和3萬元首飾

      31歲安徽農村小伙迎娶“00后”埃及姑娘:社交平臺認識,備了3萬元彩禮和3萬元首飾

      揚子晚報
      2026-02-12 11:00:07
      浙江嘉興一阿姨拿17克舊金1:1換新僅得9克金項鏈?老廟黃金:理解有誤,所謂“換新”并非克重1:1,而是價值1:1

      浙江嘉興一阿姨拿17克舊金1:1換新僅得9克金項鏈?老廟黃金:理解有誤,所謂“換新”并非克重1:1,而是價值1:1

      揚子晚報
      2026-02-12 07:21:53
      小米宣布:YU7拿下1月國內乘用車銷冠!無任何定語

      小米宣布:YU7拿下1月國內乘用車銷冠!無任何定語

      CNMO科技
      2026-02-12 14:26:09
      文內馬斯:廉子文道歉毫無意義 至少銅牌該是我的

      文內馬斯:廉子文道歉毫無意義 至少銅牌該是我的

      體壇周報
      2026-02-12 10:51:11
      沒了!再見,楊瀚森,主帥正式攤牌:沒那么多時間給年輕人

      沒了!再見,楊瀚森,主帥正式攤牌:沒那么多時間給年輕人

      球童無忌
      2026-02-12 15:28:35
      女子故意扮丑去相親,男子一眼看中,女子吃驚:他是不是太餓了

      女子故意扮丑去相親,男子一眼看中,女子吃驚:他是不是太餓了

      丫頭舫
      2026-02-10 22:18:05
      七個姐妹湊70萬開咖啡店,結果從“七仙女”變成“戰國七雄”互掐

      七個姐妹湊70萬開咖啡店,結果從“七仙女”變成“戰國七雄”互掐

      達文西看世界
      2026-02-12 11:31:45
      知名歌手宣布:3月28日深圳演唱會,可全額退款

      知名歌手宣布:3月28日深圳演唱會,可全額退款

      深圳晚報
      2026-02-11 19:35:29
      但斌爆猛料:公司有研究員炒黃金期貨,90萬賺了10多億...

      但斌爆猛料:公司有研究員炒黃金期貨,90萬賺了10多億...

      金石隨筆
      2026-02-11 23:32:38
      惡毒!網傳廣東一婚車被橫幅攔截,“新郎不是我,但新娘愛過我”

      惡毒!網傳廣東一婚車被橫幅攔截,“新郎不是我,但新娘愛過我”

      火山詩話
      2026-02-11 15:59:03
      立陶宛總理:考慮將“臺灣代表處”更名為“臺北代表處”

      立陶宛總理:考慮將“臺灣代表處”更名為“臺北代表處”

      揚子晚報
      2026-02-12 11:04:17
      上海寶冶集團被暫停全軍采購資格

      上海寶冶集團被暫停全軍采購資格

      地產微資訊
      2026-02-12 16:12:33
      筱梅提前報喜:小寶貝迫不及待,奔赴新年與溫暖

      筱梅提前報喜:小寶貝迫不及待,奔赴新年與溫暖

      觀察鑒娛
      2026-02-12 11:53:34
      美媒爆料:特朗普正考慮“退群”

      美媒爆料:特朗普正考慮“退群”

      環球時報國際
      2026-02-12 10:51:56
      卡拉澤丨因扎吉連10個顛球都做不到,但……

      卡拉澤丨因扎吉連10個顛球都做不到,但……

      米蘭圈
      2026-02-12 08:28:33
      高市早苗大獲全勝之后,我們一些人真該好好反思

      高市早苗大獲全勝之后,我們一些人真該好好反思

      少年一白
      2026-02-11 02:54:53
      商家稱新娘穿臟敬酒服,竟“焊接”吊牌退貨!商家:不知道你嫁得好不好,但路一定不好走……

      商家稱新娘穿臟敬酒服,竟“焊接”吊牌退貨!商家:不知道你嫁得好不好,但路一定不好走……

      揚子晚報
      2026-02-12 07:35:48
      如今15年過去了,當初賣腎賣蘋果手機的安徽小伙,活成了這個樣子

      如今15年過去了,當初賣腎賣蘋果手機的安徽小伙,活成了這個樣子

      大魚簡科
      2026-02-09 16:40:58
      2026-02-12 17:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12295文章數 142564關注度
      往期回顧 全部

      科技要聞

      10倍速的一夜:三大模型春節前的暗戰

      頭條要聞

      影石年會送出5套房 員工:獲獎房者都是90后、無高管

      頭條要聞

      影石年會送出5套房 員工:獲獎房者都是90后、無高管

      體育要聞

      31歲首次參加冬奧,10年前她是個水管工

      娛樂要聞

      體操運動員墜樓涉事教練被立案調查

      財經要聞

      “影子萬科”如何掘金萬科?

      汽車要聞

      開212 T01柴油版去穿越 連牧馬人都跟不上

      態度原創

      本地
      旅游
      家居
      親子
      公開課

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準備

      旅游要聞

      河北館陶:“一品一播”激活新春文旅消費新活力

      家居要聞

      本真棲居 愛暖伴流年

      親子要聞

      2026年2月秋冬兒童面霜推薦榜單|寶媽實測+科學測評,選對不踩坑

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版