<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      代碼Agent的苦澀教訓!首次拆解上下文檢索,直指自動化軟件瓶頸

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】ContextBench首次從「過程」評測代碼智能體,不再只看是否修好代碼,而是追蹤它是否精準找到并真正使用了關鍵代碼片段,揭示了當前模型多讀少用、被關鍵詞誤導、復雜架構無效等深層問題,推動AI助手向更可靠、可解釋的方向進化。

      在自動化軟件工程(Automated Software Engineering)領域,以SWE-bench為代表的評測基準已成為衡量大語言模型代碼能力的事實標準,SWE-bench、SWE-bench Pro、Multi-SWE-bench、SWE-PolyBench等代碼庫級評測推動了代碼智能體快速進步。

      然而,這類評測仍以最終修復成功率為核心,主要關注端到端成功率(End-to-End Success Rate),即Agent是否能夠生成通過測試用例的補丁。

      這一評價方式隱含著一個關鍵缺陷:它僅觀察最終結果,卻無法刻畫模型的中間推理過程,難以量化「過程中是否檢索到解決問題必需的上下文、是否真正把它用進補丁」

      換言之,我們無法判斷Agent是真正理解了代碼庫的語義結構,還是通過試探式修改或偶然匹配測試條件而得到正確結果。

      因此,現有評測更接近于「結果可驗證」,而非「過程可解釋」。

      為了填補這一空白,來自南京大學、倫敦大學學院(UCL)等機構的研究團隊推出了首個面向過程的代碼上下文檢索評測基準ContextBench,基于1,136個真實問題修復任務(66個代碼庫、8種語言),由專家在文件/代碼塊/行號三個粒度標注「關鍵上下文」,并自動追蹤智能體的檢索與閱讀軌跡進行結構化對齊,用召回率、準確率、F1、效率與「使用衰減」等指標,把「找上下文」和「用上下文」拆開評估。


      論文鏈接:https://arxiv.org/abs/2602.05892

      項目主頁:https://contextbench.github.io/

      代碼倉庫:https://github.com/EuniAI/ContextBench

      數據集:https://huggingface.co/datasets/Contextbench/ContextBench


      ContextBench并非直接構造新的編程任務,而是從真實開源倉庫的 Issue 與補丁出發,逆向追蹤問題修復過程中實際依賴的代碼片段,并將其組織為評測用的「黃金上下文」。評測的核心由「是否修復成功」轉變為「是否定位到正確代碼」

      ContextBench不再只問「修好了嗎?」,而是追問:「在解決問題時,Agent究竟檢索并使用了哪些代碼上下文?」

      研究人員觀察到幾條典型現象:復雜的智能體腳手架不一定帶來更好的上下文檢索質量,反而像一種「苦澀的教訓」(The Bitter Lesson)式的過度工程化;

      很多最強大模型傾向「多撈少漏」,導致噪聲偏多;

      「檢索到」不等于「用到了」,看過關鍵代碼也可能沒體現在最終補丁里;更均衡的檢索策略往往在成功率與成本之間更劃算。

      ContextBench希望為代碼智能體提供可觀測、可度量、可優化的過程評測視角,幫助社區更精準地改進檢索與推理鏈路。

      「黃金上下文」由人類專家認證

      為了構建這一基準,研究團隊并沒有依賴自動化生成,而是采用了一套嚴謹的「人機回環」(Human-in-the-loop)標注流程。

      大規模覆蓋包含來自66個真實代碼倉庫的 1,136個 問題解決任務,覆蓋 Python、Java、C++、Go、Rust、JavaScript、TypeScript、C 等 8種主流編程語言。

      專家級標注每一條數據都配有由專家開發者標注的「黃金上下文」(Gold Contexts)。這些上下文并非「相關代碼」的簡單集合,而是問題修復過程中不可或缺的最小代碼依賴集。研究者通過分析真實補丁,沿函數調用、類引用與變量依賴關系逐步回溯,最終確定必須閱讀的代碼片段。


      一個真實倉庫中的依賴鏈條:若未閱讀箭頭所連接的函數與類,即使模型生成補丁,也難以保證語義正確

      細粒度追蹤:評測框架能夠記錄Agent的每一步操作軌跡,并在文件(File)、代碼塊(Block)、行(Line)三個層級上計算檢索的精確率(Precision)和召回率(Recall)。這意味著模型的行為可以被量化為「定位能力」:不僅判斷是否訪問了關鍵文件,還能判斷是否精確定位到關鍵函數乃至關鍵語句。

      評測對象

      頂尖模型與主流Agent

      研究團隊使用CONTEXTBENCH評測了當前最強的4款LLM和5種主流代碼Agent框架:

      • LLM:GPT-5, Claude 4.5 Sonnet, Gemini 2.5 Pro, Devstral 2

      • Agent框架:SWE-agent, OpenHands, Agentless, Prometheus, mini-SWE-agent


      各個LLM的表現情況如圖所示,該排行榜將在主頁上持續更新

      代碼Agent的「苦澀教訓」

      實驗結果揭示了當前LLM和Agent在代碼檢索上的三大痛點:

      1. 架構越復雜,效果越好?未必!

      通過分析排行榜數據可以發現,復雜的 Agent 架構在上下文檢索性能上帶來的增益微乎其微。

      實驗顯示,復雜的檢索腳手架——比如基于圖的檢索或復雜的向量庫——在檢索成功率上,甚至有時還不如簡單的基準方案(如 mini-SWE-agent)。這再次印證了 AI 領域的「苦澀教訓」:復雜的工程堆砌,往往不如底層模型能力的提升。


      不同Agent框架在檢索F1分數上的差異遠小于預期,復雜檢索結構并未帶來顯著收益


      對比不同Agent架構在不同層級檢索上的成功率,數據表明復雜架構并未拉開顯著差距

      2. 寧濫勿缺:模型偏愛高召回率

      所有的LLM在檢索策略上都表現出驚人的一致性:重召回,輕精確。模型傾向于閱讀大量的代碼以確保覆蓋相關信息,但這引入了大量的噪音。例如,GPT-5雖然召回率很高,但引入的無關代碼嚴重拖累了精確率。這也解釋了為什么更高昂的Token消耗并沒有線性轉化為解決率的提升。


      從精確率與召回率的對比可以看到,多數模型傾向于擴大檢索范圍以避免遺漏,但代價是大量無關上下文被引入,從而干擾后續推理


      數據展示了各模型Recall極高、Precision極低的「偏科」現狀,精確率普遍偏低

      3. 策略分化:GPT-5「大口吞」 vs Devstral 2「小步跑」

      不同模型在檢索策略上展現出了截然不同的性格 。

      • GPT-5 傾向于「少次多量」,平均只需 5.87 輪檢索,但每一步會閱讀高達 119 行代碼,試圖一次性獲取大量信息 。

      • Devstral 2 則采取「多次少量」的策略,平均需要進行 22 輪檢索,但每一步僅讀取約 12 行代碼 。

      • 這種高頻交互導致 Devstral 2 的Token消耗激增,成為成本最高的模型


      4. 致命的「關鍵詞陷阱」:Agent 容易陷入局部視野

      通過對失敗案例的分析,研究者發現Agent極易被表面關鍵詞誤導,從而陷入「隧道視野」(Tunnel Vision)。

      案例:在修復一個涉及Django多數據庫(MySQL/SQLite)的 Bug 時,OpenHands因為搜索結果中大量出現MySQL相關關鍵詞,就固執地將排查范圍鎖定在 MySQL 模塊 。

      后果:盡管Agent擁有查看整個代碼庫的權限,但關鍵詞的干擾使其完全忽略了真正出問題的SQLite模塊,導致結構性的檢索失敗 。

      5. 「讀了」不等于「用了」

      這是一個更為致命的問題:檢索與利用之間存在巨大鴻溝。軌跡分析顯示,Agent經常在中間步驟成功檢索到了「黃金上下文」,但在最終生成補丁時,卻未能有效利用這些信息,導致修復失敗。

      這種「過目即忘」的現象(Information Consolidation Bottleneck)是當前Agent推理能力的一大短板。軌跡分析進一步表明,模型在中間步驟能夠訪問到黃金上下文,但在最終生成補丁時未能有效利用這些信息,即「檢索成功但推理失敗」。


      總結

      ContextBench的發布,標志著代碼Agent的評測進入了「過程可解釋」的新階段。

      該工作表明,端到端成功率不足以刻畫代碼Agent的真實能力。未來的代碼Agent不僅需要具備代碼生成能力,更需要具備穩定且精確的代碼定位能力。只有當Agent能夠精準地定位、檢索并有效利用代碼上下文時,它們才能真正成為開發者值得信賴的助手。

      參考資料:

      https://arxiv.org/abs/2602.05892

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普:要“讓伊朗再次偉大!”伊朗大使:決不投降

      特朗普:要“讓伊朗再次偉大!”伊朗大使:決不投降

      上觀新聞
      2026-03-07 09:17:06
      紹興一老板開工前辦公室點香燭拜菩薩,結果引發大火!現場火光沖天,“祈福現場” 變成 “火情現場”……

      紹興一老板開工前辦公室點香燭拜菩薩,結果引發大火!現場火光沖天,“祈福現場” 變成 “火情現場”……

      我愛大紹興
      2026-03-07 15:43:50
      大戰第7天,中俄同時揭露美以陰謀,海灣國家要想突圍只剩一條路

      大戰第7天,中俄同時揭露美以陰謀,海灣國家要想突圍只剩一條路

      阿筀田間生活
      2026-03-07 18:00:09
      心態出問題!巴黎全隊不在狀態,復仇藍軍難度不小

      心態出問題!巴黎全隊不在狀態,復仇藍軍難度不小

      體壇周報
      2026-03-07 17:33:16
      造不出就買!260 億吞下美國打印機巨頭,珠海破解暴利壟斷

      造不出就買!260 億吞下美國打印機巨頭,珠海破解暴利壟斷

      知識TNT
      2026-02-24 12:30:09
      7點吃晚飯是錯誤的?醫生建議:過了70歲,晚飯盡量要做到這4點

      7點吃晚飯是錯誤的?醫生建議:過了70歲,晚飯盡量要做到這4點

      蜉蝣說
      2026-03-07 17:52:08
      伊朗末代國王的后代:2個自殺,長子流亡美國住別墅,生了3個女兒

      伊朗末代國王的后代:2個自殺,長子流亡美國住別墅,生了3個女兒

      照見古今
      2026-03-06 18:11:47
      難以置信!江西母女喝3瓶牛奶,被老公數落2小時:嘴巴又貪又快!

      難以置信!江西母女喝3瓶牛奶,被老公數落2小時:嘴巴又貪又快!

      川渝視覺
      2026-03-05 22:13:06
      伊朗突然改口,霍爾木茲海峽玩的是精準禁航,美國盟友這次要肉疼

      伊朗突然改口,霍爾木茲海峽玩的是精準禁航,美國盟友這次要肉疼

      小嵩
      2026-03-07 18:50:10
      隱婚生子真相大白4個月,43歲房祖名真實現狀曝光,成龍沒說謊

      隱婚生子真相大白4個月,43歲房祖名真實現狀曝光,成龍沒說謊

      攬星河的筆記
      2025-12-29 20:12:01
      看成龍、洪金寶近況,才知巔峰時隱退,移居加拿大的他,有多英明

      看成龍、洪金寶近況,才知巔峰時隱退,移居加拿大的他,有多英明

      查爾菲的筆記
      2026-03-06 17:16:01
      看了鴇鳥怎么交配,才知道古代青樓的老板娘,為何叫“老鴇”!

      看了鴇鳥怎么交配,才知道古代青樓的老板娘,為何叫“老鴇”!

      米果說識
      2026-03-06 22:02:30
      比亞迪發布會后看看比亞迪港股收盤前的走勢就明白了!3-7

      比亞迪發布會后看看比亞迪港股收盤前的走勢就明白了!3-7

      風風順
      2026-03-07 07:25:50
      連迎3大噩耗,特朗普開始慌了!10艘油輪被擊沉,又有兩國反水

      連迎3大噩耗,特朗普開始慌了!10艘油輪被擊沉,又有兩國反水

      凡知
      2026-03-05 19:28:58
      成都德云社開業僅2天,反常一幕發生了,郭德綱、于謙均被牽連

      成都德云社開業僅2天,反常一幕發生了,郭德綱、于謙均被牽連

      小徐講八卦
      2026-03-07 06:05:51
      不簡單!綠營統一口徑,全鏈條改口——綠媒首次使用“中國大陸”

      不簡單!綠營統一口徑,全鏈條改口——綠媒首次使用“中國大陸”

      溫讀史
      2026-03-07 18:32:40
      金價突破5400美元,金飾暴跌50元,變現熱潮席卷全國

      金價突破5400美元,金飾暴跌50元,變現熱潮席卷全國

      快樂彼岸
      2026-03-07 16:53:48
      我已經不消費了,除了維持生命必需。

      我已經不消費了,除了維持生命必需。

      老陸不老
      2026-03-06 21:52:54
      “俄羅斯向伊朗分享美軍坐標,又有核武大國進場”

      “俄羅斯向伊朗分享美軍坐標,又有核武大國進場”

      觀察者網
      2026-03-07 08:36:07
      當韓國人知道韓國很小中國很大后,是完全顛覆他們認知的!

      當韓國人知道韓國很小中國很大后,是完全顛覆他們認知的!

      夜深愛雜談
      2026-02-25 21:23:43
      2026-03-07 19:32:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14660文章數 66667關注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養蝦人"自述與AI共生

      頭條要聞

      中國貨船"鐵娘子"號通過霍爾木茲海峽 大量船舶仍滯留

      頭條要聞

      中國貨船"鐵娘子"號通過霍爾木茲海峽 大量船舶仍滯留

      體育要聞

      塔圖姆298天走完這段路 只用27分鐘征服這座城

      娛樂要聞

      周杰倫田馥甄的“JH戀” 被扒得底朝天

      財經要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      時尚
      數碼
      家居
      游戲
      軍事航空

      這些才是適合普通人的穿搭!搭配腰帶、多穿牛仔褲,簡單舒適

      數碼要聞

      三星Galaxy Watch Ultra 2確認將搭載全新芯片組

      家居要聞

      暖棕撞色 輕法奶油風

      “穿越”時間體驗新活動!《寶可夢》新作玩家太積極

      軍事要聞

      美第三個航母打擊群據稱準備部署至中東

      無障礙瀏覽 進入關懷版