<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      新研究重新評估 AGENTS.md 文件在 AI 編碼中的價值

      0
      分享至


      作者 | Bruno Couriol

      譯者 | 劉雅夢

      盡管業(yè)界普遍推薦,但蘇黎世聯邦理工學院(ETH Zurich)的一篇新論文得出結論,AGENTS.md文件可能經常阻礙 AI 編碼智能體。研究人員建議完全省略由 LLM 生成的上下文文件,并限制人類編寫的指令只包含不可推斷的細節(jié),例如非常具體的工具或自定義構建命令。

      團隊(Thibaud Gloaguen、Niels Mündler、Mark Müller、Veselin Raychev、Martin Vechev)通過指出盡管目前有 60,000 個開源倉庫包含 AGENTS.md 等上下文文件,并且許多智能體框架都內置了自動生成這些文件的命令,但還沒有進行嚴格的實證研究來調查這些文件是否真的提高了 AI 智能體解決現實世界編碼任務的能力,從而為研究提供了理由。

      研究人員(其中一位為 Humanity Last Exam 基準測試做出了貢獻)構建了 AGENTbench,這是一個新的數據集,包含 138 個來自小眾倉庫的真實世界 Python 任務。這種設置故意避免了像 SWE-bench 這樣的流行基準測試的偏見,AI 模型可能已經部分記住了這些測試。團隊在三個不同場景下測試了四個智能體(Claude 3.5 Sonnet、Codex GPT-5.2 和 GPT-5.1 mini 以及 Qwen Code):不使用上下文文件、使用 LLM 生成的文件和人類編寫的文件。研究人員通過跟蹤三個智能體指標來評估倉庫級指令的實際影響:任務成功率(由倉庫單元測試確定)、代理步驟數量和總體推理成本。所有選定的小眾倉庫都包含人類編寫的上下文文件;前兩個場景通過移除或替換這些文件進行測試。

      研究人員發(fā)現,LLM 生成的上下文文件會降低性能,與不提供任何上下文文件相比,任務成功率平均降低了 3%。它們還一致增加了智能體采取的步驟數量,將推理成本提高了 20% 以上。

      另一方面,人類編寫的文件確實提供了邊際收益,在 AGENTbench 上任務成功率平均提高了 4%。然而,這種正面增長與步驟數量的并行增長形成對比,成本也增加了高達 19%。

      在 AGENTS.md 文件中包含諸如架構概覽或倉庫結構解釋等信息似乎并沒有減少模型為手頭任務定位相關文件所花費的時間。

      為了理解性能下降和成本增加的原因,作者對智能體的工具調用和推理模式進行了深入的跟蹤分析。智能體通常遵循 AGENTS.md 文件中包含的指令。結果,它們運行了更多的測試,讀取了更多的文件,執(zhí)行了更多的 grep 搜索,并進行了更多的代碼質量檢查。雖然這種行為非常徹底,但通常對于解決手頭的具體任務來說是不必要的。數據表明,額外的上下文迫使推理模型“思考”得更努力,而沒有產生更好的最終補丁。

      作者最后強調了研究結果與當前向使用 AI 代碼智能體的開發(fā)人員提出的建議之間的差距:

      我們發(fā)現所有上下文文件都一致地增加了完成任務所需的步驟數量。LLM 生成的上下文文件對任務成功率有邊際的負面影響,而開發(fā)人員編寫的文件則提供了邊際的性能提升。 我們的跟蹤分析顯示,上下文文件中的指令通常被遵循,并導致更多的測試和更廣泛的探索;然而,它們并不作為有效的倉庫概覽。總體而言,我們的結果表明上下文文件對智能體行為只有邊際影響,并且可能只有在手動編寫時才受歡迎。這突出了當前智能體 - 開發(fā)人員建議與觀察結果之間的具體差距,并激發(fā)了未來工作,即以有原則的方式自動生成簡潔、與任務相關的指導,以供編碼智能體使用。

      開發(fā)人員對這項研究表示了興趣。一位開發(fā)人員指出,這項研究實際上應該讓開發(fā)人員專注于編寫有用的 AGENTS.md 文件:

      我讀了這項研究。我認為它實際上與作者建議的相反——實際上是在支持好的 AGENTS.md 文件。 [...] AGENTS.md 文件的最大用例是模型不知道且無法立即從項目中推斷出的領域知識。這是從看到智能體因這種缺陷而掙扎中慢慢獲得的。這在閉源中非常常見,但在擁有 AGENTS.md 文件的公共 GitHub 項目中非常罕見——絕大多數是最近以 LLMs 中心的小型氛圍編程項目。如果在后一種項目上看到了 4% 的增長,這些項目本來就有非常混雜質量較差的 AGENTS.md 文件,那么對于擁有高質量 AGENTS.md 的大型項目來說,它們在與智能體合作時是無價的。

      另一位開發(fā)人員指出,上下文文件可能對開發(fā)人員比對 AI 利用具更有用:

      我已經維護一個 CLAUDE.md 文件大約 3 個月了,它橫跨兩個項目,改進是明顯的,但不是你所期望的原因。它提供的實際 token 級上下文并不重要,重要的是,編寫它可以迫使你表達關于你的代碼庫的事情,這些之前只是在你的腦海中。像“我們因為 Y 中的遺留約束而對 X 使用這種奇怪的模式”之類的東西。一旦寫下來,智能體就會把它撿起來,但團隊中的每個新成員也會這樣做。

      開發(fā)者可以 在線審閱論文。像AGENTS.mdCLAUDE.md.cursorrules這樣的上下文文件的使用,在 2025 年下半年變得日益重要,這與 AI 編碼智能體提供商的更大推動相吻合。

      https://www.infoq.com/news/2026/03/agents-context-file-value-review/

      聲明:本文為 InfoQ 翻譯,未經許可禁止轉載。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      17+11!楊瀚森大帽富爾茨!這可是NBA狀元秀

      17+11!楊瀚森大帽富爾茨!這可是NBA狀元秀

      籃球實戰(zhàn)寶典
      2026-03-21 12:02:21
      扎心了!中國男性死亡中位數67歲,剛退休就離場,養(yǎng)老金虧大了?

      扎心了!中國男性死亡中位數67歲,剛退休就離場,養(yǎng)老金虧大了?

      烏娛子醬
      2026-03-20 10:51:20
      一臺造夢,一臺賺錢,蘋果 50 周年還藏了兩臺新 iPhone

      一臺造夢,一臺賺錢,蘋果 50 周年還藏了兩臺新 iPhone

      愛范兒
      2026-03-20 19:48:12
      鬧大了!路虎別車事件再反轉!當事人信息遭泄露,警方再發(fā)通報!

      鬧大了!路虎別車事件再反轉!當事人信息遭泄露,警方再發(fā)通報!

      奇思妙想草葉君
      2026-03-20 14:45:59
      匈牙利大選為何會成為全球焦點?兩大陣營生死對決

      匈牙利大選為何會成為全球焦點?兩大陣營生死對決

      史政先鋒
      2026-03-21 12:25:57
      殲20總師被除名:長期領導軍工央企,最近照流出,事發(fā)全過程披露

      殲20總師被除名:長期領導軍工央企,最近照流出,事發(fā)全過程披露

      博士觀察
      2026-03-20 21:41:54
      不是李夢!馳援女籃世界杯第1人或是她,21歲前鋒,有望取代功勛

      不是李夢!馳援女籃世界杯第1人或是她,21歲前鋒,有望取代功勛

      萌蘭聊個球
      2026-03-21 09:52:17
      西方軍事專家:只有吉爾吉斯斯坦知道,中國早就是最強超級大國了

      西方軍事專家:只有吉爾吉斯斯坦知道,中國早就是最強超級大國了

      皇朝冰酷
      2026-03-21 17:49:34
      美國已被奪舍,我們是下一個?

      美國已被奪舍,我們是下一個?

      美第奇效應
      2026-03-21 01:50:29
      又投中7個三分!抱歉戈登:你的NBA紀錄要不保了

      又投中7個三分!抱歉戈登:你的NBA紀錄要不保了

      籃球大視野
      2026-03-21 15:35:41
      風向驟變!以德為首的西方國家齊發(fā)聲:中國已在換電關鍵領域崛起

      風向驟變!以德為首的西方國家齊發(fā)聲:中國已在換電關鍵領域崛起

      聚焦最新動態(tài)
      2026-03-21 13:02:00
      0-3慘敗!中超頭號降級熱門出爐:3輪不勝0進球負9分,給海牛墊底

      0-3慘敗!中超頭號降級熱門出爐:3輪不勝0進球負9分,給海牛墊底

      球場沒跑道
      2026-03-21 18:09:48
      2026年交警正式更名交管!不止換稱呼,罰單、停車、換駕照全變了

      2026年交警正式更名交管!不止換稱呼,罰單、停車、換駕照全變了

      混沌錄
      2026-03-20 21:00:04
      爽,公司全員裁撤,就地解散!

      爽,公司全員裁撤,就地解散!

      黯泉
      2026-03-21 12:20:16
      美媒:抱歉了殲-20與殲-35A,F-22和F-35將繼續(xù)主宰天空

      美媒:抱歉了殲-20與殲-35A,F-22和F-35將繼續(xù)主宰天空

      零度Military
      2026-03-21 07:00:05
      阿里巴巴2025年裁員超6.6萬人?

      阿里巴巴2025年裁員超6.6萬人?

      芯智訊
      2026-03-21 11:06:56
      看了新加坡媒體的披露,我才知道,中國已經沒必要向世界證明什么

      看了新加坡媒體的披露,我才知道,中國已經沒必要向世界證明什么

      觸摸史跡
      2026-03-21 02:58:06
      福建寧德一派出所教導員辦公室猥褻15歲女生,一審被判2年9個月,家屬欲申請抗訴

      福建寧德一派出所教導員辦公室猥褻15歲女生,一審被判2年9個月,家屬欲申請抗訴

      大風新聞
      2026-03-21 11:58:12
      伊朗戰(zhàn)爭最黑暗的終局正在襲來

      伊朗戰(zhàn)爭最黑暗的終局正在襲來

      荷蘭豆愛健康
      2026-03-21 08:27:54
      15分大逆轉!北京男籃力克遼寧,趙睿34分大爆發(fā),趙繼偉26分!

      15分大逆轉!北京男籃力克遼寧,趙睿34分大爆發(fā),趙繼偉26分!

      中國籃壇快訊
      2026-03-21 21:36:20
      2026-03-21 21:55:00
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區(qū)媒體
      12188文章數 51814關注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      頭條要聞

      軍事專家推演美軍奪取哈爾克島的三種可能:步步驚心

      頭條要聞

      軍事專家推演美軍奪取哈爾克島的三種可能:步步驚心

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      田栩寧終于涼了?出軌風波影響惡劣

      財經要聞

      通脹警報拉響,加息潮要來了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態(tài)度原創(chuàng)

      家居
      游戲
      手機
      公開課
      軍事航空

      家居要聞

      時空交織 空間綺夢

      口碑崩盤!3A大作爭議DLC永久免費 已購玩家全額退款

      手機要聞

      雙平臺銷售額新紀錄 OPPO Find N6逆勢突破

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:正考慮逐步降級對伊朗的軍事行動

      無障礙瀏覽 進入關懷版