<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      華為諾亞&港中文發布SCOPE:Prompt自我進化,讓HLE成功率翻倍

      0
      分享至



      機器之心發布

      在 LLM Agent 領域,有一個常見的問題:Agent 明明 "看到了" 錯誤信息,卻總是重蹈覆轍。

      當 Agent 遇到工具調用錯誤時,錯誤日志里往往已經包含了解決方案 —— 正確的參數格式、有效的 API 用法、甚至是直接可用的替代方案。然而,靜態的 Prompt 無法讓 Agent 從這些反饋中 “學到教訓”,導致它們陷入 “錯誤循環”:承認失敗,卻重復同樣的動作。

      華為諾亞方舟實驗室與香港中文大學聯合發布的 SCOPE 框架,旨在解決這一問題。



      • 論文:《SCOPE: Prompt Evolution for Enhancing Agent Effectiveness》
      • 論文地址:https://arxiv.org/abs/2512.15374
      • 開源地址:https://github.com/JarvisPei/SCOPE

      SCOPE 的核心思想是:既然 Agent 會被反復調用,那么它的 Prompt 就可以在執行過程中不斷進化。通過從執行軌跡中自動提煉指導規則,SCOPE 讓 Agent 能夠 "從錯誤中學習",并將經驗固化到 Prompt 中,實現自我進化。





      Agent 的兩大失敗模式

      研究團隊分析了 GAIA 和 DeepSearch 基準上的 Agent 執行日志,發現了兩類典型的失敗模式:

      第一類是「糾正型失敗」(Corrective Failure):當錯誤發生時,執行軌跡中包含明確的信號(錯誤消息、堆棧跟蹤、有效參數列表),本應指導 Agent 進行修正。然而,靜態的 Agent 把這些信息當作泛泛的 “警報”,而不是可操作的反饋。研究者觀察到大量案例,Agent 在錯誤消息明確列出正確用法的情況下仍然誤用工具,形成 “錯誤循環”。更嚴重的情況下,Agent 甚至會為了繼續執行而 “編造數據”。

      第二類是「增強型失敗」(Enhancement Failure):即使沒有明顯錯誤,Agent 也會錯過優化機會。比如當搜索結果不理想時,上下文往往暗示可以嘗試同義詞(如 “base on balls” 與 “walks”),但 Agent 卻固守單一關鍵詞策略。這種失敗更加隱蔽,但同樣影響任務成功率。



      這兩類失敗的根本原因是相同的:靜態 Prompt 缺乏從執行反饋中學習的機制。

      SCOPE 框架:從執行軌跡中學習



      針對上述問題,SCOPE 將上下文管理從手動工程任務轉變為自動優化過程。其核心洞察是:Agent 自身的執行軌跡就是最好的學習信號。

      SCOPE 框架由四個核心組件構成:

      1. 指導規則合成(Guideline Synthesis)

      當 Agent 遇到錯誤或完成子任務時,SCOPE 的生成器(Generator)會分析執行軌跡,合成候選指導規則。這里采用 Best-of-N 策略:生成多個候選規則,然后由選擇器(Selector)挑選最佳的一條。

      針對不同場景,SCOPE 使用兩種合成模式:糾正型合成從錯誤中提取教訓,增強型合成從成功模式中挖掘優化機會。實驗表明,增強型規則占所有合成規則的 61%,說明 SCOPE 不僅僅是 “錯誤修復器”,更是一個主動的優化器。

      2. 雙流路由機制(Dual-Stream Routing)

      合成的規則并非同等對待。SCOPE 引入分類器(Classifier)將規則路由到兩個記憶流:

      • 戰術記憶(Tactical Memory):存儲任務特定的規則,如 “當前數據集的‘Amount’列包含貨幣符號,計算前需進行清洗”。這些規則僅在當前任務的數據上下文中有效。
      • 戰略記憶(Strategic Memory):存儲跨任務通用的規則,如 “當 Web 搜索返回結果為空時,嘗試泛化搜索關鍵詞而不是重復搜索”。這些規則會持久化保存,應用于未來所有任務。

      只有高置信度(閾值設為 0.85)的通用規則才會被提升到戰略記憶,避免過擬合到特定任務。

      3. 記憶優化(Memory Optimization)

      隨著規則積累,戰略記憶可能包含冗余或沖突的內容。SCOPE 的優化器(Optimizer)會執行三步清理:沖突解決(合并矛盾規則)、冗余剪枝(移除被更通用規則覆蓋的具體規則)、整合歸并(將相似規則合并為綜合性規則)。

      4. 視角驅動探索(Perspective-Driven Exploration)

      單一進化路徑可能收斂到某種策略,在部分任務上表現較好但在其他任務上失效。為了提高策略覆蓋,SCOPE 初始化多個并行流,每個流由不同的 "視角" 引導(如效率優先 vs. 周全優先),各自進化出不同的 Prompt。測試時選擇最佳結果。

      實驗結果:HLE 成功率從 14% 提升到 39%

      研究團隊在三個基準上進行了評估:HLE(2500 道專家級問題)、GAIA 和 DeepSearch。

      實驗結果表明,SCOPE 在所有基準上都取得了提升:



      在 HLE 基準上,SCOPE 將任務成功率從 14.23% 提升到 38.64%。在 GAIA 基準上,成功率從 32.73% 提升到 56.97%。

      為了更準確地表達不同組件的貢獻,論文中給出了消融實驗。如下圖所示,指導規則生成器提供 + 4.85% 的初始提升,雙流路由貢獻 + 3.63%,Best-of-N 選擇貢獻 + 3.03%,記憶優化貢獻 + 1.82%,而視角驅動探索帶來 + 10.91% 的提升。



      值得注意的是,在知識密集型領域(如生物 / 醫學、化學),SCOPE 的提升較為明顯:生物 / 醫學從 14.9% 提升到 43.2%,化學從 14.1% 提升到 50.3%。這些領域的問題往往涉及復雜的專業概念和嚴格的推理流程,SCOPE 合成的領域特定規則能夠幫助 Agent 更好地理解和遵循這些要求。



      Agent 真的在 "聽話" 嗎?

      一個關鍵問題是:合成的規則是否真正影響了 Agent 的行為?

      如下圖所示,研究團隊觀察到了 "語言采納" 現象:當 SCOPE 合成了 "始終列出所有可能的標簽同義詞和短語變體" 這一規則后,Agent 后續輸出中直接引用了相同的措辭。這表明規則被整合到了 Agent 的決策過程中。此外,行為變化通常在規則合成后幾秒內就會發生,展示了單個任務內的實時適應能力。



      視角驅動策略多樣性

      視角驅動探索的設計得到了實驗驗證。如下圖所示,效率流(Efficiency Stream)和周全流(Thoroughness Stream)的總體準確率相近(44.85% vs 46.06%),但兩者解決的問題重合度僅為 33.94%,這意味著約 23% 的問題只能被其中一個視角解決。

      效率流在 GAIA 的 Level 3 任務上表現更好(26.92% vs 11.54%),說明精簡的上下文管理對復雜長程任務更有效;而周全流在 Level 2 任務上更強。全局集成捕獲了兩種策略的優勢。



      定性分析顯示,面對同一個 HTTP 403 訪問拒絕錯誤,效率流學會 “快速失敗”—— 立即升級到搜索 Agent,不再重試;而周全流則學會 “尋找替代來源”—— 嘗試 Archive.org 或轉錄工具。這種二元性讓 SCOPE 能夠同時處理時間緊迫型和深度檢索型任務。



      SCOPE 的意義

      華為諾亞方舟實驗室與香港中文大學聯合提出的 SCOPE 框架,通過將執行軌跡作為學習信號、將 Prompt 視為可進化的參數,實現了 Agent 的在線自我優化。

      與現有方法相比,SCOPE 具有三個主要特點:

      • 步級別適應(Step-level adaptation):在執行過程中更新 Prompt,允許從任務中途的失敗中恢復,而非等到任務結束才學習。
      • 單 Agent 優化(Per-agent optimization):每個 Agent 角色基于自身特定的模式進化 Prompt,而非使用 "一刀切" 的策略庫。
      • 主動優化:61% 的規則來自成功模式的增強型合成,而非僅僅修復錯誤。



      SCOPE 的代碼已在 GitHub 開源。正如論文所總結的:“與其工程化靜態 Prompt,不如讓 Agent 在線進化自己的 Prompt。” 這一思路可能為下一代 Agent 系統的設計提供新的方向。

      值得一提的是,SCOPE 的開源實現具有較好的實用性:

      • 即插即用:只需在 Agent 執行循環中調用 `on_step_complete ()` 接口,即可為現有 Agent 系統添加自我進化能力,無需修改原有架構。
      • 模型無關:通過統一的適配器接口支持 OpenAI、Anthropic 以及 100 + 其他模型提供商(via LiteLLM),方便開發者使用自己偏好的模型。
      • 輕量部署:核心依賴精簡,可通過 `pip install scope-optimizer` 一鍵安裝。

      SCOPE 提供了一套完整的實現框架,其核心洞察是:Agent 的執行軌跡本身就是最好的學習素材 —— 關鍵在于如何將這些經驗有效地編碼到 Prompt 中。對于希望增強 Agent 系統效能的開發者而言,SCOPE 提供了一個可直接使用的解決方案。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      Lisa在圣誕節二登瘋馬秀,由男友三公子陪同,直接打臉洗白的粉絲

      Lisa在圣誕節二登瘋馬秀,由男友三公子陪同,直接打臉洗白的粉絲

      芊手若
      2025-12-26 15:32:19
      約羅曬照,海文當選現場評選的全場最佳球員

      約羅曬照,海文當選現場評選的全場最佳球員

      懂球帝
      2025-12-27 07:00:05
      爆砍56+16+15+2!抱歉哈登:你從歷史第一變成了歷史第二

      爆砍56+16+15+2!抱歉哈登:你從歷史第一變成了歷史第二

      籃球大視野
      2025-12-26 18:37:16
      2026車市大逃殺:補貼花完,透支的惡果終于來了!

      2026車市大逃殺:補貼花完,透支的惡果終于來了!

      音樂時光的娛樂
      2025-12-26 00:47:00
      女子扇醫生后續:為5分鐘行拘5天,漂亮長相已社死,曝更多正臉照

      女子扇醫生后續:為5分鐘行拘5天,漂亮長相已社死,曝更多正臉照

      丁丁鯉史紀
      2025-12-26 09:59:59
      熱刺徹底跌出英超 Big6?從歐冠決賽到恐降級!多年瞎搞終嘗苦果

      熱刺徹底跌出英超 Big6?從歐冠決賽到恐降級!多年瞎搞終嘗苦果

      瀾歸序
      2025-12-27 02:09:56
      吳學謙乘飛機去新疆,空姐為他提供特殊服務,他說:我是普通乘客

      吳學謙乘飛機去新疆,空姐為他提供特殊服務,他說:我是普通乘客

      帝哥說史
      2025-12-26 06:30:03
      日本侵略中國時,這個地區竟然出兵24萬,幫助日本人打中國

      日本侵略中國時,這個地區竟然出兵24萬,幫助日本人打中國

      歷史圖鑒
      2025-12-26 17:40:03
      全球最精確預言家:2026,歷史性的一年, 能說的都在這里

      全球最精確預言家:2026,歷史性的一年, 能說的都在這里

      神奇故事
      2025-12-24 23:34:15
      西安某地產集團大暴雷:全員待崗!

      西安某地產集團大暴雷:全員待崗!

      黯泉
      2025-12-26 14:54:00
      大陸最后一名軍統女特務,平日里每日一包煙,84歲高齡時感慨道:共產黨養了我整整31年

      大陸最后一名軍統女特務,平日里每日一包煙,84歲高齡時感慨道:共產黨養了我整整31年

      史海殘云
      2025-12-26 11:42:14
      嚴重財務造假!300391,將啟動退市!

      嚴重財務造假!300391,將啟動退市!

      中國基金報
      2025-12-26 23:25:36
      天助C羅:1-2,C羅爭冠勁敵爆大冷門吞下首敗+落后利雅得勝利8分

      天助C羅:1-2,C羅爭冠勁敵爆大冷門吞下首敗+落后利雅得勝利8分

      俯身沖頂
      2025-12-26 23:04:44
      國際乒聯確認!王楚欽王曼昱、張本智和金琴英已入選亞洲杯單打

      國際乒聯確認!王楚欽王曼昱、張本智和金琴英已入選亞洲杯單打

      全言作品
      2025-12-26 01:41:12
      賈磊:高詩巖防守CBA第一,貼身緊逼,只讓徐杰得到22分5板8助

      賈磊:高詩巖防守CBA第一,貼身緊逼,只讓徐杰得到22分5板8助

      體育哲人
      2025-12-27 00:01:22
      美軍玩砸了,后悔搶中國原油,新令開啟“熬鷹游戲”,看誰先眨眼

      美軍玩砸了,后悔搶中國原油,新令開啟“熬鷹游戲”,看誰先眨眼

      野史日記
      2025-12-26 08:42:08
      這天,一排黑皮膚、褶子臉的大叔,秒了內娛一堆涂脂抹粉的小鮮肉

      這天,一排黑皮膚、褶子臉的大叔,秒了內娛一堆涂脂抹粉的小鮮肉

      真的八卦小學弟
      2025-12-26 16:00:06
      嫁法國老頭真相大白5個月后,41歲李宇春近況曝出,一點也不意外

      嫁法國老頭真相大白5個月后,41歲李宇春近況曝出,一點也不意外

      庸人自擾0607
      2025-12-25 20:37:35
      吉利怒告欣旺達,索賠23 億,起因為去年極氪001充電變慢事件

      吉利怒告欣旺達,索賠23 億,起因為去年極氪001充電變慢事件

      電科技網
      2025-12-26 23:37:40
      大家斷崖式衰老都是在多少歲? 網友的回答很扎心了,滿是無奈

      大家斷崖式衰老都是在多少歲? 網友的回答很扎心了,滿是無奈

      另子維愛讀史
      2025-12-26 16:31:13
      2025-12-27 07:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12000文章數 142521關注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財經要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

      態度原創

      藝術
      本地
      家居
      房產
      時尚

      藝術要聞

      閆平 2025油畫作品欣賞

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬年史書

      家居要聞

      格調時尚 智慧品質居所

      房產要聞

      炸裂,三亞360億超級清單發布,又一批重大配套要來了!

      我們為什么需要節日穿搭?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产丝袜视频一区二区三区 | 日逼逼视频| 成人综合网址| 国产精品无需播放器在线观看| 江北区| 色综合欧美在线视频区| 桓仁| 天堂8中文在线最新版在线| 人妻少妇乱子伦精品无码专区电影| 三浦在线| 天天做天天爱夜夜爽女人爽| 日本黄页网站免费观看| 人妖91| 巨大黑人极品videos精品| 国产午夜一区二区在线观看| 岳乳丰满一区二区三区| 男人下部进女人下部视频| 国产精品久久精品| 亚洲欧美日本韩国| 亚洲熟女性视频| 杭锦旗| 亚洲在线成人网| 99久久精品免费看国产电影| 国产精品无码天天爽视频| 国产av一区二区三区| 肏屄视频在线播放| 日韩在线视频观看免费网站| 色无码日韩无码精品| 久久精品波多野结衣| 丁香五香天堂网| 欧洲亚洲AV| 中文字幕人妻系列| 宅男噜噜噜66一区二区| 欧美肥婆姓交大片| 色欲色香天天天综| 国产成人无码a区在线视频无码dvd | 久久精品丝袜高跟鞋| 辽源市| 中文字幕亚洲有码| 日韩国产中文字幕精品| 自拍亚洲一区欧美另类|