<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Agent RL與智能體進化關鍵一步:TaskCraft實現復雜任務自動生成

      0
      分享至



      近年來,基于智能體的強化學習(Agent + RL)與智能體優化(Agent Optimization)在學術界引發了廣泛關注。然而,實現具備工具調用能力的端到端智能體訓練,首要瓶頸在于高質量任務數據的極度稀缺。當前如GAIA 與 BrowserComp 等主流數據集在構建過程中高度依賴人工標注,因而在規模與任務復雜性方面均存在明顯限制——BrowserComp 僅涵蓋約 1300 個搜索任務,GAIA 則僅提供約 500 條多工具協同任務樣本。與基礎大模型訓練中動輒萬級以上的指令數據相比,差距十分顯著。

      盡管在基礎模型階段,像self-instruct 這樣的自監督方法已經借助大語言模型(LLM)成功構建了大規模的指令型數據,有效提升了模型的通用性和泛化能力,但在智能體(Agent)場景下,這類靜態指令數據卻難以滿足實際需求。原因在于,復雜的智能體任務通常需要模型與環境進行持續的動態交互,同時涉及多工具的協同操作和多步驟推理。而傳統的指令數據缺乏這種交互性和操作性,導致其在智能體訓練中遷移性差、適用性有限。

      為應對上述挑戰,OPPO 研究院的研究者提出了 TaskCraft,一個面向智能體任務的自動化生成框架,旨在高效構建具備可擴展難度、多工具協同與可驗證執行路徑的智能體任務實例。TaskCraft 通過統一的流程化建構機制,擺脫了對人工標注的依賴,能夠系統性地產生覆蓋多種工具(如URL、PDF、HTML、Image 等)的復雜任務場景,并支持任務目標的自動驗證,確保數據質量與執行閉環。 基于該框架,研究團隊構建并開源了一個包含約 41,000 條智能體任務的合成數據集,顯著擴展了現有Agent 數據資源的規模與多樣性,為后續通用智能體的訓練與評估提供了有力支撐。



      • 論文標題:
      • TaskCraft: Automated Generation of Agentic Tasks
      • 論文地址:
      • https://arxiv.org/abs/2506.10055
      • Github:
      • https://github.com/OPPO-PersonalAI/TaskCraft
      • 數據集:
      • https://huggingface.co/datasets/PersonalAILab/TaskCraft

      數據生成

      生成過程主要分為兩大部分:第一部分生成簡單且可驗證的原子任務;第二部分通過深度拓展和寬度拓展,不斷構建新的原子任務,使復雜性逐步提升。

      原子任務的生成



      原子結構生成示意圖

      可以簡單理解為,從原始數據中提取核心問題,然后確保問題必須通過特定工具來解決。整個流程包含以下四個關鍵步驟:

      1.收集信息:系統從多種來源(網頁、PDF、圖片等)提取信息。例如,企業財報、一張統計圖或一篇新聞文章。

      2.識別關鍵內容:利用LLM從這些文檔中提取候選結論,比如:2025 年蘋果公司總收入為383.3 億美元

      3.生成問題:LLM需要將這些候選結論轉換為工具回答的問題。例如:“在財務報告《Apple 2025 年度報告》中,2025 年的總收入是多少?”(答案:383.3 億美元)

      4.驗證任務:每個原子任務被保留必須滿足以下兩個條件:

      • 必須依賴工具才能解答(LLM無法直接推導答案)。
      • 必須經過Agent驗證,確保能夠順利執行任務。

      任務拓展

      任務拓展旨在將一個簡單任務逐步演化為更具層次和挑戰性的復雜任務,使Agent 必須通過多個步驟才能完成任務。拓展方式主要包括深度拓展寬度拓展



      深度拓展示意圖

      其中,深度拓展的目標是為了構建可被拆解為一系列相互依賴的任務。每一步都依賴前一步的結果,從而構建出一條多步推理鏈。其主要包括以下四步:

      1.確認主任務與拓展標識符:拓展標識符一般是具有強特殊性的文本,往往作為獲取工具上下文的輸入關鍵字。例如對于任務:“電影《星際穿越》的導演是誰?”(答案:克里斯托弗·諾蘭),其中的拓展標識符是:《星際穿越》。

      2.執行Agent搜索,構造新的輔助原子任務:SearchAgent以拓展標識符為線索執行搜索,并從搜索結果中構造一個新的原子任務,其答案即為該拓展標識符。例如:“哪部美國著名科幻電影是在2014 年 11 月 7 日上映的?”(答案:《星際穿越》)

      3.合并輔助原子任務,更新主任務:將輔助原子任務與原主任務進行融合,構建一個邏輯連貫的復合任務。例如:“2014 年 11 月 7 日上映的美國著名科幻電影,它的導演是誰?“(答案:克里斯托弗·諾蘭)

      4.驗證任務合理性:為了規避對合并問題的整體驗證,研究者采用了多種規則對合并后的主任務進行語義驗證,包括:超集驗證、關系驗證、信息泄露驗證、替換合理性驗證等。

      這些任務應來自同一信息源(如同一篇網頁或PDF),且答案之間不存在因果依賴。使用LLM 將多個任務的語義合并成一個自然、流暢且具備完整性的新任務

      而寬度拓展則是通過選擇兩個(或多個)結構兼容的原子任務,



      寬度拓展示意圖

      通過PromptLearning 提升任務生成效率

      在TaskCraft 的任務構建流程中,Prompt 的設計起到了至關重要的作用。研究團隊采用了自舉式 few-shot 提示優化機制,基于生成的任務數據對提示進行了迭代優化,從而實現了提示模板的自我進化。如表1,實驗結果顯示,原子任務的生成通過率從初始的54.9% 提高至 68.1%,同時平均生成時間減少了近 20%。在深度拓展任務中,6 輪任務擴展的成功率由 41% 提升至 51.2%,進一步驗證了生成數據在提升任務構建質量與效率方面的顯著效果。



      表1PromptLearning實驗結果

      對智能體基礎模型進行SFT訓練

      其次,研究團隊進一步評估了TaskCraft 所生成任務數據在提升大模型能力方面的實際效果。以 Qwen2.5-3B 系列為基礎,研究者基于三個典型的多跳問答數據集(HotpotQA、Musique 和 Bamboogle)的訓練集,生成了約32k條多跳任務以及軌跡,并利用這些生成數據對模型進行監督微調(SFT)。如表2,實驗結果表明,經過微調后,Base 模型的平均性能提升了 14%,Instruct 模型提升了 6%,說明 TaskCraft 生成的數據在增強大模型的推理能力與工具調用表現方面具有顯著成效。此外,當這些微調模型與強化學習方法 Search-R1 相結合時,模型性能進一步提升,進一步證明 TaskCraft 所生成的任務數據不僅能用于監督學習,也可作為強化學習的優質訓練起點。



      表2監督微調效果

      此外,你可能會好奇:引入搜索Agent 是否真的有必要?為此,研究團隊設計了一項對比實驗,比較了兩種任務構建方式的效果:一是直接使用 GPT-4.1 基于某個結論生成任務,另一種則是借助基于 GPT-4.1 的 Search Agent 自動生成任務。結果如表 3 所示,TaskCraft 構建范式在多項指標上表現更優。



      表3任務構建范式的有效性分析

      相比之下,TaskCraft 生成的任務具有顯著更高的通過率,驗證時間更短,且工具使用次數更符合“原子任務”的定義(理論最優為:一次輸入索引 + 一次目標工具調用)。此外,任務的工具調用次數也更穩定,方差更小,反映出 TaskCraft 在保持原子任務難度的一致性方面具備更強的優勢。



      原子數據域分布

      基于TaskCraft,研究者構建了一個包含約41,000 個 agentic 任務的大規模數據集,為 AI 智能體的系統化調優與評估提供了堅實的基礎。該數據集覆蓋多個工具使用場景,包括網頁搜索、PDF 閱讀、圖像理解等,任務結構層次豐富,難度可控,支持原子級任務和多跳復雜任務。由于所有任務都附帶了真實的執行軌跡,不僅可以進行監督式微調(SFT),還能為強化學習(RL)提供高質量的訓練數據起點。這使得該數據集可廣泛應用于智能體基礎模型的能力增強、Agent 推理策略的評估,以及多工具調用環境下的泛化能力測試。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      網友俄中餐館用餐遭到歧視,對方還表示中國游客來得越少越好

      網友俄中餐館用餐遭到歧視,對方還表示中國游客來得越少越好

      映射生活的身影
      2025-12-08 13:28:54
      九號旗下好多電動摩托車開始大幅降價了,最高降幅1200元

      九號旗下好多電動摩托車開始大幅降價了,最高降幅1200元

      電動車的那些事兒
      2025-12-08 11:30:26
      北京首鋼隊1勝3負,許利民談奧莫特問題;同曦隊主教練下課

      北京首鋼隊1勝3負,許利民談奧莫特問題;同曦隊主教練下課

      孤影來客
      2025-12-09 00:03:09
      這次,網絡造神的殘酷真相,在荒野求生的林北身上展現得淋漓盡致

      這次,網絡造神的殘酷真相,在荒野求生的林北身上展現得淋漓盡致

      以茶帶書
      2025-12-08 23:56:11
      國乒抵達香港,王藝迪杜凱琹一起玩,孫穎莎和伊藤、大藤合影了

      國乒抵達香港,王藝迪杜凱琹一起玩,孫穎莎和伊藤、大藤合影了

      李帕在北漂
      2025-12-08 23:33:00
      創神跡!15連勝+12.5%狀元簽,24場狂勝388分歷史第一,感謝快船

      創神跡!15連勝+12.5%狀元簽,24場狂勝388分歷史第一,感謝快船

      球童無忌
      2025-12-08 19:24:38
      突發! 日本經濟 出現新狀況

      突發! 日本經濟 出現新狀況

      每日經濟新聞
      2025-12-08 20:37:44
      千萬不要小看你遇到的每一個顧客!網友:不到1個小時店就被封了

      千萬不要小看你遇到的每一個顧客!網友:不到1個小時店就被封了

      夜深愛雜談
      2025-12-06 21:39:08
      疑似7名中國籍船員被困黑海遇襲油輪,彈盡糧絕船員發視頻求救

      疑似7名中國籍船員被困黑海遇襲油輪,彈盡糧絕船員發視頻求救

      信風氣象
      2025-12-07 18:44:21
      1小時,狂掃1100億!利好徹底引爆!

      1小時,狂掃1100億!利好徹底引爆!

      證券時報
      2025-12-08 16:10:06
      蔣介石槍斃韓復榘前,問馮玉祥意見,馮玉祥:我要有權早把他斃了

      蔣介石槍斃韓復榘前,問馮玉祥意見,馮玉祥:我要有權早把他斃了

      史之銘
      2025-12-08 14:13:22
      果然不出中國所料:中日戰機空中對峙后,美國防長送日本一句狠話

      果然不出中國所料:中日戰機空中對峙后,美國防長送日本一句狠話

      千里持劍
      2025-12-08 11:55:55
      推進深珠通道!今天,廣東重磅發布!

      推進深珠通道!今天,廣東重磅發布!

      珠海發布
      2025-12-08 12:29:55
      1864年6月,天王洪秀全不幸病亡,死前,他拒絕了忠王李秀成“讓城別走”的建議

      1864年6月,天王洪秀全不幸病亡,死前,他拒絕了忠王李秀成“讓城別走”的建議

      歷史按察使司
      2025-11-24 15:55:11
      今天,A股漲到3936,不出所料,明天,12月9號,很有可能這樣走

      今天,A股漲到3936,不出所料,明天,12月9號,很有可能這樣走

      振華觀史
      2025-12-08 14:52:53
      上海飲水機>北京頂薪?600萬先生呼哧帶喘9中2,一戰打沒輪換位置

      上海飲水機>北京頂薪?600萬先生呼哧帶喘9中2,一戰打沒輪換位置

      弄月公子
      2025-12-08 22:07:02
      沈海高速不用堵車了!廣東這條投資844億通往粵西的高速完成招標

      沈海高速不用堵車了!廣東這條投資844億通往粵西的高速完成招標

      天天話事
      2025-12-08 09:11:50
      一夜之間,中國傳來2個爆炸性突破,美國從88%降到9%,中國猛追

      一夜之間,中國傳來2個爆炸性突破,美國從88%降到9%,中國猛追

      我不叫阿哏
      2025-11-20 06:00:59
      一夜負債200億?電動車巨頭轟然倒塌:終于活成賈躍亭信徒!

      一夜負債200億?電動車巨頭轟然倒塌:終于活成賈躍亭信徒!

      牛牛叨史
      2025-11-22 01:31:09
      越南最大軍艦訪問中國,一次原本友好的訪問卻出圈,被全方位碾壓

      越南最大軍艦訪問中國,一次原本友好的訪問卻出圈,被全方位碾壓

      李博世財經
      2025-12-08 14:02:17
      2025-12-09 01:35:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11873文章數 142510關注度
      往期回顧 全部

      科技要聞

      國產機械硬盤尚未攻克,華為高管呼吁

      頭條要聞

      江蘇男子貴州投資養羊損失近百萬 543只羊被"躲貓貓"

      頭條要聞

      江蘇男子貴州投資養羊損失近百萬 543只羊被"躲貓貓"

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動和卡梅隆熱聊

      財經要聞

      百億金融爆雷 浙商大佬"朋友圈"也不靈了

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      數碼
      教育
      時尚
      健康
      游戲

      數碼要聞

      聯想卷軸屏筆記本Legion Pro曝光:可水平展開,秒變21:9寬屏

      教育要聞

      高中地理三年常考【世界地理】名詞解釋,高中生速看

      50+女人別踩坑!遠離緊身褲和老年裝,這樣穿優雅又顯瘦

      甲狀腺結節到這個程度,該穿刺了!

      KeSPA杯:HLE和T1保持不敗,宙斯和小呂布有望碰撞Faker

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文字幕一区二区三区在线不卡| 欧美人人妻人人澡人人尤物| 91精品91久久久久久| 国产无码8页| 郓城县| 无码人妻精品一区二区在线视频 | 最近2019中文字幕大全第二页| 91在线免费视频| 亚洲精品乱码| 狠狠干天天撸| 人人澡人人妻人人爽人人蜜桃| 亚洲中文无码永久免| 年轻女教师hd中字3| 欧美乱色| 国产精品人人妻人人爽| 青青草原亚洲| 少妇被多人c夜夜爽爽av| X66AV| 国产乱子伦视频在线播放| 精品一区二区三区无码免费直播| 国产极品美女高潮无套| 色色狠狠| 久章草在线精品视频免费观看| 一区二区三区内射美女毛片| 豆国产97在线 | 亚洲| 鄂温| 欧洲精品码一区二区三区| 91婷婷| 每日av| 亚州成人无码| 无码人妻精品一区二| 精品无码人妻| 国产av一区二区三区| 99精品国产一区二区三区2021| 无码国产69精品久久久孕妇| 北条麻妃无码| 无码2区| 久久久国产精品消防器材| 免费无遮挡毛片中文字幕| 永靖县| 成年女人免费v片|