當(dāng)前正是Agent發(fā)展的黃金時(shí)期,對(duì)于想要在該領(lǐng)域發(fā)論文的同學(xué)來(lái)說(shuō),掌握其高效的學(xué)習(xí)路徑、深入了解Agent的核心系統(tǒng)形態(tài)/技術(shù)融合創(chuàng)新至關(guān)重要。
本文根據(jù)以上三維視角,整理了131篇前沿論文,包含當(dāng)前頂會(huì)熱點(diǎn)“多智能體”、“大模型智能體”等,以及“入門(mén)→進(jìn)階→研究→應(yīng)用”全流程必讀經(jīng)典論文。
另外,為方便大家理解,谷歌發(fā)布的321個(gè)Agent落地案例我也連同代碼一起打包了,相信這份“大禮包”可以幫助各位快速入門(mén),順利開(kāi)始論文寫(xiě)作。
![]()
掃碼添加小享,回復(fù)“agent合集”
免費(fèi)獲取全部論文+代碼+項(xiàng)目
Agent 核心系統(tǒng)形態(tài)
這類是 Agent 入門(mén)時(shí)首先要理解的核心概念,直接決定系統(tǒng)的協(xié)作模式與應(yīng)用場(chǎng)景。
單智能體
獨(dú)立完成任務(wù)的單一智能體系統(tǒng),聚焦 “個(gè)體決策、自主執(zhí)行”,比如個(gè)人助理、單機(jī)器人控制。
ATA: Adaptive Transformation Agent for Text-Guided Subject-Position Variable Background Inpainting
方法:論文提出自適應(yīng)變換單智能體(A?A),以Hunyuan-DiT為基礎(chǔ),通過(guò)含反向排列PosAgent塊的RDT模塊預(yù)測(cè)位移、調(diào)整主體位置,加位置切換嵌入支持“自適應(yīng)/固定”模式,經(jīng)混合訓(xùn)練后,在文本引導(dǎo)的背景補(bǔ)全任務(wù)(可變/固定主體位置)中表現(xiàn)優(yōu)異。
![]()
創(chuàng)新點(diǎn):
提出“文本引導(dǎo)主體位置可變背景補(bǔ)全”新任務(wù),可自適應(yīng)調(diào)整主體位置以匹配背景。
設(shè)計(jì)含反向位移變換(RDT)模塊的A?A單智能體,借反向排列的PosAgent塊優(yōu)化主體位置、緩解變形。
為A?A加位置切換嵌入,支持“自適應(yīng)/固定”位置切換,搭配混合訓(xùn)練適配兩種補(bǔ)全場(chǎng)景。
由多個(gè)智能體組成的協(xié)同系統(tǒng),聚焦 “群體協(xié)作、沖突解決”,如自動(dòng)駕駛車隊(duì)、醫(yī)療多模態(tài)診斷團(tuán)隊(duì)。
V-Stylist: Video Stylization via Collaboration and Reflection of MLLM Agents
方法:論文提出V-Stylist多智能體系統(tǒng)做文本引導(dǎo)視頻風(fēng)格化:Video Parser拆視頻、生提示,Style Parser搜匹配風(fēng)格模型,Style Artist多輪反思調(diào)細(xì)節(jié);三智能體協(xié)同解決核心痛點(diǎn),還建TVSBench基準(zhǔn),性能超現(xiàn)有方法。
![]()
創(chuàng)新點(diǎn):
提出V-Stylist多智能體系統(tǒng),用Video Parser、Style Parser、Style Artist分別解決視頻過(guò)渡、風(fēng)格匹配、細(xì)節(jié)控制問(wèn)題。
給各智能體配特色機(jī)制:Video Parser拆視頻生提示,Style Parser樹(shù)狀搜索匹配風(fēng)格,Style Artist多輪反思調(diào)參數(shù)。
構(gòu)建TVSBench評(píng)測(cè)基準(zhǔn),含50個(gè)視頻和17種風(fēng)格,填補(bǔ)復(fù)雜視頻風(fēng)格化的評(píng)估空白。
掃碼添加小享,回復(fù)“agent合集”
免費(fèi)獲取全部論文+代碼+項(xiàng)目
Agent 技術(shù)基礎(chǔ)與融合創(chuàng)新
這類是實(shí)現(xiàn) Agent 的 “技術(shù)底座” 與 “創(chuàng)新方向”,覆蓋從 “怎么建、怎么用、怎么評(píng)” 到 “技術(shù)交叉創(chuàng)新” 的全流程,是論文選題的核心方向。
大模型智能體
以大模型為核心的 Agent 技術(shù)體系,包含 “構(gòu)建、應(yīng)用、評(píng)估” 全鏈路,是當(dāng)前主流技術(shù)基礎(chǔ)。
SWEET-RL:Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks
方法:論文為提升大模型智能體多輪協(xié)作能力,建了ColBench基準(zhǔn)(含編程、設(shè)計(jì)場(chǎng)景),提了SWEET-RL算法——讓智能體借訓(xùn)練時(shí)額外信息練優(yōu)勢(shì)函數(shù)、再優(yōu)化策略,解決傳統(tǒng)RL問(wèn)題,使Llama-3.1-8B性能升6%,比肩GPT-4o。
![]()
創(chuàng)新點(diǎn):
建ColBench基準(zhǔn),覆蓋編程、設(shè)計(jì)真實(shí)協(xié)作場(chǎng)景,用LLM模擬交互并低成本評(píng)估,補(bǔ)全現(xiàn)有基準(zhǔn)空白。
提SWEET-RL算法,讓大模型智能體借訓(xùn)練時(shí)參考信息,練回合級(jí)優(yōu)勢(shì)函數(shù),解決傳統(tǒng)價(jià)值函數(shù)泛化差問(wèn)題。
設(shè)計(jì)兩階段訓(xùn)練流程,用優(yōu)勢(shì)函數(shù)當(dāng)獎(jiǎng)勵(lì)模型、DPO優(yōu)化策略,提升大模型智能體性能,比肩GPT-4o。
將 “圖技術(shù)” 與 Agent 融合的創(chuàng)新范式,聚焦 “提升推理效率、優(yōu)化記憶管理、增強(qiáng)多體協(xié)同”。
AFLOW: AUTOMATING AGENTIC WORKFLOW GENERATION
方法:論文提 AFLOW 框架,幫大模型智能體自動(dòng)生成工作流:把工作流做成代碼化搜索空間,用蒙特卡洛樹(shù)搜索 + 預(yù)定義算子探索,大模型負(fù)責(zé)修改擴(kuò)展工作流,結(jié)合執(zhí)行反饋優(yōu)化。它在 6 個(gè)數(shù)據(jù)集上超現(xiàn)有方法 5.7%,還能讓小模型以 GPT-4o 4.55% 成本在特定任務(wù)上趕超。
![]()
創(chuàng)新點(diǎn):
把大模型智能體工作流優(yōu)化變成代碼化搜索問(wèn)題,用節(jié)點(diǎn)和邏輯邊建模,不用人工設(shè)計(jì)。
提出 AFLOW 框架,靠蒙特卡洛樹(shù)搜索+預(yù)定義算子,結(jié)合大模型擴(kuò)展、反饋優(yōu)化工作流。
讓小模型以GPT-4o 4.55%成本在特定任務(wù)趕超它,且在 6 個(gè)基準(zhǔn)數(shù)據(jù)集上平均優(yōu)于現(xiàn)有方法 5.7%,平衡性能與成本。
掃碼添加小享,回復(fù)“agent合集”
免費(fèi)獲取全部論文+代碼+項(xiàng)目
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.