<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI Agent、傳統聊天機器人有何區別?這篇30頁綜述講明白了

      0
      分享至



      論文作者包括來自上海交通大學的朱家琛、芮仁婷、單榕、鄭琮珉、西云佳、林江浩、劉衛文、俞勇、張偉楠,以及華為諾亞研究所的朱夢輝、陳渤、唐睿明。

      本文第一作者是朱家琛,上海交通大學博士生,主要研究興趣集中在大模型推理,個性化 Agent。本文通訊作者是張偉楠,上海交通大學教授,研究方向包含強化學習、數據科學、機器人控制、推薦搜索等。

      自從 Transformer 問世,NLP 領域發生了顛覆性變化。大語言模型極大提升了文本理解與生成能力,成為現代 AI 系統的基礎。而今,AI 正不斷向前,具備自主決策和復雜交互能力的新一代AI Agent也正加速崛起。

      不同于以往只會對話的 LLM 機器人,AI Agent 能夠接入互聯網、調用各類 API,還能根據真實環境反饋靈活調整策略。AI Agent 因此具備了感知環境和自主決策的能力,已經突破了傳統 “問答模式” 的限制,能夠主動執行任務、應對各種復雜場景,真正成為用戶身邊可靠的智能助手。

      在這股 AI Agent 浪潮中,每個人都可以有屬于自己的 AI Agent。而如何衡量自己的 AI Agent 是否足夠強大呢?海量的 Agent 評測方式層出不窮,你是否挑得眼花繚亂?如何在這千軍萬馬中挑選出最適合你的測評方式呢?作為 AI Agent 的開發者,你是否也在思考該從哪個角度來提升你的 “秘密武器”,在這場激烈的 AI Agent 大戰中脫穎而出?

      因此,這引出了一個順理成章的問題:

      AI Agent 到底和傳統聊天機器人有何本質區別?又該如何科學評測 AI Agent?



      • 論文標題:Evolutionary Perspectives on the Evaluation of LLM-Based AI Agents: A Comprehensive Survey
      • 論文鏈接:https://arxiv.org/pdf/2506.11102

      一、從 LLM Chatbot 到 AI Agent

      論文指出,AI Agent 的出現是 AI 發展的新階段。它們不僅僅回復人類對話,還具備了五個維度的進化:

      1.復雜環境:Agent 不再局限于單一對話場景,可以與代碼庫、網頁、操作系統、移動端、科學實驗等各類環境交互。

      2.多源指令:Agent 不只接收人工輸入,還能結合自我反思、智能體協作等多源指令。

      3.動態反饋:Agent 運行于連續多樣的反饋環境,可基于指標、獎勵等動態反饋持續優化自身能力,不再局限于被動對話糾正。

      4.多模態:Agent 擁有跨模態處理能力,能理解文本、視覺、聽覺等多種數據。

      5.高級能力:隨著外部環境復雜化,Agent 具備了復雜規劃、持久記憶、自主推理等能力,實現從被動響應到自主執行的躍遷。



      圖 1:AI Agent 與 LLM Chatbot 演化的五個維度。

      LLM Chatbot 向 AI Agent 的演進,背后主要受兩方面推動:一是外部環境的日益復雜,二是內部能力的不斷提升。復雜的外部環境促使 Agent 不斷成長,而 Agent 能力的提升又推動人們去探索更具挑戰性的應用場景。正是這種內外循環、相互促進,成為現代 AI Agent 加速進化的根本動力。因此,論文的總體框架如圖 2 所示:我們系統梳理了現有 AI Agent 評測基準,提出 “環境 - 能力” 兩方面的分類學。隨后進行趨勢討論,對 Agent 評測方法演化趨勢的討論,涉及環境角度,Agent 角度,評估者角度,指標角度,并最終提出基準選擇的方法論。



      圖 2:論文框架總覽

      二、評測框架與基準盤點

      面對 Agent 能力的指數級擴展,原有的聊天機器人評測方法已無法勝任。論文系統梳理了現有 AI Agent 評測基準,提出 “環境 - 能力” 兩方面的分類:

      1.環境維度:細分為代碼、網頁、操作系統、移動端、科學、游戲等環境。

      2.能力維度:涵蓋規劃、自我反省、交互、記憶等高級能力。

      針對每種環境與能力,論文整理了當前最具代表性的評測基準,并梳理出一套 “實用屬性表”,幫助研究者在眼花繚亂的 benchmark 中挑選符合要求的。

      以表 1 為例,我們列出了我們認為最重要的屬性:真實性,離線 / 在線,評測者,輸入模態,主要挑戰。并將所有 web 環境的基準歸到這些屬性中。



      表 1:Web 環境下的 Agent 基準以及其各類屬性

      三、AI Agent 評測方法的進化趨勢



      圖 3:AI Agent 評測未來演化的四個視角。

      論文深刻總結了 AI Agent 評測方法的未來趨勢,不再只是 “比誰答得對”,而是從四個關鍵視角全面升級:

      1. 環境視角:從單模態到多模態、從靜態到動態、從少狀態到多狀態。

      最初,Agent 評測只圍繞文本展開,如今則逐漸擴展到圖片、音頻、視頻等多種信息形式。靜態的數據集已經不能滿足需求,動態、實時更新的真實環境成為新常態。同時,評測方式也在轉變,開始關注智能體在連續任務過程中的表現和調整,而不再只看最終結果。

      2. 智能體視角:從單 Agent 到多 Agent、從單輪到多輪互動。

      新一代評測不僅關注單個 Agent 的能力,更重視多個 Agent 間的協作與博弈。與此同時,任務由簡單的一問一答,演化為多輪對話、持續推理和復雜任務鏈,考驗 Agent 的全局規劃與長期記憶。

      3. 評測者視角:從人工到 AI 自動評測、從通用到個性化。

      AI 不再只是被動接受人類評分,越來越多的 Agent 可以自動評判同行,實現規模化、自主化評測。同時,未來的評測將更加關注個性化,衡量 Agent 是否能針對不同用戶給出個性化的服務。

      4. 指標視角:從粗粒度到細粒度,從關注正確率到關注效率、安全與社會價值。

      單一的正確率已無法反映 Agent 真實能力。未來評測更強調任務效率、細粒度決策的質量、安全性和倫理性,比如防止誤操作、保障用戶利益、促進社會善意等。

      四、行動指南:

      如何選擇合適的 Agent 評測基準

      面對 AI Agent 的快速發展,論文圍繞 “如何用演化視角系統評估 AI Agent” 這一核心問題,提出了一套二階段的基準選擇方法論:

      第一階段:從當下出發。

      根據實際任務環境和 Agent 能力,先鎖定對應的環境和能力分類(圖 2),從屬性表(表 1)中精準匹配最適用的評測基準。例如,開發者 Z 開發了能預訂航班和酒店的 Agent,應優先考慮 Web 環境和交互能力,選用如 WebVoyager 和 ComplexFuncBench 等基準進行測試。

      第二階段:為未來考慮。

      結合評測進化趨勢(圖 3),開發者 Z 應持續關注環境變化、多模態挑戰和社會價值等新維度。隨著產品商業化,適時引入動態環境(如 BFCL)、安全性(如 ST WebAgentBench)和個性化(如 PeToolBench)等多樣化評測基準,確保 Agent 持續優化與進化。

      結語

      AI Agent 正在從 “會對話” 進化為 “會行動”,推動人工智能邁向更智能、更自主、更有價值的下一個時代。而如何科學評測 AI Agent,是驅動這一切的關鍵。如果讀者你也關心如何評測新穎的 AI Agent,我們的綜述值得一讀。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中日關系日益緊張之際,高市早苗向北約告狀,伊朗與日本達成一致

      中日關系日益緊張之際,高市早苗向北約告狀,伊朗與日本達成一致

      議紀史
      2025-12-07 12:20:07
      1000年前的古畫,竟然看到一個小孩在用“吸管杯”,網友:不稀奇,唐代就有!

      1000年前的古畫,竟然看到一個小孩在用“吸管杯”,網友:不稀奇,唐代就有!

      坦腹齋
      2025-12-06 18:11:00
      女子為移民美國,哄5歲兒子進柜子躲貓貓后上鎖,十年后聽到聲音

      女子為移民美國,哄5歲兒子進柜子躲貓貓后上鎖,十年后聽到聲音

      農村情感故事
      2025-12-03 06:50:30
      曾國藩只看侄子端茶的動作,便斷言此人日后必成禍患,當場送走!

      曾國藩只看侄子端茶的動作,便斷言此人日后必成禍患,當場送走!

      蕭竹輕語
      2025-12-05 17:48:53
      中超新軍痛失隊長?曝28歲日本功勛外援離隊 率隊問鼎中甲+獻19助

      中超新軍痛失隊長?曝28歲日本功勛外援離隊 率隊問鼎中甲+獻19助

      我愛英超
      2025-12-07 22:37:25
      生前一代梟雄,死后徹底封神

      生前一代梟雄,死后徹底封神

      我是歷史其實挺有趣
      2025-12-06 08:58:18
      央視女外賣員短片被罵,駱駝祥子拉黃包車,不是為了欣賞沿途風景

      央視女外賣員短片被罵,駱駝祥子拉黃包車,不是為了欣賞沿途風景

      壹月情感
      2025-12-02 16:42:19
      強敵全上榜,5國將在東京開會,日本通告聯合國,非要逼中方道歉

      強敵全上榜,5國將在東京開會,日本通告聯合國,非要逼中方道歉

      蕭佉影視解說
      2025-12-08 04:40:39
      馮唐:只要身體還能撐得住,你就能等到下一個天命

      馮唐:只要身體還能撐得住,你就能等到下一個天命

      杏花煙雨江南的碧園
      2025-12-02 15:10:03
      你在學校聽過最炸裂的事是啥?網友:懷班長兒子,他打校長干嘛

      你在學校聽過最炸裂的事是啥?網友:懷班長兒子,他打校長干嘛

      解讀熱點事件
      2025-12-06 00:05:07
      背負罵名31年,奚美娟孩子親爹身份曝光,陳道明的尬笑說明一切

      背負罵名31年,奚美娟孩子親爹身份曝光,陳道明的尬笑說明一切

      情感大頭說說
      2025-12-08 10:12:48
      湖北一副局長被查

      湖北一副局長被查

      越喬
      2025-12-08 07:10:30
      梅西奪冠后發動態慶祝!始終強調團隊!還感謝工作人員和管理層!

      梅西奪冠后發動態慶祝!始終強調團隊!還感謝工作人員和管理層!

      氧氣是個地鐵
      2025-12-07 13:40:12
      相互轉告:12月起,3萬以上存款的家庭要留意!別還不知情?

      相互轉告:12月起,3萬以上存款的家庭要留意!別還不知情?

      花小貓的美食日常
      2025-12-08 06:34:47
      越老越妖!詹姆斯末節13分,助湖人4分險勝,這一戰我看清6大球星

      越老越妖!詹姆斯末節13分,助湖人4分險勝,這一戰我看清6大球星

      毒舌NBA
      2025-12-08 11:08:32
      欠債166億,頂流顧不得體面了

      欠債166億,頂流顧不得體面了

      陳天宇
      2025-12-02 00:10:05
      防止規模性返鄉滯鄉,能采取哪些手段?

      防止規模性返鄉滯鄉,能采取哪些手段?

      基本常識
      2025-11-18 23:54:24
      黃一鳴帶女兒醫院看病,閃閃名字被曝光,網友:王思聰會很遺憾!

      黃一鳴帶女兒醫院看病,閃閃名字被曝光,網友:王思聰會很遺憾!

      娛樂團長
      2025-12-08 11:11:05
      庫里有望本周六復出戰森林狼!勇士官方更新傷情:周四可參加訓練

      庫里有望本周六復出戰森林狼!勇士官方更新傷情:周四可參加訓練

      羅說NBA
      2025-12-08 06:50:50
      秦嵐健身照刷屏45歲肌肉線條讓網友喊“反重力”她卻說這不靠醫美

      秦嵐健身照刷屏45歲肌肉線條讓網友喊“反重力”她卻說這不靠醫美

      農村娛樂光哥
      2025-12-07 11:59:29
      2025-12-08 12:32:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11862文章數 142510關注度
      往期回顧 全部

      科技要聞

      萬億蘋果,正在經歷一場嚴重的“大失血”

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      體育要聞

      厲害的后衛何其多 想想還少了哪一個

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      時尚
      房產
      游戲
      家居
      藝術

      除了大衣,今年最火的外套一定就是它了!

      房產要聞

      碧桂園,開始甩賣海口家底!

      超真實的沉浸式中世紀鍛造模擬器

      家居要聞

      有限無界 打破慣有思維

      藝術要聞

      從3萬人的“小香港”到十室九空!江西深山被廢棄的煤礦小鎮

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: va精品在线| 99精品在线| 精品久久久久中文字幕日本| 南乐县| 欧美福利导航| 亚洲午夜伦费影视在线观看| 少妇人妻邻居| 亚洲色欲色欲www| 亚洲a∨国产av综合av下载| 高潮添下面视频免费看| 国产精品 视频一区 二区三区| 欧美老肥妇做爰bbww| 国内av网站| 久久精品丝袜高跟鞋| 国产91视频| 国产高清av首播原创麻豆| 国产精品一区二区无线| 人妻无码TⅤ| 大化| 狠狠干狠狠操狠狠撸| 久久久久国产精品人妻| 色欲色香天天天综合网站免费| 狠狠88综合久久久久综合网| 久久av高潮av无码av喷吹| 99久久精品美女高潮喷水| 中文字幕无码免费久久99| 国产人妻人伦精品一区二区| 中文性爱片| 九九天堂| 国模一区二区| 精品香蕉在线视频| 毛多水多高潮高清视频| 色噜噜一区二区三区| 国产成人无码一区二区在线播放| 亚洲精品乱码久久久久久蜜桃 | 综合亚洲网| 色欲av永久无码精品无码蜜桃| 国产一区二区三区小说| 少妇午夜啪爽嗷嗷叫视频 | 久久99精品国产| 自拍偷拍网|