<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      紅杉xbench 最新報告:104 項日常任務(wù),Agent 可處理 60+%

      0
      分享至

      現(xiàn)在 Agent 產(chǎn)品很多,Claude Code、ChatGPT Agent、Manus、Genspark...還有各種各樣的

      對于大家的干活靠譜程度,紅杉中國的 xbench 團隊,整了新評測,叫 AgentIF-OneDay
      (倆周,發(fā)了倆評測集了,另一個是 ,然后xiaobo 跟我說,他上個月全在整這個)

      大概就是:一堆真實的日常任務(wù),帶著 Excel、PPT、PDF 這些附件,能不能幫我搞定

      結(jié)論:頭部 Agent 大約 62-65%


      https://xbench.org/agi/agentif

      先說在前面:這個榜單目前啥也不代表,看 insight 就行

      能同時跑通所有附件格式的 Agent 其實很少,xbench 測了一圈,只有四家能完整跑完

      Claude Code 因為各種原因沒測出來,Cowork 測的時候還沒發(fā)布,其他很多 Agent 要么不支持 PPT,要么不支持 Excel,反正就是跑不通

      所以這次的價值不在排名,在方向

      順便一提,雖然大家都是混合模型,但 Manus 和 Minimax-Agent 的基礎(chǔ)模型更偏 Claude,Genspark 和 ChatGPT-Agent 更偏 GPT

      為什么要做這個評測

      xbench 之前發(fā)過 ScienceQA 和 DeepSearch,都是分鐘級的集中推理任務(wù),模型表現(xiàn)已經(jīng)從 human-average 逐漸到了 PhD-level

      但他們發(fā)現(xiàn)一個問題:一旦任務(wù)突破一般人一小時可處理的復(fù)雜度,Agent 的整體完成度就會出現(xiàn)明顯下降

      短程任務(wù)表現(xiàn)驚艷,長程任務(wù)顯乏力


      所以 xbench 提了一個新視角來理解 Agent 能力邊界:任務(wù)復(fù)雜度

      這里的復(fù)雜度,指的是完成一個任務(wù)所需的人類時間投入

      Agent 能力的演進會沿著兩條線展開:

      Scaling Context
      任務(wù)在時間維度上延展,從分鐘級到一天級、甚至一周級。Agent 需要在更長的執(zhí)行周期中維護上下文狀態(tài),跟蹤中間目標(biāo),保持一致性

      Scaling Domain
      任務(wù)類型上的擴展。現(xiàn)實世界的工作往往橫跨多個領(lǐng)域,不同任務(wù)在目標(biāo)表述、隱含約束、工具使用上差異很大

      AgentIF-OneDay 就是沿著這兩個方向推進的第一步:以人類一天內(nèi)可完成的任務(wù)復(fù)雜度作為基準(zhǔn)

      這個評測在測什么

      AgentIF-OneDay 的核心是指令遵循,它要求 Agent 處理真實的附件:Excel、PPT、PDF、圖片,然后輸出可交付的文件,任務(wù)分三類:

      場景一:你知道該怎么做,但執(zhí)行太繁瑣

      用戶已知完整流程并明確給出操作步驟,Agent 只需精確執(zhí)行。這類任務(wù)叫工作流執(zhí)行(Workflow Execution)

      例題 我計劃去 NeurIPS 2025,幫我規(guī)劃一個好的行程方案。請你先去官網(wǎng)確認 NeurIPS 2025 會議的主會場位置(San Diego Convention Center, San Diego)是否準(zhǔn)確,然后用另一個可靠來源交叉驗證這個信息,確保萬無一失 接下來,幫我收集基本信息,比如會議時間、地點和論文提交截止日期 還要確認完整的會議日程是否已經(jīng)發(fā)布,如果還沒發(fā)布,請明確告訴我 最后,從紐約出發(fā)給我兩套去圣地亞哥的行程方案:一個最便宜的 Cheap Plan,一個最快的 Fast Plan

      當(dāng) Agent 能夠在整個流程中保持一致性、逐步完成步驟、并在長上下文中保持狀態(tài),就具備幫你把事情做完的潛力

      這也是大量用戶希望 Agent 能真正替代重復(fù)性勞動的原因

      場景二:你不知道規(guī)則,只能給個參考

      用戶不明確知道完整的工作流或者條件約束,只提供若干案例或參考資料。這類任務(wù)叫隱式指令推理(Latent Instruction Inference)

      例題 我現(xiàn)在用的是 iPhone 13 Pro Max,AT&T 套餐每月 20 美元預(yù)付費。我想換 iPhone 17 Pro Max 基于附件里的購機方案和運營商優(yōu)惠,幫我找出總成本最低的方式

      這是人類最自然的工作方式,人們不會每次都從零寫起

      Agent 需要從提供的示例文件中挖掘出潛在的意圖,同時滿足用戶的顯式指令與附件的隱式指令

      如果具備這種能力,Agent 就能真正參與內(nèi)容生產(chǎn)、報告生成、數(shù)據(jù)整理等職業(yè)型任務(wù)

      場景三:需求本身是動態(tài)的,要邊做邊看

      人類的工作普遍呈現(xiàn)多輪迭代結(jié)構(gòu),在工作的開始并不知道完整解法、也沒有參考示例,需要在與 Agent 多輪交互中逐漸提出新需求。這類任務(wù)叫迭代式編輯(Iterative Refinement)

      例題 拿著這個 SVG 平面圖(venue_layout.svg)和 Excel 約束表(venue_constraints.xlsx),更新會場布局以滿足所有約束條件,同時保持設(shè)計的可讀性和可行走性

      Agent 必須具備在不斷變化的約束下維持上下文一致性并穩(wěn)定推進任務(wù)的能力

      評測細節(jié)

      總共 104 道任務(wù),覆蓋工作、生活(游戲攻略、旅游規(guī)劃)和學(xué)習(xí),其中 62 道由文件驅(qū)動的合成任務(wù)用于補充長尾場景

      覆蓋 PDF、PPT、Excel、圖像、代碼文件在內(nèi)的 15 種以上格式,模擬真實工作流程中跨格式、跨來源的模式

      每道任務(wù)都帶有一套細粒度的評判標(biāo)準(zhǔn),總計 767 個評分點,分為正向指標(biāo)(格式一致性、結(jié)構(gòu)復(fù)現(xiàn)、步驟完整)與負向指標(biāo)(誤刪內(nèi)容、越界生成、錯誤操作)

      評測系統(tǒng)采用 LLM 作為裁判,值得一提的是 Gemini 3-pro 的出現(xiàn)讓 rubrics 打分的準(zhǔn)確性提升到可用的程度

      Agent 的得分不僅取決于最終是否完成任務(wù),還包括流程是否干凈、是否出現(xiàn)誤操作、是否正確解析附件、是否能在迭代過程中保持一致性

      幾個有意思的發(fā)現(xiàn)

      發(fā)現(xiàn)一:不同框架,拉不開差距

      Manus、Genspark 與 ChatGPT-Agent 都集中在 0.62-0.65 區(qū)間,構(gòu)成當(dāng)下能力最強的第一梯隊

      不管是模型原生訓(xùn)練出來的 Agent,還是基于 API 的工具鏈集成,在完成一套真實任務(wù)鏈時,用戶側(cè)感受到的能力是比較接近的

      這印證了一個判斷:基礎(chǔ) Agent 能力已經(jīng)商品化了


      底層模型能力不變的情況下,不同多智能體框架本身難以拉開數(shù)量級上的性能差異。基座模型會逐步集成 agentic 能力,下游基于 API 的 Agent 產(chǎn)品,在能力表現(xiàn)上也會體現(xiàn)出 Agent RL 的能力

      發(fā)現(xiàn)二:分場景各有所長

      工作場景:ChatGPT-Agent 72.18,Genspark 71.86,Manus 70.27

      生活場景:Manus 73.40,ChatGPT-Agent 69.67,Genspark 67.85

      學(xué)習(xí)場景:Genspark 71.19,Manus 64.41,ChatGPT-Agent 59.29

      三個產(chǎn)品迭代方向不同。ChatGPT-Agent 重點關(guān)注 GDPval,聚焦專業(yè)工作場景的體驗;Manus 與 Genspark 更側(cè)重用戶反饋

      xbench 的觀點是:優(yōu)秀的通用 Agent 應(yīng)當(dāng)兼顧最多樣的任務(wù),而不側(cè)重一方

      發(fā)現(xiàn)三:分能力維度看

      Genspark 在隱式指令推斷上表現(xiàn)最優(yōu),Manus 在開放工作流執(zhí)行最優(yōu),Minimax-Agent 具有最好的迭代式編輯能力

      隱式條件推斷是目前 Agent 普遍最薄弱的能力項

      比如讓 Agent 從 PPT 模板中抽取頁眉頁腳結(jié)構(gòu)或引用標(biāo)注方式,再遷移到新內(nèi)容生成中


      即便是整體表現(xiàn)最好的系統(tǒng),在這類任務(wù)中也很難做到完全正確。要么格式復(fù)現(xiàn)正確但覆蓋不足,要么內(nèi)容理解到位但無法保持結(jié)構(gòu)一致

      綜合來看,穩(wěn)定性、文件處理鏈路、隱式結(jié)構(gòu)理解能力,乃至跨工具的狀態(tài)管理,都是決定 Agent 能否真正承擔(dān)一天工作量的關(guān)鍵環(huán)節(jié)

      展望:從 OneDay 到 OneWeek

      xbench 已經(jīng)開始著手構(gòu)建 OneWeek 評測集

      他們的判斷是:當(dāng)一個 Agent 能夠在一周尺度的工作量上保持穩(wěn)定高質(zhì)量的產(chǎn)出,它就具備了承擔(dān)真實崗位的能力

      這個過程有點像自動駕駛,從有限路段走向通用路段,從頻繁人工干預(yù)走向長時無干預(yù)


      有效的數(shù)據(jù)積累可以帶來高可靠 Agent 系統(tǒng)的出現(xiàn),優(yōu)先轉(zhuǎn)起數(shù)據(jù)飛輪的公司將率先實現(xiàn)通用 Agent 的 FSD 時刻

      xbench 的節(jié)奏

      xbench 是紅杉中國 2025 年 5 月發(fā)的 AI 評測基準(zhǔn),設(shè)計思路是 Evergreen Evaluation,持續(xù)維護、動態(tài)更新

      這兩周,他們連發(fā)兩篇:上周是 ,測多模態(tài)的純視覺能力,這周 AgentIF-OneDay 測 Agent 的日常任務(wù)能力

      BabyVision 的結(jié)論是模型的視覺能力普遍低于 3 歲兒童

      AgentIF-OneDay 的結(jié)論是最強 Agent 在日常任務(wù)上大約 65%

      所以嘛,模型的「看」和「做」,都還有很大空間

      開源地址

      Paper Link
      https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf

      Website
      https://xbench.org/

      GitHub
      https://github.com/xbench-ai/AgentIF-OneDay

      HuggingFace
      https://huggingface.co/datasets/xbench/AgentIF-OneDay

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      油價大降1.73元/升,汽油降至6.7元后全漲起來,下次調(diào)價變漲中

      油價大降1.73元/升,汽油降至6.7元后全漲起來,下次調(diào)價變漲中

      豬友巴巴
      2026-04-02 16:35:03
      “項王故里”景區(qū)招募項羽扮演者 要求身高185cm以上 日薪按身高10倍計算

      “項王故里”景區(qū)招募項羽扮演者 要求身高185cm以上 日薪按身高10倍計算

      閃電新聞
      2026-04-02 11:12:54
      上市公司突發(fā),董事長失聯(lián)

      上市公司突發(fā),董事長失聯(lián)

      第一財經(jīng)資訊
      2026-04-03 14:29:12
      浙江東陽,33 歲的男子,在母親長眠的公墓旁,在車里結(jié)束了生命

      浙江東陽,33 歲的男子,在母親長眠的公墓旁,在車里結(jié)束了生命

      魔都姐姐雜談
      2026-03-30 19:25:57
      浪姐7大翻車!主持人開黃腔,杜海濤媽媽搶話,黃燦燦揭謝娜老底

      浪姐7大翻車!主持人開黃腔,杜海濤媽媽搶話,黃燦燦揭謝娜老底

      阿傖說事
      2026-04-03 11:55:00
      4月醫(yī)保新政:家有高血壓、糖尿病、心臟病的,趕緊辦

      4月醫(yī)保新政:家有高血壓、糖尿病、心臟病的,趕緊辦

      小談食刻美食
      2026-04-03 10:10:23
      他判刑13年至死未平反,10萬人送行墓前立百碑,百姓說不能忘了他

      他判刑13年至死未平反,10萬人送行墓前立百碑,百姓說不能忘了他

      小嵩
      2026-04-03 14:01:17
      繼續(xù)跌跌跌!2026年3月29日 - 飛天茅臺和生肖酒每日行情價格

      繼續(xù)跌跌跌!2026年3月29日 - 飛天茅臺和生肖酒每日行情價格

      阿天愛旅行
      2026-03-31 14:31:55
      亞洲最貴11人陣容:“亞洲一哥”仍舊領(lǐng)銜,曼城中衛(wèi)價格最高

      亞洲最貴11人陣容:“亞洲一哥”仍舊領(lǐng)銜,曼城中衛(wèi)價格最高

      里芃芃體育
      2026-04-03 11:30:13
      朝鮮男人煙不離手,金正恩抽什么牌子的香煙?一包煙的價格是多少

      朝鮮男人煙不離手,金正恩抽什么牌子的香煙?一包煙的價格是多少

      大千世界觀
      2025-04-06 08:14:26
      被免去廳長職務(wù)半年后,夏智倫主動投案

      被免去廳長職務(wù)半年后,夏智倫主動投案

      新浪財經(jīng)
      2026-04-03 15:21:39
      馬斯克:西方不搞電車,集體擁抱氫能,中國電動車錯了嗎?

      馬斯克:西方不搞電車,集體擁抱氫能,中國電動車錯了嗎?

      杰絲聊古今
      2026-04-03 05:33:28
      澳門世界杯:8強誕生!德日潰不成軍,小莫開啟暴走 王楚欽遇鬼才

      澳門世界杯:8強誕生!德日潰不成軍,小莫開啟暴走 王楚欽遇鬼才

      桃葉渡春
      2026-04-03 10:34:53
      英媒:中國在美伊沖突問題上遵循“不打斷敵人犯錯”原則

      英媒:中國在美伊沖突問題上遵循“不打斷敵人犯錯”原則

      俄羅斯衛(wèi)星通訊社
      2026-04-03 15:14:10
      場均23+5,湖人打算給2.4億合同!佩林卡別犯渾,他不是爭冠拼圖

      場均23+5,湖人打算給2.4億合同!佩林卡別犯渾,他不是爭冠拼圖

      你的籃球頻道
      2026-04-03 13:41:26
      日本九州大學(xué)的中國交換生辦完合約手機,沒有按契約進行還款,拿著手機回中國了……

      日本九州大學(xué)的中國交換生辦完合約手機,沒有按契約進行還款,拿著手機回中國了……

      日本物語
      2026-04-02 20:39:33
      坦白備好壽衣和遺照3個月后,張柏芝近況曝光,謝霆鋒媽媽沒說謊

      坦白備好壽衣和遺照3個月后,張柏芝近況曝光,謝霆鋒媽媽沒說謊

      潮鹿逐夢
      2026-04-01 11:14:27
      火箭一口氣獲4大喜訊!提前鎖前6直通季后賽 杜蘭特獲月最佳提名

      火箭一口氣獲4大喜訊!提前鎖前6直通季后賽 杜蘭特獲月最佳提名

      鍋子籃球
      2026-04-03 12:08:01
      美國宣布:4月2日重返月球!尷尬的是:美國目前沒有載人登月能力

      美國宣布:4月2日重返月球!尷尬的是:美國目前沒有載人登月能力

      粵語音樂噴泉
      2026-04-01 13:11:23
      4月2日俄烏:特朗普又放“狠話”,俄軍損失突破130萬

      4月2日俄烏:特朗普又放“狠話”,俄軍損失突破130萬

      山河路口
      2026-04-02 17:16:01
      2026-04-03 16:03:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      357文章數(shù) 50關(guān)注度
      往期回顧 全部

      科技要聞

      5萬輛庫存車,給了特斯拉一記重拳

      頭條要聞

      小米宣布部分手機調(diào)價 盧偉冰、魏思琪:望大家理解

      頭條要聞

      小米宣布部分手機調(diào)價 盧偉冰、魏思琪:望大家理解

      體育要聞

      沖擊世界杯失敗,80歲老帥一氣之下病倒了

      娛樂要聞

      《浪姐7》最新人氣TOP 曾沛慈斷層第一

      財經(jīng)要聞

      專家稱長期攝入“飄香劑”存在健康隱患

      汽車要聞

      你介意和遠房親戚長得很像嗎?

      態(tài)度原創(chuàng)

      時尚
      教育
      房產(chǎn)
      家居
      公開課

      怎么她們都穿成18世紀(jì)的粉彩畫?

      教育要聞

      教育部:義務(wù)教育學(xué)校嚴禁設(shè)立重點班、實驗班、快慢班

      房產(chǎn)要聞

      理科生的浪漫,都藏在細節(jié)里!中交·藍色港灣這場交付太硬核!

      家居要聞

      溫馨多元 愛的具象化

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版