網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

紅杉xbench 最新報告：104 項日常任務(wù)，Agent 可處理 60+%

2026-01-21 08:33:51　來源: 賽博禪心

北京舉報

分享至

現(xiàn)在 Agent 產(chǎn)品很多，Claude Code、ChatGPT Agent、Manus、Genspark...還有各種各樣的

對于大家的干活靠譜程度，紅杉中國的 xbench 團隊，又整了新評測，叫 AgentIF-OneDay
（倆周，發(fā)了倆評測集了，另一個是，然后xiaobo 跟我說，他上個月全在整這個）

大概就是：一堆真實的日常任務(wù)，帶著 Excel、PPT、PDF 這些附件，能不能幫我搞定

結(jié)論：頭部 Agent 大約 62-65%

https://xbench.org/agi/agentif

先說在前面：這個榜單目前啥也不代表，看 insight 就行

能同時跑通所有附件格式的 Agent 其實很少，xbench 測了一圈，只有四家能完整跑完

Claude Code 因為各種原因沒測出來，Cowork 測的時候還沒發(fā)布，其他很多 Agent 要么不支持 PPT，要么不支持 Excel，反正就是跑不通

所以這次的價值不在排名，在方向

順便一提，雖然大家都是混合模型，但 Manus 和 Minimax-Agent 的基礎(chǔ)模型更偏 Claude，Genspark 和 ChatGPT-Agent 更偏 GPT

為什么要做這個評測

xbench 之前發(fā)過 ScienceQA 和 DeepSearch，都是分鐘級的集中推理任務(wù)，模型表現(xiàn)已經(jīng)從 human-average 逐漸到了 PhD-level

但他們發(fā)現(xiàn)一個問題：一旦任務(wù)突破一般人一小時可處理的復(fù)雜度，Agent 的整體完成度就會出現(xiàn)明顯下降

短程任務(wù)表現(xiàn)驚艷，長程任務(wù)顯乏力

所以 xbench 提了一個新視角來理解 Agent 能力邊界：任務(wù)復(fù)雜度

這里的復(fù)雜度，指的是完成一個任務(wù)所需的人類時間投入

Agent 能力的演進會沿著兩條線展開：

Scaling Context
任務(wù)在時間維度上延展，從分鐘級到一天級、甚至一周級。Agent 需要在更長的執(zhí)行周期中維護上下文狀態(tài)，跟蹤中間目標(biāo)，保持一致性

Scaling Domain
任務(wù)類型上的擴展。現(xiàn)實世界的工作往往橫跨多個領(lǐng)域，不同任務(wù)在目標(biāo)表述、隱含約束、工具使用上差異很大

AgentIF-OneDay 就是沿著這兩個方向推進的第一步：以人類一天內(nèi)可完成的任務(wù)復(fù)雜度作為基準(zhǔn)

這個評測在測什么

AgentIF-OneDay 的核心是指令遵循，它要求 Agent 處理真實的附件：Excel、PPT、PDF、圖片，然后輸出可交付的文件，任務(wù)分三類：

場景一：你知道該怎么做，但執(zhí)行太繁瑣

用戶已知完整流程并明確給出操作步驟，Agent 只需精確執(zhí)行。這類任務(wù)叫工作流執(zhí)行（Workflow Execution）

例題我計劃去 NeurIPS 2025，幫我規(guī)劃一個好的行程方案。請你先去官網(wǎng)確認 NeurIPS 2025 會議的主會場位置（San Diego Convention Center, San Diego）是否準(zhǔn)確，然后用另一個可靠來源交叉驗證這個信息，確保萬無一失接下來，幫我收集基本信息，比如會議時間、地點和論文提交截止日期還要確認完整的會議日程是否已經(jīng)發(fā)布，如果還沒發(fā)布，請明確告訴我最后，從紐約出發(fā)給我兩套去圣地亞哥的行程方案：一個最便宜的 Cheap Plan，一個最快的 Fast Plan

當(dāng) Agent 能夠在整個流程中保持一致性、逐步完成步驟、并在長上下文中保持狀態(tài)，就具備幫你把事情做完的潛力

這也是大量用戶希望 Agent 能真正替代重復(fù)性勞動的原因

場景二：你不知道規(guī)則，只能給個參考

用戶不明確知道完整的工作流或者條件約束，只提供若干案例或參考資料。這類任務(wù)叫隱式指令推理（Latent Instruction Inference）

例題我現(xiàn)在用的是 iPhone 13 Pro Max，AT&T 套餐每月 20 美元預(yù)付費。我想換 iPhone 17 Pro Max 基于附件里的購機方案和運營商優(yōu)惠，幫我找出總成本最低的方式

這是人類最自然的工作方式，人們不會每次都從零寫起

Agent 需要從提供的示例文件中挖掘出潛在的意圖，同時滿足用戶的顯式指令與附件的隱式指令

如果具備這種能力，Agent 就能真正參與內(nèi)容生產(chǎn)、報告生成、數(shù)據(jù)整理等職業(yè)型任務(wù)

場景三：需求本身是動態(tài)的，要邊做邊看

人類的工作普遍呈現(xiàn)多輪迭代結(jié)構(gòu)，在工作的開始并不知道完整解法、也沒有參考示例，需要在與 Agent 多輪交互中逐漸提出新需求。這類任務(wù)叫迭代式編輯（Iterative Refinement）

例題拿著這個 SVG 平面圖（venue_layout.svg）和 Excel 約束表（venue_constraints.xlsx），更新會場布局以滿足所有約束條件，同時保持設(shè)計的可讀性和可行走性

Agent 必須具備在不斷變化的約束下維持上下文一致性并穩(wěn)定推進任務(wù)的能力

評測細節(jié)

總共 104 道任務(wù)，覆蓋工作、生活（游戲攻略、旅游規(guī)劃）和學(xué)習(xí)，其中 62 道由文件驅(qū)動的合成任務(wù)用于補充長尾場景

覆蓋 PDF、PPT、Excel、圖像、代碼文件在內(nèi)的 15 種以上格式，模擬真實工作流程中跨格式、跨來源的模式

每道任務(wù)都帶有一套細粒度的評判標(biāo)準(zhǔn)，總計 767 個評分點，分為正向指標(biāo)（格式一致性、結(jié)構(gòu)復(fù)現(xiàn)、步驟完整）與負向指標(biāo)（誤刪內(nèi)容、越界生成、錯誤操作）

評測系統(tǒng)采用 LLM 作為裁判，值得一提的是 Gemini 3-pro 的出現(xiàn)讓 rubrics 打分的準(zhǔn)確性提升到可用的程度

Agent 的得分不僅取決于最終是否完成任務(wù)，還包括流程是否干凈、是否出現(xiàn)誤操作、是否正確解析附件、是否能在迭代過程中保持一致性

幾個有意思的發(fā)現(xiàn)

發(fā)現(xiàn)一：不同框架，拉不開差距

Manus、Genspark 與 ChatGPT-Agent 都集中在 0.62-0.65 區(qū)間，構(gòu)成當(dāng)下能力最強的第一梯隊

不管是模型原生訓(xùn)練出來的 Agent，還是基于 API 的工具鏈集成，在完成一套真實任務(wù)鏈時，用戶側(cè)感受到的能力是比較接近的

這印證了一個判斷：基礎(chǔ) Agent 能力已經(jīng)商品化了

底層模型能力不變的情況下，不同多智能體框架本身難以拉開數(shù)量級上的性能差異。基座模型會逐步集成 agentic 能力，下游基于 API 的 Agent 產(chǎn)品，在能力表現(xiàn)上也會體現(xiàn)出 Agent RL 的能力

發(fā)現(xiàn)二：分場景各有所長

工作場景：ChatGPT-Agent 72.18，Genspark 71.86，Manus 70.27

生活場景：Manus 73.40，ChatGPT-Agent 69.67，Genspark 67.85

學(xué)習(xí)場景：Genspark 71.19，Manus 64.41，ChatGPT-Agent 59.29

三個產(chǎn)品迭代方向不同。ChatGPT-Agent 重點關(guān)注 GDPval，聚焦專業(yè)工作場景的體驗；Manus 與 Genspark 更側(cè)重用戶反饋

xbench 的觀點是：優(yōu)秀的通用 Agent 應(yīng)當(dāng)兼顧最多樣的任務(wù)，而不側(cè)重一方

發(fā)現(xiàn)三：分能力維度看

Genspark 在隱式指令推斷上表現(xiàn)最優(yōu)，Manus 在開放工作流執(zhí)行最優(yōu)，Minimax-Agent 具有最好的迭代式編輯能力

但隱式條件推斷是目前 Agent 普遍最薄弱的能力項

比如讓 Agent 從 PPT 模板中抽取頁眉頁腳結(jié)構(gòu)或引用標(biāo)注方式，再遷移到新內(nèi)容生成中

即便是整體表現(xiàn)最好的系統(tǒng)，在這類任務(wù)中也很難做到完全正確。要么格式復(fù)現(xiàn)正確但覆蓋不足，要么內(nèi)容理解到位但無法保持結(jié)構(gòu)一致

綜合來看，穩(wěn)定性、文件處理鏈路、隱式結(jié)構(gòu)理解能力，乃至跨工具的狀態(tài)管理，都是決定 Agent 能否真正承擔(dān)一天工作量的關(guān)鍵環(huán)節(jié)

展望：從 OneDay 到 OneWeek

xbench 已經(jīng)開始著手構(gòu)建 OneWeek 評測集

他們的判斷是：當(dāng)一個 Agent 能夠在一周尺度的工作量上保持穩(wěn)定高質(zhì)量的產(chǎn)出，它就具備了承擔(dān)真實崗位的能力

這個過程有點像自動駕駛，從有限路段走向通用路段，從頻繁人工干預(yù)走向長時無干預(yù)

有效的數(shù)據(jù)積累可以帶來高可靠 Agent 系統(tǒng)的出現(xiàn)，優(yōu)先轉(zhuǎn)起數(shù)據(jù)飛輪的公司將率先實現(xiàn)通用 Agent 的 FSD 時刻

xbench 的節(jié)奏

xbench 是紅杉中國 2025 年 5 月發(fā)的 AI 評測基準(zhǔn)，設(shè)計思路是 Evergreen Evaluation，持續(xù)維護、動態(tài)更新

這兩周，他們連發(fā)兩篇：上周是，測多模態(tài)的純視覺能力，這周 AgentIF-OneDay 測 Agent 的日常任務(wù)能力

BabyVision 的結(jié)論是模型的視覺能力普遍低于 3 歲兒童

AgentIF-OneDay 的結(jié)論是最強 Agent 在日常任務(wù)上大約 65%

所以嘛，模型的「看」和「做」，都還有很大空間

開源地址

Paper Link
https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf

Website
https://xbench.org/

GitHub
https://github.com/xbench-ai/AgentIF-OneDay

HuggingFace
https://huggingface.co/datasets/xbench/AgentIF-OneDay

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.