<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<pre id="xtx8o"></pre>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Anthropic：大模型 benchmark 打分不適用 AI agent 評測

2026-01-13 07:12:56　來源: AI先鋒官

北京舉報

0

分享至

最近，Anthropic 發了一篇不太像“技術博客”的文章，《Demystifying evals for AI agents（揭開 AI agents 評測的迷霧）》，基本可視為一份“Agent 時代的產品生存指南”。

這篇文章背后隱含的一個判斷是，如果你做的是 AI Agent，卻還在用“模型 benchmark”那一套方式來評估它，那基本就是在扯淡。

Agent 的問題，不是模型準不準，而是它會不會在真實世界里，把事情搞砸。

Anthropic 在文中反復強調一個現實：隨著 AI 從“一次性回答問題”，走向“長時間自主行動”，系統的失敗方式已經發生了根本變化。

錯誤不再是“答錯一道題”，而是一步小錯、持續放大，最終造成不可逆后果。

比如一個研究型 Agent，早期一次資料篩選偏差，后面所有推理都會建立在錯誤前提上；

又比如一個自動化 Agent，在工具調用上出現微小誤判，卻在長鏈條任務中不斷復制這種錯誤。

這些問題，用傳統的評測方式幾乎是測不出來的。

Anthropic 直接點破了一個行業誤區：我們過去評估 AI，更像是在給“考試機器”打分；但 Agent 更像一個“實習生”，你真正關心的是——它在真實任務里能不能被信任。

所以，Anthropic提出，其核心不是“怎么跑評測”，而是評測到底應該服務什么目標。

他們給出的第一個關鍵轉向是，從靜態結果評測，轉向過程與行為評測。

在 Agent 系統中，最終結果是否正確固然重要，但遠遠不夠。更關鍵的是：

它是否遵循了預期的決策路徑
是否在不確定時主動求證
是否在失敗后調整策略
是否在高風險節點表現得足夠保守

換句話說，評測不只是“對不對”，而是“像不像一個你敢用的 Agent”。

第二個非常現實的判斷是：Agent 的評測永遠不可能一次性完成。

Anthropic 明確指出，Agent 的評估是一個“持續對抗”的過程。

你修復了一個失敗模式，很可能立刻引入一個新的失敗方式。

這點對所有做產品的人都很殘酷，也很真實：Agent 并不存在“評測通過 → 可以放心上線”的時刻，只有“暫時可控”。

因此，Anthropic建議，把評測變成和訓練、部署同等重要的基礎設施，而不是發布前的一個檢查項。

第三個被反復強調的觀點是：不要迷信自動化評測。

在 Agent 場景下，純自動評測往往會遺漏最危險的問題。

很多真正致命的錯誤，只能通過人工設計的 adversarial 測試、失敗案例復盤、極端場景模擬才能發現。

Anthropic 的態度非常清醒：評測不是為了證明系統“很強”，而是為了盡可能早地發現“它會怎么翻車”。

這和當前行業大量“Agent Demo 導向”的做法，形成了非常鮮明的對比。

Anthropic幾乎是為整個 AI 應用層敲了警鐘：當 AI 開始替人“做事”，而不是“回答問題”，評估體系本身就變成了安全邊界的一部分。

這也是為什么 Anthropic 會把評測提到如此高的戰略位置——不是工程細節，而是產品能不能活下去的問題。

對創業者來說，可以反思的是，未來 AI Agent 的競爭，不只是在模型、算力或功能完整度上，而是在誰更早建立起一套可靠的“可控性與信任機制”。

而評測，正是這套機制的第一道防線。

原文鏈接（Anthropic 官方）：

https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

剛剛，楊植麟親自發布Kimi K2.5開源新王：指揮“智能體大軍”，效率暴漲450%

智東西 2026-01-27 19:11:19
0 跟貼 0
Anthropic CEO兩萬字長文：2027，人類命運的十字路口

新智元 2026-01-27 13:37:55
56 跟貼 56

上海交大給具身智能發了一張“統考卷”，這會是機器人的LMArena嗎？

智東西 2026-01-26 18:23:18
0 跟貼 0

李想定調理想新航向：押注 AI 到底全力研發人形機器人

每日經濟新聞 2026-01-27 19:23:23
0 跟貼 0
雷科技官網全新升級：從視覺到內容，全方位聚焦AI硬科技

雷科技 2026-01-26 18:59:07
0 跟貼 0

我國將出臺應對人工智能影響促就業文件

界面新聞 2026-01-27 10:04:47
620 跟貼 620

聊天框裝不下的野心，被百度文心 APP 塞進了 AI 群聊里

愛范兒 2026-01-27 20:47:25
0 跟貼 0
AI會計會是下一個“殺手級”應用嗎？

華爾街見聞官方 2026-01-27 21:13:17
0 跟貼 0

超1億！螞蟻投了一家個人專屬Agent創企

智東西 2026-01-27 14:23:12
0 跟貼 0
跨境電商版Sora發布：全球首個AI原生電商視頻Multi-Agent來了

機器之心Pro 2026-01-27 14:37:00
0 跟貼 0
Agent產業加速商業化，軟件ETF易方達(562930)標的指數盤中反彈翻紅

每日經濟新聞 2026-01-27 14:20:05
0 跟貼 0
Insta360 GO Ultra評測：定位清晰的口袋相機，拒絕陽光機？

雷科技 2025-08-21 23:25:29
4 跟貼 4
中國常駐聯合國副代表：日本是“國際秩序破壞者”

瀟湘晨報 2026-01-27 16:13:22
9050 跟貼 9050
給機器吃飯它不吃，眼里只有對干活的渴望，難怪它能取代工人！

缸貓愛搞笑 2026-01-25 14:03:51
1 跟貼 1
看機器雕刻木頭，每一次都落在，意想不到的位置

美妙一籮筐 2026-01-23 17:21:29
0 跟貼 0
女子和男友生氣，直接給自己氣成模型了，男友差點笑進ICU

籃球搞笑 2026-01-26 16:36:58
1 跟貼 1
工人將彎曲的木頭，放進機器，沒一會就被打磨變直了！

搞笑面包狗 2026-01-26 16:42:28
1 跟貼 1
省兩會間隙連夜開全省會議，河南為何如此急迫？∣豫觀察

大象新聞 2026-01-27 13:05:04
27 跟貼 27
美國芝加哥出現負電價

每日經濟新聞 2026-01-27 13:41:01
2813 跟貼 2813
958克堅果禮盒實際只有33克堅果，百草味回應：系經銷商私自組合，現已下架

中國能源網 2026-01-27 11:58:04
170 跟貼 170
輸新疆格蘭跟倔驢一樣！末節死用哈里斯+西爾扎提，拱手讓出勝利

籃球資訊達人 2026-01-27 21:55:12
3 跟貼 3
央視坐實！成本2元售價19800元！不少人受騙，趕緊別用了

白色得季節 2026-01-27 21:30:49
1 跟貼 1
全國9地取消固定分時電價

財聯社 2026-01-27 13:58:05
0 跟貼 0
加拿大能否抗住美國的極限施壓？卡尼的倔強和靈活性體現在哪兒？

縱擁千千晚星 2026-01-27 22:45:38
0 跟貼 0
專家：銀價短期或跌回90美元之下

財聯社 2026-01-27 16:22:25
108 跟貼 108
兒子一道題學不會，杭州媽媽崩潰了：吞下一整罐安眠藥！緊急搶救

瀟湘晨報 2026-01-27 14:26:41
272 跟貼 272
論角度的重要性！挑戰重力？扶梯上大家斜立而站，秒變“武林高手”

新華社 2026-01-27 23:02:32
13 跟貼 13
男子花50萬向老同學購買“內部黃金” 每克僅100元

環球網資訊 2026-01-27 10:42:48
868 跟貼 868
官方：嚴格落實春節高速免通行費政策

澎湃新聞 2026-01-27 11:30:01
223 跟貼 223
全國首創！四川為“兩客一危”企業繪制安全風險畫像丨經濟觀察

北青網-北京青年報 2026-01-27 21:58:06
0 跟貼 0
環衛工的定位器：科技之鞭

非典型佛教徒 2026-01-28 00:07:20
0 跟貼 0
iPhone Air大降價網友破防：昨天剛買今天就降2000元

大風新聞 2026-01-27 08:14:16
1186 跟貼 1186
美國正式退出《巴黎協定》

參考消息 2026-01-27 22:04:00
0 跟貼 0
實行免票預約后38萬人爽約，杭州靈隱景區“升級”懲戒措施

澎湃新聞 2026-01-26 14:57:05
674 跟貼 674
曦望發布推理GPU S3：All-in推理的國產GPU，開始算單位Token成本

量子位 2026-01-27 22:38:53
0 跟貼 0
貓吸人也講策略了？欲擒故縱，忽冷忽熱，才能讓人上頭？

家有肉蛋球 2026-01-25 12:49:32
0 跟貼 0
CBA四川男籃大比分負于遼寧男籃

封面新聞 2026-01-27 23:07:06
3 跟貼 3
不用扶，他們在上海收費教會700人騎自行車

新民周刊 2026-01-27 17:19:49
44 跟貼 44
全是假的！涉及多個品牌，檢測結果觸目驚心！網友：老人小孩都在吃

環球網資訊 2026-01-27 15:41:14
242 跟貼 242
《鬼泣5》銷量超1100萬套過去9個月銷售速度最快

3DM游戲 2026-01-27 22:27:04
0 跟貼 0

英國政府承認：特朗普有“一票否決權”

英國政府承認：特朗普有“一票否決權”

環球時報國際

2026-01-27 00:18:07

報一箭之仇：上海女排橫掃天津奪七連勝！許曉婷調度多點開花

報一箭之仇：上海女排橫掃天津奪七連勝！許曉婷調度多點開花

金毛愛女排

2026-01-27 21:46:22

搓澡巾一樣的大衣丑口袋，只出現在女裝上？

搓澡巾一樣的大衣丑口袋，只出現在女裝上？

果殼

2026-01-27 16:09:11

花200萬補課后續：380分兒子執意補課，母親重病陪讀，曝更痛隱情

花200萬補課后續：380分兒子執意補課，母親重病陪讀，曝更痛隱情

削桐作琴

2026-01-27 23:27:46

172：199！日本選舉驚現黑馬，新首相或露頭角？對華態度成看點

172：199！日本選舉驚現黑馬，新首相或露頭角？對華態度成看點

小小科普員

2026-01-27 23:31:29

賣女性玩具的大人糖都開進廣州天環了

賣女性玩具的大人糖都開進廣州天環了

藍鯨新聞

2026-01-27 08:58:15

50歲梅婷又素顏走機場！穿大衣+紅褲子+馬丁靴，時髦又減齡！

50歲梅婷又素顏走機場！穿大衣+紅褲子+馬丁靴，時髦又減齡！

小老頭奇聞

2026-01-14 15:34:45

華為突然官宣：1月26日，全系降價！

華為突然官宣：1月26日，全系降價！

科技堡壘

2026-01-26 11:40:24

楊德龍：2026年做好大類資產配置至關重要

楊德龍：2026年做好大類資產配置至關重要

德龍財經

2026-01-27 20:32:25

沈陽第二家山姆“掛牌”了！

沈陽公交網小林

2026-01-28 00:12:08

ESPN：拉波爾塔仍夢想簽小蜘蛛，而德科在評估成本更低的方案

ESPN：拉波爾塔仍夢想簽小蜘蛛，而德科在評估成本更低的方案

懂球帝

2026-01-27 16:21:21

銀行最怕的不是你欠錢不還，最怕的是你突然知道這7件事！

銀行最怕的不是你欠錢不還，最怕的是你突然知道這7件事！

流蘇晚晴

2026-01-22 18:29:58

ICE指揮官被撤職，“黨衛軍”暫時偃旗息鼓？

ICE指揮官被撤職，“黨衛軍”暫時偃旗息鼓？

勝研集

2026-01-27 12:59:03

阿里投資核電站，一場驚天豪賭

電商派Pro

2026-01-27 09:33:08

汪小菲接倆娃回北京，玥兒長高超像大S，打雪仗時一個動作好暖心

汪小菲接倆娃回北京，玥兒長高超像大S，打雪仗時一個動作好暖心

胡一舸南游y

2026-01-27 16:21:00

陪睡陪玩只是冰山一角！萬達蒸發800億后，王思聰再次傳出大丑聞

陪睡陪玩只是冰山一角！萬達蒸發800億后，王思聰再次傳出大丑聞

民間平哥

2025-12-25 14:54:58

全國9地取消固定分時電價

每日經濟新聞

2026-01-27 14:31:10

張蘭不聽勸，又曬孫子孫女，小玥兒太像大S，外套7000元個子很高

張蘭不聽勸，又曬孫子孫女，小玥兒太像大S，外套7000元個子很高

有范又有料

2026-01-27 15:42:10

省人大常委會關于接受王樹芬、羅紅江同志辭職的決定

省人大常委會關于接受王樹芬、羅紅江同志辭職的決定

昆明信息港

2026-01-26 16:57:33

14歲陳佳銘已昏迷超30天，上海專家會診后，確認無生還希望

14歲陳佳銘已昏迷超30天，上海專家會診后，確認無生還希望

法老不說教

2026-01-27 17:15:33

AIGC大模型及應用精選與評測

421文章數 41關注度

往期回顧全部

科技要聞

馬化騰3年年會講話透露了哪些關鍵信息

頭條要聞

因樓下鄰居關閉水閥女子家中斷水400天起訴索賠被駁

頭條要聞

因樓下鄰居關閉水閥女子家中斷水400天起訴索賠被駁

體育要聞

冒充職業球員，比賽規則還和對手現學？

娛樂要聞

張雨綺風波持續發酵，曝多個商務被取消

財經要聞

多地對壟斷行業"近親繁殖"出手了

汽車要聞

標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

藝術

家居

手機

公開課

教育要聞

再創歷史新高！南京高三期末調研考劃線及成績出爐

藝術要聞

震撼！19世紀油畫巨匠的作品美得不可思議！

家居要聞

現代古典中性又顯韻味

流韻雅居，讓復雜變純粹
在家度假 160平南洋混搭宅
法式風情南洋中古居

手機要聞

小米17 Max再次曝光：2億主攝+聯名影像，排期Q2季度！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
中國最正宗的紋飾是什么？
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版