<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic:大模型 benchmark 打分不適用 AI agent 評測

      0
      分享至

      最近,Anthropic 發了一篇不太像“技術博客”的文章,《Demystifying evals for AI agents(揭開 AI agents 評測的迷霧)》,基本可視為一份“Agent 時代的產品生存指南”。


      這篇文章背后隱含的一個判斷是,如果你做的是 AI Agent,卻還在用“模型 benchmark”那一套方式來評估它,那基本就是在扯淡。

      Agent 的問題,不是模型準不準,而是它會不會在真實世界里,把事情搞砸。

      Anthropic 在文中反復強調一個現實:隨著 AI 從“一次性回答問題”,走向“長時間自主行動”,系統的失敗方式已經發生了根本變化。

      錯誤不再是“答錯一道題”,而是一步小錯、持續放大,最終造成不可逆后果。

      比如一個研究型 Agent,早期一次資料篩選偏差,后面所有推理都會建立在錯誤前提上;

      又比如一個自動化 Agent,在工具調用上出現微小誤判,卻在長鏈條任務中不斷復制這種錯誤。

      這些問題,用傳統的評測方式幾乎是測不出來的。

      Anthropic 直接點破了一個行業誤區:我們過去評估 AI,更像是在給“考試機器”打分;但 Agent 更像一個“實習生”,你真正關心的是——它在真實任務里能不能被信任。

      所以,Anthropic提出,其核心不是“怎么跑 評測”,而是評測到底應該服務什么目標。

      他們給出的第一個關鍵轉向是,從靜態結果評測,轉向過程與行為評測。

      在 Agent 系統中,最終結果是否正確固然重要,但遠遠不夠。更關鍵的是:


      • 它是否遵循了預期的決策路徑

      • 是否在不確定時主動求證

      • 是否在失敗后調整策略

      • 是否在高風險節點表現得足夠保守

      換句話說,評測不只是“對不對”,而是“像不像一個你敢用的 Agent”。


      第二個非常現實的判斷是:Agent 的 評測永遠不可能一次性完成。

      Anthropic 明確指出,Agent 的評估是一個“持續對抗”的過程。

      你修復了一個失敗模式,很可能立刻引入一個新的失敗方式。

      這點對所有做產品的人都很殘酷,也很真實:Agent 并不存在“評測通過 → 可以放心上線”的時刻,只有“暫時可控”。

      因此,Anthropic建議,把評測變成和訓練、部署同等重要的基礎設施,而不是發布前的一個檢查項。

      第三個被反復強調的觀點是:不要迷信自動化評測。

      在 Agent 場景下,純自動評測往往會遺漏最危險的問題。

      很多真正致命的錯誤,只能通過人工設計的 adversarial 測試、失敗案例復盤、極端場景模擬才能發現。

      Anthropic 的態度非常清醒:評測不是為了證明系統“很強”,而是為了盡可能早地發現“它會怎么翻車”。

      這和當前行業大量“Agent Demo 導向”的做法,形成了非常鮮明的對比。

      Anthropic幾乎是為整個 AI 應用層敲了警鐘:當 AI 開始替人“做事”,而不是“回答問題”,評估體系本身就變成了安全邊界的一部分。

      這也是為什么 Anthropic 會把評測提到如此高的戰略位置——不是工程細節,而是產品能不能活下去的問題。

      對創業者來說,可以反思的是,未來 AI Agent 的競爭,不只是在模型、算力或功能完整度上,而是在誰更早建立起一套可靠的“可控性與信任機制”。

      而評測,正是這套機制的第一道防線。

      原文鏈接(Anthropic 官方):

      https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      上海德云社開業三天被舉報,只因社門口放了一大蒜形狀的咖啡杯子

      上海德云社開業三天被舉報,只因社門口放了一大蒜形狀的咖啡杯子

      蜜桔娛樂
      2026-03-21 09:37:34
      特朗普:已非常接近目標,正考慮逐步降級軍事行動;美國有條件放松對伊朗油品制裁;伊朗軍方威脅毀滅性打擊美以“邪惡官員”

      特朗普:已非常接近目標,正考慮逐步降級軍事行動;美國有條件放松對伊朗油品制裁;伊朗軍方威脅毀滅性打擊美以“邪惡官員”

      新民晚報
      2026-03-21 08:24:53
      4月1日后去醫院,只帶醫??赡艹源筇?,這兩樣缺一不可

      4月1日后去醫院,只帶醫??赡艹源筇潱@兩樣缺一不可

      萬物知識圈
      2026-03-21 07:12:41
      兩年巨虧超2.5億,95后女董事長因涉嫌信息披露違法違規被立案

      兩年巨虧超2.5億,95后女董事長因涉嫌信息披露違法違規被立案

      三湘都市報
      2026-03-21 09:30:32
      美國國債出事了:突遭大量拋售!美債突破39萬億美元,每月利息可造900架F-35,美聯儲加息概率大增!再加2000億軍費打伊朗?特朗普:小錢

      美國國債出事了:突遭大量拋售!美債突破39萬億美元,每月利息可造900架F-35,美聯儲加息概率大增!再加2000億軍費打伊朗?特朗普:小錢

      每日經濟新聞
      2026-03-21 00:17:17
      內塔尼亞胡連發露臉視頻仍遭疑AI,他對以色列意味著什么?

      內塔尼亞胡連發露臉視頻仍遭疑AI,他對以色列意味著什么?

      網易新聞出品
      2026-03-20 20:56:36
      10 位翻車的科技人員!涉核工業、導彈、殲擊機等領域,能力不再是護身符

      10 位翻車的科技人員!涉核工業、導彈、殲擊機等領域,能力不再是護身符

      風向觀察
      2026-03-21 14:12:53
      85后花20萬租下農村老宅20年,用50萬打造理想的院子,一家三口從城市搬進鄉村:與其花大價錢買學區房,不如在鄉村給孩子更開闊的成長空間

      85后花20萬租下農村老宅20年,用50萬打造理想的院子,一家三口從城市搬進鄉村:與其花大價錢買學區房,不如在鄉村給孩子更開闊的成長空間

      大風新聞
      2026-03-21 11:27:04
      陵水縣一輛觀光車發生事故,應急局工作人員:導致2死5傷

      陵水縣一輛觀光車發生事故,應急局工作人員:導致2死5傷

      極目新聞
      2026-03-21 10:48:57
      英國授權美軍使用其軍事基地實施打擊 伊朗:將行使自衛權回應

      英國授權美軍使用其軍事基地實施打擊 伊朗:將行使自衛權回應

      財聯社
      2026-03-21 04:10:05
      “梅姨”落網,律師:很可能被判死刑!多名受害者發聲:等這一天等了十多年

      “梅姨”落網,律師:很可能被判死刑!多名受害者發聲:等這一天等了十多年

      上觀新聞
      2026-03-21 15:16:04
      “困”在霍爾木茲海峽的人: 炮火連天、缺水斷菜、口糧告急,通航遙遙無期??

      “困”在霍爾木茲海峽的人: 炮火連天、缺水斷菜、口糧告急,通航遙遙無期??

      每日經濟新聞
      2026-03-21 08:44:06
      扎心了!中國男性死亡中位數67歲,剛退休就離場,養老金虧大了?

      扎心了!中國男性死亡中位數67歲,剛退休就離場,養老金虧大了?

      烏娛子醬
      2026-03-20 10:51:20
      史上第一次!12個穆斯林國家集體翻臉,底牌全攤,中東的天真變了

      史上第一次!12個穆斯林國家集體翻臉,底牌全攤,中東的天真變了

      起喜電影
      2026-03-21 07:11:28
      四千名猶太人定居河南千年,為啥至今養不熟,排隊要回以色列

      四千名猶太人定居河南千年,為啥至今養不熟,排隊要回以色列

      瘋狂的小歷史
      2026-03-21 11:08:01
      “梅姨”現身并落網!對販賣兒童事實供認不諱,已被依法逮捕

      “梅姨”現身并落網!對販賣兒童事實供認不諱,已被依法逮捕

      南方都市報
      2026-03-21 11:35:00
      打了6場又傷了! 本賽季最荒唐的交易,用頂級天賦換玻璃人球星

      打了6場又傷了! 本賽季最荒唐的交易,用頂級天賦換玻璃人球星

      你的籃球頻道
      2026-03-21 11:36:53
      霍爾木茲海峽之戰

      霍爾木茲海峽之戰

      新民周刊
      2026-03-21 09:08:51
      無視特朗普警告!伊朗處決19歲摔跤冠軍 奧運冠軍怒斥:令人發指

      無視特朗普警告!伊朗處決19歲摔跤冠軍 奧運冠軍怒斥:令人發指

      念洲
      2026-03-21 13:36:19
      看了新加坡媒體的披露,我才知道,中國已經沒必要向世界證明什么

      看了新加坡媒體的披露,我才知道,中國已經沒必要向世界證明什么

      觸摸史跡
      2026-03-21 02:58:06
      2026-03-21 15:55:00
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應用精選與評測
      459文章數 69關注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      頭條要聞

      媒體:美稱"將不再守衛霍爾木茲海峽" 或逼迫盟友接手

      頭條要聞

      媒體:美稱"將不再守衛霍爾木茲海峽" 或逼迫盟友接手

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      CMG盛典獲獎名單:章子怡高葉同獲影后

      財經要聞

      通脹警報拉響,加息潮要來了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態度原創

      本地
      時尚
      家居
      房產
      公開課

      本地新聞

      春色滿城關不住|紹興春日頂流,這片櫻花海藏不住了

      今年春天一定要擁有“這件衣服”,減齡又好看!

      家居要聞

      時空交織 空間綺夢

      房產要聞

      全城狂送1000杯咖啡!網易房產【早C計劃】,即刻啟動!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版