<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic:大模型 benchmark 打分不適用 AI agent 評測

      0
      分享至

      最近,Anthropic 發了一篇不太像“技術博客”的文章,《Demystifying evals for AI agents(揭開 AI agents 評測的迷霧)》,基本可視為一份“Agent 時代的產品生存指南”。


      這篇文章背后隱含的一個判斷是,如果你做的是 AI Agent,卻還在用“模型 benchmark”那一套方式來評估它,那基本就是在扯淡。

      Agent 的問題,不是模型準不準,而是它會不會在真實世界里,把事情搞砸。

      Anthropic 在文中反復強調一個現實:隨著 AI 從“一次性回答問題”,走向“長時間自主行動”,系統的失敗方式已經發生了根本變化。

      錯誤不再是“答錯一道題”,而是一步小錯、持續放大,最終造成不可逆后果。

      比如一個研究型 Agent,早期一次資料篩選偏差,后面所有推理都會建立在錯誤前提上;

      又比如一個自動化 Agent,在工具調用上出現微小誤判,卻在長鏈條任務中不斷復制這種錯誤。

      這些問題,用傳統的評測方式幾乎是測不出來的。

      Anthropic 直接點破了一個行業誤區:我們過去評估 AI,更像是在給“考試機器”打分;但 Agent 更像一個“實習生”,你真正關心的是——它在真實任務里能不能被信任。

      所以,Anthropic提出,其核心不是“怎么跑 評測”,而是評測到底應該服務什么目標。

      他們給出的第一個關鍵轉向是,從靜態結果評測,轉向過程與行為評測。

      在 Agent 系統中,最終結果是否正確固然重要,但遠遠不夠。更關鍵的是:


      • 它是否遵循了預期的決策路徑

      • 是否在不確定時主動求證

      • 是否在失敗后調整策略

      • 是否在高風險節點表現得足夠保守

      換句話說,評測不只是“對不對”,而是“像不像一個你敢用的 Agent”。


      第二個非常現實的判斷是:Agent 的 評測永遠不可能一次性完成。

      Anthropic 明確指出,Agent 的評估是一個“持續對抗”的過程。

      你修復了一個失敗模式,很可能立刻引入一個新的失敗方式。

      這點對所有做產品的人都很殘酷,也很真實:Agent 并不存在“評測通過 → 可以放心上線”的時刻,只有“暫時可控”。

      因此,Anthropic建議,把評測變成和訓練、部署同等重要的基礎設施,而不是發布前的一個檢查項。

      第三個被反復強調的觀點是:不要迷信自動化評測。

      在 Agent 場景下,純自動評測往往會遺漏最危險的問題。

      很多真正致命的錯誤,只能通過人工設計的 adversarial 測試、失敗案例復盤、極端場景模擬才能發現。

      Anthropic 的態度非常清醒:評測不是為了證明系統“很強”,而是為了盡可能早地發現“它會怎么翻車”。

      這和當前行業大量“Agent Demo 導向”的做法,形成了非常鮮明的對比。

      Anthropic幾乎是為整個 AI 應用層敲了警鐘:當 AI 開始替人“做事”,而不是“回答問題”,評估體系本身就變成了安全邊界的一部分。

      這也是為什么 Anthropic 會把評測提到如此高的戰略位置——不是工程細節,而是產品能不能活下去的問題。

      對創業者來說,可以反思的是,未來 AI Agent 的競爭,不只是在模型、算力或功能完整度上,而是在誰更早建立起一套可靠的“可控性與信任機制”。

      而評測,正是這套機制的第一道防線。

      原文鏈接(Anthropic 官方):

      https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      英國政府承認:特朗普有“一票否決權”

      英國政府承認:特朗普有“一票否決權”

      環球時報國際
      2026-01-27 00:18:07
      報一箭之仇:上海女排橫掃天津奪七連勝!許曉婷調度多點開花

      報一箭之仇:上海女排橫掃天津奪七連勝!許曉婷調度多點開花

      金毛愛女排
      2026-01-27 21:46:22
      搓澡巾一樣的大衣丑口袋,只出現在女裝上?

      搓澡巾一樣的大衣丑口袋,只出現在女裝上?

      果殼
      2026-01-27 16:09:11
      花200萬補課后續:380分兒子執意補課,母親重病陪讀,曝更痛隱情

      花200萬補課后續:380分兒子執意補課,母親重病陪讀,曝更痛隱情

      削桐作琴
      2026-01-27 23:27:46
      172:199!日本選舉驚現黑馬,新首相或露頭角?對華態度成看點

      172:199!日本選舉驚現黑馬,新首相或露頭角?對華態度成看點

      小小科普員
      2026-01-27 23:31:29
      賣女性玩具的大人糖都開進廣州天環了

      賣女性玩具的大人糖都開進廣州天環了

      藍鯨新聞
      2026-01-27 08:58:15
      50歲梅婷又素顏走機場!穿大衣+紅褲子+馬丁靴,時髦又減齡!

      50歲梅婷又素顏走機場!穿大衣+紅褲子+馬丁靴,時髦又減齡!

      小老頭奇聞
      2026-01-14 15:34:45
      華為突然官宣:1月26日,全系降價!

      華為突然官宣:1月26日,全系降價!

      科技堡壘
      2026-01-26 11:40:24
      楊德龍:2026年做好大類資產配置至關重要

      楊德龍:2026年做好大類資產配置至關重要

      德龍財經
      2026-01-27 20:32:25
      沈陽第二家山姆“掛牌”了!

      沈陽第二家山姆“掛牌”了!

      沈陽公交網小林
      2026-01-28 00:12:08
      ESPN:拉波爾塔仍夢想簽小蜘蛛,而德科在評估成本更低的方案

      ESPN:拉波爾塔仍夢想簽小蜘蛛,而德科在評估成本更低的方案

      懂球帝
      2026-01-27 16:21:21
      銀行最怕的不是你欠錢不還,最怕的是你突然知道這7件事!

      銀行最怕的不是你欠錢不還,最怕的是你突然知道這7件事!

      流蘇晚晴
      2026-01-22 18:29:58
      ICE指揮官被撤職,“黨衛軍”暫時偃旗息鼓?

      ICE指揮官被撤職,“黨衛軍”暫時偃旗息鼓?

      勝研集
      2026-01-27 12:59:03
      阿里投資核電站,一場驚天豪賭

      阿里投資核電站,一場驚天豪賭

      電商派Pro
      2026-01-27 09:33:08
      汪小菲接倆娃回北京,玥兒長高超像大S,打雪仗時一個動作好暖心

      汪小菲接倆娃回北京,玥兒長高超像大S,打雪仗時一個動作好暖心

      胡一舸南游y
      2026-01-27 16:21:00
      陪睡陪玩只是冰山一角!萬達蒸發800億后,王思聰再次傳出大丑聞

      陪睡陪玩只是冰山一角!萬達蒸發800億后,王思聰再次傳出大丑聞

      民間平哥
      2025-12-25 14:54:58
      全國9地取消固定分時 電價

      全國9地取消固定分時 電價

      每日經濟新聞
      2026-01-27 14:31:10
      張蘭不聽勸,又曬孫子孫女,小玥兒太像大S,外套7000元 個子很高

      張蘭不聽勸,又曬孫子孫女,小玥兒太像大S,外套7000元 個子很高

      有范又有料
      2026-01-27 15:42:10
      省人大常委會關于接受王樹芬、羅紅江同志辭職的決定

      省人大常委會關于接受王樹芬、羅紅江同志辭職的決定

      昆明信息港
      2026-01-26 16:57:33
      14歲陳佳銘已昏迷超30天,上海專家會診后,確認無生還希望

      14歲陳佳銘已昏迷超30天,上海專家會診后,確認無生還希望

      法老不說教
      2026-01-27 17:15:33
      2026-01-28 01:12:51
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應用精選與評測
      421文章數 41關注度
      往期回顧 全部

      科技要聞

      馬化騰3年年會講話透露了哪些關鍵信息

      頭條要聞

      因樓下鄰居關閉水閥女子家中斷水400天 起訴索賠被駁

      頭條要聞

      因樓下鄰居關閉水閥女子家中斷水400天 起訴索賠被駁

      體育要聞

      冒充職業球員,比賽規則還和對手現學?

      娛樂要聞

      張雨綺風波持續發酵,曝多個商務被取消

      財經要聞

      多地對壟斷行業"近親繁殖"出手了

      汽車要聞

      標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

      態度原創

      教育
      藝術
      家居
      手機
      公開課

      教育要聞

      再創歷史新高!南京高三期末調研考劃線及成績出爐

      藝術要聞

      震撼!19世紀油畫巨匠的作品美得不可思議!

      家居要聞

      現代古典 中性又顯韻味

      手機要聞

      小米17 Max再次曝光:2億主攝+聯名影像,排期Q2季度!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版