4月8日凌晨,Anthropic正式公開Claude Mythos預覽版的系統卡。
Mythos是一個“在各方面都表現強勁,尤其是計算機安全任務方面”的全新的通用語言模型(general-purpose language model),以至于Anthropic決定先讓合作伙伴測試,幫助行業做好準備。
我們從Claude Mythos Preview 系統卡中,完整翻譯了有關其性能的內容,為了便于理解,對個別字句做了調整,并在文章后面附上了各測評項目的術語解釋,還有完整報告鏈接。
6 性能
6.1介紹
本節對 Claude Mythos Preview 在推理、編碼、智能體任務、數學、長上下文以及知識工作等方面進行評估。網絡安全能力見第 3 節。
這里評估的許多能力也與模型安全有關;其中一些評估也出現在第 2 節,我們在那里討論了與《負責任擴展政策》相關的評估。
我們首先討論“污染”問題,以及它如何影響我們所使用的若干評測基準。然后,我們給出一張匯總表,將 Claude Mythos Preview 與 Anthropic 其他模型及第三方模型在多種評測上的表現進行比較,隨后再分別介紹各項評測及其方法細節。凡是也對 Claude Opus 4.6 進行過的評測,我們都保留其 System Card 中的描述,并注明任何變化。
6.2去數據污染
公共基準中的問題答案,可能會無意間出現在模型的訓練數據中,從而抬高模型能夠取得的分數。我們采取了若干步驟來對評估進行去污染;完整方法見 Claude Opus 4.5 System Card 第 2.2 節。對于多模態去污染,我們還會額外丟棄任何訓練樣本,只要其中圖像的感知哈希值與某個多模態評測中所包含圖像的感知哈希值相匹配。
下面,我們討論三個在污染問題上尤其值得關注的評測。
6.2.1 SWE-bench評測
我們分析了 SWE-bench Verified、Multilingual 和 Pro,以檢查是否存在記憶復現,即模型并非獨立推導出解法,而是復現訓練數據中的答案。
我們在所有試驗上運行了多個過濾器,以在不同閾值下移除被標記的問題。在這一過濾后的子集上重新計分,并不會改變Claude Mythos Preview 的排名;在剔除被標記問題之后,它相對Claude Opus 4.6的大幅領先仍然存在。無論是在公開還是私有的智能體式編程基準上,無論是在這些評測的 clean 劃分還是 full 劃分上,增益都保持一致,這表明記憶復現并不是 Mythos Preview 在 SWE-bench 評測中改進的主要解釋。
每個基準都從開源代碼倉庫中抽取問題,因此其內容可能出現在訓練語料中。我們進行了語料級去污染,但在這三個基準中仍然觀察到一些記憶復現的跡象。例如,在一個問題中,模型生成的補丁復現了參考解中的完全相同的輔助函數,盡管它先是獨立推導、構建并測試了一個解法,隨后似乎才在最后“回想起”標準答案補丁。OpenAI 也記錄過對 SWE-bench Verified 的類似擔憂。
為了檢測記憶復現,我們使用一個基于 Claude 的審計器,將每個模型生成的補丁與標準補丁進行比較,并賦予一個 [0, 1] 的記憶復現概率。該審計器會權衡若干具體信號,例如在存在其他可行路徑時逐字復現代碼、與標準答案相匹配的獨特注釋文本等等;同時,它也被指示要忽略任何稱職的求解者在給定問題約束下都可能產生的重合。作為補充,我們還使用一套基于規則的檢查方法,來標記與參考解之間存在大量逐字注釋重合的情況。我們對所有模型的每一次嘗試都運行這兩種檢測器,只要某個問題在任一嘗試中被標記,就將其視為可能存在記憶復現。我們從所有模型和所有嘗試中,移除被標記問題的并集;這種做法對 Mythos Preview 是保守的,因為它也會移除那些可能被基線模型之一,也就是Opus 4.6 或 Claude Sonnet 4.5,記住的問題。
事后識別記憶復現,本質上只能做到近似。因此,我們對審計器的判定閾值在其整個范圍內進行掃描,而不是固定采用單一閾值。在整個過濾嚴格度范圍內,Claude Mythos Preview 在每個基準上都持續明顯領先于 Claude Opus 4.6 和 Claude Sonnet 4.6。
![]()
(上圖展示了 Claude Mythos Preview、Claude Opus 4.6 和 Claude Sonnet 4.6 在 SWE-bench Verified(n=500)、Multilingual(n=297)和 Pro(n=731)上的通過率如何隨過濾嚴格程度而變化。對每個模型,都會在這樣一個題目子集上重新計分:該子集中,任一模型對應的審計器所賦予的記憶復現概率都小于或等于橫軸數值。柱狀條表示在每個閾值下被保留下來的題目數量。在閾值為 1.0 時(最右側),所有題目都會被保留,曲線也就與表 6.3.A 中的總分一致;向左移動則會逐步剔除那些被判斷為越來越可能屬于記憶復現的題目。在整個閾值范圍內、在這三個基準上,Mythos Preview 相對于兩個基線模型都始終保持明顯領先。在我們采用的參考閾值0.7 下,這是一種刻意偏向高召回率的設置,會移除每個基準中 8% 到 15% 的題目;在這一設置下,Mythos Preview 相對 Opus 4.6 的領先幅度最多只縮小 3.5 個百分點。最左側出現的不穩定性,是在通過過濾后剩余題目少于約 30 道時產生的小樣本噪聲。隨著記憶復現過濾條件放寬、更多被標記的題目被重新加入,Claude Mythos Preview 的通過率大致保持穩定,而 Claude Opus 4.6 和 Claude Sonnet 4.6 的通過率則有所下降。這與如下情況一致:Claude Mythos Preview 記住了一些更難的、被標記出來的題目,而基線模型并未獨立解出這些題目。)
我們的檢測器并不完美,但這一結果對于閾值的選擇是穩健的,并且也與 Mythos Preview 在訓練語料中不存在的內部基準上所體現出的提升一致。我們的結論是,記憶復現并不能解釋其在SWE-bench 上的改進。
6.2.2 CharXiv Reasoning
CharXiv Reasoning 是我們在第 6.11.3 節中為 Claude Mythos Preview 報告的一項基準。CharXiv 的問題來自既有的公共材料,例如 arXiv 論文中的圖表。這些材料廣泛存在于大規模網絡預訓練語料中,因此天然難以被完全去污染。
我們使用兩種互補的方法來檢測 CharXiv Reasoning 的污染情況。我們選取了答案文本具有鮮明特征的評估條目,在完整預訓練混合語料中進行精確匹配搜索;另外,我們還單獨搜索評測圖像。盡管我們對評測圖像進行了強有力的圖像級過濾,但我們仍確認,大多數問題-答案文本對都出現在語料中。
為了估計污染的影響,我們從該基準中取出一個子集,構造其保留集變體,對每個問題或圖像進行人工擾動,然后比較原始版本與重混版本的準確率。例如,我們會要求模型識別圖表中的另一個標簽,而不是原來的標簽,或者要求它識別第二低而不是第二高的系列,從而讓正確答案發生變化,同時大致保持難度不變。
![]()
(我們從原始 CharXiv 基準中選取一部分問題,對模型進行評估,所使用的既包括原始的問題—答案對,也包括經人工改寫、在難度和歧義性上大致等價的變體。Claude Mythos Preview 的評測設置為自適應思考和最大 effort。Gemini 3.1 Pro Preview 的評測使用默認的動態思考等級“high”。GPT-5.4 Pro 的評測則將推理設置為“high”。)
在一個由 100 個條目組成的CharXiv 重混版本上,Claude Mythos Preview、Gemini 3.1 Pro Preview 和 GPT-5.4 Pro 在重混版本上的得分都高于相應原始子集上的得分。這表明,原始基準上的表現中可歸因于記憶復現的部分是有限的。我們的結論是,污染不太可能對 Claude Mythos Preview 在 CharXiv 上的表現產生有意義的貢獻。
6.2.3 MMMU-Pro
MMMU-Pro 是我們通常會在這份System Card 中報告的一項基準,具體來說原本會放在下文第 6.11 節。和 CharXiv Reasoning 一樣,MMMU-Pro 由廣泛傳播的公共材料構成,例如大學考試、教材和測驗網站,這些內容很難從訓練語料中被完全去污染。
我們識別出訓練數據中存在大量 MMMU-Pro 圖像,主要來源于教材、作業輔導網站和文檔抓取數據,這些來源會重新打包并分發底層源內容。
與 CharXiv Reasoning 不同,MMMU-Pro 中可較容易構造出“難度大致等價”變體的問題數量有限。MMMU-Pro 確實包含少量圖表和圖形,但如果只研究這一小部分問題,會形成有偏差的圖景。鑒于很難判斷污染的影響,我們選擇在本 System Card 中省略 MMMU-Pro 的結果。
6.3總體結果匯總
表 6.3.A 匯總了下文將更詳細討論的評測。
![]()
(能力評估匯總。除非另有說明,所有 Claude Mythos Preview 的結果均使用以下標準配置:自適應思考,最大effort,默認采樣設置(temperature、top_p),并對 5 次試驗求平均。上下文窗口大小因評估而異,但不超過 100 萬 tokens。每一行中的最佳分數以粗體標出。競爭模型的數據來自各自開發者公開發布的system card 或基準排行榜。更早期 Claude 模型的評估細節見 Claude Opus 4.6 System Card。*對于 Terminal-Bench 2.0,OpenAI 在其報告分數中使用了專門化的 harness,因此這一行模型之間的比較并不精確。其余所有分數均使用Terminus-2 harness。)
6.4 SWE-bench Verified、Pro、Multilingual和Multimodal
SWE-bench(Software Engineering Bench)用于測試 AI 模型在真實世界軟件工程任務中的表現。我們報告四個變體:
● SWE-bench Verified(OpenAI)是一個由 500 個問題組成的子集,每個問題都經由人工工程師驗證為可解。Claude Mythos Preview 的成績為 93.9%,取 5 次試驗平均。
● SWE-bench Pro(Scale)是更難的變體:問題取自仍在積極維護的代碼倉庫,具有更大的多文件 diff,并且不存在公開的標準答案泄漏。Mythos Preview 的成績為 77.8%,取 5 次試驗平均。
● SWE-bench Multilingual 將這一格式擴展到 9 種編程語言的 300 個問題。Mythos Preview 的成績為 87.3%,取 5 次試驗平均。
● SWE-bench Multimodal 在 issue 描述中加入視覺上下文(截圖、設計稿)。Mythos Preview 的成績為 59.0%(使用內部 harness 評估;見附錄 8.4),取 5 次試驗平均。我們注意到,這一變體在不同試驗之間的波動高于其他變體,為 56.4% 至 61.4%。
所有 SWE-bench 變體都使用標準配置(見表 6.3.A),并在采樣結果中包含 thinking blocks。關于我們的記憶復現篩查,見第 6.2 節。
6.5 Terminal-Bench 2.0
Terminal-Bench 2.0 由斯坦福大學和 Laude Institute 的研究人員開發,用于測試 AI 模型在終端和命令行環境中執行真實世界任務的能力。
我們在 Harbor scaffold 中、使用 Terminus-2 harness 和默認 parser 運行了 Terminal-Bench 2.0。每項任務都在獨立的 Kubernetes pod中運行,資源保證為基準規定上限的 1 倍(硬搶占上限為 3 倍),超時設定也為 1 倍,以保持與基準的一致性。關于這一配置的細節,可見我們的工程博客。
Claude Mythos Preview 在 89 個獨特任務中的每一個任務上都進行了 5 次嘗試,總計 445 次試驗,最終取得了 82% 的平均 reward。我們將 Mythos Preview 配置為:最大推理 effort(自適應模式)、每個任務總 token 預算為 100 萬、每次請求的最大輸出 tokens 為 32K。Terminal-Bench 對推理延遲十分敏感:固定的墻鐘超時意味著,解碼更慢的端點在每項任務中能完成的 episode 更少。我們報告的分數使用了生產 API 端點,以反映這些動態因素。
Terminal-Bench 2.0 的超時設置有時相當苛刻,尤其對于會思考的模型而言,這會帶來一個風險,即真實能力的大幅躍升會被看似無關的混雜因素遮蔽,例如采樣速度。此外,Terminal-Bench 2.0 中的一些任務本身存在歧義,資源規格也有限,無法真正讓智能體探索完整解空間。目前維護者正在 2.1 更新中處理這兩個問題。為了專門衡量剔除這些混雜因素后的智能體式編碼能力,我們還使用 GitHub 上最新可得的 2.1 修復版運行了 Terminal-Bench,同時將超時上限提高到 4 小時,大約是 2.0 基線的四倍。這使平均 reward 提高到 92.1%。在相同條件下,我們測得 GPT-5.4 配合 Codex CLI harness 的成績為 75.3%(相比基線規格下的 68.3% 有所上升)[23]。
6.6 GPQA Diamond
Graduate-Level Google-Proof Q&A benchmark(GPQA)[24] 是一組高難度的科學多項選擇題。我們使用其中由 198 道題構成的 Diamond 子集,這些問題是領域專家能夠答對、但大多數非專家無法答對的題目。
Claude Mythos Preview 在 GPQA Diamond 上取得了 94.55% 的成績,取 5 次試驗平均。
6.7 MMMLU
MMMLU(Multilingual Massive Multitask Language Understanding)用于測試 14 種非英語語言中、57 個學術學科上的知識與推理能力。Claude Mythos Preview 在所有非英語語言配對上的成績為 92.67%,取 5 次試驗平均;每次運行都使用自適應思考、最大 effort 和默認采樣設置(temperature、top_p)。
6.8 USAMO 2026
美國數學奧林匹克競賽(USAMO)是一項為高中生設置的、為期兩天、共六道題、以證明為核心的競賽。它是美國數學奧賽路徑中、AIME 之后的下一階段。AIME 曾是去年很受歡迎的 AI 基準,但如今已經趨于飽和。2026 年 USAMO 于 2026 年 3 月 21 日至 22 日舉行,這一時間晚于Claude Mythos Preview 訓練數據的截止時間。
由于 USAMO 的答案是證明而不是簡短答案,評分可能具有挑戰性且帶有主觀性。我們采用 MathArena 的評分方法:先由一個中立模型(Gemini 3.1 Pro)對每份證明進行改寫,再由 3 個前沿模型組成的小組根據既定 rubric 評分(我們使用的是 Gemini 3.1 Pro、Claude Opus 4.6 和 Mythos Preview)。最終得分取任一評委給出的最低分。
Mythos Preview 在每道題上進行 10 次試驗、使用最大 effort 且不使用工具,最終取得了 97.6% 的成績。我們還使用 Claude Opus 4.6 對自己的 harness 進行了校準,使之對齊 MathArena 已公開分數:MathArena 測得 Opus 4.6 的分數為 47.0%,而我們測得的為 42.3%。
![]()
(2026年美國數學奧林匹克(USAMO)得分。Claude Mythos Preview在數學證明方面的表現遠優于 Claude Opus 4.6。)
我們注意到,3 位評委中有 2 位是 Anthropic 的模型,這可能會對 Mythos Preview 有利;不過作為平衡,Gemini 3.1 Pro 與這些評分保持一致,并且在 60 份解答中有 58 份完全沒有發現任何問題。
6.9長上下文:GraphWalks
GraphWalks 是一個多跳長上下文基準:上下文窗口被填入一個由十六進制哈希節點構成的有向圖,模型必須執行廣度優先搜索(BFS),或者從隨機起始節點識別父節點。
Claude Mythos Preview 在 BFS 256K-1M 上取得了 80.0%,在 parents 256K-1M 上取得了 97.7%,均為 5 次試驗的平均值[25]。與先前的Claude 模型一樣,我們的評分修正了已發布 F1 指標中的一個歧義,即當真實答案集合為空時,空預測應得 1.0 分而不是 0 分;同時,我們還對 BFS 提示進行了澄清,要求返回“恰好在深度 N 的節點”,而不是“深度不超過 N 的節點”。詳見 Claude Opus 4.6 System Card。
6.10智能體式搜索
6.10.1 Humanity's Last Exam
Humanity’s Last Exam(HLE)是一個“位于人類知識前沿的多模態基準”,共包含 2,500 道問題。
我們在兩種配置下測試了 Claude Mythos Preview:(1)僅推理,不使用工具;(2)使用網頁搜索、網頁抓取、程序化工具調用、代碼執行,并且每 50k tokens 進行一次上下文壓縮,最多擴展到 300 萬 tokens。Claude Opus 4.6 被用作模型評分器。
為了防止工具版本結果受到污染,我們對搜索器和抓取器都設置了已知討論 HLE 的來源黑名單(見附錄 [X])。我們還使用 Claude Opus 4.6 審閱全部對話軌跡,并標記任何看起來從 HLE 特定來源中檢索到答案的情況;一旦確認,這些案例會被重新判為錯誤。
Mythos Preview 在無工具設置下得分 56.8%,在有工具設置下得分 64.7%。
6.10.2 BrowseComp
BrowseComp 測試智能體在開放網絡上尋找難以定位信息的能力。我們使用網頁搜索、網頁抓取、程序化工具調用和代碼執行來運行 Claude Mythos Preview。Mythos Preview 在自適應思考、最大 effort 和 300 萬token 限額下取得了 86.9% 的成績。我們使用上下文壓縮(在 200k tokens 時觸發)來擴展超過 100 萬 token 的上下文窗口。
在我們的搜索工具條件下,我們認為這個基準已接近飽和,因此 Mythos Preview相比我們測得的 Claude Opus 4.6 最佳分數僅帶來了適度的準確率提升(86.9% 對 83.7%)。不過,該模型是用明顯更小的 token 足跡取得這一分數的:Mythos Preview 的最佳結果在每項任務上使用的 tokens 比 Opus 4.6 少4.9 倍(每項任務 226k 對 1.11M)。
需要說明的一點是預訓練污染。盡管我們已經盡最大努力進行防范,但仍有一些答案泄漏到了網上,而且幾乎沒有簡單方法能夠識別它們,這些答案很可能進入了我們的預訓練語料。為了估計污染程度,我們在不思考、也不使用工具的條件下評估模型,得分為 24.0%。不過,這其中一些對話軌跡很長(超過 5k tokens),并且顯示模型確實進行了真實的演繹推理,基于內部知識系統性地探索選項,這并不必然意味著它記住了答案。若僅限于短軌跡(不超過 5k tokens),只有 15.1% 的答案是正確的;這很可能是對該基準中記憶復現比例的一個更好的上界。在解釋這一基準上的分數時,應將這一點考慮在內。
![]()
(在上下文壓縮的幫助下,隨著我們增加模型被允許使用的總 token 數量,BrowseComp 的準確率也隨之提升。)
6.11多模態
對于 Claude Mythos Preview,我們相較于此前的 system card,對多模態評估方法做了三項修改。
第一,在此前的 system card 中,我們在所有多模態能力評估中都只給模型提供了一個圖像裁剪工具。而在這里,我們提供了一組擴展后的 Python 工具:一個預裝常見圖像分析庫(例如 PIL、OpenCV)的代碼執行沙箱,以及原有的圖像裁剪工具。
第二,我們更新了 CharXiv Reasoning 和 LAB-Bench FigQA 的評分模型。在評估我們的模型時,我們發現 Claude Sonnet 4(之前使用的評分器)有時無法輸出格式良好的評分結果,尤其是在被評估模型產生了較長工具使用軌跡時。這會人為壓低 LAB-Bench FigQA 和 CharXiv Reasoning 的分數。因此,我們將本節所有評估的評分器統一切換為 Claude Sonnet 4.6。
第三,我們更新了評分流程,以保留被評估模型的 thinking trace;而此前我們會在把對話軌跡傳給評分模型之前先移除這部分內容。我們發現,這一變化對分數幾乎沒有影響,唯一明顯的例外是 Claude Opus 4.6 在 CharXiv Reasoning 上的表現,當保留 thinking trace 進行評分時,它的分數會明顯更低。
為了實現公平比較,我們使用擴展后的工具集和新的評分器,重新評估了所有先前模型。下文報告的所有分數均為 5 次運行的平均值。
6.11.1 LAB-Bench FigQA
LAB-Bench FigQA 是一個視覺推理基準,用于測試模型能否正確解讀并分析生物學研究論文中復雜科學圖形所包含的信息。該基準屬于 FutureHouse 開發的 Language Agent Biology Benchmark(LAB-Bench)[26],用于評估 AI 在實際科學研究任務中的能力。
在自適應思考、最大 effort、且不使用工具的設置下,Claude Mythos Preview 在 FigQA 上取得了 79.7% 的成績。在自適應思考、最大 effort、且使用 Python 工具的設置下,Claude Mythos Preview 取得了 89.0% 的成績。在這兩種設置中,Claude Mythos Preview 都優于 Claude Opus 4.6,后者的分數分別為 58.5% 和 75.1%。Claude Sonnet 4.6 在相同設置下的分數分別為 59.3% 和 76.7%。
![]()
[模型在自適應思考(adaptive thinking)和最大努力(max effort)模式下進行評估,測試條件包括使用和不使用 Python 工具。專家人類基線數據引用自原始的 LAB-Bench 論文報告。分數為五次運行的平均值。圖中展示了 95% 置信區間(CI)。]
6.11.2 ScreenSpot-Pro
ScreenSpot-Pro 是一個GUI grounding 基準,用于測試模型在給定自然語言指令的情況下,能否在專業桌面應用程序的高分辨率截圖中,精確定位特定用戶界面元素[27]。該基準由新加坡國立大學及合作機構的研究人員開發,包含 1,581 個由專家標注的任務,覆蓋 23 款專業應用程序,包括 IDE、CAD軟件和創意工具,跨越 3 種操作系統;目標元素平均僅占屏幕面積的不到 0.1%。
在自適應思考、最大 effort、且不使用工具的設置下,Claude Mythos Preview 在 ScreenSpot-Pro 上取得了 79.5% 的成績。在自適應思考、最大 effort、且使用 Python 工具的設置下,Claude Mythos Preview 取得了 92.8% 的成績。在這兩種設置中,Claude Mythos Preview 都優于 Claude Sonnet 4.6,后者在無工具和有工具設置下分別為 65.0% 和 82.4%;也優于 Claude Opus 4.6,后者分別為 57.7% 和 83.1%。
![]()
[模型在自適應思考(adaptive thinking)和最大努力(max effort)模式下進行評估,測試條件包括使用和不使用 Python 工具。分數為五次運行的平均值。圖中展示了 95% 置信區間(CI)。]
6.11.3 CharXiv Reasoning
CharXiv Reasoning 是一個綜合性的圖表理解評測套件,基于來自 arXiv 論文、橫跨八個主要科學學科的 2,323 張真實世界圖表構建而成[28]。該基準測試模型是否能夠綜合復雜科學圖表中的視覺信息,回答需要多步推理的問題。
我們在驗證集中的 1,000 道問題上評估模型,并對 5 次運行的分數求平均。Claude Mythos Preview 在自適應思考、最大 effort、且不使用工具的設置下,在 CharXiv Reasoning 上取得了 86.1% 的成績。在自適應思考、最大 effort、且使用 Python 工具的設置下,Claude Mythos Preview 取得了 93.2% 的成績。Claude Opus 4.6 的分數分別為 61.5% 和 78.9%,Claude Sonnet 4.6 的分數則分別為 73.1% 和85.1%。
![]()
[模型在自適應思考(adaptive thinking)和最大努力(max effort)模式下進行評估,測試條件包括使用和不使用 Python 工具。分數為五次運行的平均值。圖中展示了 95% 置信區間(CI)。]
6.12 OSWorld
OSWorld 是一個多模態基準,用于評估智能體通過鼠標和鍵盤操作與實時 Ubuntu 虛擬機交互,從而完成真實世界計算機任務的能力,例如編輯文檔、瀏覽網頁和管理文件。我們采用了默認設置,即 1080p 分辨率,以及每項任務最多 100 個動作步驟。
Claude Mythos Preview 在 OSWorld 上取得了 79.6% 的成績(首次嘗試成功率,取 5 次運行平均)。
附:評測術語說明
獨立的評測項目或評測框架:
SWE-bench真實軟件工程問題評測,要求模型讀代碼、理解 issue、修改代碼并生成補丁。
Terminal-Bench測試模型在終端/命令行環境中執行真實任務的能力。
GPQA研究生難度的科學問答基準,強調高水平科學知識與推理。
MMMLU多語言、多學科知識與推理基準。
USAMO美國數學奧林匹克題目評測,主要考證明題。
GraphWalks長上下文圖結構推理基準,測試模型在超長上下文中的搜索與推理能力。
Humanity’s Last Exam(HLE) 高難度、多學科、多模態問題集,測試接近知識前沿的問題求解能力。
BrowseComp開放網絡搜索能力基準,測試模型查找和整合難找信息的能力。
LAB-Bench面向生物學研究任務的評測框架。
ScreenSpot-ProGUI grounding 基準,測試模型在截圖中定位界面元素的能力。
CharXiv基于 arXiv 論文圖表構建的圖表理解評測框架。
MMMU多學科、多模態理解基準,通常用于測圖文混合理解能力。
OSWorld桌面操作智能體基準,測試模型通過鼠標和鍵盤完成真實電腦任務的能力。
某個benchmark的細分版本:
SWE-bench VerifiedSWE-bench 經過人工驗證、確認可解的子集。
SWE-bench ProSWE-bench 更難、更接近真實工程環境的版本。
SWE-bench MultilingualSWE-bench 多編程語言版本。
SWE-bench MultimodalSWE-bench 加入截圖、設計稿等視覺信息的版本。
GPQA DiamondGPQA GPQA 中更難、更精華的子集。
LAB-Bench FigQALAB-Bench 專門測試科學圖表理解的子項。
CharXiv ReasoningCharXiv 強調圖表理解與多步推理的版本。
MMMU-ProMMMU 更高難度、更嚴格的版本。
BFS 256K-1MGraphWalks 要求在超長上下文里做廣度優先搜索的任務版本。
parents 256K-1MGraphWalks要求在超長上下文里識別父節點的任務版本。
系統卡完整報告:
https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.