網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Claude新模型4.6讓更多飯碗沒了：華爾街財務、編譯器、安全白帽

2026-02-06 15:23:23　來源: 量子位

北京舉報

分享至

衡宇夢晨發(fā)自凹非寺
量子位 | 公眾號 QbitAI

一睜眼，Anthropic上新模型，讓Claude Opus 4.6來給您拜！年！了！

消息一出，金融數(shù)據(jù)服務商FactSet最慘盤中暴跌10%，S&P Global、穆迪、納斯達克公司紛紛下跌，各大指數(shù)全線跳水。

這已經(jīng)是Anthropic你小子本周第二次攪動市場了。

幾天前，它旗下一款自動化法律工作的插件悄悄上線，直接引爆了萬億美元級別的軟件股暴跌。

投資者的恐慌聚焦在一個問題：誰能保證幾年內不被AI顛覆？不能就拋售。

想不到今天的Anthropic更狠。

今天以前，大家對Claude的印象，就是編程能力斷檔性的強。

Claude Opus 4.6冷笑一聲，梆梆一拳打破這個印象：俺在更多的領域都很強！

至少就官方說法而言，財務分析、研究，以及Office三件套，Claude Opus 4.6都可以玩兒得賊溜。

官網(wǎng)直接寫到：

在GDPval-AA（一項評估金融、法律和其他領域經(jīng)濟價值知識工作任務的性能指標）上，Opus 4.6比行業(yè)下一最佳模型OpenAI GPT-5.2高出144個Elo喲

（這意味著Claude Opus 4.6在大約70%的情況下在這個評估中獲得比GPT-5.2更高的分數(shù)，50%的情況下意味著分數(shù)相當）

當然，編程這塊它依舊獨領風騷。

在Agent編程評估Terminal-Bench 2.0中取得了最高分，并在“人類最后考試”中領先所有其他前沿模型。

好消息是加量不加價，Opus 4.6的定價保持原有標準：每百萬token輸入/輸出，價格是5美元/25美元。

（為了方便閱讀，以下簡稱新模型為Opus 4.6）

帶著 1M 上下文和自適應思考殺回巔峰

Opus 4.6最直觀的進步就是有了1M Token超大上下文，這是Claude首次在Opus級別模型中引入這個長度的上下文窗口。

這極大改善了Opus 4.6在處理長文本時會出現(xiàn)的“上下文衰減”情況。

在MRCR v2 8-needle 1M基準測試——大海撈針——中，Opus 4.6得分76%，而Claude Sonnet 4.5只有18.5%。

伴隨而來的結果是搜索能力的提升。

在BrowseComp評測（評估在線檢索難獲取信息的能力）中，Opus 4.6排名行業(yè)第一，深度多步驟代理式搜索表現(xiàn)最佳，能精準定位分散在長文檔中的關鍵信息。

Opus 4.6還引入了自適應思考（Adaptive Thinking）功能。

以前，使用Claude模型的開發(fā)者只能二選一，擴展思考模式要么開，要么關。

現(xiàn)在，Claude可以自己判斷什么時候需要深度推理。

（講真，這一步比ChatGPT慢了哈，下次請搞快點上這種好功能）

配套的effort參數(shù)提供四檔選擇——low、medium、high、max——，默認high，遇到模型過度思考的情況可以手動調低。

另一個實用功能是上下文壓縮（Context Compaction）。

當對話接近上下文窗口上限時自動摘要并替換舊內容，讓長對話和Agent任務更輕松。

編碼、知識工作、搜索、推理等核心場景，殺爆了

官方博客顯示，Opus 4.6一出，幾乎無模型能與其爭鋒。

在編碼、知識工作、搜索、推理等核心場景，Opus 4.6有顯著突破。

多項評測成績超越前代及行業(yè)競品，be like：

看完有了個大概印象，我們再一個一個掰開說。

首先是編程能力。

Opus 4.6在Terminal-Bench 2.0中拿到了最高分。

從成績背后的實際能力來看，Opus 4.6能更周密地進行任務規(guī)劃，可在大型代碼庫中穩(wěn)定運行，代碼審查與調試精度提升。

而且能自主發(fā)現(xiàn)自身錯誤。

另一點是Opus 4.6支持多語言編碼，能處理跨語言軟件工程問題。

它能像高級工程師一樣完成數(shù)百萬行代碼庫遷移，且用時實打實少一半那種。

寫到這里的時候，我不禁在想：

工程師們看到這個消息到底是高興得頭發(fā)都不掉了，還是會掉更快呢……（陷入沉思.jpg）

其次，Opus 4.6也在積極入侵傳統(tǒng)辦公領地。

這次它對Office三件套狠狠出手了。

能直接在Excel里攝入凌亂的非結構化數(shù)據(jù)，自行推斷合理的表格結構，一次操作中可處理多個復雜步驟；
能銘記你公司的PPT模板，包括字體和布局風格也記住，確保生成的PPT沒啥AI味，讓老板以為是你熬夜框框一頓做的。

在Cowork環(huán)境下，Opus 4.6可以代表用戶自主多任務運行，一邊跑財務分析，一邊把研究成果整理成文檔。

感覺，Anthropic有點想把Claude從聊天框里拉到更多空間里的意思？

第三，我們來說說它在推理能力上的進步。

先上個總結：

Opus 4.6在跨領域推理上，更強了。

在多學科復雜推理測試 “人類最后的考試” 中，Opus領先所有前沿模型。

在法律領域，Opus 4.6在40%為滿分的BigLaw Bench上，得分90.2%。

在金融、法律等經(jīng)濟價值導向任務評測GDPval-AA 中，Opus 4.6以144 Elo超越“行業(yè)競品”O(jiān)penAI GPT-5.2。

無論是復雜的法律、金融專業(yè)知識還是刁鉆的學術研究，它的推理理解深度都達到了目前frontier models的頂峰。

難得的是，這種智力的飛躍并沒有以犧牲安全性為代價。

在Anthropic最看重的自動化行為審計中，Opus 4.6的對齊水平極高，同時，欺騙、奉承等負面行為極低。

Opus 4.6甚至解決了目前AI圈普遍頭疼的“過度拒絕”問題——

在面對正常的、無害的請求時，它比以往任何模型都更少地表現(xiàn)出那種死板的拒絕。

目前，Opus 4，6已經(jīng)在官網(wǎng)、API和所有主流云平臺上線。

加量不加價，Opus 4.6的定價保持原有標準：每百萬token輸入/輸出，價格是5美元/25美元。

不過在10M token上下文測試版本中，提示詞超過200k token的話會有額外付費。

劃！重！點！

想要使用Opus 4.6的話，需要在調用API的時候明確制定模型標識 “Claude-opus-4-6”。

更多飯碗沒了

16個Agent兩周寫完C編譯器，運行毀滅戰(zhàn)士

Opus 4.6帶來的一項核心能力升級是Agent Teams，即多個Claude實例并行協(xié)作，無需人類實時監(jiān)督。

Anthropic安全團隊的研究員Nicholas Carlini拿它做了個壓力測試：讓16個Agent從零開始用Rust寫一個能編譯Linux內核的C編譯器。

兩周時間，近2000次Claude Code會話，燒掉20億輸入Token和1.4億輸出Token，總成本不到2萬美元。

最終產(chǎn)出是一個10萬行的編譯器，能在x86、ARM和RISC-V三個架構上編譯Linux 6.9，還能跑Doom。

這套并行機制讓每個Agent跑在獨立的Docker容器里，共享一個git倉庫。

為了防止多個Agent撞車，都屁顛屁顛跑去解決同一個問題，系統(tǒng)用了一個簡單的鎖機制。

Agent通過往current_tasks/目錄寫文件來”認領”任務，git的同步機制自動處理沖突。Agent之間沒有專門的通信協(xié)議，也沒有編排Agent，每個Claude自己決定下一步干什么。

Carlini在博客里寫道：

“當Agent開始編譯Linux內核時曾一度卡住，因為這是一個巨型單體任務，16個Agent全撞在同一個bug上互相覆蓋。”

解法是引入GCC作為”oracle”對照組，讓每個Agent只編譯內核的隨機子集，通過二分法定位問題文件，這樣并行能力才真正發(fā)揮出來。

500個零日漏洞，開箱即挖

Opus 4.6在網(wǎng)絡安全領域的表現(xiàn)讓Anthropic自己都有點意外。

在發(fā)布前的測試中，Anthropic的前沿紅隊把Opus 4.6扔進一個沙箱環(huán)境，給它Python和常規(guī)漏洞分析工具（fuzzer、debugger那些），沒有任何專門指令或領域知識，讓它自己去找開源代碼里的漏洞。

結果它挖出了超過500個此前未知的高危零日漏洞。

每一個都經(jīng)過了Anthropic團隊成員或外部安全研究員的驗證的哦。

具體案例包括：

在GhostScript（一個處理PDF和PostScript文件的常用工具）中發(fā)現(xiàn)了一個可導致崩潰的漏洞，而且是在傳統(tǒng)fuzzing和人工分析都沒找到問題之后，Claude自己翻了項目的git提交歷史才挖出來的；
在OpenSC（處理智能卡數(shù)據(jù)的工具）和CGIF（處理GIF文件的工具）中發(fā)現(xiàn)了緩沖區(qū)溢出漏洞；在CGIF那個案例里，Claude甚至主動寫了PoC（概念驗證代碼）來證明漏洞真實存在。

Anthropic前沿紅隊負責人Logan Graham說，如果這成為未來開源軟件安全審計的主要方式之一，他一點也不驚訝。

不過Anthropic也承認，這種能力可能被濫用。

為此，團隊加了六套新的網(wǎng)絡安全探測機制，未來可能會上線實時攔截系統(tǒng)來阻止惡意流量。

One More Thing

官網(wǎng)顯示，Anhtropic現(xiàn)在已經(jīng)是“用Claude構建Claude”。

自家工程師每天都在用Claude Code編寫代碼，每個新模型首先都在自己的工作環(huán)境中進行測試。

參考鏈接：
[1]https://www.anthropic.com/news/Claude-opus-4-6
[2]https://www.anthropic.com/engineering/building-c-compiler
[3]https://x.com/i/trending/2019496145987232014
[4]https://www.axios.com/2026/02/05/anthropic-Claude-opus-46-software-hunting
[5]https://techcrunch.com/2026/02/05/anthropic-releases-opus-4-6-with-new-agent-teams/
[6]https://www.reddit.com/r/singularity/comments/1qwrrn7/Claude_opus_46_is_out/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.