<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Claude新模型4.6讓更多飯碗沒了:華爾街財務、編譯器、安全白帽

      0
      分享至

      衡宇 夢晨 發(fā)自 凹非寺
      量子位 | 公眾號 QbitAI

      一睜眼,Anthropic上新模型,讓Claude Opus 4.6來給您拜!年!了!

      消息一出,金融數(shù)據(jù)服務商FactSet最慘盤中暴跌10%,S&P Global、穆迪、納斯達克公司紛紛下跌,各大指數(shù)全線跳水。



      這已經(jīng)是Anthropic你小子本周第二次攪動市場了

      幾天前,它旗下一款自動化法律工作的插件悄悄上線,直接引爆了萬億美元級別的軟件股暴跌。

      投資者的恐慌聚焦在一個問題:誰能保證幾年內不被AI顛覆?不能就拋售。

      想不到今天的Anthropic更狠。

      今天以前,大家對Claude的印象,就是編程能力斷檔性的強。

      Claude Opus 4.6冷笑一聲,梆梆一拳打破這個印象:俺在更多的領域都很強!

      至少就官方說法而言,財務分析、研究,以及Office三件套,Claude Opus 4.6都可以玩兒得賊溜。



      官網(wǎng)直接寫到:

      • 在GDPval-AA(一項評估金融、法律和其他領域經(jīng)濟價值知識工作任務的性能指標)上,Opus 4.6比行業(yè)下一最佳模型OpenAI GPT-5.2高出144個Elo喲

      (這意味著Claude Opus 4.6在大約70%的情況下在這個評估中獲得比GPT-5.2更高的分數(shù),50%的情況下意味著分數(shù)相當)



      當然,編程這塊它依舊獨領風騷。

      在Agent編程評估Terminal-Bench 2.0中取得了最高分,并在“人類最后考試”中領先所有其他前沿模型。



      好消息是加量不加價,Opus 4.6的定價保持原有標準:每百萬token輸入/輸出,價格是5美元/25美元

      (為了方便閱讀,以下簡稱新模型為Opus 4.6)

      帶著 1M 上下文和自適應思考殺回巔峰

      Opus 4.6最直觀的進步就是有了1M Token超大上下文,這是Claude首次在Opus級別模型中引入這個長度的上下文窗口。



      這極大改善了Opus 4.6在處理長文本時會出現(xiàn)的“上下文衰減”情況。

      在MRCR v2 8-needle 1M基準測試——大海撈針——中,Opus 4.6得分76%,而Claude Sonnet 4.5只有18.5%。

      伴隨而來的結果是搜索能力的提升。

      在BrowseComp評測(評估在線檢索難獲取信息的能力)中,Opus 4.6排名行業(yè)第一,深度多步驟代理式搜索表現(xiàn)最佳,能精準定位分散在長文檔中的關鍵信息。



      Opus 4.6還引入了自適應思考(Adaptive Thinking)功能。

      以前,使用Claude模型的開發(fā)者只能二選一,擴展思考模式要么開,要么關。

      現(xiàn)在,Claude可以自己判斷什么時候需要深度推理。

      (講真,這一步比ChatGPT慢了哈,下次請搞快點上這種好功能)

      配套的effort參數(shù)提供四檔選擇——low、medium、high、max——,默認high,遇到模型過度思考的情況可以手動調低。

      另一個實用功能是上下文壓縮(Context Compaction)。

      當對話接近上下文窗口上限時自動摘要并替換舊內容,讓長對話和Agent任務更輕松。



      編碼、知識工作、搜索、推理等核心場景,殺爆了

      官方博客顯示,Opus 4.6一出,幾乎無模型能與其爭鋒。

      在編碼、知識工作、搜索、推理等核心場景,Opus 4.6有顯著突破

      多項評測成績超越前代及行業(yè)競品,be like:



      看完有了個大概印象,我們再一個一個掰開說。

      首先是編程能力。

      Opus 4.6在Terminal-Bench 2.0中拿到了最高分。

      從成績背后的實際能力來看,Opus 4.6能更周密地進行任務規(guī)劃,可在大型代碼庫中穩(wěn)定運行,代碼審查與調試精度提升。

      而且能自主發(fā)現(xiàn)自身錯誤。



      另一點是Opus 4.6支持多語言編碼,能處理跨語言軟件工程問題。

      它能像高級工程師一樣完成數(shù)百萬行代碼庫遷移,且用時實打實少一半那種。

      寫到這里的時候,我不禁在想:

      工程師們看到這個消息到底是高興得頭發(fā)都不掉了,還是會掉更快呢……(陷入沉思.jpg)

      其次,Opus 4.6也在積極入侵傳統(tǒng)辦公領地。

      這次它對Office三件套狠狠出手了。

      • 能直接在Excel里攝入凌亂的非結構化數(shù)據(jù),自行推斷合理的表格結構,一次操作中可處理多個復雜步驟;
      • 能銘記你公司的PPT模板,包括字體和布局風格也記住,確保生成的PPT沒啥AI味,讓老板以為是你熬夜框框一頓做的。



      在Cowork環(huán)境下,Opus 4.6可以代表用戶自主多任務運行,一邊跑財務分析,一邊把研究成果整理成文檔

      感覺,Anthropic有點想把Claude從聊天框里拉到更多空間里的意思?

      第三,我們來說說它在推理能力上的進步

      先上個總結:

      • Opus 4.6在跨領域推理上,更強了。

      在多學科復雜推理測試 “人類最后的考試” 中,Opus領先所有前沿模型。

      在法律領域,Opus 4.6在40%為滿分的BigLaw Bench上,得分90.2%。

      在金融、法律等經(jīng)濟價值導向任務評測GDPval-AA 中,Opus 4.6以144 Elo超越“行業(yè)競品”O(jiān)penAI GPT-5.2。

      無論是復雜的法律、金融專業(yè)知識還是刁鉆的學術研究,它的推理理解深度都達到了目前frontier models的頂峰。

      難得的是,這種智力的飛躍并沒有以犧牲安全性為代價

      在Anthropic最看重的自動化行為審計中,Opus 4.6的對齊水平極高,同時,欺騙、奉承等負面行為極低

      Opus 4.6甚至解決了目前AI圈普遍頭疼的“過度拒絕”問題——

      在面對正常的、無害的請求時,它比以往任何模型都更少地表現(xiàn)出那種死板的拒絕。




      目前,Opus 4,6已經(jīng)在官網(wǎng)、API和所有主流云平臺上線。

      加量不加價,Opus 4.6的定價保持原有標準:每百萬token輸入/輸出,價格是5美元/25美元

      不過在10M token上下文測試版本中,提示詞超過200k token的話會有額外付費。

      劃!重!點!

      想要使用Opus 4.6的話,需要在調用API的時候明確制定模型標識 “Claude-opus-4-6”。

      更多飯碗沒了

      16個Agent兩周寫完C編譯器,運行毀滅戰(zhàn)士

      Opus 4.6帶來的一項核心能力升級是Agent Teams,即多個Claude實例并行協(xié)作,無需人類實時監(jiān)督。

      Anthropic安全團隊的研究員Nicholas Carlini拿它做了個壓力測試:讓16個Agent從零開始用Rust寫一個能編譯Linux內核的C編譯器。

      兩周時間,近2000次Claude Code會話,燒掉20億輸入Token和1.4億輸出Token,總成本不到2萬美元。

      最終產(chǎn)出是一個10萬行的編譯器,能在x86、ARM和RISC-V三個架構上編譯Linux 6.9,還能跑Doom。

      這套并行機制讓每個Agent跑在獨立的Docker容器里,共享一個git倉庫。

      為了防止多個Agent撞車,都屁顛屁顛跑去解決同一個問題,系統(tǒng)用了一個簡單的鎖機制。

      Agent通過往current_tasks/目錄寫文件來”認領”任務,git的同步機制自動處理沖突。Agent之間沒有專門的通信協(xié)議,也沒有編排Agent,每個Claude自己決定下一步干什么。

      Carlini在博客里寫道:

      “當Agent開始編譯Linux內核時曾一度卡住,因為這是一個巨型單體任務,16個Agent全撞在同一個bug上互相覆蓋。”

      解法是引入GCC作為”oracle”對照組,讓每個Agent只編譯內核的隨機子集,通過二分法定位問題文件,這樣并行能力才真正發(fā)揮出來。

      500個零日漏洞,開箱即挖

      Opus 4.6在網(wǎng)絡安全領域的表現(xiàn)讓Anthropic自己都有點意外。

      在發(fā)布前的測試中,Anthropic的前沿紅隊把Opus 4.6扔進一個沙箱環(huán)境,給它Python和常規(guī)漏洞分析工具(fuzzer、debugger那些),沒有任何專門指令或領域知識,讓它自己去找開源代碼里的漏洞。

      結果它挖出了超過500個此前未知的高危零日漏洞

      每一個都經(jīng)過了Anthropic團隊成員或外部安全研究員的驗證的哦。



      具體案例包括:

      • 在GhostScript(一個處理PDF和PostScript文件的常用工具)中發(fā)現(xiàn)了一個可導致崩潰的漏洞,而且是在傳統(tǒng)fuzzing和人工分析都沒找到問題之后,Claude自己翻了項目的git提交歷史才挖出來的;
      • 在OpenSC(處理智能卡數(shù)據(jù)的工具)和CGIF(處理GIF文件的工具)中發(fā)現(xiàn)了緩沖區(qū)溢出漏洞;在CGIF那個案例里,Claude甚至主動寫了PoC(概念驗證代碼)來證明漏洞真實存在。

      Anthropic前沿紅隊負責人Logan Graham說,如果這成為未來開源軟件安全審計的主要方式之一,他一點也不驚訝。

      不過Anthropic也承認,這種能力可能被濫用。

      為此,團隊加了六套新的網(wǎng)絡安全探測機制,未來可能會上線實時攔截系統(tǒng)來阻止惡意流量。

      One More Thing

      官網(wǎng)顯示,Anhtropic現(xiàn)在已經(jīng)是“用Claude構建Claude”。

      自家工程師每天都在用Claude Code編寫代碼,每個新模型首先都在自己的工作環(huán)境中進行測試。



      參考鏈接:
      [1]https://www.anthropic.com/news/Claude-opus-4-6
      [2]https://www.anthropic.com/engineering/building-c-compiler
      [3]https://x.com/i/trending/2019496145987232014
      [4]https://www.axios.com/2026/02/05/anthropic-Claude-opus-46-software-hunting
      [5]https://techcrunch.com/2026/02/05/anthropic-releases-opus-4-6-with-new-agent-teams/
      [6]https://www.reddit.com/r/singularity/comments/1qwrrn7/Claude_opus_46_is_out/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      隨著波爾津吉斯的加盟,勇士這套全新首發(fā)陣容可保底進入季后賽!

      隨著波爾津吉斯的加盟,勇士這套全新首發(fā)陣容可保底進入季后賽!

      田先生籃球
      2026-02-05 20:10:49
      重慶之痛:一家老牌車企申請破產(chǎn)

      重慶之痛:一家老牌車企申請破產(chǎn)

      渝魯大道
      2026-02-06 10:13:15
      一想到孩子將來還要接受這樣的教育,就惆悵

      一想到孩子將來還要接受這樣的教育,就惆悵

      觀人隨筆
      2026-02-03 15:49:56
      網(wǎng)紅“神藥”更新說明書:可能影響性功能

      網(wǎng)紅“神藥”更新說明書:可能影響性功能

      南方都市報
      2026-02-06 09:29:02
      香煙再次被討論!專家發(fā)現(xiàn):腦梗常抽香煙,不用多久或有5變化

      香煙再次被討論!專家發(fā)現(xiàn):腦梗常抽香煙,不用多久或有5變化

      健身狂人
      2026-02-06 16:12:24
      訪陸最后一天,蕭旭岑獲特殊接待,大陸宣布重要決定,民進黨要急

      訪陸最后一天,蕭旭岑獲特殊接待,大陸宣布重要決定,民進黨要急

      知鑒明史
      2026-02-05 18:49:53
      3比1逆轉稱雄!21歲陳垣宇華麗蛻變,崛起為中國男單新銳利劍

      3比1逆轉稱雄!21歲陳垣宇華麗蛻變,崛起為中國男單新銳利劍

      卿子書
      2026-02-06 14:44:20
      收了李帥4萬元!31歲后衛(wèi)站法院門口拍照 起訴足協(xié):要讓骯臟現(xiàn)形

      收了李帥4萬元!31歲后衛(wèi)站法院門口拍照 起訴足協(xié):要讓骯臟現(xiàn)形

      風過鄉(xiāng)
      2026-02-06 07:21:24
      人民日報2次點名霍啟剛,一個特殊稱呼,讓香港四大家族沉默了

      人民日報2次點名霍啟剛,一個特殊稱呼,讓香港四大家族沉默了

      麥芽是個小趴菜
      2025-12-26 00:42:49
      搞笑圖片第1128期:父母的愛總來得那么猝不及防

      搞笑圖片第1128期:父母的愛總來得那么猝不及防

      今天的快樂
      2026-01-28 21:19:34
      愛潑斯坦私人飛機駕駛員:克林頓曾坐過26次,空姐像糖果脫衣舞娘

      愛潑斯坦私人飛機駕駛員:克林頓曾坐過26次,空姐像糖果脫衣舞娘

      海佑講史
      2026-02-05 13:00:05
      三喜臨門!趙繼偉夫婦再登遼視春晚,哈維寶刀未老,衛(wèi)猛為遼籃發(fā)聲

      三喜臨門!趙繼偉夫婦再登遼視春晚,哈維寶刀未老,衛(wèi)猛為遼籃發(fā)聲

      君馬體育
      2026-02-06 16:42:33
      湖人本季關鍵時刻15勝2負!球隊接下來魔鬼賽程 要打雷霆馬刺快船

      湖人本季關鍵時刻15勝2負!球隊接下來魔鬼賽程 要打雷霆馬刺快船

      Emily說個球
      2026-02-06 14:32:56
      剛剛, Claude Opus 4.6登頂編程之王! 殺入Office全家桶, 15億打工人變天

      剛剛, Claude Opus 4.6登頂編程之王! 殺入Office全家桶, 15億打工人變天

      新智元
      2026-02-06 07:19:30
      美媒疾呼:挑釁中國,日本根本承受不起!三重代價足以拖垮自身

      美媒疾呼:挑釁中國,日本根本承受不起!三重代價足以拖垮自身

      健身狂人
      2026-02-06 15:53:35
      重磅!高市早苗巨大丑聞被爆出

      重磅!高市早苗巨大丑聞被爆出

      能靜居主人
      2026-02-06 06:47:37
      九位明星家世顯赫如小說主角,白宇位列第九富可敵國

      九位明星家世顯赫如小說主角,白宇位列第九富可敵國

      清晨的鳥叫聲
      2026-02-06 09:41:13
      對越還擊戰(zhàn)中的那些叛徒,主動投敵行徑令人不齒,最終的結局無不大快人心

      對越還擊戰(zhàn)中的那些叛徒,主動投敵行徑令人不齒,最終的結局無不大快人心

      老杉說歷史
      2026-02-06 12:59:08
      阿拉伯人奉穆罕默德為圣人,殺害穆罕默德的子孫卻毫不留情!

      阿拉伯人奉穆罕默德為圣人,殺害穆罕默德的子孫卻毫不留情!

      優(yōu)趣紀史記
      2026-02-03 12:22:34
      重新開征農(nóng)業(yè)稅,激發(fā)農(nóng)民責任感和榮譽感?這是要把農(nóng)民逼上絕路

      重新開征農(nóng)業(yè)稅,激發(fā)農(nóng)民責任感和榮譽感?這是要把農(nóng)民逼上絕路

      剛哥說法365
      2025-09-24 16:33:59
      2026-02-06 17:32:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      12125文章數(shù) 176373關注度
      往期回顧 全部

      科技要聞

      獨角獸版圖巨變:SpaceX奔萬億 中美差在哪

      頭條要聞

      預制菜國標公開征求意見:預制菜保質期不應超1年

      頭條要聞

      預制菜國標公開征求意見:預制菜保質期不應超1年

      體育要聞

      西甲射手榜第2,身價不到姆巴佩1/40

      娛樂要聞

      微博之夜紅毯好精彩,堪比婚禮現(xiàn)場

      財經(jīng)要聞

      愛爾眼科卷入騙保疑云 公司回應

      汽車要聞

      這顏值真的可以!方程豹首款轎車叫"鎂7"還是"方程"?

      態(tài)度原創(chuàng)

      數(shù)碼
      時尚
      藝術
      旅游
      教育

      數(shù)碼要聞

      全能形態(tài)適配多元場景,這才是優(yōu)秀全能本該有的樣子

      開運首飾|| 300多到手天然珍珠、水晶,好意頭還顯貴氣

      藝術要聞

      Kristin Vestgard:挪威當代畫家

      旅游要聞

      即日起,“桃花峪—桃花源—山頂”步游路恢復正常開放

      教育要聞

      爸爸or媽媽,我愛你!男生:我平時就很愛你

      無障礙瀏覽 進入關懷版