<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Anthropic王炸Claude基準(zhǔn)測試泄露,卡皮巴拉細(xì)節(jié)曝光!還在代碼里下毒

      0
      分享至


      新智元報(bào)道

      編輯:Aeneas KingHZ

      【新智元導(dǎo)讀】剛剛,Anthropic神秘王炸Mythos的基準(zhǔn)測試泄露了,多項(xiàng)跑分直接刷新紀(jì)錄!另外,泄露源碼中還曝光出卡皮巴拉的細(xì)節(jié):代號(hào)capabara-v2-fast,支持1M上下文。

      過去24小時(shí),AI 圈的空氣里,都是焦灼和狂歡。

      先爆的是 Claude Code。

      Anthropic這款命令行終端工具的源碼意外泄露,很快就在GitHub上引發(fā)連鎖反應(yīng)。大量開發(fā)者沖進(jìn)去圍觀、Fork、拆解,隨后又出現(xiàn)了Python和Rust的「復(fù)刻版」。

      原本只屬于Anthropic內(nèi)部的實(shí)驗(yàn),轉(zhuǎn)眼變成了整個(gè)行業(yè)的「公開的秘密」。

      誰也沒想到,第二波泄露來得更快。

      就在剛剛,Anthropic疑似下一代旗艦重磅旗艦?zāi)P蚆ythos的基準(zhǔn)測試跑分,又又又泄露了。


      與以往Claude 4.x/5系列不同,Mythos被稱為獨(dú)立產(chǎn)品線,定位明顯更高。而從曝光的數(shù)據(jù)來看,它很可能是Anthropic目前最具野心的一次模型躍遷。

      從泄露信息來看,Mythos對(duì)比當(dāng)前強(qiáng)勢(shì)模型Opus 4.6,幾乎在所有關(guān)鍵指標(biāo)上都有明顯提升:

      • Terminal-Bench 2.0:78.4%(+13.0%)

      • SWE-bench Verified:87.4%(+6.6%)

      • OSWorld:79.6%(+6.9%)

      • BrowseComp:92.3%(+8.3%)

      • MCP Atlas:75.7%(+16.2%)

      • Finance Agent:82.1%(+21.4%)

      • GDPVal-AA-Elo: 2668 (+1062)

      • Humanity's Last Exam: 52.3% (無工具, +12.3%), 71.5% (有工具, +18.5%)


      如果這些數(shù)字屬實(shí),那Mythos顯然又是一個(gè)巨大的升級(jí)。不僅在性能上,而且在定位上。

      在智能體編碼任務(wù)上,78.4%的Terminal-Bench和87.4%的SWE-bench證明,Mythos效果出眾。

      這是愚人節(jié)玩笑,還是泄露的真實(shí)數(shù)據(jù)?

      有人特意用谷歌的AI內(nèi)容水印技術(shù)synthid驗(yàn)了一下這張圖,大概率不是AI生成的。


      還有人放出了無水印版基準(zhǔn)測試分?jǐn)?shù)。


      總之,如果,泄露分?jǐn)?shù)是真的,Anthropic恐怕要對(duì)Mythos收取天價(jià)!


      源代碼泄露,「卡皮巴拉」細(xì)節(jié)曝光

      另外,昨天泄露的Claude Code源代碼中,曝光了不少Anthropic「卡皮巴拉」模型的細(xì)節(jié)。


      從這些潛藏在代碼庫底層的蛛絲馬跡,可以解讀出不少信息:非常明顯,Anthropic不僅僅是在堆參數(shù),他們正在解決一個(gè)所有長文本模型都面臨的「隱形頑疾」。


      不同于大家猜測的Mythos(目前尚無實(shí)據(jù)),代碼中明確指向了名為capybara-v2-fast的新模型。


      它具有1M Context。顯而易見,百萬上下文現(xiàn)在都成了新一代模型的入場券了。

      既然有「fast」版本,按照Anthropic的慣例,后續(xù)大概率會(huì)跟進(jìn)能力更強(qiáng)的旗艦版。


      技術(shù)細(xì)節(jié):一場精密的提示詞手術(shù)

      最有趣的不是參數(shù),而是Anthropic如何處理生產(chǎn)環(huán)境下的模型故障。

      開發(fā)者發(fā)現(xiàn),當(dāng)Prompt的Shape在工具調(diào)用(Tool Use)返回結(jié)果后,如果長得太像一個(gè)「輪次邊界(Turn Boundary)」,Capybara會(huì)產(chǎn)生誤判,導(dǎo)致模型過早停止。

      因此,模型活還沒干完,就以為這輪對(duì)話結(jié)束了。

      為了修補(bǔ)這個(gè)Bug,Anthropic并沒有選擇單純重訓(xùn)模型,而是進(jìn)行了一場極為精密的「Prompt 手術(shù)」。

      首先,就是強(qiáng)制安全邊界,引入了Tool loaded.這樣的硬性邊界標(biāo)記。

      然后,要重新定位那些具有風(fēng)險(xiǎn)的「同級(jí)模塊(Sibling Blocks)」。

      另外,還有信息壓縮,就是將提醒文本(Reminder Text)直接「擠」進(jìn)工具結(jié)果中,確保模型能看到。

      針對(duì)空的工具輸出,還會(huì)強(qiáng)制添加非空標(biāo)記,防止模型在空白處「斷片」。

      這樣,一臺(tái)精密的提示詞手術(shù)就完成了。

      天狗(Tengu)守門

      此外,Anthropic內(nèi)部擁有一套名為tengu_*的灰度開關(guān)。


      這意味著所有這些針對(duì)Capybara的優(yōu)化都不是盲目上線的。

      因?yàn)橛兄鳮ill-switch(自殺開關(guān)),一旦rollout 出現(xiàn)異常,就可以秒級(jí)回滾。

      而且代碼注釋中包含了大量的A/B測試證據(jù)。

      有趣的是,ant/internal用戶(Anthropic員工)是第一波「金絲雀」,只有在內(nèi)部驗(yàn)證通過后,才會(huì)向外部用戶解鎖。


      泄露代碼中顯示,

      Anthropic竟在代碼里下毒

      現(xiàn)在,全網(wǎng)大神都對(duì)泄露的源代碼展開分析了,有人發(fā)現(xiàn):Anthropic變腹黑了?防友商白嫖,竟在代碼里下毒!

      在大模型圈,最讓底層廠商頭疼的事,莫過于辛辛苦苦跑出來的高質(zhì)量數(shù)據(jù),轉(zhuǎn)頭就被對(duì)手拿去搞了模型蒸餾。

      這不,有人從泄露的Claude Code底層代碼發(fā)現(xiàn),Anthropic 為了反抓取,竟然喪心病狂地內(nèi)置了兩套「反蒸餾全家桶」。

      第一招,就是「流式投毒」


      當(dāng)你在跑任務(wù)時(shí),Claude會(huì)在輸出流里偷偷摻沙子,隨機(jī)注入一堆虛假的工具調(diào)用指令。

      這些指令對(duì)你來說可能只是閃過的雜訊,但對(duì)于那些蹲在后臺(tái)抓取數(shù)據(jù)準(zhǔn)備訓(xùn)練的爬蟲來說,簡直就是劇毒的毒藥。

      如果拿回去訓(xùn)練自家模型,只會(huì)讓它越來越瘋。

      第二招,則是「打碼大法」


      為了不讓友商復(fù)刻Claude強(qiáng)大的Agent執(zhí)行邏輯,Anthropic把所有的工具調(diào)用細(xì)節(jié)都給模糊化了。

      反饋給輸出端的不再是詳細(xì)的邏輯步驟,而是像馬賽克一樣的簡短摘要。

      這次的爆料,也讓我們看到了Anthropic極其務(wù)實(shí)的一面。

      他們不只是追求性能,更是在細(xì)節(jié)上瘋狂「打補(bǔ)丁」,以確保在復(fù)雜的工具調(diào)用鏈條中,模型不會(huì)因?yàn)楦袷絾栴}而崩掉。

      雖然官方尚未公布正式的SKU命名或發(fā)布日期,但從代碼的成熟度來看,Capybara家族已經(jīng)箭在弦上。

      所以,「卡皮巴拉」會(huì)是Claude 3.5的升級(jí)版,還是全新的4.0系列模型呢?

      Anthropic,為何如此冷靜?

      有意思的是,面對(duì)如此大規(guī)模源代碼事件,Anthropic的態(tài)度倒是出奇的冷靜,他們只是默默地私下向GitHub倉庫發(fā)了DMCA(數(shù)字千年版權(quán)法)刪除通知。

      外媒得到的Anthropic解釋是,這次泄露事件屬于人為錯(cuò)誤導(dǎo)致的發(fā)布打包問題,因?yàn)闃?gòu)成安全漏洞。

      Claude Code之父Boris Cherny也否認(rèn)了這是由于bun的問題,只是輕描淡寫說了一句,「只是開發(fā)者的錯(cuò)誤」。


      或許,讓Anthropic如此淡定的原因,就是框架并不是護(hù)城河。


      不少圈內(nèi)人在復(fù)盤泄露的代碼后,得出了冷靜結(jié)論:Claude Code的框架本身并不神秘。 甚至有人直言不諱地指出,CC的框架只能算中規(guī)中矩,更像是基礎(chǔ)配置。

      在泄露發(fā)生之前,開源社區(qū)在任務(wù)編排、長上下文管理等細(xì)分維度上,已經(jīng)存在不少優(yōu)于CC的替代方案。


      但為什么Anthropic的產(chǎn)品依然讓開發(fā)者趨之若鶩?答案不在于那幾行Python或TypeScript代碼,而在于架構(gòu)工程。

      比如Prompt的精細(xì)堆疊、工具鏈的無縫銜接、模型的容錯(cuò)與自我糾正。這些細(xì)節(jié)絕非易事。

      源碼可以被復(fù)制,但這種對(duì)復(fù)雜系統(tǒng)的掌控力,是無法通過簡單的git clone獲得的。

      Cursor模式的成功就已經(jīng)證明了,即使基于別人的模型,只要能在產(chǎn)品體驗(yàn)和架構(gòu)深度上做到極致,依然能打造出讓開發(fā)者無法離開的「殺手級(jí)產(chǎn)品」。


      因此,CC這次源碼泄露,實(shí)際上是將一個(gè)原本專有的「工業(yè)級(jí)工具箱」拋向了荒野,這就降低了所有人構(gòu)建完善編碼智能體的門檻。

      未來要比拼的,就是誰能在這個(gè)開源的基石上,搭出最符合用戶直接的產(chǎn)品大廈。三個(gè)月,誰能長成新巨頭?

      多事之秋

      Anthropic人設(shè)翻車?

      Anthropic一直給自己立的人設(shè)是:一家行事謹(jǐn)慎的、造福全人類的AI公司。

      它發(fā)布關(guān)于AI風(fēng)險(xiǎn)的詳細(xì)研究成果,雇用了該領(lǐng)域最優(yōu)秀的一些研究人員。

      它也一直在公開討論,開發(fā)這類強(qiáng)AI技術(shù)時(shí)應(yīng)承擔(dān)怎樣的責(zé)任。

      所以,當(dāng)與美國國防部展開交鋒時(shí),Anthropic幾乎得到了全網(wǎng)聲援浪潮。

      然而,據(jù)上周四外媒報(bào)道,Anthropic承認(rèn)正在測試代表能力「跨越式變化」的新AI模型。


      Anthropic意外公開了近3000份內(nèi)部文件,其中包括一篇描述的博客草稿。


      之后,Anthropic確認(rèn)確有此事:

      新模型代碼Capybara,在軟件工程、學(xué)術(shù)推理和網(wǎng)絡(luò)安全上,大大提升了性能;

      已向一小群專注于網(wǎng)絡(luò)安全測試和防御準(zhǔn)備的早期用戶開放訪問權(quán)限。


      奇怪的是,Anthropic沒有阻止文件繼續(xù)泄露。

      連續(xù)的泄露事件,未必會(huì)立刻削弱Anthropic的模型實(shí)力,卻已經(jīng)開始動(dòng)搖它最寶貴的另一層護(hù)城河:外界對(duì)其內(nèi)部治理、工程紀(jì)律和「安全優(yōu)先」敘事的信任。

      當(dāng)一家以謹(jǐn)慎著稱的公司,反復(fù)因?yàn)樾孤墩镜骄酃鉄粝拢嬲芸简?yàn)的,就不只是產(chǎn)品發(fā)布節(jié)奏,而是它自己最看重的「人設(shè)」。

      參考資料:

      https://x.com/synthwavedd/status/2039102384241049956

      https://x.com/forloopcodes/status/2038942169311195432

      https://techcrunch.com/2026/03/31/anthropic-is-having-a-month/

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      234億虧損壓頂,郭廣昌凌晨致歉!這位“中國巴菲特”承認(rèn)看走眼?

      234億虧損壓頂,郭廣昌凌晨致歉!這位“中國巴菲特”承認(rèn)看走眼?

      圓維度
      2026-04-01 11:39:06
      霍爾木茲海峽,突傳大消息!特朗普最新發(fā)聲!美股、黃金拉升!原油跳水

      霍爾木茲海峽,突傳大消息!特朗普最新發(fā)聲!美股、黃金拉升!原油跳水

      證券時(shí)報(bào)e公司
      2026-04-01 22:21:50
      兄弟倆聯(lián)手創(chuàng)辦蘇寧,如今弟弟千億資產(chǎn)清零,哥哥卻走上另一條路

      兄弟倆聯(lián)手創(chuàng)辦蘇寧,如今弟弟千億資產(chǎn)清零,哥哥卻走上另一條路

      鯨探所長
      2026-03-24 14:38:04
      砸6700億建雄安,面積抵3個(gè)紐約,如今究竟咋樣了?

      砸6700億建雄安,面積抵3個(gè)紐約,如今究竟咋樣了?

      娛樂圈的筆娛君
      2026-03-26 12:15:32
      馬斯克大膽預(yù)言:第三次世界大戰(zhàn),中俄伊將聯(lián)手終結(jié)美西方統(tǒng)治

      馬斯克大膽預(yù)言:第三次世界大戰(zhàn),中俄伊將聯(lián)手終結(jié)美西方統(tǒng)治

      歲暮的歸南山
      2026-04-01 16:31:19
      《月鱗綺紀(jì)》首播翻車?觀眾差評(píng)一片,理由:劇情稀碎,濾鏡辣眼

      《月鱗綺紀(jì)》首播翻車?觀眾差評(píng)一片,理由:劇情稀碎,濾鏡辣眼

      一娛三分地
      2026-04-01 16:14:25
      弘一法師:不急不鬧,安心等待——老天給你的,比你想要的更周到

      弘一法師:不急不鬧,安心等待——老天給你的,比你想要的更周到

      杏花煙雨江南的碧園
      2026-04-01 16:15:03
      意大利主帥加圖索淚灑發(fā)布會(huì):再次缺席世界杯,我辜負(fù)了大家

      意大利主帥加圖索淚灑發(fā)布會(huì):再次缺席世界杯,我辜負(fù)了大家

      星耀國際足壇
      2026-04-02 00:57:02
      黃金價(jià)格大漲突破4700美元 國內(nèi)金飾每克大漲50元 金店人流銳減 專家:短期震蕩將持續(xù)

      黃金價(jià)格大漲突破4700美元 國內(nèi)金飾每克大漲50元 金店人流銳減 專家:短期震蕩將持續(xù)

      紅星新聞
      2026-04-01 19:01:42
      16GB+512GB,目前“價(jià)格雪崩”的3款手機(jī),“閉眼入”不吃虧

      16GB+512GB,目前“價(jià)格雪崩”的3款手機(jī),“閉眼入”不吃虧

      科技阿維
      2026-04-01 21:20:19
      莫拉蒂:加圖索承擔(dān)了超過自己能力的責(zé)任;有些人應(yīng)該離開

      莫拉蒂:加圖索承擔(dān)了超過自己能力的責(zé)任;有些人應(yīng)該離開

      懂球帝
      2026-04-02 01:35:11
      16GB+512GB!聯(lián)想官宣:4月3日,新品正式開售

      16GB+512GB!聯(lián)想官宣:4月3日,新品正式開售

      高科技愛好者
      2026-04-01 23:03:02
      中國導(dǎo)彈庫存多少,會(huì)比伊朗多嗎?

      中國導(dǎo)彈庫存多少,會(huì)比伊朗多嗎?

      龍牙的一座山
      2026-04-01 11:25:59
      混不下去了:皇家馬德里有意在今年夏天放4500萬歐元前鋒離開

      混不下去了:皇家馬德里有意在今年夏天放4500萬歐元前鋒離開

      本澤體育
      2026-04-01 05:46:37
      失業(yè)后在小縣城的兩年發(fā)現(xiàn),打麻將和性生活才是普通人底色!

      失業(yè)后在小縣城的兩年發(fā)現(xiàn),打麻將和性生活才是普通人底色!

      黯泉
      2026-04-01 17:44:20
      這首詞來歷不明,卻在網(wǎng)上瘋傳,讓無數(shù)人讀完久久不說話

      這首詞來歷不明,卻在網(wǎng)上瘋傳,讓無數(shù)人讀完久久不說話

      長風(fēng)文史
      2026-03-23 18:47:08
      稅收數(shù)據(jù)顯示:今年我國經(jīng)濟(jì)發(fā)展開局良好、向“新”發(fā)展

      稅收數(shù)據(jù)顯示:今年我國經(jīng)濟(jì)發(fā)展開局良好、向“新”發(fā)展

      新華社
      2026-04-01 15:53:03
      2日賽程調(diào)整,溫瑞博困難,王楚欽VS小布,陳幸同早班沒時(shí)間休息

      2日賽程調(diào)整,溫瑞博困難,王楚欽VS小布,陳幸同早班沒時(shí)間休息

      郝小小看體育
      2026-04-02 00:14:20
      輕斷食再次封神!復(fù)旦大學(xué)研究證實(shí),讓肝臟脂肪在5個(gè)月內(nèi)少20.5%

      輕斷食再次封神!復(fù)旦大學(xué)研究證實(shí),讓肝臟脂肪在5個(gè)月內(nèi)少20.5%

      健康之光
      2026-03-24 08:46:34
      全新ES8爆單成最大功臣!蔚來3月交付新車35386臺(tái) 同比大漲136%

      全新ES8爆單成最大功臣!蔚來3月交付新車35386臺(tái) 同比大漲136%

      快科技
      2026-04-01 18:03:11
      2026-04-02 01:55:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      14871文章數(shù) 66736關(guān)注度
      往期回顧 全部

      科技要聞

      甲骨文血洗3萬人,47人團(tuán)隊(duì)僅留3人

      頭條要聞

      小伙掃共享單車上的碼虧一套房首付 一夜白頭自扇巴掌

      頭條要聞

      小伙掃共享單車上的碼虧一套房首付 一夜白頭自扇巴掌

      體育要聞

      NBA擴(kuò)軍,和籃球無關(guān)?

      娛樂要聞

      張婉婷已決定離婚 找律師討論婚變事宜

      財(cái)經(jīng)要聞

      電商售械三水光針 機(jī)構(gòu)倒貨or假貨猖獗?

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態(tài)度原創(chuàng)

      家居
      教育
      健康
      本地
      公開課

      家居要聞

      經(jīng)典配色 晝色銀河

      教育要聞

      高考為什么要回收“草稿紙”?長知識(shí)了

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      本地新聞

      從學(xué)徒到世界冠軍,為什么說張雪的底氣在重慶?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版