<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Claude Opus 4.6和GPT 5.3 Codex同時更新,這波貪了,應該留到春晚再看的

      0
      分享至

      AI圈迎來了新年的第一個雙響炮啊,

      Anthropic剛發了Claude Opus 4.6,OpenAI也發了GPT?5.3-Codex,在Codex app里已經能用了。我這稿子寫一半直接重新寫啊。馬上來看看這兩模型的評分,它們強化了那些點,以及除了模型本身,還帶來了什么更新。

      先看跑分。

      Anthropic是第一次給Opus系列模型上100萬tokens的上下文窗口,在MRCRv2八針1M (大海撈針)測試里,比Sonnet 4.5高了57個點,我第一反應就是我一定要在clawdbot體驗一把Opus 4.6。

      除了記憶好,Opus 4.6在GDPval-AA(44個不同崗位的知識工作任務)上也超了GPT5.2 200多分,感覺Cowork又可以升級一波了。


      隔壁的GPT?5.3-Codex定位是個編程模型,融合了GPT-5.2-Codex的編碼性能和GPT-5.2的推理能力及專業知識,速度提升了 25%(codex有救了),離譜的是OSWorld-Verified(視覺桌面操作)上提升了快30個點,

      夯爆了。


      我仔細對比了一下兩張官方表,發現它們重合的數據集只有一個,Terminal-Bench 2.0,是在終端命令行里進行編程的測試。光看這個評分,GPT-5.3-Codex可以說是把Claude Opus 4.6給拉爆了,高了12個點。

      其他展示出來的數據不能直接拿來硬比,

      SWE-Bench(Agent編程)數據集人OpenAI用的是Pro版本,包含了四種語言。Claude Opus 4.6測評的SWE-Bench Verified只測試Python。

      OpenAI測試OSWorld-Verified比Claude Opus 4.6測的OSWorld測評出來的分數會更加可信,因為Verified修復了300多個數據問題。

      還是來看看它們單個都更新了啥,

      Claude Opus 4.6還在高難度Agent 搜索(DeepSearchQA / BrowseComp)上單 Agent比GPT-5.2 Pro多6個點,在多學科推理(Humanity's Last Exam / ARC AGI 2)上,同樣是工具配置拉滿的狀態下,比GPT5.2Pro多了3個點。



      GPT-5.3-Codex有個指標高到離譜,

      OSWorld-Verified(視覺桌面操作),

      用人話說就是讓AI看截圖換成各種電腦任務,人類基準是72%,GPT-5.2-Codex是38.2%,GPT-5.2是37.9%,

      融合這個兩個模型的優勢的GPT-5.3-Codex直接干到64.7%,跟這個比起來,其他的SWE-Bench Pro(Agent編程),Cybersecurity Capture The Flag Challenges(Agent安全攻防)和SWE-Lancer IC Diamond(修bug賺100萬挑戰)的5,6個點的提升都是常規操作了。


      再來看看應用案例。

      Anthropic這次都沒有放出Claude Opus 4.6跑的case,而且選擇把自家產品線更新了,

      Claude Code新功能agent teams(智能體團隊),可以讓多個Agent并行工作,適合用在像大規模代碼檢查之類可以被拆成很多個獨立子任務的場景。

      Claude in Excel也更新了,更新了規劃模式,還能給亂七八糟的非結構化數據,自動做一個合適的表格結構。

      還給PPT新出了 research preview,Claude能識別公司品牌的ppt模版,保證布局,字體,顏色都不會變,能針對單張幻燈片簡化文本和添加圖表,也可以一次性生成10張幻燈片再微調。


      OpenAI把更多時間放在showcase上,

      他們放了兩個用GPT-5.3-Codex構建的新游戲,但沒有像GPT-5.2-Codex那樣把完整提示語放出來。

      https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html

      兩個游戲我都完整打了一把,這個賽車真的不是抄馬里奧賽車的嗎,道具箱里還有泡泡和香蕉。

      https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/diving_game.html

      潛水我也玩了,本來是想當個超人,一口氣潛到最底的,但是潛到一半就體驗到為什么神秘園會說,那些專業人士潛進去就出不來了。。。

      他們還放出來一個我覺得很蠢的網頁case,理由是GPT-5.3-Codex做這個價格頁面的時候,會把年費展示成打個折的月費,而不是總金額。。。

      奧特曼沒活了可以去咬個打火機

      關于API和定價,Anthropic這次給API加了Adaptive thinking(自適應思考),由Claude 來判斷什么時候打開thinking模式。

      還有四檔Effort(努力程度)可選,默認是high(高),還有low(低),medium(中)和max(最大)。

      還有一個beta功能,當長期對話或者Agent任務快到打到上下文上限的時候,會自動把上下文壓縮成摘要,用摘要替換上下文。價格我做成表格了,


      GPT-5.3-Codex還沒有API,不過在app,CLI,IDE插件and網頁版都能用了,上線就全量,這很不openai。

      說句題外話,api形式的gpt4o一周后就沒了,這波屬于是時代的眼淚了。


      最后說說安全。

      這次兩家都花了不小的篇幅來談安全問題。我們還是用人話來解讀一下。


      Anthropic上來先亮了個圖,說這次升級沒有影響我們模型的安全性,這段時間我們做了兩件事。

      第一件事,努力搞清楚模型腦子里到底在想什么。

      他們在做一種可解釋性的新方法,目標是讓研究人員能看見模型為什么會在某些情況下給出某種回答。這樣做的好處是,很多問題在標準測評里不一定暴露,但當你能追到原因,就更容易提前發現風險,比如模型在某些邊緣場景會突然變得很會誤導人。

      第二件事,在模型擅長的領域加了更嚴的防護。

      他們發現 Opus 4.6 在網絡安全上能力更強,能修bug,也能拿去攻擊。所以他們做了六個新的網絡安全探針,用來檢測模型有沒有在輸出可能被濫用的內容。

      隔壁OpenAI在安全上也下了苦功夫,

      他們現在給開源項目免費做體驗,把一些熟悉的壞套路整理成話術識別規則,當我們給gpt發的問題跟某個套路很像的時候,模型就會自動降低問答的詳細程度。

      這次模型更新后,

      明顯感覺我的預期值變高了,以前更新模型我通常還會去測一下文本,代碼,3D的表現,

      但現在隨著Claude Code,Cowork,Clawdbot三連擊,我對于模型的表現處于薛定諤的貓狀態。

      太簡單的測起來沒意思,

      我們現在用Claude Code加一些模型,

      也能夠做到這樣的上限。

      太復雜的,我想以Agent的形式,

      放到我們已有的工作流里長時間來評估它的差異。

      說不定后面模型的更新會成為一種日常的迭代,

      發布會也不開了,

      開始卷Agent形態了,

      我就一個愿望,

      別光跟整理桌面較勁了,

      我桌面都快沒文件了。

      @ 作者 / 卡爾

      最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論

      如果想要第一時間收到推送,不妨給我個星標

      如果你有更有趣的玩法,歡迎在評論區和我聊聊

      更多的內容正在不斷填坑中……


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      蔣經國寫給宋慶齡的硬筆書信驚艷書壇!字跡畢恭畢敬!好似小學生

      蔣經國寫給宋慶齡的硬筆書信驚艷書壇!字跡畢恭畢敬!好似小學生

      鶴羽說個事
      2026-03-20 21:20:03
      和老伴在江蘇南京住了30天,實話實說:跟網上評價的完全不一樣

      和老伴在江蘇南京住了30天,實話實說:跟網上評價的完全不一樣

      星星沒有你亮
      2026-03-21 13:56:21
      雷軍:續航達到902公里,只用96.3度電;王興興、何小鵬、王傳?,F身新一代SU7發布會

      雷軍:續航達到902公里,只用96.3度電;王興興、何小鵬、王傳?,F身新一代SU7發布會

      大風新聞
      2026-03-19 20:15:21
      放進去就是做了,不放進去就是沒做

      放進去就是做了,不放進去就是沒做

      桉予
      2026-03-20 13:54:20
      中國農民倒了什么血霉,被這樣的人研究

      中國農民倒了什么血霉,被這樣的人研究

      多村來信
      2026-03-18 16:29:30
      李璇:王鈺棟需要低調務實、情商在線,才能走得更遠

      李璇:王鈺棟需要低調務實、情商在線,才能走得更遠

      懂球帝
      2026-03-21 12:24:27
      Cursor 新模型被指就是Kimi K2.5,聯創回應:確實是,下次我們會說清楚

      Cursor 新模型被指就是Kimi K2.5,聯創回應:確實是,下次我們會說清楚

      InfoQ
      2026-03-21 10:21:20
      大家坐穩扶好了,三個信號來了,銅價或將重演19年歷史!

      大家坐穩扶好了,三個信號來了,銅價或將重演19年歷史!

      小陸搞笑日常
      2026-03-21 12:13:59
      伊朗外長:伊朗有意允許與日本相關的船只通行霍爾木茲海峽

      伊朗外長:伊朗有意允許與日本相關的船只通行霍爾木茲海峽

      財聯社
      2026-03-21 10:45:04
      王鈺棟飄了!媒體人熱議:別給自己制造障礙,有名氣得學會尊重

      王鈺棟飄了!媒體人熱議:別給自己制造障礙,有名氣得學會尊重

      奧拜爾
      2026-03-21 12:12:03
      訪美的高市不笑了,面色扭曲,美媒提醒,中方還有更多反制手段

      訪美的高市不笑了,面色扭曲,美媒提醒,中方還有更多反制手段

      諾諾談史
      2026-03-21 12:27:43
      四年沖突一朝回本,普京也沒想到,美放緩制裁后,有人加價也要買

      四年沖突一朝回本,普京也沒想到,美放緩制裁后,有人加價也要買

      諦聽骨語本尊
      2026-03-20 17:12:32
      金價失守4600美元 國內多家銀行緊急收緊個人貴金屬業務

      金價失守4600美元 國內多家銀行緊急收緊個人貴金屬業務

      環球網資訊
      2026-03-20 10:43:07
      老板娘問我她屁股大不大?我該怎么回答?

      老板娘問我她屁股大不大?我該怎么回答?

      太急張三瘋
      2026-03-21 08:17:41
      黨毅飛半目擊敗申真谞,對小申信心的打擊是巨大的

      黨毅飛半目擊敗申真谞,對小申信心的打擊是巨大的

      月滿大江流
      2026-03-21 11:16:07
      特朗普的這個“玩笑”,就問高市尷不尷尬

      特朗普的這個“玩笑”,就問高市尷不尷尬

      極目新聞
      2026-03-20 13:39:31
      老中醫:我用黃芪救了無數個重疾患者!

      老中醫:我用黃芪救了無數個重疾患者!

      太極本草
      2026-03-17 06:33:03
      你有知道哪些炸裂的秘密?網友:我有個秘密說出來肯定大家要笑死

      你有知道哪些炸裂的秘密?網友:我有個秘密說出來肯定大家要笑死

      帶你感受人間冷暖
      2026-01-29 00:10:05
      打臉王勵勤?波爾:樊振東不太渴望回歸國乒!中國乒協并未聯系他

      打臉王勵勤?波爾:樊振東不太渴望回歸國乒!中國乒協并未聯系他

      念洲
      2026-03-20 18:46:12
      上海德云社開業僅1天,惡心一幕出現,楊議的“老毛病”又犯了

      上海德云社開業僅1天,惡心一幕出現,楊議的“老毛病”又犯了

      攬星河的筆記
      2026-03-21 13:37:23
      2026-03-21 14:35:00
      卡爾的AI沃茨 incentive-icons
      卡爾的AI沃茨
      前大廠算法工程師,3家科技公司技術總監|致力打造最系統的Al學習體系,讓1萬人通過Al提高生產力
      232文章數 117關注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      頭條要聞

      81歲老人呼吸衰竭 女兒曾拒絕插管:以為要失去爸爸了

      頭條要聞

      81歲老人呼吸衰竭 女兒曾拒絕插管:以為要失去爸爸了

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      CMG盛典獲獎名單:章子怡高葉同獲影后

      財經要聞

      通脹警報拉響,加息潮要來了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態度原創

      游戲
      本地
      時尚
      健康
      藝術

      泰國電競丑聞男女主判決出爐!刑期減至3個月拘留

      本地新聞

      春色滿城關不?。B興春日頂流,這片櫻花海藏不住了

      今年春天一定要擁有“這件衣服”,減齡又好看!

      轉頭就暈的耳石癥,能開車上班嗎?

      藝術要聞

      第四屆深圳大芬國際油畫雙年展 | 國際入選油畫選刊(二)

      無障礙瀏覽 進入關懷版