凌晨,Anthropic和OpenAI同時上線了新模型Claude Opus 4.6和GPT-5.3-Codex,給兩家企業本就在為超級碗廣告互嗆的激烈氣氛又添了一把柴火。當全美觀眾還在為它倆斥資數百萬美元投放的互懟廣告津津樂道時,它們已經殺到了同日發新模型這樣的正面交鋒戰場上。
Anthropic發布Claude Opus 4.6:搭載處于Beta階段的1M上下文窗口
Anthropic發布了Claude Opus 4.6,其并非僅僅是參數量的增加,而是在多個關鍵維度上實現了實質性的更聰明和更可用。一個值得關注的亮點是它那處于Beta階段的1M上下文窗口。過去的模型在處理極長文本時,經常出現上下文腐化的問題,即模型性能隨著文本長度增加而顯著下降,導致它忘記或者混淆較早之前的信息。
而Claude Opus 4.6在著名的大海撈針基準測試MRCR v2上,成績達到了76%,遠超前代Sonnet 4.5的18.5%,這證明它能夠真正有效地利用超長下文,在海量文檔中精準定位并提取被深埋的關鍵信息,從而勝任大型代碼庫分析、多篇論文綜述、跨會話長程任務規劃等場景。
![]()
(來源:https://www.anthropic.com/news/claude-opus-4-6)
在推理能力和編碼能力上,Claude Opus 4.6在多項權威基準測試中確立了行業領先地位,特別是在需要自主規劃和多步執行的智能體編碼任務上。比如,在Terminal-Bench 2.0中它的測試成績排名第一。
實際表現就是,當你交給它一個復雜的開發任務時間,它會進行更加審慎的規劃,對代碼進行更加徹底的自我審查和自我調試,并能在大型項目中保持更好的方向感和一致性。也就是說不再是簡單地生成一段代碼,實際上是在扮演一個更有經驗的開發者角色。
為了讓這種深度能力更加容易被調控,Anthropic引入了努力程度(Effort)控制參數,開發者現在可以在低、中、高、最大這四個級別中進行選擇。
在高模式或者最大模式下,模型會投入更多計算資源進行深度思考,非常適合解決一些棘手問題;而對于簡單的查詢,切換到中模式或者低模式則可以獲得更快的響應并能降低成本。與之配套的自適應思考功能,則允許模型根據上下文自行判斷何時需要啟動深度推理,進一步提高了靈活性。
為了解決長會話或智能體任務中必然遇到的上文長度限制問題,API還能提供上下文壓縮Beta功能。當對話接近預設的token閾值時,模型會自動將較早的上下文進行智能摘要并替換,從而為新的交互騰出空間,讓超長程任務成為了可能,而不僅僅是理論上地支持長上下文。
![]()
(來源:https://www.anthropic.com/news/claude-opus-4-6)
在應用層,Claude正在深度融入生產力工具鏈。Claude Code引入了智能體團體的研究預覽功能,允許創建多個協同工作的AI智能體來并行處理任務,例如同時對代碼庫的不同模塊進行審查。
而對于更廣泛的辦公場景,Claude in Excel和全新推出的Claude in PowerPoint研究預覽版,將模型的推理能力和生成能力直接嵌入到電子表格和幻燈片制作中。它能執行公式操作,也能通過理解你的數據意圖進行多步規劃;在PPT中,它可以理解企業品牌模板和字體,生成風格一致的內容。
安全與能力對齊一直是Anthropic的重點之一。據了解,Opus 4.6在保持與頂尖模型相當的安全防護水平的同時,其過度拒絕的概率降低到了近期Claude模型中的最低點。這意味著它在有效攔截有害請求的同時,對于普通問題和良性問題的回應更加開放和有用。針對該模型的網絡安全能力,Anthropic也專門開發了新的檢測探針,并將其用于輔助發現和修復開源軟件漏洞等防御性用途。
總的來說,Claude Opus 4.6一定程度上代表著大模型正從對話式問答工具向可承擔復雜工作的智能體伙伴演進。它對于超長上下文的實用化支持、精細化的推理控制、以及深度集成的工作流,能夠進一步地提高用戶效率。
OpenAI推出GPT-5.3-Codex:可能是目前最強大的智能體編碼模型
OpenAI此次推出的是GPT-5.3-Codex,被稱為是迄今為止最強大的智能體編碼模型,能夠獨立接管涉及研究、工具使用和復雜執行的長期任務。也就是說,一個可以持續工作數天之久、可以從零開始構建出復雜游戲應用的AI誕生了,在它工作的過程中你可以隨時和其對話并調整工作方向,無需擔心失去長上下文記憶。
![]()
(來源:https://openai.com/index/introducing-gpt-5-3-codex/)
在多項關鍵基準測試中,GPT-5.3-Codex都創下了新的行業紀錄,以77.3%的準確率大幅超越了前代模型在衡量終端編程技能的Terminal-Bench 2.0基準測試上的表現,并在更嚴格的、涵蓋多語言的SWE-Bench Pro軟件工程測評中達到了領先水平。
GPT-5.3-Codex的能力邊界已經從純粹的編碼拓展到整個知識工作領域。在衡量真實世界職業任務的GDPval評估中,其表現能力與OpenAI的通用旗艦模型GPT-5.2相當。在制作金融分析PPT、設計零售培訓文檔以及編寫商業計劃書中,GPT-5.3-Codex能夠輸出專業的可使用內容。
![]()
(來源:https://openai.com/index/introducing-gpt-5-3-codex/)
OpenAI透露,GPT-5.3-Codex的開發過程本身就是一個自我實現的范例,OpenAI利用該模型的早期版本來調試其自身的訓練過程、管理部署并診斷測試結果,加速了整個模型的研發周期。總結來說,GPT-5.3-Codex的推出讓AI進一步地從一個等待指令的編程工具轉變為一個能主動思考、跨領域執行并與人類實時協作的電腦伙伴。
急于變現?OpenAI推出AI企業級產品Frontier
如果說這次同一天發布新品,OpenAI的贏點之一或許在多發了一樣新品,那就是企業級產品Frontier。它不是一個大模型,是一個專門為企業打造的、可用于規模化構建、能夠部署和管理AI智能體的平臺。它的核心目標是將模型能力,真正轉化為企業內可協同、可管控、能直接創造價值的AI同事。
![]()
(來源:https://openai.com/index/introducing-openai-frontie)
過去幾年,盡管許多企業嘗試引入AI,但往往陷入了試點困境,一個個獨立的AI應用像孤島一樣,缺乏對于企業整體業務背景的理解,難以融入核心流程。Frontier旨在解決這一問題,它為企業AI智能體提供了四大關鍵支撐:共享的業務背景理解、可靠的執行環境、持續的學習優化機制,以及明確的身份權限和安全邊界。
簡單來說,Frontier試圖像培訓一位剛入職的新員工一樣,來配置一個AI智能體。它會打通企業內部固有的數據倉庫、CRM系統和內部應用,讓AI理解信息如何流動、決策在何處產生。
在此基礎之上,AI智能體可以在一個受控的執行環境中,使用工具、運行代碼、處理文件,從而能夠實際地完成各種知識工作任務,并在過程中積累記憶,以便能夠越做越好而不是越做越差。同時,每個AI智能體都擁有獨立的身份和明確的權限護欄,確保其在敏感環境和受監管的環境里也能被安全地使用。
目前,OpenAI已經和惠普、甲骨文以及Uber等企業合作。OpenAI還舉了和一家大型制造商合作的案例,通過部署基于Frontier的智能體,后者將生產優化分析工作從六周縮短到了一天。
其實也可以看出,OpenAI的變現愿望是非常強的,此次伴隨新模型一并推出Frontier,也反映出其戰略重心正從提供單一的模型API轉向深入的企業復雜工作量,深入到提供端到端解決方案的地步。對于希望將AI轉化為實際競爭優勢的企業而言,Frontier或許是一個值得關注的備選方案。
而這一凌晨對決何嘗不是一個新的超級碗時刻?Anthropic的創始人本來就是OpenAI的前員工,讓這一對決更是增加了火藥味。
整體來看,Claude Opus 4.6的核心優勢在于精細控制和可靠性,GPT-5.3-Codex則展現了OpenAI的系統整合能力。前者勝在深度和可靠,后者強在廣度和進化速度。未來到底孰強孰弱,主要還看誰家產品能夠轉化為真正不可替代的產業發展成果。
參考資料:
https://www.anthropic.com/news/claude-opus-4-6
https://openai.com/index/introducing-gpt-5-3-codex/
https://openai.com/index/introducing-openai-frontier/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.