網易首頁 > 網易號 > 正文申請入駐

OpenAI最強編程模型登場，實測竟又被Gemini 3 Flash按趴下

2025-12-19 12:08:17　來源: 智東西

北京舉報

分享至

智東西
編譯王欣逸
編輯程茜

智東西12月19日消息，今日凌晨，OpenAI發布最新編程模型GPT-5.2-Codex，該模型基于GPT-5.2，對智能體編程能力進行了深度優化，具體包括：提升了長程任務執行、大規模代碼變更、兼容Windows環境以及網絡安全防御等能力。OpenAI在博客中稱這是他們迄今為止最強的編程模型。

據OpenAI官方博客，GPT?5.2-Codex不僅繼承了GPT?5.2?的優勢，還融合了GPT?5.1-Codex-Max?的前沿智能體編程與終端操作能力，專為復雜的現實軟件工程和網絡安全等專業領域設計，

OpenAI已率先在Codex CLI、IDE擴展、云端以及代碼審查中發布了GPT?5.2-Codex，今日起已向所有付費ChatGPT用戶開放，API訪問也即將上線。

值得一提的是，GPT?5.2-Codex發布之前，谷歌剛宣布推出Gemini 3 Flash模型。有網友讓GPT?5.2-Codex的Gemini 3 Flash共同執行任務，結果，GPT?5.2-Codex敗下陣來，在對50個文件進行漏洞審查的任務中，Gemini 3 Flash用時1分2秒，發現了5個問題，而GPT-5.2-Codex用時4分48秒，僅發現了2個Gemini 3 Flash已找到的問題。

GPT?5.2-Codex的性能可能不及預期。有網友稱，GPT?5.2-Codex在SWE-Bench Pro上性能提升不到1%，還沒有發布SWE-Bench Verified結果，這不免讓人推測GPT?5.2-Codex并未達當前最優水平，在一些系統卡基準測試中還出現了性能退步。

據OpenAI官方博客，從功能上看，GPT?5.2-Codex新增了原生上下文壓縮技術，在長上下文理解、工具調用、事實準確性以及原生的上下文壓縮上表現提升，推理時Token使用效率提升，還能更精準地理解在編碼過程中共享的截圖、技術圖表、數據圖以及用戶界面。在原生Windows環境中，GPT?5.2-Codex對GPT?5.1-Codex-Max的能力做了進一步的升級，智能體編程表現更加高效和可靠。

GPT?5.2-Codex在實際軟件工程任務中的表現有所提升，包括了代碼庫導航、重構、Pull Request的創建與審查等方面。

從基準測試來看，GPT?5.2-Codex在評估修復真實世界代碼問題的SWE-Bench Pro基準測試中得分為56.4%，超越GPT-5.2的55.6%得分以及GPT-5.1的50.8%得分；在衡量編譯和服務器配置等任務的Terminal-Bench 2.0基準測試中，GPT?5.2-Codex得分為64.0%，顯著領先前代版本GPT?5.1-Codex-Max的58.1%，展示出了模型在使用命令行和終端解決代理任務的進步。

據OpenAI官方博客，在網絡安全領域，GPT?5.2-Codex在奪旗挑戰（CTF）中創下所有模型的最佳紀錄。從折線軌跡來看，我們也能得出，就網絡安全評估，OpenAI的模型能力正在持續提升。OpenAI博客稱，他們正在全面升級網絡安全防護，還引入可信訪問機制來支持防御工作。

OpenAI首席執行官薩姆·阿爾特曼（Sam Altman）稱，上周，一位安全研究人員利用GPT?5.1-Codex-Max發現并披露了React中的一個漏洞，該漏洞可能導致源代碼泄漏。這反映出了模型能力應用于網絡安全帶來的實際價值。阿爾特曼還提到，這些模型還在不斷改進中，最終會給網絡安全帶來益處。

結語：AI編程工具競爭加劇

GPT-5.2-Codex是OpenAI在編程模型上的又一次迭代，通過提升長程任務處理、大規模代碼變更和特定環境表現，它為復雜開發與安全研究提供了更強大的支持，有望成為發現和修復漏洞的有力工具。

在OpenAI本次更新之前，谷歌同日也發布了低成本的Gemini 3 Flash模型，AI編程賽道競爭持續激烈。就目前來看，號稱OpenAI最強編程模型的GPT-5.2-Codex在現實場景中的實際效能、與競爭對手產品的比較表現或許不及預期，該模型的實際應用效果和性能檢驗或將成為接下來的焦點。

來源：OpenAI、X

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.