在發布GPT-5.2系列模型一周后,OpenAI再次出手,美東時間18日周四推出基于GPT-5.2的新一代Codex模型GPT-5.2-Codex,號稱最先進的智能體編碼模型,聚焦專業軟件工程和防御性網絡安全,進一步鞏固其在AI編程領域對谷歌Gemini的競爭優勢。
OpenAI介紹,GPT-5.2-Codex在編碼性能、網絡安全能力和長周期任務處理上均實現突破。GPT-5.2-Codex在SWE-Bench Pro測試中準確率達到56.4%,在Terminal-Bench 2.0測試中達到64.0%,刷新兩項基準測試紀錄。該模型已于發布當天在所有Codex界面向付費ChatGPT用戶開放,API用戶接入正在推進中。
OpenAI特別強調GPT-5.2-Codex在網絡安全方面的顯著提升。CEO Sam Altman提到,本月早些時候,一名安全研究人員使用上一代模型GPT-5.1-Codex-Max就發現并負責任地披露了React中可能導致源代碼暴露的漏洞。OpenAI方面認為,新模型尚未達到"高"級別網絡安全能力,但公司正在為未來模型跨越這一門檻做準備。
OpenAI表示,GPT-5.2-Codex周四當天在所有Codex界面向付費ChatGPT用戶發布,正在努力在未來幾周內安全地為API用戶啟用訪問。該司計劃通過逐步推出、部署與保護措施相結合以及與安全社區密切合作的方式,在最大化防御影響的同時降低濫用風險。
本周四的發布延續了OpenAI在AI編程領域的進攻態勢。
上周發布GPT-5.2時,OpenAI就援引編碼初創公司的用戶體驗稱,該模型擁有“最先進的智能體編碼性能”,還披露GPT-5.2的Thinking版本在SWE編碼能力測試中創下歷史最高分,成為OpenAI首個性能達到或超過人類專家水平的模型。此舉被視為對谷歌Gemini 3在編碼和推理能力上獲得好評的直接回應。
編碼性能再升級,針對大規模實戰場景優化
GPT-5.2-Codex是GPT-5.2的優化版本,專門針對Codex中的智能體編碼進行了強化。OpenAI表示,新模型在三個關鍵領域實現改進:通過上下文壓縮提升長周期工作能力,在重構和遷移等項目級任務上表現更強,以及在Windows環境中性能改善。
在基準測試中,GPT-5.2-Codex在SWE-Bench Pro測試中準確率達到56.4%,高于GPT-5.2的55.6%和GPT-5.1的50.8%。在Terminal-Bench 2.0測試中,GPT-5.2-Codex準確率為64.0%,GPT-5.2為62.2%,GPT-5.1為58.1%。SWE-Bench Pro要求模型在給定代碼庫中生成補丁以解決實際軟件工程任務,Terminal-Bench 2.0則測試AI智能體在真實終端環境中完成編譯代碼、訓練模型和設置服務器等任務的能力。
![]()
GPT-5.2-Codex在長上下文理解、可靠的工具調用、改進的真實性和原生壓縮方面均有提升,使其成為長時間編碼任務中更可靠的合作伙伴,同時在推理過程中保持token效率。更強的視覺性能使GPT-5.2-Codex能夠更準確地解讀屏幕截圖、技術圖表和用戶界面,可以將設計稿快速轉化為功能原型。
![]()
OpenAI表示,憑借這些改進,Codex能夠在大型代碼庫中進行長時間工作,保持完整上下文,更可靠地完成大規模重構、代碼遷移和功能構建等復雜任務,即使計劃改變或嘗試失敗也不會失去追蹤。
網絡安全能力大幅躍升,為跨越"高"級別門檻做準備
網絡安全成為GPT-5.2-Codex的另一個重點突破領域。OpenAI在核心網絡安全評估中觀察到,從GPT-5-Codex開始能力出現急劇跳躍,GPT-5.1-Codex-Max又實現一次大幅提升,如今GPT-5.2-Codex完成第三次跳躍。
在專業奪旗賽評估中,GPT-5.2-Codex展現出解決需要專業級網絡安全技能的高級多步驟真實挑戰的能力。據OpenAI的準備框架評估,GPT-5.2-Codex雖然尚未達到"高"級別網絡安全能力,但該公司預計未來AI模型將繼續沿著這一軌跡發展,正在按照每個新模型都可能達到"高"級別的標準進行規劃和評估。
一個真實案例凸顯了新模型的防御性網絡安全潛力。12月11日,React團隊公布了三個影響使用React服務器組件構建的應用程序的安全漏洞。Stripe旗下Privy公司首席安全工程師Andrew MacPherson在使用GPT-5.1-Codex-Max與Codex CLI研究另一個名為React2Shell的嚴重漏洞時,通過引導Codex執行標準防御性安全工作流程,意外發現了這些此前未知的漏洞并負責任地向React團隊披露。
Altman在社交平臺上披露:“上周,一名使用我們上一代(Codex)模型的安全研究人員發現并披露了React中可能導致源代碼暴露的漏洞。我相信這些模型對網絡安全將產生凈收益,但隨著它們的改進,我們正處于'真實影響階段'。”
![]()
推出可信訪問計劃,為專業安全人員提供特殊權限
為平衡能力提升與安全風險,OpenAI針對網絡安全能力的增強在模型層面和產品層面都增加了額外保護措施,包括針對有害任務和提示注入的專門安全訓練、智能體沙箱以及可配置的網絡訪問。同時,公司正在進行僅限邀請的可信訪問計劃試點。
該計劃最初僅向經過審查的安全專業人員和具有明確專業網絡安全用例的組織開放。符合條件的參與者將獲得使用OpenAI最強大模型進行防御性工作的權限,使其能夠開展合法的雙重用途工作,如漏洞研究或授權的紅隊測試,同時消除安全團隊在模擬威脅行為者、分析惡意軟件或壓力測試關鍵基礎設施時可能遇到的限制。
Altman在X上表示:"我們正在開始探索用于防御性網絡安全工作的可信訪問計劃。"他還在另一條帖子中為Codex招聘打廣告:"Codex變得極其出色,并將快速改進。如果你想幫助它在明年變得好100倍,團隊正在招人。保證有瘋狂的冒險,成功的可能性很大。"
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.