財聯社12月12日訊(編輯 史正丞)被谷歌逼到拉響“紅色警報”后,OpenAI周四終于端出了最新前沿模型GPT-5.2系列。
![]()
圖為OpenAI官網截圖
OpenAI介紹稱,GPT?5.2是迄今為止在“專業知識工作方面”表現最好的模型系列,在制作電子表格、制作演示文稿、圖像感知、編寫代碼以及理解長上下文等方面都優于前代產品。
GPT?5.2有三種不同的版本:Instant是針對常規查詢(如互聯網檢索、翻譯和寫作)進行速度優化的模型;Thinking擅長編程、數學、長文檔分析等復雜結構化工作;頂級型號Pro,旨在為棘手問題提供最大程度的準確性和可靠性。
OpenAI特別強調,GPT?5.2 Thinking是迄今為止最適合現實世界專業用途的模型。在評估涵蓋44個職業的知識型工作任務的GDPval測試中,有70.9%的對比結果優于或持平于頂尖行業專業人士,這些任務包括制作銷售演示文稿、會計電子表格、制造流程圖或短視頻等。
![]()
在評估涵蓋44個職業的知識型工作任務的GDPval測試中,有70.9%的對比結果優于或持平于頂尖行業專業人士
另外在金融AI領域,GPT?5.2Thinking的產出成果也明顯好于GPT-5.1。
OpenAI給出的示例顯示,GPT?5.2 Thinking在制作人力資源規劃模型、股權結構表和項目管理表格的任務中,產出成果較GPT?5.1 Thinking有肉眼可見的進步。
![]()
![]()
![]()
OpenAI給出的示例
除了做PPT和Excel表格外,OpenAI也表示,GPT-5.2在編碼、數學、科學、視覺、長文本推理以及工具使用等方面均刷新了基準成績。公司稱,這些能力的提升將有望帶來“更可靠的代理式工作流程、可用于生產環境的代碼,以及能夠在大規模上下文和真實世界數據中運行的復雜系統”。
橫向比較方面,GPT-5.2 Thinking在幾乎所有列出的推理測試中都略勝于Gemini 3和Anthropic的Claude Opus 4.5,涵蓋現實世界的軟件工程任務(SWE-Bench Pro)和博士級別的科學知識(GPQA Diamond),到抽象推理和模式發現(ARC-AGI套件)。
![]()
GPT-5.2 Thinking在幾乎所有列出的推理測試中都略勝于Gemini 3和Anthropic的Claude Opus 4.5
OpenAI產品負責人Max Schwarzer也在周四通報稱,GPT-5.2 Thinking的回復較前代減少了38%的錯誤,使該模型在日常決策、研究和寫作中更為可靠。
從周四開始,GPT?5.2將向所有ChatGPT付費用戶和API用戶推送。所以這個新模型到底有多么適合“打工”,很快就能見分曉。
作為OpenAI對谷歌的反擊,GPT?5.2僅僅是打出的“第一拳”。
公司CEO奧爾特曼在周四宣布,下周會給用戶們帶來一些“小小的圣誕禮物”。他也在周四表示,Gemini 3對公司各項指標的影響比原本擔心得要小。他還說,預計OpenAI將在明年1月“以非常強勁的姿態”退出目前的紅色警報狀態。
![]()
圖為奧爾特曼社媒發文截圖
OpenAI首席產品官Fidji Simo也在周四透露,現在已經開始在部分地區推出年齡估算系統,此舉旨在控制ChatGPT對18歲以下用戶回復的內容。Simo也表示,公司希望在明年一季度推出“成人模式”前先引入這一功能。
略有遺憾的是,周四的新品發布似乎聚焦于新模型的推理能力,沒有推出新的圖像生成器。而今年以來,為數不多的幾次現象級新品發布都與圖像、視頻生成產品有關。奧爾特曼的“紅色警報”備忘錄中,也提及要改善圖像生成能力。
此前有報道稱,OpenAI計劃在明年1月再發布一款新模型,具有更好的圖像能力和更完善的個性化特點,但公司周四未對這一傳言予以確認。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.