網易首頁 > 網易號 > 正文申請入駐

GPT-5.2來了！OpenAI稱其為“最強專業知識工作大模型”

2025-12-12 03:45:09　來源: 財聯社

上海舉報

分享至

財聯社12月12日訊（編輯史正丞）被谷歌逼到拉響“紅色警報”后，OpenAI周四終于端出了最新前沿模型GPT-5.2系列。

圖為OpenAI官網截圖

OpenAI介紹稱，GPT?5.2是迄今為止在“專業知識工作方面”表現最好的模型系列，在制作電子表格、制作演示文稿、圖像感知、編寫代碼以及理解長上下文等方面都優于前代產品。

GPT?5.2有三種不同的版本：Instant是針對常規查詢（如互聯網檢索、翻譯和寫作）進行速度優化的模型；Thinking擅長編程、數學、長文檔分析等復雜結構化工作；頂級型號Pro，旨在為棘手問題提供最大程度的準確性和可靠性。

OpenAI特別強調，GPT?5.2 Thinking是迄今為止最適合現實世界專業用途的模型。在評估涵蓋44個職業的知識型工作任務的GDPval測試中，有70.9%的對比結果優于或持平于頂尖行業專業人士，這些任務包括制作銷售演示文稿、會計電子表格、制造流程圖或短視頻等。

在評估涵蓋44個職業的知識型工作任務的GDPval測試中，有70.9%的對比結果優于或持平于頂尖行業專業人士

另外在金融AI領域，GPT?5.2Thinking的產出成果也明顯好于GPT-5.1。

OpenAI給出的示例顯示，GPT?5.2 Thinking在制作人力資源規劃模型、股權結構表和項目管理表格的任務中，產出成果較GPT?5.1 Thinking有肉眼可見的進步。

OpenAI給出的示例

除了做PPT和Excel表格外，OpenAI也表示，GPT-5.2在編碼、數學、科學、視覺、長文本推理以及工具使用等方面均刷新了基準成績。公司稱，這些能力的提升將有望帶來“更可靠的代理式工作流程、可用于生產環境的代碼，以及能夠在大規模上下文和真實世界數據中運行的復雜系統”。

橫向比較方面，GPT-5.2 Thinking在幾乎所有列出的推理測試中都略勝于Gemini 3和Anthropic的Claude Opus 4.5，涵蓋現實世界的軟件工程任務（SWE-Bench Pro）和博士級別的科學知識（GPQA Diamond），到抽象推理和模式發現（ARC-AGI套件）。

GPT-5.2 Thinking在幾乎所有列出的推理測試中都略勝于Gemini 3和Anthropic的Claude Opus 4.5

OpenAI產品負責人Max Schwarzer也在周四通報稱，GPT-5.2 Thinking的回復較前代減少了38%的錯誤，使該模型在日常決策、研究和寫作中更為可靠。

從周四開始，GPT?5.2將向所有ChatGPT付費用戶和API用戶推送。所以這個新模型到底有多么適合“打工”，很快就能見分曉。

作為OpenAI對谷歌的反擊，GPT?5.2僅僅是打出的“第一拳”。

公司CEO奧爾特曼在周四宣布，下周會給用戶們帶來一些“小小的圣誕禮物”。他也在周四表示，Gemini 3對公司各項指標的影響比原本擔心得要小。他還說，預計OpenAI將在明年1月“以非常強勁的姿態”退出目前的紅色警報狀態。

圖為奧爾特曼社媒發文截圖

OpenAI首席產品官Fidji Simo也在周四透露，現在已經開始在部分地區推出年齡估算系統，此舉旨在控制ChatGPT對18歲以下用戶回復的內容。Simo也表示，公司希望在明年一季度推出“成人模式”前先引入這一功能。

略有遺憾的是，周四的新品發布似乎聚焦于新模型的推理能力，沒有推出新的圖像生成器。而今年以來，為數不多的幾次現象級新品發布都與圖像、視頻生成產品有關。奧爾特曼的“紅色警報”備忘錄中，也提及要改善圖像生成能力。

此前有報道稱，OpenAI計劃在明年1月再發布一款新模型，具有更好的圖像能力和更完善的個性化特點，但公司周四未對這一傳言予以確認。

責任編輯：戴麗麗_NN4994

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.