網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GPT-5.2全力出擊！碾壓44類專業(yè)工作，實(shí)測編程同價(jià)位無對(duì)手、深度推理封神，但速度太拉胯了

2025-12-12 08:40:47　來源: AI前線

北京舉報(bào)

分享至

整理｜華衛(wèi)

剛剛，GPT-5.2來了。

一共三個(gè)版本：

GPT-5.2 Instant 是一款高效實(shí)用的日常工作與學(xué)習(xí)工具，在信息檢索問答、操作指引、技術(shù)文檔撰寫及翻譯等方面均有顯著優(yōu)化，同時(shí)延續(xù)了GPT-5.1 Instant親切自然的對(duì)話風(fēng)格。
GPT-5.2 Thinking 專為深度工作場景打造，可助力用戶更優(yōu)質(zhì)地完成復(fù)雜任務(wù)，尤其適用于編程開發(fā)、長篇文檔總結(jié)、上傳文件問答、數(shù)學(xué)邏輯分步推演，以及輸出結(jié)構(gòu)清晰、細(xì)節(jié)詳實(shí)的規(guī)劃與決策支持內(nèi)容。
GPT-5.2 Pro 是OpenAI針對(duì)高難度問題推出的最智能、最可靠的選擇，為獲取更高質(zhì)量的答案，所需等待時(shí)間會(huì)相應(yīng)增加。

OpenAI稱，這是迄今為止功能最強(qiáng)大的專業(yè)知識(shí)工作模型系列。在涵蓋44個(gè)職業(yè)、任務(wù)定義明確的知識(shí)型工作中，它的表現(xiàn)超越了行業(yè)專業(yè)人士。

總體而言，GPT-5.2 在通用智能、長上下文理解、智能體工具調(diào)用及視覺能力方面實(shí)現(xiàn)了大幅升級(jí)，相較以往任何一款模型，它在端到端執(zhí)行復(fù)雜的現(xiàn)實(shí)任務(wù)時(shí)表現(xiàn)更為出色。在制作電子表格、搭建演示文稿、編寫代碼、圖像識(shí)別、長文本理解、工具調(diào)用以及處理復(fù)雜多步驟項(xiàng)目等方面，該模型的能力均有提升。

“這是一個(gè)非常智能的模型，自 GPT-5.1 以來，我們已經(jīng)取得了長足的進(jìn)步。”O(jiān)penAI的CEO Sam Altman在社交平臺(tái)激動(dòng)地表示。微軟CEO Satya Nadella親自祝賀，并表示“GPT-5.2已上線到Copilot”，還引入到 Microsoft Foundry 和 Copilot Studio。

今日起，GPT-5.2 的即時(shí)版、思考版與專業(yè)版將在 ChatGPT 平臺(tái)中啟動(dòng)推送，優(yōu)先面向付費(fèi)套餐用戶開放。在編程接口端，上述版本現(xiàn)已向所有開發(fā)者開放。GPT-5.1將作為舊版模型，繼續(xù)向付費(fèi)用戶開放三個(gè)月，之后便會(huì)正式下線。

能頂 11 個(gè)專業(yè)人士，

經(jīng)濟(jì)性拉滿

“我們打造GPT-5.2的初衷，是為人們釋放更大的經(jīng)濟(jì)價(jià)值。”O(jiān)penAI強(qiáng)調(diào)，GPT-5.2 Thinking 是迄今為止最適合實(shí)際專業(yè)應(yīng)用的模型，也是其首款性能達(dá)到或超越人類專家水平的模型。

在覆蓋44個(gè)職業(yè)的特定知識(shí)工作任務(wù)的GDPval評(píng)測中，GPT-5.2 Thinking創(chuàng)下了新的最高分。同時(shí)根據(jù)人類專家評(píng)審結(jié)果，在GDPval知識(shí)型工作任務(wù)的對(duì)比測試中，GPT-5.2 Thinking在70.9%的項(xiàng)目上表現(xiàn)優(yōu)于或與頂尖行業(yè)專業(yè)人士持平。這些任務(wù)涵蓋制作演示文稿、電子表格及其他工作成果。

完成GDPval相關(guān)任務(wù)時(shí)，GPT-5.2 Thinking的產(chǎn)出速度是專業(yè)人士的11倍以上，成本卻不足其1%，這意味著在人工監(jiān)督配合下，GPT-5.2能夠?yàn)閷I(yè)工作提供助力。

一位GDPval評(píng)測人員評(píng)價(jià)道：“產(chǎn)出質(zhì)量實(shí)現(xiàn)了令人振奮且有目共睹的飛躍，看上去就像是由一家配備專業(yè)人員的公司完成的，兩份交付成果的版式設(shè)計(jì)與建議都出人意料地精良，不過其中一份仍存在幾處需要修正的小錯(cuò)誤。”

此外，在OpenAI針對(duì)初級(jí)投行分析師的電子表格建模任務(wù)的內(nèi)部基準(zhǔn)測試中，GPT-5.2 Thinking的單任務(wù)平均得分較GPT-5.1提升了9.3%，從59.1%攀升至68.4%。對(duì)比結(jié)果顯示，GPT-5.2 Thinking生成的電子表格與幻燈片，在復(fù)雜程度與格式規(guī)范性上均有顯著提升。

需注意的是，對(duì)于復(fù)雜內(nèi)容的生成過程，GPT-5.2 Thinking可能需要數(shù)分鐘時(shí)間。并且，要在ChatGPT中使用全新的電子表格與演示文稿生成功能，須訂閱Plus、Pro、商業(yè)版或企業(yè)版套餐，并選擇GPT-5.2 Thinking或Pro版。

“GPT-5.2 Thinking 是我們迄今為止性能最強(qiáng)的多模態(tài)視覺模型，將圖表推理與軟件界面理解任務(wù)的錯(cuò)誤率降低了約一半。”據(jù)介紹，相較于前代模型，GPT-5.2 Thinking 對(duì)圖像中各類元素的位置關(guān)系具備更強(qiáng)的感知能力，使其在相對(duì)布局對(duì)任務(wù)求解起關(guān)鍵作用的場景中表現(xiàn)更優(yōu)。

在日常專業(yè)工作場景中，這意味著該模型能更精準(zhǔn)地解讀數(shù)據(jù)儀表盤、產(chǎn)品截圖、技術(shù)原理圖與可視化報(bào)告，為金融、運(yùn)營、工程、設(shè)計(jì)及客戶支持等以視覺信息為核心的工作流提供有力支撐。

另值得一提的是，GPT-5.2 Thinking是OpenAI目前觀測到的首款在 4-needle MRCR 變體測試（詞元上限達(dá) 25.6 萬）中實(shí)現(xiàn)近乎 100% 準(zhǔn)確率的模型。在深度文檔分析這類需要調(diào)取數(shù)十萬詞元跨度關(guān)聯(lián)信息的現(xiàn)實(shí)任務(wù)中，GPT-5.2 Thinking 的準(zhǔn)確率遠(yuǎn)超 GPT-5.1 Thinking。

從實(shí)際應(yīng)用角度來看，這一能力讓專業(yè)人士可以借助 GPT-5.2 高效處理報(bào)告、合同、研究論文、會(huì)議記錄以及多文件項(xiàng)目等長篇文檔，同時(shí)在數(shù)十萬詞元的內(nèi)容跨度下保持邏輯連貫與結(jié)果準(zhǔn)確。這也讓 GPT-5.2 特別適用于深度分析、信息整合以及復(fù)雜的多來源工作流場景。

在 Tau2-bench Telecom 基準(zhǔn)測試中，GPT-5.2 Thinking 取得 98.7% 的成績，充分展現(xiàn)了其在冗長多輪任務(wù)中穩(wěn)定調(diào)用工具的能力。針對(duì)對(duì)延遲敏感的使用場景，GPT-5.2 Thinking 在零推理消耗模式下的表現(xiàn)同樣大幅提升，性能顯著優(yōu)于 GPT-5.1 與 GPT-4.1。

對(duì)于專業(yè)人士而言，這意味著端到端工作流的效率與穩(wěn)定性得到增強(qiáng)，比如處理客戶支持工單、從多個(gè)系統(tǒng)調(diào)取數(shù)據(jù)、開展分析并生成最終成果，整個(gè)流程的步驟中斷率更低。舉例來說，當(dāng)用戶提出需要多步驟解決的復(fù)雜客服問題時(shí)，該模型能夠更高效地協(xié)調(diào)多智能體完成全流程工作。

編程能力更抗打了，

但產(chǎn)出“龜速”

在SWE-Bench Pro基準(zhǔn)測試中，GPT-5.2 Thinking創(chuàng)下了55.6%的成績，該測試是針對(duì)現(xiàn)實(shí)場景軟件工程能力的嚴(yán)苛評(píng)估。與僅支持Python語言測試的SWE-Bench Verified不同，SWE-Bench Pro涵蓋四種編程語言，且在抗數(shù)據(jù)污染性、任務(wù)挑戰(zhàn)性、題型多樣性以及行業(yè)實(shí)用性上均有顯著提升。

在 SWE-bench Verified 基準(zhǔn)測試中，GPT-5.2 Thinking 取得了 80% 的全新高分。對(duì)于日常專業(yè)工作而言，這意味著 GPT-5.2 Thinking 能更穩(wěn)定地調(diào)試生產(chǎn)環(huán)境代碼、實(shí)現(xiàn)功能需求、重構(gòu)大型代碼庫，并且無需大量人工干預(yù)即可端到端地完成漏洞修復(fù)并上線。

前端軟件工程方面，GPT-5.2 Thinking 的表現(xiàn)也優(yōu)于 GPT-5.1 Thinking。早期測試者發(fā)現(xiàn)，它在前端開發(fā)以及復(fù)雜或非標(biāo)界面開發(fā)工作中表現(xiàn)顯著更出色，尤其是涉及 3D 元素的開發(fā)場景，這使其成為全棧工程師（Full Stack Engineer）高效的日常協(xié)作工具。以下為 GPT-5.2 Thinking 僅通過單條指令即可生成的部分成果示例：

Windsurf公司首席執(zhí)行官Jeff Wang評(píng)價(jià)道，“GPT-5.2 代表了自 GPT-5 以來 GPT 模型在智能編碼方面最大的飛躍，也是同價(jià)位產(chǎn)品中最先進(jìn)的編碼模型。版本號(hào)的提升遠(yuǎn)不足以體現(xiàn)其智能水平的飛躍。”據(jù)透露，GPT-5.2 Thinking已經(jīng)是Windsurf 和多個(gè) Devin 核心工作負(fù)載的默認(rèn)版本。

Cognition、Warp、Charlie Labs、JetBrains以及Augment Code表示，GPT-5.2 實(shí)現(xiàn)了業(yè)界頂尖的智能體編程性能，在交互式編程、代碼審查及漏洞排查等領(lǐng)域均取得了可量化的提升。

當(dāng)前，已有早期測試者分享了他們對(duì) GPT-5.2 編碼能力的反饋。HyperWriteAI的CEO Matt Shumer從11月25日開始使用GPT-5.2，經(jīng)過兩周在編程、研究、創(chuàng)意寫作和日常任務(wù)等方面的全面測試，他給出了如下評(píng)價(jià)：

GPT-5.2 Thinking 在指令遵循能力與攻堅(jiān)意愿上實(shí)現(xiàn)了實(shí)質(zhì)性的進(jìn)步。
其代碼生成能力較 GPT-5.1 有大幅提升，不僅功能更強(qiáng)、自主性更高、邏輯更嚴(yán)謹(jǐn)，還能編寫體量更大的代碼。
視覺與長上下文處理能力也得到顯著優(yōu)化，在圖像元素位置識(shí)別以及大型代碼庫處理方面的表現(xiàn)尤為突出。
速度問題是它的主要短板，思考模式應(yīng)對(duì)大部分問題時(shí)速度都很慢。
GPT-5.2 Pro 在深度推理方面的表現(xiàn)堪稱驚艷，但運(yùn)行速度偏慢，偶爾還會(huì)陷入持續(xù)運(yùn)算卻最終無法得出結(jié)果的情況。
在 Codex 命令行界面中，GPT-5.2 的編程表現(xiàn)是其用過的最接近專業(yè)版水準(zhǔn)的，但開啟能實(shí)現(xiàn)該性能的超高推理模式后，耗時(shí)會(huì)十分漫長。

自評(píng)“最優(yōu)科研模型”，

幻覺減少 30%？

“GPT-5.2 Pro 與 GPT-5.2 Thinking 是目前全球范圍內(nèi)助力和加速科研工作的最優(yōu)模型。”O(jiān)penAI稱。

在研究生級(jí)別的谷歌檢索驗(yàn)證問答基準(zhǔn)測試 GPQA Diamond 中，GPT-5.2 Pro 取得了 93.2% 的成績，緊隨其后的 GPT-5.2 Thinking 也達(dá)到了 92.4%。在專家級(jí)數(shù)學(xué)評(píng)測基準(zhǔn) FrontierMath（1–3 級(jí)）中，GPT-5.2 Thinking 成功解答了 40.3% 的題目。

據(jù)介紹，在近期一項(xiàng)借助 GPT-5.2 Pro 開展的研究工作中，科研人員探究了統(tǒng)計(jì)學(xué)習(xí)理論領(lǐng)域的一個(gè)開放性問題。在設(shè)定明確的限定場景下，該模型提出了一個(gè)證明過程，后續(xù)經(jīng)研究作者驗(yàn)證及外部專家評(píng)審確認(rèn)有效。

在用于衡量通用推理能力的基準(zhǔn)測試 ARC-AGI-1（驗(yàn)證版）中，GPT-5.2 Pro 成為首個(gè)突破90%得分門檻的模型，相較去年o3-preview版本87%的成績實(shí)現(xiàn)提升，同時(shí)將達(dá)成該性能的成本降低了約390倍。

在難度更高、更能精準(zhǔn)評(píng)估流體推理能力的 ARC-AGI-2（驗(yàn)證版）中，GPT-5.2 Thinking 為思維鏈模型取得52.9%的得分。GPT-5.2 Pro 的表現(xiàn)則更為出色，得分高達(dá)54.2%，進(jìn)一步拓展了模型在全新抽象問題上的推理能力。

Triple Whale 首席執(zhí)行官 AJ Orbach評(píng)價(jià)道，“GPT-5.2 帶來了架構(gòu)上的徹底變革，將一個(gè)脆弱的多智能體系統(tǒng)簡化為一個(gè)擁有 20 多個(gè)工具的超級(jí)智能體。這個(gè)超級(jí)智能體速度更快、更智能，維護(hù)起來也輕松了 100 倍。延遲顯著降低，工具調(diào)用更加強(qiáng)大，而且不再需要冗長的系統(tǒng)提示符，因?yàn)?5.2 版本只需一行簡單的提示符即可干凈利落地執(zhí)行。這簡直太神奇了。”

值得注意的是，GPT-5.2 Thinking 的幻覺現(xiàn)象較 GPT-5.1 Thinking 有所減少。在一組來自 ChatGPT 的匿名查詢中，含錯(cuò)誤的回復(fù)相對(duì)減少了 30%。對(duì)于專業(yè)人士而言，這意味著在利用該模型開展研究、寫作、分析及決策支持工作時(shí)，出錯(cuò)概率更低，使其在日常知識(shí)型工作中更具可靠性。

不過，OpenAI依然強(qiáng)調(diào)，“與所有模型一樣，GPT-5.2 Thinking 并非完美無缺。對(duì)于任何關(guān)鍵事務(wù)，請(qǐng)務(wù)必核實(shí)其給出的答案。”

價(jià)格方面，接入GPT-5.2后，ChatGPT的訂閱定價(jià)保持不變，而在API端，由于GPT-5.2的性能更為強(qiáng)大，其單詞元定價(jià)高于GPT-5.1。GPT-5.2的定價(jià)為：每百萬輸入詞元1.75美元，每百萬輸出詞元14美元，緩存輸入內(nèi)容可享90%的折扣優(yōu)惠。

未來幾周內(nèi)，OpenAI預(yù)計(jì)將再推出一款針對(duì)Codex優(yōu)化的GPT-5.2版本。目前，GPT-5.2在Codex平臺(tái)中也可直接投入使用。

https://openai.com/index/introducing-gpt-5-2/

聲明：本文為 AI前線整理，不代表平臺(tái)觀點(diǎn)，未經(jīng)許可禁止轉(zhuǎn)載。

會(huì)議預(yù)告

12 月 19～20 日，AICon 2025 年度收官站在北京舉辦。現(xiàn)已開啟 9 折優(yōu)惠。

兩天時(shí)間，聊最熱的 Agent、上下文工程、AI 產(chǎn)品創(chuàng)新等等話題，與頭部企業(yè)與創(chuàng)新團(tuán)隊(duì)的專家深度交流落地經(jīng)驗(yàn)與思考。2025 年最后一場，不容錯(cuò)過。

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.