![]()
整理|華衛(wèi)
剛剛,GPT-5.2來了。
一共三個(gè)版本:
GPT-5.2 Instant 是一款高效實(shí)用的日常工作與學(xué)習(xí)工具,在信息檢索問答、操作指引、技術(shù)文檔撰寫及翻譯等方面均有顯著優(yōu)化,同時(shí)延續(xù)了GPT-5.1 Instant親切自然的對(duì)話風(fēng)格。
GPT-5.2 Thinking 專為深度工作場景打造,可助力用戶更優(yōu)質(zhì)地完成復(fù)雜任務(wù),尤其適用于編程開發(fā)、長篇文檔總結(jié)、上傳文件問答、數(shù)學(xué)邏輯分步推演,以及輸出結(jié)構(gòu)清晰、細(xì)節(jié)詳實(shí)的規(guī)劃與決策支持內(nèi)容。
GPT-5.2 Pro 是OpenAI針對(duì)高難度問題推出的最智能、最可靠的選擇,為獲取更高質(zhì)量的答案,所需等待時(shí)間會(huì)相應(yīng)增加。
OpenAI稱,這是迄今為止功能最強(qiáng)大的專業(yè)知識(shí)工作模型系列。在涵蓋44個(gè)職業(yè)、任務(wù)定義明確的知識(shí)型工作中,它的表現(xiàn)超越了行業(yè)專業(yè)人士。
總體而言,GPT-5.2 在通用智能、長上下文理解、智能體工具調(diào)用及視覺能力方面實(shí)現(xiàn)了大幅升級(jí),相較以往任何一款模型,它在端到端執(zhí)行復(fù)雜的現(xiàn)實(shí)任務(wù)時(shí)表現(xiàn)更為出色。在制作電子表格、搭建演示文稿、編寫代碼、圖像識(shí)別、長文本理解、工具調(diào)用以及處理復(fù)雜多步驟項(xiàng)目等方面,該模型的能力均有提升。
“這是一個(gè)非常智能的模型,自 GPT-5.1 以來,我們已經(jīng)取得了長足的進(jìn)步。”O(jiān)penAI的CEO Sam Altman在社交平臺(tái)激動(dòng)地表示。微軟CEO Satya Nadella親自祝賀,并表示“GPT-5.2已上線到Copilot”,還引入到 Microsoft Foundry 和 Copilot Studio。
今日起,GPT-5.2 的即時(shí)版、思考版與專業(yè)版將在 ChatGPT 平臺(tái)中啟動(dòng)推送,優(yōu)先面向付費(fèi)套餐用戶開放。在編程接口端,上述版本現(xiàn)已向所有開發(fā)者開放。GPT-5.1將作為舊版模型,繼續(xù)向付費(fèi)用戶開放三個(gè)月,之后便會(huì)正式下線。
能頂 11 個(gè)專業(yè)人士,
經(jīng)濟(jì)性拉滿
“我們打造GPT-5.2的初衷,是為人們釋放更大的經(jīng)濟(jì)價(jià)值。”O(jiān)penAI強(qiáng)調(diào),GPT-5.2 Thinking 是迄今為止最適合實(shí)際專業(yè)應(yīng)用的模型,也是其首款性能達(dá)到或超越人類專家水平的模型。
在覆蓋44個(gè)職業(yè)的特定知識(shí)工作任務(wù)的GDPval評(píng)測中,GPT-5.2 Thinking創(chuàng)下了新的最高分。同時(shí)根據(jù)人類專家評(píng)審結(jié)果,在GDPval知識(shí)型工作任務(wù)的對(duì)比測試中,GPT-5.2 Thinking在70.9%的項(xiàng)目上表現(xiàn)優(yōu)于或與頂尖行業(yè)專業(yè)人士持平。這些任務(wù)涵蓋制作演示文稿、電子表格及其他工作成果。
完成GDPval相關(guān)任務(wù)時(shí),GPT-5.2 Thinking的產(chǎn)出速度是專業(yè)人士的11倍以上,成本卻不足其1%,這意味著在人工監(jiān)督配合下,GPT-5.2能夠?yàn)閷I(yè)工作提供助力。
![]()
一位GDPval評(píng)測人員評(píng)價(jià)道:“產(chǎn)出質(zhì)量實(shí)現(xiàn)了令人振奮且有目共睹的飛躍,看上去就像是由一家配備專業(yè)人員的公司完成的,兩份交付成果的版式設(shè)計(jì)與建議都出人意料地精良,不過其中一份仍存在幾處需要修正的小錯(cuò)誤。”
此外,在OpenAI針對(duì)初級(jí)投行分析師的電子表格建模任務(wù)的內(nèi)部基準(zhǔn)測試中,GPT-5.2 Thinking的單任務(wù)平均得分較GPT-5.1提升了9.3%,從59.1%攀升至68.4%。對(duì)比結(jié)果顯示,GPT-5.2 Thinking生成的電子表格與幻燈片,在復(fù)雜程度與格式規(guī)范性上均有顯著提升。
![]()
需注意的是,對(duì)于復(fù)雜內(nèi)容的生成過程,GPT-5.2 Thinking可能需要數(shù)分鐘時(shí)間。并且,要在ChatGPT中使用全新的電子表格與演示文稿生成功能,須訂閱Plus、Pro、商業(yè)版或企業(yè)版套餐,并選擇GPT-5.2 Thinking或Pro版。
“GPT-5.2 Thinking 是我們迄今為止性能最強(qiáng)的多模態(tài)視覺模型,將圖表推理與軟件界面理解任務(wù)的錯(cuò)誤率降低了約一半。”據(jù)介紹,相較于前代模型,GPT-5.2 Thinking 對(duì)圖像中各類元素的位置關(guān)系具備更強(qiáng)的感知能力,使其在相對(duì)布局對(duì)任務(wù)求解起關(guān)鍵作用的場景中表現(xiàn)更優(yōu)。
在日常專業(yè)工作場景中,這意味著該模型能更精準(zhǔn)地解讀數(shù)據(jù)儀表盤、產(chǎn)品截圖、技術(shù)原理圖與可視化報(bào)告,為金融、運(yùn)營、工程、設(shè)計(jì)及客戶支持等以視覺信息為核心的工作流提供有力支撐。
另值得一提的是,GPT-5.2 Thinking是OpenAI目前觀測到的首款在 4-needle MRCR 變體測試(詞元上限達(dá) 25.6 萬)中實(shí)現(xiàn)近乎 100% 準(zhǔn)確率的模型。在深度文檔分析這類需要調(diào)取數(shù)十萬詞元跨度關(guān)聯(lián)信息的現(xiàn)實(shí)任務(wù)中,GPT-5.2 Thinking 的準(zhǔn)確率遠(yuǎn)超 GPT-5.1 Thinking。
![]()
從實(shí)際應(yīng)用角度來看,這一能力讓專業(yè)人士可以借助 GPT-5.2 高效處理報(bào)告、合同、研究論文、會(huì)議記錄以及多文件項(xiàng)目等長篇文檔,同時(shí)在數(shù)十萬詞元的內(nèi)容跨度下保持邏輯連貫與結(jié)果準(zhǔn)確。這也讓 GPT-5.2 特別適用于深度分析、信息整合以及復(fù)雜的多來源工作流場景。
在 Tau2-bench Telecom 基準(zhǔn)測試中,GPT-5.2 Thinking 取得 98.7% 的成績,充分展現(xiàn)了其在冗長多輪任務(wù)中穩(wěn)定調(diào)用工具的能力。針對(duì)對(duì)延遲敏感的使用場景,GPT-5.2 Thinking 在零推理消耗模式下的表現(xiàn)同樣大幅提升,性能顯著優(yōu)于 GPT-5.1 與 GPT-4.1。
對(duì)于專業(yè)人士而言,這意味著端到端工作流的效率與穩(wěn)定性得到增強(qiáng),比如處理客戶支持工單、從多個(gè)系統(tǒng)調(diào)取數(shù)據(jù)、開展分析并生成最終成果,整個(gè)流程的步驟中斷率更低。舉例來說,當(dāng)用戶提出需要多步驟解決的復(fù)雜客服問題時(shí),該模型能夠更高效地協(xié)調(diào)多智能體完成全流程工作。
編程能力更抗打了,
但產(chǎn)出“龜速”
在SWE-Bench Pro基準(zhǔn)測試中,GPT-5.2 Thinking創(chuàng)下了55.6%的成績,該測試是針對(duì)現(xiàn)實(shí)場景軟件工程能力的嚴(yán)苛評(píng)估。與僅支持Python語言測試的SWE-Bench Verified不同,SWE-Bench Pro涵蓋四種編程語言,且在抗數(shù)據(jù)污染性、任務(wù)挑戰(zhàn)性、題型多樣性以及行業(yè)實(shí)用性上均有顯著提升。
![]()
在 SWE-bench Verified 基準(zhǔn)測試中,GPT-5.2 Thinking 取得了 80% 的全新高分。對(duì)于日常專業(yè)工作而言,這意味著 GPT-5.2 Thinking 能更穩(wěn)定地調(diào)試生產(chǎn)環(huán)境代碼、實(shí)現(xiàn)功能需求、重構(gòu)大型代碼庫,并且無需大量人工干預(yù)即可端到端地完成漏洞修復(fù)并上線。
前端軟件工程方面,GPT-5.2 Thinking 的表現(xiàn)也優(yōu)于 GPT-5.1 Thinking。早期測試者發(fā)現(xiàn),它在前端開發(fā)以及復(fù)雜或非標(biāo)界面開發(fā)工作中表現(xiàn)顯著更出色,尤其是涉及 3D 元素的開發(fā)場景,這使其成為全棧工程師(Full Stack Engineer)高效的日常協(xié)作工具。以下為 GPT-5.2 Thinking 僅通過單條指令即可生成的部分成果示例:
![]()
Windsurf公司首席執(zhí)行官Jeff Wang評(píng)價(jià)道,“GPT-5.2 代表了自 GPT-5 以來 GPT 模型在智能編碼方面最大的飛躍,也是同價(jià)位產(chǎn)品中最先進(jìn)的編碼模型。版本號(hào)的提升遠(yuǎn)不足以體現(xiàn)其智能水平的飛躍。”據(jù)透露,GPT-5.2 Thinking已經(jīng)是Windsurf 和多個(gè) Devin 核心工作負(fù)載的默認(rèn)版本。
Cognition、Warp、Charlie Labs、JetBrains以及Augment Code表示,GPT-5.2 實(shí)現(xiàn)了業(yè)界頂尖的智能體編程性能,在交互式編程、代碼審查及漏洞排查等領(lǐng)域均取得了可量化的提升。
當(dāng)前,已有早期測試者分享了他們對(duì) GPT-5.2 編碼能力的反饋。HyperWriteAI的CEO Matt Shumer從11月25日開始使用GPT-5.2,經(jīng)過兩周在編程、研究、創(chuàng)意寫作和日常任務(wù)等方面的全面測試,他給出了如下評(píng)價(jià):
GPT-5.2 Thinking 在指令遵循能力與攻堅(jiān)意愿上實(shí)現(xiàn)了實(shí)質(zhì)性的進(jìn)步。
其代碼生成能力較 GPT-5.1 有大幅提升,不僅功能更強(qiáng)、自主性更高、邏輯更嚴(yán)謹(jǐn),還能編寫體量更大的代碼。
視覺與長上下文處理能力也得到顯著優(yōu)化,在圖像元素位置識(shí)別以及大型代碼庫處理方面的表現(xiàn)尤為突出。
速度問題是它的主要短板,思考模式應(yīng)對(duì)大部分問題時(shí)速度都很慢。
GPT-5.2 Pro 在深度推理方面的表現(xiàn)堪稱驚艷,但運(yùn)行速度偏慢,偶爾還會(huì)陷入持續(xù)運(yùn)算卻最終無法得出結(jié)果的情況。
在 Codex 命令行界面中,GPT-5.2 的編程表現(xiàn)是其用過的最接近專業(yè)版水準(zhǔn)的,但開啟能實(shí)現(xiàn)該性能的超高推理模式后,耗時(shí)會(huì)十分漫長。
自評(píng)“最優(yōu)科研模型”,
幻覺減少 30%?
“GPT-5.2 Pro 與 GPT-5.2 Thinking 是目前全球范圍內(nèi)助力和加速科研工作的最優(yōu)模型。”O(jiān)penAI稱。
在研究生級(jí)別的谷歌檢索驗(yàn)證問答基準(zhǔn)測試 GPQA Diamond 中,GPT-5.2 Pro 取得了 93.2% 的成績,緊隨其后的 GPT-5.2 Thinking 也達(dá)到了 92.4%。在專家級(jí)數(shù)學(xué)評(píng)測基準(zhǔn) FrontierMath(1–3 級(jí)) 中,GPT-5.2 Thinking 成功解答了 40.3% 的題目。
據(jù)介紹,在近期一項(xiàng)借助 GPT-5.2 Pro 開展的研究工作中,科研人員探究了統(tǒng)計(jì)學(xué)習(xí)理論領(lǐng)域的一個(gè)開放性問題。在設(shè)定明確的限定場景下,該模型提出了一個(gè)證明過程,后續(xù)經(jīng)研究作者驗(yàn)證及外部專家評(píng)審確認(rèn)有效。
在用于衡量通用推理能力的基準(zhǔn)測試 ARC-AGI-1(驗(yàn)證版) 中,GPT-5.2 Pro 成為首個(gè)突破90%得分門檻的模型,相較去年o3-preview版本87%的成績實(shí)現(xiàn)提升,同時(shí)將達(dá)成該性能的成本降低了約390倍。
在難度更高、更能精準(zhǔn)評(píng)估流體推理能力的 ARC-AGI-2(驗(yàn)證版) 中,GPT-5.2 Thinking 為思維鏈模型取得52.9%的得分。GPT-5.2 Pro 的表現(xiàn)則更為出色,得分高達(dá)54.2%,進(jìn)一步拓展了模型在全新抽象問題上的推理能力。
Triple Whale 首席執(zhí)行官 AJ Orbach評(píng)價(jià)道,“GPT-5.2 帶來了架構(gòu)上的徹底變革,將一個(gè)脆弱的多智能體系統(tǒng)簡化為一個(gè)擁有 20 多個(gè)工具的超級(jí)智能體。這個(gè)超級(jí)智能體速度更快、更智能,維護(hù)起來也輕松了 100 倍。延遲顯著降低,工具調(diào)用更加強(qiáng)大,而且不再需要冗長的系統(tǒng)提示符,因?yàn)?5.2 版本只需一行簡單的提示符即可干凈利落地執(zhí)行。這簡直太神奇了。”
值得注意的是,GPT-5.2 Thinking 的幻覺現(xiàn)象較 GPT-5.1 Thinking 有所減少。在一組來自 ChatGPT 的匿名查詢中,含錯(cuò)誤的回復(fù)相對(duì)減少了 30%。對(duì)于專業(yè)人士而言,這意味著在利用該模型開展研究、寫作、分析及決策支持工作時(shí),出錯(cuò)概率更低,使其在日常知識(shí)型工作中更具可靠性。
![]()
不過,OpenAI依然強(qiáng)調(diào),“與所有模型一樣,GPT-5.2 Thinking 并非完美無缺。對(duì)于任何關(guān)鍵事務(wù),請(qǐng)務(wù)必核實(shí)其給出的答案。”
價(jià)格方面,接入GPT-5.2后,ChatGPT的訂閱定價(jià)保持不變,而在API端,由于GPT-5.2的性能更為強(qiáng)大,其單詞元定價(jià)高于GPT-5.1。GPT-5.2的定價(jià)為:每百萬輸入詞元1.75美元,每百萬輸出詞元14美元,緩存輸入內(nèi)容可享90%的折扣優(yōu)惠。
![]()
未來幾周內(nèi),OpenAI預(yù)計(jì)將再推出一款針對(duì)Codex優(yōu)化的GPT-5.2版本。目前,GPT-5.2在Codex平臺(tái)中也可直接投入使用。
https://openai.com/index/introducing-gpt-5-2/
聲明:本文為 AI前線整理,不代表平臺(tái)觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。
會(huì)議預(yù)告
12 月 19~20 日,AICon 2025 年度收官站在北京舉辦。現(xiàn)已開啟 9 折優(yōu)惠。
兩天時(shí)間,聊最熱的 Agent、上下文工程、AI 產(chǎn)品創(chuàng)新等等話題,與頭部企業(yè)與創(chuàng)新團(tuán)隊(duì)的專家深度交流落地經(jīng)驗(yàn)與思考。2025 年最后一場,不容錯(cuò)過。
今日薦文
你也「在看」嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.