在各種小道消息,各種預(yù)測之后。
終于,在OpenAI十周年的這一天。
![]()
也就是今天的凌晨2點(diǎn),GPT-5.2終于跟大家見面了。
![]()
這是Gemini 3 Pro爆火,第一次讓OpenAI沒有領(lǐng)先優(yōu)勢(shì),奧特曼在內(nèi)部官宣紅色警戒狀態(tài)之后,他們掏出的第一款模型。
也是OpenAI的十周年獻(xiàn)禮。
而這款模型的特點(diǎn)也非常有意思。
OpenAI的原話是:
We are introducing GPT?5.2, the most capable model series yet for professional knowledge work.(我們正式發(fā)布 GPT-5.2,這是迄今為止在專業(yè)知識(shí)工作方面能力最強(qiáng)的一代模型系列。)
專業(yè)知識(shí)工作,記住這個(gè)關(guān)鍵詞,后面要考。
我們先從各種跑分上看,其實(shí)能看到,一些跑分其實(shí)沒有質(zhì)的飛躍,有一種數(shù)碼廠開始擠牙膏的感覺。。。
![]()
對(duì)比了GPT-5.2、GPT-5.1、Claude Opus 4.5和Gemini 3 Pro。
在軟件工程(SWE-Bench Pro)、科學(xué)問題(GPQA Diamond)、數(shù)學(xué)競賽(AIME 2025)這些傳統(tǒng)評(píng)測集上。
GPT-5.2確實(shí)又強(qiáng)了一些,也回到了第一的位置,全面領(lǐng)先。
在前端審美還有3D元素上,表現(xiàn)的更牛逼了。
![]()
在視覺理解能力上也更強(qiáng)了。
比如要求模型識(shí)別圖像輸入中的組件,并返回帶有近似邊界框的標(biāo)簽。
即使在低質(zhì)量的圖像上,GPT-5.2也能識(shí)別主要區(qū)域并放置與每個(gè)組件真實(shí)位置大致匹配的框,而GPT-5.1只標(biāo)注了幾個(gè)部分,對(duì)它們的空間排列理解不是很好。
![]()
但是這些東西,說實(shí)話,確實(shí)也就那樣,大家很難體感上還覺得有多牛逼。
就像芯片廠子告訴你,我的手機(jī)芯片性能又提升了25%,你聽了以后,哦確實(shí)強(qiáng),但是完全不影響你繼續(xù)刷抖音和小紅書對(duì)吧。
不過有兩個(gè)評(píng)測集,是我覺得這次GPT-5.2最大的亮點(diǎn),且一定要單拎出來,跟大家單獨(dú)聊一下的。
一個(gè)是ARC-AGI-2,一個(gè)是GDPval。
這兩個(gè),非常有意思。
![]()
先說ARC-AGI-2。
過去的AI評(píng)測,比如MMLU,考的主要是是知識(shí)。
比如它會(huì)問你“美國第一任總統(tǒng)是誰?”、“光合作用的化學(xué)方程式是什么?”。
這種評(píng)測呢,坦率的講,對(duì)于一個(gè)讀了半個(gè)互聯(lián)網(wǎng)的AI來說,有點(diǎn)像開卷考試,它有很大概率不是真的推理出來的,而是背出來的。
這就導(dǎo)致一個(gè)問題,在實(shí)際的評(píng)測中,我們分不清AI是真的聰明,還是只是記性好。
于是,F(xiàn)ran?ois Chollet,就是那位Keras(一個(gè)著名的機(jī)器學(xué)習(xí)框架)之父,2019年第一次在論文《On the Measure of Intelligence》里,提出了ARC這個(gè)變態(tài)測試。
而這個(gè)測試,跟知識(shí)儲(chǔ)備一毛錢關(guān)系都沒有。
全名叫,Abstraction and Reasoning Corpus,抽象與推理語料庫。
設(shè)計(jì)目標(biāo)就是測模型的通用智能的能力。
大概就是,不看你在某一道題上有多熟練,而是是看你在沒見過的新題上,能不能自己推理出規(guī)則、舉一反三。
目前正式版發(fā)展到了第二代,也就是ARC-AGI-2,我給大家放一下,ARC-AGI-2里面的一些典型的題目,大家就懂了。
![]()
![]()
![]()
這種能力,現(xiàn)在稱為流體智力
(Fluid Intelligence),意思就是指不依賴于已有的知識(shí),在全新情境下進(jìn)行邏輯推理、識(shí)別模式和解決問題的能力。
悟性開竅的能力。
說白了,就是你的
這玩意兒對(duì)AI來說,難于登天。
因?yàn)樗诨ヂ?lián)網(wǎng)上找不到任何現(xiàn)成的答案,它必須當(dāng)場理解、當(dāng)場推理
在很長一段時(shí)間里,頂級(jí)AI的得分都低得可憐。
在ARC-AGI-2上,之前GPT-5.1的得分是17.6%,而GPT-5.2,直接飆到了52.9%。
直接翻了三倍。
這是一個(gè)很恐怖的數(shù)據(jù)。
GPT-5.2的模型,直接在排行榜上屠榜了。
![]()
而且,效率還很高。
![]()
基本都在同成本區(qū)間,能力做到了最高。
在真正的智力水平上,GPT-5.2確實(shí)達(dá)到了目前的最優(yōu)。
這就比較有意思了。
然后是第二個(gè),也是我自己現(xiàn)在最關(guān)心、也是我認(rèn)為最重要的一個(gè):
GDPval。
可能很多人沒聽說過這個(gè)評(píng)測集。
他是OpenAI自己在2個(gè)半月前新出的。
![]()
其實(shí)你看這個(gè)名字也能看出來一點(diǎn)端倪。
val,就是生產(chǎn)總值的那個(gè)GDP。
GDP
他們要用一個(gè)全新的標(biāo)準(zhǔn),來衡量AI在上的表現(xiàn)。
真實(shí)世界中、具有經(jīng)濟(jì)價(jià)值的任務(wù)
過去,我們說一個(gè)模型牛逼,是因?yàn)樗a寫得好,或者知識(shí)答得準(zhǔn),或者考試分?jǐn)?shù)高。
這當(dāng)然很重要,但就像我常說的,這個(gè)世界不只有程序員和科學(xué)家。
還有律師、設(shè)計(jì)師、市場經(jīng)理、護(hù)士、建筑師、銷售……
無數(shù)專業(yè)知識(shí)工作者。
他們工作的價(jià)值,其實(shí)很難用一張考卷來衡量。
于是,OpenAI他們?cè)诿绹暙I(xiàn)GDP最高的9個(gè)行業(yè)里,選取了44個(gè)核心職業(yè),然后,他們找到了在這些行業(yè)里平均有14年工作經(jīng)驗(yàn)的資深專家,讓他們出了1320道專業(yè)知識(shí)任務(wù),并且每一項(xiàng),都基于真實(shí)工作成果。
![]()
比如,給律師的任務(wù),可能就是一份真實(shí)的合同草案和客戶需求,讓他去審閱和修改。
給市場經(jīng)理的任務(wù),可能就是一堆產(chǎn)品資料和市場數(shù)據(jù),讓他寫一份營銷方案PPT。
給制造工程師的任務(wù),可能就是一張產(chǎn)品設(shè)計(jì)圖,讓他優(yōu)化生產(chǎn)流程。
這些任務(wù),不僅有文字,還可能包含PDF、Excel表格、圖片、PPT,是高度復(fù)雜的、多模態(tài)的、沒有標(biāo)準(zhǔn)答案的真實(shí)工作。
整套任務(wù)的平均用時(shí),是人類專家要花 7 個(gè)小時(shí)才能做完,有些甚至是一兩周的活。
然后,模型和人類的成果,會(huì)被同領(lǐng)域的另一批專家進(jìn)行盲評(píng)。
他們也不知道誰是AI,誰是人類。
評(píng)委只需要回答一個(gè)問題:你更愿意把哪份交給客戶?是這份,還是這份?
結(jié)果,GPT-5.2 Thinking在這套 GDPval 上,贏或打平行業(yè)專家的比例,達(dá)到了70.9%,而GPT-5.2Pro 模型是74.1%。
注意,這里的參照系不是普通實(shí)習(xí)生,而是行業(yè)專家。
也就是說,在一個(gè)有著十幾年經(jīng)驗(yàn)的采購經(jīng)理、或者審計(jì)師面前,GPT-5.2干出來的活兒,有七成的時(shí)候,比專家干得好,或者至少一樣好。
而 GPT-5,只有 38.8%。
![]()
這個(gè)進(jìn)步的速度,還有有一點(diǎn)快的。
看一下官方放的case的對(duì)比,還是比較直觀的。
![]()
![]()
我們過去的模型,都花過于著重的筆墨在編程開發(fā)上了,我并不是說編程開發(fā)不重要,它很重要,很牛逼。
但,其他的領(lǐng)域的工作,我也覺得應(yīng)該被重視。
而GDPval,就是我認(rèn)為最重要的一個(gè)指標(biāo)。
而且這次GPT-5.2,在上下文上,也有大幅的加強(qiáng)。
用我們以前的大海撈針測試,在一個(gè)256K的巨型文檔里面埋四根針,讓AI來根據(jù)文檔內(nèi)容回答。
![]()
GPT-5.2干到了離譜的100%,這也是我印象中,唯一一個(gè)能干到100%的。
8根針的正確度會(huì)下降,但是這個(gè)衰減,已經(jīng)比GPT-5.1牛逼太多了。
![]()
而且,還有最新的知識(shí)庫截止日期:
![]()
牛逼的知識(shí)工作處理+最新的知識(shí)庫截止日期+更棒的智力+準(zhǔn)確性超高的上下文。
這簡直,就是真正的天選牛馬搭子,對(duì)打工人的加持,實(shí)在是太強(qiáng)了。
這是真正,奔著大眾、奔著實(shí)用去的。
目前今天會(huì)開放給ChatGPT付費(fèi)會(huì)員,明天會(huì)開放給免費(fèi)會(huì)員,會(huì)直接替代GPT-5.1,但是如果你是付費(fèi)會(huì)員的話,還會(huì)在老模型中存續(xù)3個(gè)月。
就是這。
![]()
可惜截止到我發(fā)文的凌晨6點(diǎn)這一刻,作為尊貴的200刀的ChatGPT Pro會(huì)員,我還是沒有拿到GPT-5.2的體驗(yàn)資格。
![]()
一些所謂的ChatGPT上的為GPT-5.2專用的文件精修,也只能等拿到實(shí)測以后,再出一篇GPT-5.2的打工合集了。
然后開發(fā)者的話,已經(jīng)可以通過API調(diào)用。
![]()
價(jià)格上,會(huì)比5.1貴一些。
![]()
整體上,GPT-5.2的所有消息差不多就這樣了。
而我自己一直期待的,成人模式。
還是沒有到來。
奧特曼自己這個(gè)龜兒子說的是12月上線。
![]()
也不知道能不能等到。
反正他說,下周還會(huì)再送一些小的圣誕禮物。
![]()
盲猜一手OpenAI家的生圖模型,或者成人模式。
對(duì)于一個(gè)創(chuàng)作者來說,這兩玩意,真的很需要。。。
最后總結(jié),GPT-5.2在我心中,是一個(gè)合格的迭代,并沒有跟很多模型一樣,專注于純粹的傳統(tǒng)刷分,而是聚焦在了廣大白領(lǐng)打工人身上,幫大家解決實(shí)際工作中的問題。
這個(gè)點(diǎn),我覺得就很酷,非常的剛需。
但是從路線上來說,感覺GPT-5.2還是被原生多模態(tài)的Gemini 3 Pro壓了一頭,12月大概率還是要發(fā)個(gè)生圖模型出來的,不知道對(duì)標(biāo)Banana,會(huì)不會(huì)有新的驚喜。
總之,還是保持期待。
反正每一個(gè)新模型的發(fā)布,只要是我覺得有意思的。
也一定會(huì)熬夜給大家?guī)淼谝粫r(shí)間的解讀。
我們以后。
還是,不見不散~
晚安。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.