網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

比DeepSeek貴了400倍，GPT-5.2想錢想瘋了？

2025-12-13 00:09:43　來(lái)源: 差評(píng)XPIN

浙江舉報(bào)

分享至

比 DeepSeek 貴 400 倍，比谷歌的 Gemini 3 Pro 貴將近 10 倍。

OpenAI 剛剛發(fā)布的 GPT-5.2 ，到底是什么水平？

這么說(shuō)吧，這家伙或許是最適合打工人的AI，因?yàn)樗芸赡荛_(kāi)啟了 AI 從人類助手到專家的轉(zhuǎn)變。

首先是在專業(yè)知識(shí)上，GPT-5.2 有 7 成的把握，能打敗正在屏幕前，刷視頻的各位行業(yè)專家們。

只看跑分的話，這次的 GPT-5.2 在各個(gè)維度上，都要比 Gemini 3 Pro 高了那么一點(diǎn)點(diǎn)。

當(dāng)然，也只高了一點(diǎn)點(diǎn)，不排除 OpenAI 是對(duì)著 Gemini 刷分的可能。

但這次 OpenAI 最在意的，其實(shí)是最后的這個(gè) GDPval 測(cè)試成績(jī)。

這是他們?cè)诮衲甑?strong>925提出來(lái)了的一個(gè)全新測(cè)試方式，用來(lái)衡量 AI ，能否真的來(lái)幫打工人完成工作。

于是他們找了九個(gè)領(lǐng)域四十四個(gè)行業(yè)的專家們過(guò)來(lái)，結(jié)合他們的工作環(huán)境來(lái)出了一堆題目。

然后來(lái)看 AI 能否完成這些專家們的工作。

而結(jié)果就是，最新的 GPT-5.2 能在七成的工作上，打平，甚至做的比人類更好。

咱們也簡(jiǎn)單的體驗(yàn)了一下這個(gè)新模型，讓 GPT-5.2 去互聯(lián)網(wǎng)上統(tǒng)計(jì)這些 AI 公司發(fā)布的所有模型。

然后把這些模型在各個(gè)排行榜上刷出來(lái)的分?jǐn)?shù)給統(tǒng)計(jì)下來(lái)，最后按照月份，把這些成績(jī)給做成表格。

結(jié)果在整整 14 分鐘的思考后。GPT-5.2 成功的幫咱們把這一系列數(shù)據(jù)收集，結(jié)果統(tǒng)計(jì)，表格繪制的任務(wù)都給完成掉了。

這么個(gè)完成度，確實(shí)看起來(lái)不錯(cuò)。

除此之外，GPT-5.2還能完成一些復(fù)雜的表格工作，做出來(lái)的表格不但比過(guò)去的自己做的表格要美觀許多。

而且在各項(xiàng)任務(wù)的測(cè)試指標(biāo)上，也有了 9% 左右的提升。

在寫(xiě)代碼這塊，GPT-5.2 也有了不少的提升，

產(chǎn)生幻覺(jué)的概率要比之前降低了 38%

屬于是想讓大家能用的更加放心了。

我們也簡(jiǎn)單的測(cè)試了一下，但可能是因?yàn)橛辛?Gemini 珠玉在前的緣故，GPT-5.2 給我的感覺(jué)，就有那么一些平平無(wú)奇了。

讓它來(lái)寫(xiě)個(gè) Aimlab （練習(xí)瞄準(zhǔn)的小游戲）

它也確實(shí)能寫(xiě)出來(lái)，寫(xiě)出來(lái)的程序不但能跑，還能調(diào)整靶子大小，游戲時(shí)長(zhǎng)這些基本參數(shù)。

這些都沒(méi)啥毛病，但就是有些太中規(guī)中矩了。

審美這塊，有點(diǎn)被上個(gè)月發(fā)布的 Gemini 3 給暴打了。

同樣一句話做出來(lái)的小游戲，Gemini 已經(jīng)開(kāi)始考慮各種時(shí)髦的配色了，GPT 還在刷大白墻，做毛坯房。

當(dāng)然，也有可能是我沒(méi)有指定 GPT 要做成啥樣的緣故。

除了各項(xiàng)工作能力的提升之外，這次 GPT-5.2 還有一個(gè)非常有趣的變化。

它變的更能聽(tīng)得懂人話了。

有人在測(cè)試的時(shí)候發(fā)現(xiàn)，讓 GPT 寫(xiě) 50 個(gè)創(chuàng)意，它就會(huì)認(rèn)認(rèn)真真的去寫(xiě) 50 個(gè)創(chuàng)意，而不是像過(guò)去的模型一樣，寫(xiě) 10 個(gè)點(diǎn)子就開(kāi)始擺爛。

除此之外，在上下文能力上方面，OpenAI 也補(bǔ)強(qiáng)了一波，在插針實(shí)驗(yàn)中，即便是文本長(zhǎng)度到了 256K，成功率依舊是接近百分之百。

這相當(dāng)于幾十萬(wàn)字的名著里，你偷偷在幾個(gè)地方加了點(diǎn)料，罵了我?guī)拙洌寄芫珳?zhǔn)找出來(lái)。

這對(duì)于寫(xiě)代碼、搞學(xué)術(shù)、總結(jié)整理文書(shū)的打工人、科研狗來(lái)說(shuō)，又是一大增強(qiáng)。

雖然上面的紙面實(shí)力這么強(qiáng)，但，還是在一些地方翻了車。

比如在官方展示的圖像識(shí)別案例上，大伙們發(fā)現(xiàn)，Gemini 3 Pro 的顆粒度直接爆殺 GPT 5.2.

也有人吐槽，新模型發(fā)了，那老版本估計(jì)又要降智了。。。

屬于是經(jīng)典老番了。

最后呢， GPT-5.2 的發(fā)布，其實(shí)也讓咱們看到了一種趨勢(shì)。

那就是在未來(lái)，頂級(jí)模型之間的差異，也可能越來(lái)越明顯，各個(gè)都偏那么一點(diǎn)點(diǎn)科。

比如 Gemini 可能在全模態(tài)領(lǐng)域一騎絕塵；GPT 在邏輯推理、生產(chǎn)力方面，也依舊走在同行前頭；Claude 則在代碼能力和寫(xiě)作上，繼續(xù)遙遙領(lǐng)先。

畢竟在怎么實(shí)現(xiàn) AGI 這個(gè)問(wèn)題上，大廠們的差異已經(jīng)凸顯。谷歌可能覺(jué)得，多模態(tài)能感知世界才是未來(lái)；OpenAI則信仰極致的邏輯推理和生產(chǎn)力的提升；Anthropic 認(rèn)為高維度的語(yǔ)義理解和對(duì)齊，才能通往 AGI。

反正 AI 大哥位置輪流坐的現(xiàn)狀，還在繼續(xù)，按順序來(lái)，下一個(gè)出招的應(yīng)該是Anthropic 了。

對(duì)了，結(jié)尾我也想再催催，奧特曼答應(yīng)好各位哥們的成人模式，到底啥時(shí)候上啊？

撰文：江江 & 早起

編輯：江江 & 面線

美編：煥妍

圖片、資料來(lái)源：OpenAI 官網(wǎng)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.