<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<sub id="m8lr8"></sub>

<cite id="m8lr8"></cite>

<em id="m8lr8"><rt id="m8lr8"></rt></em>

^{<blockquote id="m8lr8"></blockquote>}

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

GPT-5.2深夜炸場，評測碾壓谷歌Gemini 3 Pro，真正的打工人利器

2025-12-12 11:48:16　來源: AI先鋒官

北京舉報

0

分享至

　　作者｜沐風

　　來源｜AI先鋒官

　　上周，OpenAI CEO奧特曼剛宣布完公司進入“紅色警戒”（Code Red）狀態，要求團隊將工作重心轉移到提高ChatGPT的性能和用戶體驗上后。

　　就在今天，OpenAI發布了最新的頂級模型 GPT-5.2系列。

　　GPT-5.2 將向 ChatGPT 付費用戶開放，并通過 API 提供給開發者，一共分為三個系列：

　　GPT?5.2 Instant（即時版）

　　GPT?5.2 Thinking（思考版）

　　GPT?5.2 Pro（專業版）

　　在OpenAI官方公布的基準測試中，它幾乎對Gemini 3 Pro、Claude Opus 4.5實現了全方位碾壓。

　　

　　值得注意的是，GPT?5.2 Thinking在AIME 2025（數學）的分數達到了滿分，Gemini 3 Pro 的分數是 95%。

　　OpenAI應用CEO Fidji Simo曾說過，GPT-5.2 的設計目標就是為人們創造更多經濟價值。

　　那么如何創造呢？

　　那就不得不提到GPT-5.2的拿手好戲：制作電子表格、構建演示文稿、編寫代碼、理解圖像、處理超長上下文、使用工具，以及執行復雜的多步驟項目等等。

　　空口無憑，讓我們先來看看數據。

　　在OpenAI新出的基準測試GDPval（覆蓋 44 個職業、針對明確知識工作任務的評估體系）中，GPT-5.2 Thinking 在70.9%的任務上勝過或打平行業專家，GPT-5.2 Pro更高，為74.1%。

　　

　　主要測試內容為制作演示文稿、電子表格以及其他專業產出物。

　　官方還放出了對比圖，GPT-5.2 做的表格比GPT-5.1確實精細很多。

　　

　　一個評審員對此的評價是：“看起來像是一個有員工的專業公司做的，布局和建議都很專業，雖然還有一些小錯誤需要修正。”

　　另外，GPT-5.2 Thinking生成輸出的速度也超過人類專家11 倍以上，成本不到人類專家的1%。

　　OpenAI 聲稱這是AI模型首次達到了“人類專家水平”。

　　在ARC-AGI放出的測試中，此前o3 (High) 在ARC-AGI-1測試得分為88%，平均每項任務成本為4500美元。

　　而GPT-5.2 Pro (X-High) 最新SOTA得分為90.5%，是第一個突破90%的模型，它的平均任務成本僅為11.64美元，在一年內效率提高了約390倍。

　　

　　ARC-AGI-2（抽象推理）的分數是 52.9%，相較此前翻了三倍，對比Gemini 3 Pro是 31.1 %。

　　

　　GPT-5.2 Thinking的代碼能力也同樣刷新了紀錄：

　　在SWE-bench Verified上，得分達到80%。

　　在SWE-Bench Pro上，得分達到55.6%。

　　

　　SWE-Bench Pro是新的代碼基準測試，比SWE-bench Verified更難，涵蓋四種編程語言，不只是Python，更接近真實軟件工程。

　　早期測試者特別提到，GPT-5.2在前端的能力也明顯提升了，尤其是3D和復雜UI。

　　官方也放出了由單prompt生成的demo：

　　

　　同時，GPT-5.2 Thinking在長文檔處理方面的表現也很亮眼。

　　在OpenAI自制的MRCRv2（長文檔中多個信息點的整合能力）評測中，GPT-5.2 Thinking成為首個在256k 上下文長的4-needle上達到接近100%準確率的模型。

　　

　　不過，更難的8 needle版還是有明顯下降。

　　

　　GPT-5.2 Thinking的視覺能力也明顯提升，錯誤率基本減半。

　　在CharXiv Reasoning測試中，GPT-5.2 Thinking得分達到88.7%，GPT-5.1是80.3%。

　　

　　在ScreenSpot-Pro測試中，GPT-5.2 Thinking得分達到86.3%。GPT-5.1 是 64.2%。

　　

　　在官方放出的示例中，OpenAI 要求模型識別輸入圖像中的組件，并返回帶有大致邊界框的標簽。

　　

　　即使在低質量圖像上，GPT-5.2 也能識別出主要區域，并放置有時能與每個組件真實位置相匹配的框；而 GPT-5.1 僅標記了少數幾個部分，且對其空間排列的理解要弱得多。

　　而且，GPT-5.2 Thinking 的幻覺比GPT-5.1 Thinking更少了。

　　在一組去標識化的ChatGPT查詢中，前者包含錯誤的回答相對減少了30%。

　　

　　最后，我們來聊聊價格，GPT-5.2的價格一如既往的貴到離譜。

　　GPT-5.2的定價為1.75美元/百萬輸入Token，14美元/百萬輸出Token，緩存輸入有90%的折扣，比GPT-5.1貴40%。

　　ChatGPT訂閱價格不變。

　　

　　但是！

　　在多個智能體評估中，盡管GPT-5.2的每Token成本更高，但GPT-5.2由于更高的Token效率，性價比反而更高。

　　ChatGPT 將于今日開始逐步推出 GPT-5.2（包括 Instant、Thinking 和 Pro 版本），首先面向付費用戶（Plus、Pro、Go、Business 和 Enterprise 版本）提供。

　　為確保 ChatGPT 的流暢性和穩定性，GPT-5.2 將分階段部署，在 ChatGPT 中，付費用戶仍可在三個月內繼續使用 GPT-5.1（舊版模式），之后 GPT-5.1 將逐步下線。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

全球龍蝦批量黑化！Meta2小時災難擊穿硅谷心臟，OpenClaw反噬來襲

新智元 2026-03-21 10:11:37
0 跟貼 0
騰訊走到命運拐點了

虎嗅APP 2026-03-20 16:45:36
31 跟貼 31

1/12價格，性能追平旗艦！ GPT-5.4 mini和nano深夜上線 OpenAI直呼“還有誰”

新智元 2026-03-19 17:05:20
0 跟貼 0

阿里無招：在Token消耗這件事上，要效法自然

虎嗅APP 2026-03-20 23:42:21
0 跟貼 0
AI三巨頭72小時狂掃桌面Agent！OpenAI三合一，谷歌秘測Mac版

新智元 2026-03-20 21:23:57
2 跟貼 2

英霸已老，谷王當立 | 財經峰評

鈦媒體APP 2025-12-07 22:30:21
10 跟貼 10

AI編程元年：初級開發者被「團滅」？

新智元 2026-03-21 12:38:36
1 跟貼 1
AI屠刀下一站“Vibe設計”！谷歌一個產品把合作伙伴Figma干崩了

量子位 2026-03-20 15:15:13
6 跟貼 6

OpenAI祭出桌面超級應用，AI PC廠商恐成硬件代工廠

鈦媒體APP 2026-03-20 09:39:04
2 跟貼 2
微軟大刀闊斧重組AI部門

虎嗅APP 2026-03-21 06:00:04
0 跟貼 0
機器人進汽車廠，給波士頓動力，裝上谷歌最強大腦

機器之心Pro 2026-01-06 19:02:05
0 跟貼 0
騰訊游戲在GDC帶來21個AI議題，展現斷層式優勢

量子位 2026-03-19 01:35:42
0 跟貼 0
DeepSeek推理分裂出多重人格，越社交越聰明

量子位 2026-02-04 03:32:03
0 跟貼 0
“媽，門口要錢，我們就不進去看你了”，游客在壺口瀑布外拍視頻被投訴侵權，山西壺口瀑布景區：事發地是陜西壺口瀑布，我們也是受害者

觀威海 2026-03-18 14:47:02
34645 跟貼 34645
模型飛機試飛，鏡頭一轉發現事不簡單，美女吃了熊心豹子膽

美妙一籮筐 2026-03-20 11:43:33
0 跟貼 0
亞馬遜據稱正秘密打造智能手機欲以AI改寫應用商店規則

財聯社 2026-03-21 04:18:15
0 跟貼 0
大模型最難的AI Infra，用Vibe Coding搞定

機器之心Pro 2026-01-07 15:33:06
0 跟貼 0
太瘋了！MIT博士在Transformer里造計算機，攻破LLM終極缺陷

新智元 2026-03-21 10:11:31
2 跟貼 2
伊朗破解以軍安全代碼，戰局或將逆轉，后援部署全曝光

曉旓就是我 2026-03-21 02:43:14
0 跟貼 0
聯想小新Pro 14 2026首發評測 Ultra 5 336H也可以很牛！

科技方法派 2026-03-18 20:00:00
0 跟貼 0
小米 Xiaomi Book Pro 14 評測：超貴，超值

愛范兒 2026-03-20 14:06:32
18 跟貼 18
英偉達巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
0 跟貼 0
重慶市市長胡衡華，被查

新京報政事兒 2026-03-20 14:09:55
797 跟貼 797
漲瘋了有商家暫停接單上海人慌了：最近正是剛需

上觀新聞 2026-03-20 15:10:07
463 跟貼 463
特斯拉 FSD 要涼！官方點名安全隱患，自動駕駛要被禁？

新浪財經 2026-03-21 01:09:11
15 跟貼 15
Moltbot作者被Claude刁難后：MiniMax M2.1是最優秀的開源模型

量子位 2026-01-29 13:17:17
21 跟貼 21
Token 新譯名：「智元」

新智元 2026-03-19 21:00:41
69 跟貼 69
讓兩個大模型在線吵架，跑通全網95%科研代碼｜深勢Deploy-Master

機器之心Pro 2026-01-09 14:22:47
0 跟貼 0
瑞士宣布暫停向美國出口戰爭物資

環球網資訊 2026-03-20 22:23:12
4622 跟貼 4622
Gemini 3一句話打造拍立得應用刷屏！全網最火8個玩法都在這，看完秒上手

愛范兒 2025-11-20 18:04:33
29 跟貼 29
上海市中心知名醫院要“沒了”？網友感嘆曾經“早上5點去排隊搶號”；醫生發文“世上再無”，最新情況→

新民晚報 2026-03-20 19:27:19
952 跟貼 952
Token額度算入年薪

新浪財經 2026-03-19 21:07:50
26 跟貼 26
Cursor自研新模型反超 Opus 4.6，主打“價格打一折”，網友群嘲“Kimi 2.5套殼”，馬斯克認證

華爾街見聞官方 2026-03-21 13:35:08
0 跟貼 0
1.4萬評測57%好評率！《紅色沙漠》Steam首日折戟

游民星空 2026-03-20 19:22:17
7 跟貼 7
AI取代程序員還遠！新基準BeyondSWE：頂尖模型通過率暴跌至45%

新智元 2026-03-20 21:23:15
1 跟貼 1
“養龍蝦”帶火的token，該如何翻譯？

中國日報 2026-03-19 19:30:41
12 跟貼 12
1101套房只有1人選房，深圳一安居房項目屢戰屢“冷”

南方都市報 2026-03-20 22:14:18
615 跟貼 615
想玩機械模型？這個能發動！#金屬拼裝 #V12發動機

制造科技 2026-03-19 23:00:29
0 跟貼 0
推理新范式：動態效能算法讓算力資源實現最大化

智東西 2025-11-12 19:58:10
0 跟貼 0
制作的廢油爐模型超級省錢

制造科技 2026-03-19 12:31:03
0 跟貼 0

伊朗攤牌，戰至最后一刻！特朗普劃出新戰場，美議員：局勢已失控

伊朗攤牌，戰至最后一刻！特朗普劃出新戰場，美議員：局勢已失控

兵說

2026-03-20 13:22:32

日本耗資70億在上海建的摩天大樓，側面似“日本軍刀”，有何意圖

日本耗資70億在上海建的摩天大樓，側面似“日本軍刀”，有何意圖

鑒史錄

2026-03-21 08:51:02

別再交有線電視費了2026年國家免費電視覆蓋98.2%家里有這根線看

別再交有線電視費了2026年國家免費電視覆蓋98.2%家里有這根線看

另子維愛讀史

2026-03-16 22:16:43

雷軍稱新一代SU7門把手安全設計100%符合2027年新國標：碰撞后仍可正常解鎖，有應急機械拉手，車內無需解中控鎖即可開門

雷軍稱新一代SU7門把手安全設計100%符合2027年新國標：碰撞后仍可正常解鎖，有應急機械拉手，車內無需解中控鎖即可開門

極目新聞

2026-03-19 20:26:12

火箭發射禁止駛入

閃電新聞

2026-03-20 14:27:54

阿爾特塔：這場決賽沒有熱門；首發門將已經決定好了

阿爾特塔：這場決賽沒有熱門；首發門將已經決定好了

懂球帝

2026-03-21 06:54:07

中國道教學院今年僅招46人，難度堪比985，網友稱其為穩拿“鐵飯碗”

中國道教學院今年僅招46人，難度堪比985，網友稱其為穩拿“鐵飯碗”

娛樂的宅急便

2026-03-20 15:28:35

胖東來金飾克價跌至1315元，足金金條克價一夜跌60元

胖東來金飾克價跌至1315元，足金金條克價一夜跌60元

極目新聞

2026-03-20 10:39:00

大院里那座神秘小樓：高墻之內，開國中將們的真實生活圖景

大院里那座神秘小樓：高墻之內，開國中將們的真實生活圖景

冰語歷史

2026-03-21 01:17:34

女生主動起來有多黏人？網友：這些女的太開放了

女生主動起來有多黏人？網友：這些女的太開放了

帶你感受人間冷暖

2026-01-27 00:20:06

中國一口吃下2000萬噸石油，印度看到估計腸子都悔青了？

中國一口吃下2000萬噸石油，印度看到估計腸子都悔青了？

龍隱天下

2026-03-21 10:20:42

不可錯過！3月21日下午15:35比賽！中央5套CCTV5、CCTV5+直播表

不可錯過！3月21日下午15:35比賽！中央5套CCTV5、CCTV5+直播表

皮皮觀天下

2026-03-21 09:37:59

被閃電擊中的人

利維坦

2026-03-20 09:01:51

天津女博主發布“征婚貼”，宣稱想結婚！網友：估計是債務要暴雷

天津女博主發布“征婚貼”，宣稱想結婚！網友：估計是債務要暴雷

火山詩話

2026-03-21 06:58:08

真到日本走一遍，才知道它和中國的差距有多直觀

真到日本走一遍，才知道它和中國的差距有多直觀

番外行

2026-03-18 13:55:33

美媒昭告全球: 中國不償還100年前的債務，美國將不承認欠中國的錢

美媒昭告全球: 中國不償還100年前的債務，美國將不承認欠中國的錢

愛下廚的阿釃

2026-03-20 14:41:23

女子在醫院順產生下一個孩子，突然在陰道里排出大便

女子在醫院順產生下一個孩子，突然在陰道里排出大便

張曉磊

2026-03-21 11:44:27

彩票出現斷崖式暴跌，“2元中500萬”沒人信了？背后原因引人深思

彩票出現斷崖式暴跌，“2元中500萬”沒人信了？背后原因引人深思

平說財經

2026-03-14 00:14:14

不受束縛！月底運勢上上簽的3生肖，心順路寬，帶來成功與財富

不受束縛！月底運勢上上簽的3生肖，心順路寬，帶來成功與財富

毅談生肖

2026-03-21 11:43:54

雷軍：續航達到902公里，只用96.3度電；王興興、何小鵬、王傳福現身新一代SU7發布會

雷軍：續航達到902公里，只用96.3度電；王興興、何小鵬、王傳福現身新一代SU7發布會

大風新聞

2026-03-19 20:15:21

AIGC大模型及應用精選與評測

459文章數 69關注度

往期回顧全部

科技要聞

宇樹招股書拆解，人形機器人出貨量第一！

頭條要聞

81歲老人呼吸衰竭女兒曾拒絕插管：以為要失去爸爸了

頭條要聞

81歲老人呼吸衰竭女兒曾拒絕插管：以為要失去爸爸了

體育要聞

誰在決定字母哥未來？

娛樂要聞

CMG盛典獲獎名單：章子怡高葉同獲影后

財經要聞

通脹警報拉響，加息潮要來了？

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億全年營收767億

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

教育

時尚

手機

軍事航空

藝術要聞

第四屆深圳大芬國際油畫雙年展 | 國際入選油畫選刊（二）

教育要聞

最難就業季來了！2026應屆生達1270萬人，脫下長衫成了最后的希望

今年春天一定要擁有“這件衣服”，減齡又好看！

手機要聞

vivo、OPPO機型漲價前后對比，這幅度真不小

軍事要聞

特朗普:正考慮逐步降級對伊朗的軍事行動

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<u id="cj85t"><rp id="cj85t"><i id="cj85t"></i></rp></u>

<thead id="cj85t"><rt id="cj85t"></rt></thead>