網易首頁 > 網易號 > 正文申請入駐

剛剛，GPT-5.2 正式發布！讓打工人每周少干 10 小時，成人模式明年見

2025-12-12 04:27:28　來源: AppSo

廣東舉報

分享至

1106天，OpenAI 從掀桌子的人，變成了被掀桌子的人。

伴隨著 Google Gemini 3的發布，OpenAI CEO 奧特曼上周罕見拉響了「Code Red」紅色警報，并宣布所有資源回流 ChatGPT 主線，其他業務一律靠邊站。

這是 OpenAI 成立以來第一次進入「紅色警報」狀態，也是它第一次如此明確地承認：競爭壓力已經大到必須全力應對。

而就在剛剛，OpenAI 發布了 GPT-5.2模型，打出了一記力量感十足的重拳。GPT-5.2將向 ChatGPT 付費用戶開放，并通過 API 提供給開發者，分為三個版本：

Instant：速度優化版，適用于信息查詢、寫作和翻譯等常規任務；

Thinking：擅長處理復雜結構化任務，如編程、分析長文檔、數學和規劃；

Pro：高端版，專注于在高難度任務中提供極致的準確性和可靠性。

不聊天，真干活，GPT-5.2闖進打工人職場

本以為 OpenAI 會專注提升 ChatGPT 的個性化和消費者體驗，結果 GPT-5.2的發布方向依舊是走職場實用主義的路數。

用 OpenAI 應用 CEO Fidji Simo 的話來說：「我們設計 GPT-5.2是為了給用戶創造更多經濟價值。」

什么叫經濟價值？

就是讓 AI 真的能干活，做表格、寫 PPT、敲代碼、看圖、讀長文、調用工具、搞定復雜項目，這些都是 GPT-5.2的拿手好戲。

數據也挺唬人。平均每個 ChatGPT 企業版用戶說，AI 每天能給他們省40到60分鐘，重度用戶更狠，每周能省10小時以上。

GPT-5.2 Thinking 是這次發布的重頭戲。

在評估44個職業知識型任務的 GDPval 測試中，它成為首個在總體表現上達到或超過人類專家水平的模型。具體來說，在與行業專家的對比中，GPT-5.2 Thinking 在70.9% 的任務中勝出或持平，由人類專家親自評判。

這些任務可不是隨便出的題，涵蓋了美國 GDP 排名前9個行業，包括銷售演示文稿、會計報表、急診排班計劃、制造業圖紙、短視頻制作等等，都是真實工作場景里的硬活。

編程方面的提升更明顯。

SWE-Bench Pro 是個相當嚴格的測試，評估模型在真實世界軟件工程中的能力，涉及四種編程語言，比只測 Python 的版本難多了。GPT-5.2 Thinking 在這個測試里拿到了55.6% 的成績，創下業界新高。

更夸張的是在 SWE-bench Verified 里直接干到80%，成為目前最高記錄。這意味著 GPT-5.2 Thinking 能更可靠地調試生產環境中的代碼、實現功能需求、重構大型代碼庫，端到端的修復工作做得更高效，減少人工介入。

前端開發也有明顯提升。

早期測試者說，它在處理復雜或非常規的前端 UI 任務時表現更出色，特別是涉及3D 元素的場景，妥妥的全棧工程師助手。

OpenAI 還放出了幾個根據單一提示生成的示例：海浪模擬器、節日賀卡生成器、打字雨游戲。就一個提示詞，整個單頁應用就出來了，可調節的參數、逼真的動畫效果、平靜的 UI 風格，全都有。

幻覺率降低30%，長文本能力接近完美

事實準確性這塊，GPT-5.2 Thinking 相較于 GPT-5.1 Thinking 的「幻覺率」更低。

在一組匿名化的 ChatGPT 查詢中，出現錯誤的回答減少了約30%。對于專業人士來說，這意味著在研究、寫作、分析與決策支持等任務中，出錯率更低，用起來更放心。

不過 OpenAI 也提醒，就像所有模型一樣，GPT-5.2并不完美，關鍵性任務還是得自己核查。

長文本推理能力也樹立了新標桿。

在 OpenAI MRCRv2基準測試中，GPT-5.2表現領先。這個測試評估的是模型能不能正確整合分布在長文檔中的信息，對于深度文檔分析這類涉及數十萬 token 的跨文檔信息整合任務來說，GPT-5.2的準確率遠超 GPT-5.1。

尤其在 MRCR 的4針測試（不同于「大海撈針」，而是要求模型在海量文本里，區分并找出多個一模一樣的「針」中的特定一個）中，最多256k token 的上下文，GPT-5.2是首個接近100% 準確率的模型。

這意味著專業用戶可以用 GPT-5.2高效處理超長文檔，報告、合同、學術論文、訪談記錄、多文件項目，它都能在處理上百頁內容時保持邏輯一致和信息準確。

視覺理解方面，GPT-5.2 Thinking 是目前 OpenAI 最強的視覺模型。在圖表推理和軟件界面理解方面，錯誤率下降了約一半。

對日常專業使用來說，這意味著模型能更準確地解讀數據儀表盤、產品截圖、技術圖紙、可視化報告，適用于金融、運營、工程、設計、客服等以視覺為核心的工作場景。

空間理解能力和工具調用能力也有所提升，在 Tau2-bench Telecom 測試中，GPT-5.2 Thinking 取得了98.7% 的新高成績，展現出在長、多輪任務中可靠使用工具的能力。

即使將推理強度設置為最低檔，GPT-5.2的表現仍顯著優于 GPT-5.1和 GPT-4.1。

這代表 GPT-5.2 Thinking 在執行端到端工作流方面更強，處理客戶服務案例、從多個系統中提取數據、執行分析任務，高效完成全流程輸出，中間環節更少出錯。

數學和科學能力的提升，可能是這次發布里最硬核的部分。

在 GPQA Diamond 這種研究生級別的科學問答測試里，覆蓋物理、化學、生物學等領域，GPT-5.2表現明顯更強。FrontierMath 那種評估專家級數學問題解決能力的基準測試，它也能啃下來。

更牛的是，在 ARC-AGI-1測試中，GPT-5.2 Pro 是第一個突破90% 準確率的模型，相比去年 o3-preview 的87%，表現更強，成本卻降低了約390倍。

ARC-AGI-2版本更難，專注于考察流動性推理能力，GPT-5.2 Thinking 得分為52.9%，創下「鏈式思維模型」新高，GPT-5.2 Pro 更進一步，達到54.2%。

官方博客中提到一個令人印象深刻的案例：在統計學習理論的一個開放問題上，GPT-5.2 Pro 甚至直接給出了一個可行的證明方案。

這個問題來自2019年學習理論大會 COLT 上提出的未解難題：如果模型設定完全正確，數據呈標準正態分布，在這種教科書式的「干凈」情況下，學習曲線是單調的嗎？

研究人員沒有先設計算法或提供證明思路，也沒有輸入中間步驟或提示，而是直接請求 GPT-5.2 Pro 給出完整證明。結果，模型提出了一種可行的解法，并通過人工驗證、外部專家評審確認其正確性。

這說明 GPT-5.2 Pro 在一些有明確公理基礎的領域，比如數學、理論計算機科學，已經可以發揮更實質性的科研輔助作用：探索證明路徑、驗證假設、發現隱藏的聯系。

GPT-5.2 API 價格

性能表現這么猛，代價自然也不小。

Thinking 和 Deep Research 模式消耗的算力遠超普通聊天機器人，因為它們得「思考」得更深。由于 OpenAI 現在用于模型推理的開銷，大部分是直接掏真金白銀，而不是用微軟 Azure 的云服務積分抵扣。

長期往里砸錢，這種玩法能撐多久，真不好說。

總得來說，GPT-5.2更像是對前兩次模型升級的整合，而不是完全重構。

8月的 GPT-5是架構重啟，引入了可以在快速響應和深度「Thinking」模式之間切換的路由機制。11月的 GPT-5.1讓系統變得更溫和、更具對話性，也更適合智能體和編碼任務。

現在的 GPT-5.2，則是要在這些優勢的基礎上，打造出更可靠的生產級模型。而且有一個非常重要的細節：這次推出的三款 GPT-5.2模型，底層知識庫都已經完成了更新。

GPT-5.2已經開始在 ChatGPT 中陸續上線，優先開放給付費用戶。GPT-5.1還會在「傳統模型」選項中保留三個月，之后就正式下線了。

API 那邊也同步開放，開發者已經可以用上了。價格比 GPT-5.1貴一些，但 OpenAI 說因為 token 效率更高，實際總成本反而更低。

一個壞消息，和一個好消息

除了模型本身，OpenAI 的商業化上也有兩個極具反差感的消息。

雖然這次發布并沒有推出新的圖像生成模型，但今天 OpenAI 跟迪士尼達成了三年授權協議。

用戶可以生成包含迪士尼、漫威、皮克斯和星球大戰等200多個角色的社交視頻，部分生成視頻還能在 Disney+上播放。

作為交換，迪士尼向 OpenAI 投資10億美元，還會成為重要客戶。內容 IP 加 AI 生成，這背后想象空間確實挺大。

另一個值得關注的消息是，ChatGPT 的「成人模式」終于有了明確時間表。

隨著越來越多 AI 聊天機器人涉足成人內容，OpenAI 也不打算當圣人了。根據彭博社報道，Fidji Simo 已經明確該功能預計2026年第一季度上線。

在此之前，OpenAI 會繼續優化年齡識別功能，確保未成年人自動啟用內容保護機制。目前年齡預測模型正在部分國家進行早期測試，以評估識別青少年的能力，并確保不會誤判成年人。

面對 Google Gemini 的步步緊逼，OpenAI 選擇用 GPT-5.2這套組合拳來回應。它更快、更強，也更像一個成熟的商業產品。

與此同時，一邊擁抱迪士尼的米老鼠，一邊準備推出成人模式，OpenAI 既要保持技術領先，又要快速變現；既要占領企業市場，又不放過任何流量入口。

幸運的是，迎來十周年節點的 OpenAI 最終還是演好了這出反擊大戲。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

關鍵時刻特朗普、馬克龍、斯塔默、默茨通話

極目新聞 2025-12-11 15:18:16
8006 跟貼 8006
12月11日湖北，湖北一小區保安疑似與外賣員發生沖突，小區墻上寫著外賣車快遞車禁止入內，保安：今天

中安在線 2025-12-11 17:46:19
485 跟貼 485

暗漏兩個月用水2203噸水費超1.5萬元用戶：太冤了！|云求助

封面新聞 2025-12-11 21:53:29
7046 跟貼 7046

前NASA局長急死：登月計劃趕緊推翻重來中國才是對的

澎湃新聞 2025-12-11 18:09:18
5207 跟貼 5207
日媒稱遼寧艦最近距日本僅400公里

北京日報 2025-12-11 22:28:11
4001 跟貼 4001

提醒暫勿赴日是外交為民的應有之義

北京青年報 2025-12-11 16:02:01
2538 跟貼 2538

大壯名城驚現“骨折價” 引發同板塊價格“連環炸”

新快報新聞 2025-12-12 09:15:07
44 跟貼 44
永輝客服回應上架聽媽媽話竹鞭

現代快報 2025-12-11 16:58:06
1618 跟貼 1618

泰軍再炸柬埔寨賭場園區裝甲車徑直碾過牌樓

海外網 2025-12-11 21:20:06
2958 跟貼 2958
銷量突然飆漲！線上店開始斷貨，醫務人員：沒必要囤！

荔枝新聞 2025-12-11 16:21:14
1216 跟貼 1216
一根手機取卡針被炒至300元？二手商家稱是“鉑金材質”，有人信有人買，官方售后回應

揚子晚報 2025-12-10 10:30:24
2435 跟貼 2435
柳州、來賓、南寧被廣西環境廳通報應對污染天氣工作不力

澎湃新聞 2025-12-12 09:30:27
0 跟貼 0
廣州一商戶窗邊懸掛火焰LED屏，引來5輛消防車“救援”，街道辦回應：系商戶自行設置的屏幕引發誤會，已責令業主關閉

極目新聞 2025-12-12 09:49:26
799 跟貼 799
成功首飛！“巨無霸”無人機“九天”有哪些硬核本領？

大象新聞 2025-12-12 08:29:20
470 跟貼 470
無名無姓男子在醫院躺7年半：僅能轉動眼球身份成謎

長沙晚報 2025-12-12 07:06:19
46 跟貼 46
車主稱吉利銀河剛提車就已充電35次！銷售方：系偶發事件

南方都市報 2025-12-11 16:47:10
1063 跟貼 1063
上海一小區業主追賬：這筆錢必須要回來！業委會查賬，發現物業重大問題

環球網資訊 2025-12-12 10:39:25
63 跟貼 63
三星三折疊手機已開啟預訂，售價19999元起，首批秒罄

齊魯壹點 2025-12-10 10:35:30
961 跟貼 961
國臺辦：統一是臺灣前途的唯一方向

央視新聞客戶端 2025-12-11 21:05:17
91 跟貼 91
七星山荒野獎金追加到48萬8名選手平分

瀟湘晨報 2025-12-12 09:59:35
175 跟貼 175
日本東證股價指數漲幅擴大，最新上漲1.5%

每日經濟新聞 2025-12-12 08:22:06
46 跟貼 46
摩爾線程跌超15%

財聯社 2025-12-12 09:34:11
34 跟貼 34
戰勝日本隊，中國男子冰壺隊獲米蘭冬奧會參賽資格

上觀新聞 2025-12-12 10:57:03
42 跟貼 42
用AI生成“車展虛假低俗視頻”，李某被行拘10日

網易號社區管理員 2025-12-11 13:37:14
310 跟貼 310
日經225指數突破51000點

財聯社 2025-12-12 08:40:06
0 跟貼 0
追蹤｜影石門店招牌疑因大疆排他協議被拆，門頭將于下周恢復

南方都市報 2025-12-12 14:09:49
0 跟貼 0
參加世界扇耳光大賽的中國女孩

澎湃新聞 2025-12-12 11:52:28
0 跟貼 0
“雙十二”購物狂歡，公安部網安局提示避開六類陷阱

大象新聞 2025-12-12 14:17:01
0 跟貼 0
上海市民扎堆一工地挖銀元，目前現場已被封！白銀漲價催生“挖寶熱”？

齊魯壹點 2025-12-12 14:12:23
0 跟貼 0
面包車被半掛車拖行！膠州好司機冒險截停兩車，救人于危難！

云上膠州 2025-12-12 14:06:59
0 跟貼 0
丟臉！事發紹興某超市，連續6次！被抓！網友：怎么專挑這些東西

紹興E網 2025-12-12 14:17:38
0 跟貼 0

AppSo

讓智能手機更好用的秘密

5917文章數 26724關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

數碼

藝術

健康

旅游

手機 / 數碼

房產 / 家居

剛剛，GPT-5.2 正式發布！讓打工人每周少干 10 小時，成人模式明年見

凌晨突發！GPT-5.2上線，首批實測感受來了

曾因監獄疫情防控不力被免職 解維俊5年多后又被查

曾因監獄疫情防控不力被免職 解維俊5年多后又被查

15輪2分，他們怎么成了英超最爛球隊？

濮存昕外孫女演短劇遭吐槽

美國要組建C5，全世界大吃一驚

插混四驅法拉利？849 Testarossa國內發布516.8萬起

態度原創

封關倒數！單月狂銷80套，三亞這個全能盤，閉眼入！

小米、美的、海信等企業聯手！禁止攻擊友商，攜手力推“鋁代銅”

嶺南畫派畫雪

甲狀腺結節到這個程度，該穿刺了！

紅櫸燃冬韻 梧桐鋪街景 山城換上限定“彩妝”

曾因監獄疫情防控不力被免職解維俊5年多后又被查

曾因監獄疫情防控不力被免職解維俊5年多后又被查

紅櫸燃冬韻梧桐鋪街景山城換上限定“彩妝”