<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<em id="wvys3"></em>

<thead id="wvys3"></thead>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

GPT-5.2發布，真正的牛馬打工人專屬AI來了。

2025-12-12 11:06:08　來源: 數字生命卡茲克

北京舉報

0

分享至

在各種小道消息，各種預測之后。

終于，在OpenAI十周年的這一天。

也就是今天的凌晨2點，GPT-5.2終于跟大家見面了。

這是Gemini 3 Pro爆火，第一次讓OpenAI沒有領先優勢，奧特曼在內部官宣紅色警戒狀態之后，他們掏出的第一款模型。

也是OpenAI的十周年獻禮。

而這款模型的特點也非常有意思。

OpenAI的原話是：

We are introducing GPT?5.2, the most capable model series yet for professional knowledge work.（我們正式發布 GPT-5.2，這是迄今為止在專業知識工作方面能力最強的一代模型系列。）

專業知識工作，記住這個關鍵詞，后面要考。

我們先從各種跑分上看，其實能看到，一些跑分其實沒有質的飛躍，有一種數碼廠開始擠牙膏的感覺。。。

對比了GPT-5.2、GPT-5.1、Claude Opus 4.5和Gemini 3 Pro。

在軟件工程（SWE-Bench Pro）、科學問題（GPQA Diamond）、數學競賽（AIME 2025）這些傳統評測集上。

GPT-5.2確實又強了一些，也回到了第一的位置，全面領先。

在前端審美還有3D元素上，表現的更牛逼了。

在視覺理解能力上也更強了。

比如要求模型識別圖像輸入中的組件，并返回帶有近似邊界框的標簽。

即使在低質量的圖像上，GPT-5.2也能識別主要區域并放置與每個組件真實位置大致匹配的框，而GPT-5.1只標注了幾個部分，對它們的空間排列理解不是很好。

但是這些東西，說實話，確實也就那樣，大家很難體感上還覺得有多牛逼。

就像芯片廠子告訴你，我的手機芯片性能又提升了25%，你聽了以后，哦確實強，但是完全不影響你繼續刷抖音和小紅書對吧。

不過有兩個評測集，是我覺得這次GPT-5.2最大的亮點，且一定要單拎出來，跟大家單獨聊一下的。

一個是ARC-AGI-2，一個是GDPval。

這兩個，非常有意思。

先說ARC-AGI-2。

過去的AI評測，比如MMLU，考的主要是是知識。

比如它會問你“美國第一任總統是誰？”、“光合作用的化學方程式是什么？”。

這種評測呢，坦率的講，對于一個讀了半個互聯網的AI來說，有點像開卷考試，它有很大概率不是真的推理出來的，而是背出來的。

這就導致一個問題，在實際的評測中，我們分不清AI是真的聰明，還是只是記性好。

于是，Fran?ois Chollet，就是那位Keras（一個著名的機器學習框架）之父，2019年第一次在論文《On the Measure of Intelligence》里，提出了ARC這個變態測試。

而這個測試，跟知識儲備一毛錢關系都沒有。

全名叫，Abstraction and Reasoning Corpus，抽象與推理語料庫。

設計目標就是測模型的通用智能的能力。

大概就是，不看你在某一道題上有多熟練，而是是看你在沒見過的新題上，能不能自己推理出規則、舉一反三。

目前正式版發展到了第二代，也就是ARC-AGI-2，我給大家放一下，ARC-AGI-2里面的一些典型的題目，大家就懂了。

這種能力，現在稱為流體智力

（Fluid Intelligence），意思就是指不依賴于已有的知識，在全新情境下進行邏輯推理、識別模式和解決問題的能力。

悟性開竅的能力。

說白了，就是你的

這玩意兒對AI來說，難于登天。

因為它在互聯網上找不到任何現成的答案，它必須當場理解、當場推理

在很長一段時間里，頂級AI的得分都低得可憐。

在ARC-AGI-2上，之前GPT-5.1的得分是17.6%，而GPT-5.2，直接飆到了52.9%。

直接翻了三倍。

這是一個很恐怖的數據。

GPT-5.2的模型，直接在排行榜上屠榜了。

而且，效率還很高。

基本都在同成本區間，能力做到了最高。

在真正的智力水平上，GPT-5.2確實達到了目前的最優。

這就比較有意思了。

然后是第二個，也是我自己現在最關心、也是我認為最重要的一個：

GDPval。

可能很多人沒聽說過這個評測集。

他是OpenAI自己在2個半月前新出的。

其實你看這個名字也能看出來一點端倪。

val，就是生產總值的那個GDP。

GDP

他們要用一個全新的標準，來衡量AI在上的表現。

真實世界中、具有經濟價值的任務

過去，我們說一個模型牛逼，是因為它代碼寫得好，或者知識答得準，或者考試分數高。

這當然很重要，但就像我常說的，這個世界不只有程序員和科學家。

還有律師、設計師、市場經理、護士、建筑師、銷售……

無數專業知識工作者。

他們工作的價值，其實很難用一張考卷來衡量。

于是，OpenAI他們在美國貢獻GDP最高的9個行業里，選取了44個核心職業，然后，他們找到了在這些行業里平均有14年工作經驗的資深專家，讓他們出了1320道專業知識任務，并且每一項，都基于真實工作成果。

比如，給律師的任務，可能就是一份真實的合同草案和客戶需求，讓他去審閱和修改。

給市場經理的任務，可能就是一堆產品資料和市場數據，讓他寫一份營銷方案PPT。

給制造工程師的任務，可能就是一張產品設計圖，讓他優化生產流程。

這些任務，不僅有文字，還可能包含PDF、Excel表格、圖片、PPT，是高度復雜的、多模態的、沒有標準答案的真實工作。

整套任務的平均用時，是人類專家要花 7 個小時才能做完，有些甚至是一兩周的活。

然后，模型和人類的成果，會被同領域的另一批專家進行盲評。

他們也不知道誰是AI，誰是人類。

評委只需要回答一個問題：你更愿意把哪份交給客戶？是這份，還是這份？

結果，GPT-5.2 Thinking在這套 GDPval 上，贏或打平行業專家的比例，達到了70.9%，而GPT-5.2Pro 模型是74.1%。

注意，這里的參照系不是普通實習生，而是行業專家。

也就是說，在一個有著十幾年經驗的采購經理、或者審計師面前，GPT-5.2干出來的活兒，有七成的時候，比專家干得好，或者至少一樣好。

而 GPT-5，只有 38.8%。

這個進步的速度，還有有一點快的。

看一下官方放的case的對比，還是比較直觀的。

我們過去的模型，都花過于著重的筆墨在編程開發上了，我并不是說編程開發不重要，它很重要，很牛逼。

但，其他的領域的工作，我也覺得應該被重視。

而GDPval，就是我認為最重要的一個指標。

而且這次GPT-5.2，在上下文上，也有大幅的加強。

用我們以前的大海撈針測試，在一個256K的巨型文檔里面埋四根針，讓AI來根據文檔內容回答。

GPT-5.2干到了離譜的100%，這也是我印象中，唯一一個能干到100%的。

8根針的正確度會下降，但是這個衰減，已經比GPT-5.1牛逼太多了。

而且，還有最新的知識庫截止日期：

牛逼的知識工作處理+最新的知識庫截止日期+更棒的智力+準確性超高的上下文。

這簡直，就是真正的天選牛馬搭子，對打工人的加持，實在是太強了。

這是真正，奔著大眾、奔著實用去的。

目前今天會開放給ChatGPT付費會員，明天會開放給免費會員，會直接替代GPT-5.1，但是如果你是付費會員的話，還會在老模型中存續3個月。

就是這。

可惜截止到我發文的凌晨6點這一刻，作為尊貴的200刀的ChatGPT Pro會員，我還是沒有拿到GPT-5.2的體驗資格。

一些所謂的ChatGPT上的為GPT-5.2專用的文件精修，也只能等拿到實測以后，再出一篇GPT-5.2的打工合集了。

然后開發者的話，已經可以通過API調用。

價格上，會比5.1貴一些。

整體上，GPT-5.2的所有消息差不多就這樣了。

而我自己一直期待的，成人模式。

還是沒有到來。

奧特曼自己這個龜兒子說的是12月上線。

也不知道能不能等到。

反正他說，下周還會再送一些小的圣誕禮物。

盲猜一手OpenAI家的生圖模型，或者成人模式。

對于一個創作者來說，這兩玩意，真的很需要。。。

最后總結，GPT-5.2在我心中，是一個合格的迭代，并沒有跟很多模型一樣，專注于純粹的傳統刷分，而是聚焦在了廣大白領打工人身上，幫大家解決實際工作中的問題。

這個點，我覺得就很酷，非常的剛需。

但是從路線上來說，感覺GPT-5.2還是被原生多模態的Gemini 3 Pro壓了一頭，12月大概率還是要發個生圖模型出來的，不知道對標Banana，會不會有新的驚喜。

總之，還是保持期待。

反正每一個新模型的發布，只要是我覺得有意思的。

也一定會熬夜給大家帶來第一時間的解讀。

我們以后。

還是，不見不散~

晚安。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

涉霍爾木茲海峽馬來西亞和新加坡吵了起來

澎湃新聞 2026-04-10 08:05:06
17389 跟貼 17389
媒體：中方一直擔憂美印在中東使壞 20年前就開始布局了

澎湃新聞 2026-04-10 07:12:09
7893 跟貼 7893

日本“降級”中日關系中方表態

參考消息 2026-04-10 14:22:31
93 跟貼 93

“祖先給的特權”，河南網友稱祖墳在景區祭祖免票，景區回應：沒過檢票口，一般是附近住戶的祖墳

大風新聞 2026-04-06 15:06:12
3905 跟貼 3905
杭州回應西湖連續一周撒7噸漂白粉

第一財經資訊 2026-04-09 21:37:11
4046 跟貼 4046

53條中日航線3月取消全部航班

第一財經 2026-04-10 12:52:58
4797 跟貼 4797

山西企業稱承包政府工程竣工超兩年未驗收、上千萬工程款未結清

半島官網 2026-04-10 15:31:15
46 跟貼 46
全網催張雪換手機！榮耀真飛到重慶給他換了

大風新聞 2026-04-10 11:36:17
48 跟貼 48

美國“第一夫人”發表聲明

魯中晨報 2026-04-10 09:24:04
321 跟貼 321
張雪今晚8點拍賣冠軍復刻賽車：封頂500萬元

第一財經資訊 2026-04-10 18:49:40
6 跟貼 6
“16歲癱瘓女孩誤買鄧紫棋演唱會門票”，最新進展——

環球網資訊 2026-04-10 10:11:21
76 跟貼 76
2025年我國留學回國人數達53.56萬

澎湃新聞 2026-04-10 10:00:07
2431 跟貼 2431
俄總統代表正在訪美就恢復雙方經濟合作保持接觸

界面新聞 2026-04-10 18:46:50
110 跟貼 110
收評：創業板指漲3.78% 盤中創階段新高

財聯社 2026-04-10 15:10:01
89 跟貼 89
蓄電池生產企業要求員工體檢前吃排鉛藥“不吃藥不讓上班” 官方確認情況屬實

閃電新聞 2026-04-10 10:21:21
0 跟貼 0
證監會發布創業板改革意見：增設第四套上市標準

央視新聞客戶端 2026-04-10 16:11:26
106 跟貼 106
教育部：人工智能將納入教師資格考試和認證內容

界面新聞 2026-04-10 10:11:27
163 跟貼 163
馬寧、傅明、周飛，執裁美加墨世界杯

極目新聞 2026-04-10 09:12:56
117 跟貼 117
事關人工智能五部門聯合公布辦法

界面新聞 2026-04-10 18:22:46
14 跟貼 14
嫦娥七號探測器已運抵中國文昌航天發射場

新華社 2026-04-10 16:00:12
93 跟貼 93
“十多年沒遇到過這樣的！”浙江房東崩潰，租客兩年藏近千斤尿液在房間，柜子全被塞滿

揚子晚報 2026-04-10 11:06:50
0 跟貼 0

特朗普：對美伊達成協議“非常樂觀”，伊朗最高領袖提出三點主張

特朗普：對美伊達成協議“非常樂觀”，伊朗最高領袖提出三點主張

文匯報

2026-04-10 15:52:15

朝鮮最高領導人金正恩會見王毅

新華社

2026-04-10 18:38:12

東航一航班遇強烈氣流備降廈門，后在南昌上空盤旋數圈降落，乘客：劇烈顛簸，嚇得給對象留言，感謝機長帶我平安回家

東航一航班遇強烈氣流備降廈門，后在南昌上空盤旋數圈降落，乘客：劇烈顛簸，嚇得給對象留言，感謝機長帶我平安回家

極目新聞

2026-04-10 15:54:54

5女子坐臨水欄桿上，懸空高難度瑜伽動作秀柔韌；網友：先問問五朵金花都會游泳嗎？景區：發現了會制止

5女子坐臨水欄桿上，懸空高難度瑜伽動作秀柔韌；網友：先問問五朵金花都會游泳嗎？景區：發現了會制止

大風新聞

2026-04-10 12:29:16

"我不要活了！"上海一阿婆崩潰，買了近30年的保險全被退！警方：若繼續持有價值百萬

"我不要活了！"上海一阿婆崩潰，買了近30年的保險全被退！警方：若繼續持有價值百萬

臺州交通廣播

2026-04-09 22:32:54

多人反映在常熟農商銀行貸款遭遇“利率翻倍”：口頭承諾低息，還款五年發現年利率達8.7%，長期不交付合同原件

多人反映在常熟農商銀行貸款遭遇“利率翻倍”：口頭承諾低息，還款五年發現年利率達8.7%，長期不交付合同原件

極目新聞

2026-04-10 17:53:40

門店腰斬2萬家！一線撤離、雜牌泛濫，國民快餐巨頭徹底扛不住了

門店腰斬2萬家！一線撤離、雜牌泛濫，國民快餐巨頭徹底扛不住了

毒sir財經

2026-04-09 16:14:36

重磅！美國擬全面封殺中國實驗室！

重磅！美國擬全面封殺中國實驗室！

中國半導體論壇

2026-04-10 12:40:19

53條中日航線3月取消全部航班

53條中日航線3月取消全部航班

第一財經資訊

2026-04-10 12:59:47

“十多年沒遇到過這樣的！”浙江房東崩潰，租客兩年藏近千斤尿液在房間，柜子全被塞滿……

“十多年沒遇到過這樣的！”浙江房東崩潰，租客兩年藏近千斤尿液在房間，柜子全被塞滿……

揚子晚報

2026-04-10 11:06:50

收下中國26萬桶柴油后，馬科斯給南沙131處島礁改名！菲律賓變臉

收下中國26萬桶柴油后，馬科斯給南沙131處島礁改名！菲律賓變臉

趣文說娛

2026-04-09 20:17:07

記者現場直擊！伊斯蘭堡嚴陣以待

記者現場直擊！伊斯蘭堡嚴陣以待

環球網資訊

2026-04-10 13:56:00

全紅嬋后續：四人已被帶走，全網追問群主，陳芋汐確認在群里！

全紅嬋后續：四人已被帶走，全網追問群主，陳芋汐確認在群里！

眼光很亮

2026-04-10 13:53:56

伊朗媒體：哈拉齊傷重不治

中國基金報

2026-04-10 06:44:44

體檢報告中，若3個指標都正常，基本可排除很多疾病

體檢報告中，若3個指標都正常，基本可排除很多疾病

白話電影院

2026-04-09 16:11:20

6塊錢的假螺栓，13條人命：一座跨黃河大橋是怎么被省塌的？

6塊錢的假螺栓，13條人命：一座跨黃河大橋是怎么被省塌的？

李將平老師

2026-04-10 11:36:25

開路虎加油逃單后續：正臉曝光已死，身份被扒還是慣犯，警方介入

開路虎加油逃單后續：正臉曝光已死，身份被扒還是慣犯，警方介入

潮鹿逐夢

2026-04-10 12:03:49

突發！FCC擬禁止中國三大運營商！中方回應

突發！FCC擬禁止中國三大運營商！中方回應

EETOP半導體社區

2026-04-10 08:36:04

賈平凹之女賈淺淺被調查，連米芾的芾字都不認識，引起書法界震怒

賈平凹之女賈淺淺被調查，連米芾的芾字都不認識，引起書法界震怒

潮鹿逐夢

2026-04-10 12:43:59

如愿以償！鄭麗文終于見到了大陸行最重要的人物！

如愿以償！鄭麗文終于見到了大陸行最重要的人物！

阿龍聊軍事

2026-04-10 18:02:00

數字生命卡茲克

反復橫跳于不同的AI領域，努力分享一些很酷的AI干貨

497文章數 616關注度

往期回顧全部

科技要聞

馬斯克狂發大火箭也養不起AI 年虧50億美元

頭條要聞

73歲騎友抄近路摔倒身亡女兒：賠償問題無法達成共識

頭條要聞

73歲騎友抄近路摔倒身亡女兒：賠償問題無法達成共識

體育要聞

17歲賺了一百萬美元，25歲被CBA裁員

娛樂要聞

黃景瑜王玉雯否認戀情！聚會細節被扒

財經要聞

創業板改革制度落地增設第4套上市標準

汽車要聞

搭載第二代刀片電池及閃充技術騰勢N8L閃充版預售35萬起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

手機

數碼

教育

公開課

藝術要聞

于小冬2026年4月油畫新作《花季》

手機要聞

一加Ace系列新品官宣：直接魔改天璣9500 新一代性能猛獸

數碼要聞

選擇虛空還是圣光？微星RTX 5070魔獸世界至暗之夜聯名顯卡評測：設計精致性能強勁陪你繼續征戰艾澤拉斯

教育要聞

直播預告｜利楚教科“智慧校園·預見未來”發布會，定檔4月16日！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<abbr id="z7cyh"><tt id="z7cyh"><b id="z7cyh"></b></tt></abbr>