昨天,OpenAI憋了這么久,終于扔出新的重磅產品:GPT-5.2
在谷歌和其他競爭對手的圍追堵截下,他們這次徹底盯上了打工人:
GPT-5.2官方文檔白紙黑字寫著:在涵蓋44個職業的專業知識工作測試中,GPT-5.2 Thinking完成任務的速度是人類專家的11倍以上,成本不到人類的1%。
更扎心的是:在這個名為GDPval的測試里,GPT-5.2 Thinking與頂級行業專家正面PK,70.9%的任務中,AI贏了或打平。
一位參與評測的評委看完AI的輸出后感嘆:"這像是一家有專業團隊的公司做出來的……雖然還有些小錯要改,但布局和建議都出奇地專業。"
紅色警報,GPT5.2靠啥大幅改進?
就在上個月,谷歌放出了Gemini 3,在多項基準測試中全面領先,一度把OpenAI打得措手不及。
OpenAI的CEO山姆·奧特曼在內部發了一封"Code Red"(紅色警報)備忘錄,要求團隊暫停其他項目,全力沖刺ChatGPT的下一次迭代。
![]()
GPT-5.2這個代號就能看出來,OpenAI現在是提前亮劍。
這次發布的GPT-5.2有三個版本:
Instant:快、穩,適合日常查資料、寫郵件;
Thinking:深度推理,適合編程、數據分析、長文檔處理;
Pro:頂配,追求極致準確率,適合高風險決策。
在編程基準測試SWE-bench Verified上,GPT-5.2 Thinking拿下80%的成績。在數學競賽題AIME 2025上,得分100%。
光看數字嚇人沒用,咱們得搞明白:這玩意兒到底是怎么突然變這么強的?
周四的前哨特訓營直播中,王煜全和大家分享了預訓練放緩的真正原因,告訴大家底層芯片的算力和存儲沒有大更新的情況下,AI大模型接下來的進步主要都會依靠后訓練、強化學習和推理。
知名的ARC測試中,領先模型主要都靠延長推理提高成績
![]()
OpenAI這次發布驗證了這個判斷。GPT-5.2官方文檔里有兩個關鍵點:
第一,推理中糾錯。 文檔中提到"通過訓練,模型學會精煉自己的思考過程、嘗試不同策略、并識別自己的錯誤。"
這背后大概率就是通過強化學習,優化了模型的推理過程,讓它學會了在內部“打草稿”并在輸出前自我修正。
第二,通用推理反超垂直微調。 在模擬OpenAI內部代碼工作的測試中,靠"思考"的通用版GPT-5.2,竟然擊敗了上一代專門針對代碼優化的垂直模型(Codex Max)。
這證明了強化學習提升的邏輯推理能力,還能繼續提高模型在不同場景的泛用性,簡單說就是讓模型能像人類工程師一樣分析問題,而不是死記硬背代碼庫。
說人話就是:GPT-5.2這一代,核心變成了用強化學習教AI怎么"想",這才是它能在專業任務上碾壓人類的底層原因。
死亡名單,哪些職業危險了?
好了,技術講完了,咱們聊點更扎心的:哪些人的飯碗最危險?
要回答這個問題,得先說說OpenAI發明的GDPval測試。
GDPval,全稱是"GDP Validation",是OpenAI在2025年9月發布的一套評測體系。
它的核心思路很直接:不跟AI比考試分數,直接比"干活"。
OpenAI找來了一批真正的專業人士,平均從業經驗14年,覆蓋美國GDP貢獻最大的9個行業、44個職業。
這些人出題,出的都是他們日常工作中真實會干的活兒:做銷售PPT、搭財務三表模型、排急診室值班表….
然后讓AI和人類專家各干一遍,再請專家盲評:誰做得更好?
結果就是我們開頭說的:GPT-5.2 Thinking在70.9%的任務中,贏了或打平人類專家。
更恐怖的是:AI完成這些任務的速度是人類的11倍以上,成本不到人類的1%。
![]()
那么問題來了:哪些崗位最危險?
從GDPval測試覆蓋的44個職業來看,知識密集型白領崗位首當其沖。
投行分析師:OpenAI內部測試顯示,GPT-5.2在投行初級分析師的建模任務上,平均得分比GPT-5.1高出9.3%。
客服和售后:AI在工具調用測試Tau2-bench中拿下98.7%的準確率,能協調航班改簽、行李追蹤、特殊座位安排等復雜流程。
程序員:編程能力繼續飆升,Windsurf已經把GPT-5.2當成默認底座。
你的新角色:從"執行者"變成"審核員"
好在,AI雖然很厲害,但絕非萬能。
這幾天谷歌DeepMind聯合Kaggle,正式發布了一個名為"FACTS Grounding"的測試榜單。
FACTS是什么?說白了,就是專門測AI"有沒有在一本正經地胡說八道"。
測試方法很直接:給AI一份長文檔(最長32000個token),讓它基于文檔生成回答,然后檢查它說的每一句話是不是都有據可查、沒有編造。
結果呢?
目前市面上最強的AI模型,在這個測試里,準確率普遍卡在70%上下。
包括谷歌自家的Gemini系列,OpenAI的GPT系列,沒有任何一個模型能保證100%的事實準確性。
這就好比,你招了一個效率極高的員工,干活速度是別人的十倍,工資只要別人的零頭。
但果這個員工有30%的概率會"信口開河",合同金額寫錯、法規條款引用錯誤、客戶信息張冠李戴。
現在你敢讓他獨立負責重要項目嗎?
AI的缺陷,恰恰是普通人最大的機會。
OpenAI自己也說了,GPT-5.2的定位是"在人類監督下協助專業工作"(when paired with human oversight)。
以前的打工人是什么?執行者。 老板說寫個方案,你就寫;說做個表,你就做。
以后的你必須成為AI的老板,要想清楚哪些事是有價值的,哪些事該安排給哪個AI干,干完如何判斷靠不靠譜、有沒有價值。
未來職場,不會淘汰"用AI的人",一定會淘汰"試圖和AI競爭的人"。
給家長的話:與其焦慮,不如讓孩子提前準備
我們這代人還在適應AI,但下一代可以從小學會"和AI協作"。
就像計算機、互聯網成為今天必不可少的職場工具,AI未來也會如此。
【前哨AI冬令營】 專為8-16歲設計,7天讓孩子親手做出自己的小游戲和微信小程序,邊玩邊學,作品還能發給同學一起玩。
零基礎也能上手:從"玩游戲"到"做游戲"
抓住核心競爭力:培養和AI協作的能力
收獲硬成果:可上線的作品,實打實的積累
? 名額有限,先到先得,掃碼報名 ↓
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.