<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<sub id="4sbyi"></sub>

<p id="4sbyi"></p>

<sup id="4sbyi"><rt id="4sbyi"></rt></sup>

<sub id="4sbyi"><rt id="4sbyi"></rt></sub>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

GPT-5.2果然反超谷歌Gemini 3 Pro！北大數院校友核心貢獻

2025-12-12 19:42:42　來源: 算法與數學之美

北京舉報

0

分享至

紅色警報拉響，OpenAI是真急了：

30天，GPT-5.2系列緊接著GPT-5.1而來，這次還專門強化了打工能力。

這是GPT-5.1 Thinking和GPT-5.2 Thinking做人力資源表格的對比：

雖然版本號只加了0.1，但是在多個實用領域都更強了：做表格、做PPT、寫代碼、理解長文檔、調用工具、處理復雜多步驟項目……

視覺理解能力也大幅提升，GPT-5.2能準確標記出更多主板上的元件。

這是GPT-5.2做的網頁版波浪模擬器：

如果你遇到航班延誤、又錯過轉機、需要當地過夜以及需要特殊醫療座位，聽起來就很頭疼。

但GPT-5.2安排好了一切：重新訂機票、安排特殊座位和賠償。

ARC-AGI也在第一時間發布了測試結果。

一年前的o3 (High) 在ARC-AGI-1測試中得分88%，平均每項任務成本為4500美元。

今天的GPT-5.2 Pro (X-High) ，最新SOTA得分為90.5%，平均任務成本僅為11.64美元，在一年內效率提高了約390倍。

同時超過了谷歌Gemini 3 Pro的對應版本（綠色點），也算扳回一局。

GPT5.2發布的這一天，也是OpenAI成立十周年，官方還做了個小視頻來回顧10年來的進展。

拆解GPT-5.2各項能力高經濟價值任務

在GDPval測試中，涵蓋美國GDP前九大產業中的44個職業領域，完成人類需要4-8小時才能完成的任務。

在人類評委打分下，GPT-5.2 Thinking與人類專家相比有71%的勝率，GPT-5.2 Pro還能更高一些。

而且速度是人類專家的11倍以上，成本不到人類專家的1%。

在投行分析師的電子表格建模任務上，GPT-5.2 Thinking平均每項任務得分相比GPT-5.1提升了9.3%，從59.1%上升到68.4%。這些任務包括為財富500強公司搭建三表聯動模型、構建杠桿收購模型等。

提示：您是一名投資銀行分析師，剛剛接到一項任務，需要完成一份瀑布式分析，以了解創始人及現有投資者的所有權和回報情況。您的客戶是一家正在考慮 C 輪融資的初創公司。

請查收附件中的模板，您需要對其進行修改。我在 G 列中添加了必要的假設。C 列的名稱在普通股部分重復出現，以便于索引。假設包括退出時的股權、系列投資金額、基金所有權、認股權證、清算優先權、轉換價格、普通股稀釋后股份數和行權價格。假設種子輪、A 輪和 B 輪均為同等權益的非參與性優先股（即，這些輪次的投資者享有同等待遇；對借款人的資產擁有同等的索償權）

在審查一份特別優秀的成果時，一位GDPval評委表示：

在輸出質量上令人興奮且顯著的飛躍……[它]看起來像是由一家專業公司的員工完成的，兩份交付成果的布局設計和建議都出人意料地出色，盡管其中一份仍存在一些小錯誤需要糾正。

要在ChatGPT中使用新的做表格和PPT能力，需要充值Plus、Pro、Business或 Enterprise套餐，選擇GPT-5.2 Thinking或Pro版本。生成復雜的內容可能需要幾分鐘時間。

代碼能力

GPT-5.2代碼能力同樣刷新紀錄，在SWE-bench Verified上，得分達到80%。

在SWE-Bench Pro這個更難的軟件工程評測上，GPT-5.2 Thinking拿下55.6%的新高。

這個評測不止測Python，還包括JavaScript、TypeScript和Go，更貼近真實工業場景。

早期測試者特別提到，GPT-5.2在前端開發和復雜UI工作上明顯更強，尤其是涉及3D元素的場景。

長上下文

長文檔處理是這次升級的重頭戲。

在OpenAI自制的大海撈針MRCRv2評測中，GPT-5.2 Thinking成為首個在256k 上下文長的4針版（4-needle variant）上達到接近100%準確率的模型。

不過8針版性能還是會隨上下文長度明顯下降。

對于需要超越最大上下文窗口進行思考的任務，GPT-5.2 Thinking兼容簡潔回復模式，能夠處理更多工具密集型、長時間運行的工作流。

視覺理解

視覺能力的提升同樣顯著。

在科學論文圖表理解上，GPT-5.2 Thinking的錯誤率大約降低了一半。

更關鍵的是，它對圖像中元素的空間位置有了更強的把握。

在高分辨率圖形面屏幕截圖推理測試中，配合Python工具得分達到86.3%。

如果禁用Python工具得分會低很多，OpenAI建議在這樣的視覺任務中通通啟用工具。

工具調用

工具調用能力同樣達到新高度，在Tau2-bench Telecom多輪交互電話客服場景評測上，GPT-5.2 Thinking取得98.7%的成績。

Tau2-bench Retail零售場景也達到82%。

這些成績意味著更強大的端到端工作流程，例如解決客戶支持案例、從多個系統中提取數據、運行分析以及生成最終輸出，且各步驟之間的故障更少。

科學能力

OpenAI一直希望AI能加速科學研究，這次他們相信GPT-5.2 Pro和GPT-5.2 Thinking是目前世界上最適合輔助科學家的模型。

在GPQA Diamond研究生水平的問答評測上，GPT-5.2 Pro拿下93.2%，GPT-5.2 Thinking緊隨其后達到92.4%。

在專家級數學評測FrontierMath（Tier 1-3）上，GPT-5.2 Thinking以40.3%的解題率創下新紀錄。

官方還透露了一個實際案例：

研究人員使用GPT-5.2 Pro探索了統計學習理論中的一個開放問題，在一個狹窄、明確的設定下，模型提出了一個證明，隨后被作者驗證并經過同行評審。

事實準確性方面，GPT-5.2 Thinking的幻覺問題相比GPT-5.1從8.8%減少到6.2%。

不過OpenAI也提示模型仍不完美，關鍵內容還是需要人工復核。

One More Thing

自從Meta瘋狂挖人以來，OpenAI都很少在研究進展文章后面附上貢獻者列表了，直接統一署名OpenAI了事。

不過從開發者相互祝賀的推文中，還是可以挖出GPT-5.2的幾位核心團隊成員：多為2024年之后加入OpenAI的新面孔，而且多是數學專業出身。

Yu Bai：北大數院校友、斯坦福統計學博士，2024年5月加入OpenAI。

Yaodong Yu：UC伯克利博士畢業，2024年9月加入OpenAI。

Yufeng Zhang：本科中科大數學系、西北大學博士、字節前研究員，2024年底加入OpenAI

梅松：北大數院校友、斯坦福計算與數學工程博士、UC伯克利助理教授，2025年5月暫離學校加入OpenAI。

Ofir Nachum：MIT CS碩士畢業，前谷歌大腦研究員，2023年加入OpenAI。

每當外界覺得OpenAI進展不及預期的時候，總有新的人才帶來新的驚喜。

參考鏈接：
[1]https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

段永平：投資特斯拉基本看市夢率

每日經濟新聞 2026-02-04 17:14:25
95 跟貼 95
副省部級"老虎"被查后一幅字被人賣5000元

中國新聞周刊 2026-02-04 18:07:56
693 跟貼 693

農民收入漲了！人均可支配收入達24456元

看看新聞Knews 2026-02-04 13:23:02
21111 跟貼 21111

寶馬車在杭州一商場停8101小時費用16900元商場：派出所聯系上車主但其沒來處理

紅星新聞 2026-02-04 18:58:09
335 跟貼 335
浙江女生工地賣10元鹵肉飯被食堂驅趕，食堂回應：承包食堂投資了幾十萬

揚子晚報 2026-02-04 19:41:38
139 跟貼 139

會談瀕臨破裂至少九國緊急斡旋美伊敲定談判地點

國際在線 2026-02-05 06:53:02
99 跟貼 99

12306回應"訂票取消3次坑前任"

新京報 2026-02-04 22:24:06
245 跟貼 245
白云機場工作人員換漢服驚呆老外：what is this？

看度新聞 2026-02-04 16:11:44
197 跟貼 197

6年換5隊，哈登被封“流浪巨星”

環球網資訊 2026-02-05 07:00:06
41 跟貼 41
納指跌1.51%，AMD跌超17%

每日經濟新聞 2026-02-05 05:51:07
13 跟貼 13
廣西一地倡議：過年壓歲錢不超20元！網友：求全國推廣

玉林晚報 2026-02-04 16:58:00
139 跟貼 139
“阿嬤手作”55元一碗螺螄粉被吐槽貴店員：最近風評不佳，但售價高是有原因的

封面新聞 2026-02-03 22:36:18
522 跟貼 522
歷下區將扎實推進老舊小區改造

齊魯壹點 2026-02-04 17:55:34
94 跟貼 94
關鍵測試遇燃料泄漏，美載人繞月任務再推遲一個月

環球網資訊 2026-02-05 07:00:07
118 跟貼 118
國家圍棋集訓隊教練員候選名單公示，俞斌任總教練

上觀新聞 2026-02-04 20:38:05
67 跟貼 67
央行：做好2026年信貸市場工作著力支持擴大內需、科技創新、中小微企業等重點領域

財聯社 2026-02-04 16:11:12
14 跟貼 14
立陶宛承認，對中國犯了一個巨大的錯誤

揚子晚報 2026-02-05 07:19:50
0 跟貼 0
早讀｜冬奧會“中國之家”開門迎賓

上觀新聞 2026-02-05 06:57:03
2 跟貼 2
一寶馬車在商場停了340天、計費超1.7萬元，車被圍欄鎖住！車主：會回來挪車

環球網資訊 2026-02-05 09:17:15
0 跟貼 0
臥底曝光：湖北精神病院騙保黑幕，正常人被強制滯留成'搖錢樹'

燕梳樓頻道 2026-02-05 09:18:09
0 跟貼 0
探訪“網購娃娃菜中毒事件”發生地：夫妻倆事發前欠房租已久

半島官網 2026-02-05 09:20:20
0 跟貼 0
貨輪上一名船員突發疾病昏迷！青島海域上演5小時接力救援

半島官網 2026-02-05 09:20:19
0 跟貼 0

重大考古發現！連云港鎮海遺址將我國長江以北海鹽生產史推至4400年前

重大考古發現！連云港鎮海遺址將我國長江以北海鹽生產史推至4400年前

極目新聞

2026-02-04 21:47:06

越媒：越南U13青年隊11-0橫掃中國俱樂部，小將范光凱獨中七元

越媒：越南U13青年隊11-0橫掃中國俱樂部，小將范光凱獨中七元

星耀國際足壇

2026-02-04 13:49:50

北京女子移植干細胞后，血型口味都變了

北京女子移植干細胞后，血型口味都變了

粵語音樂噴泉

2026-02-04 15:04:59

新研究：老年人低密度脂蛋白最佳范圍是3.6到4.2！應該怎么看

新研究：老年人低密度脂蛋白最佳范圍是3.6到4.2！應該怎么看

李藥師談健康

2026-02-04 15:29:09

爭議！WTA不和諧一幕：烏克蘭女將拒合影+握手因對手去過俄羅斯

爭議！WTA不和諧一幕：烏克蘭女將拒合影+握手因對手去過俄羅斯

侃球熊弟

2026-02-05 00:10:03

上海房價最離譜的郊區，為什么這么貴？

上海房價最離譜的郊區，為什么這么貴？

環線房產咨詢

2026-02-05 07:09:18

黃巖島對峙升級，中方已備最壞打算，美媒：轟6和055抵達

黃巖島對峙升級，中方已備最壞打算，美媒：轟6和055抵達

何氽簡史

2026-02-04 20:09:13

日本專家顛覆認知：想健康就不要跑步！？

日本專家顛覆認知：想健康就不要跑步！？

馬拉松跑步健身

2026-02-03 06:30:10

曝具俊曄將回韓過年，計劃給大S買房攢很多錢，汪小菲遭韓媒炮轟

曝具俊曄將回韓過年，計劃給大S買房攢很多錢，汪小菲遭韓媒炮轟

古希臘掌管月桂的神

2026-02-04 19:50:03

德國抓捕兩名工人，往軍艦發動機里倒鋼珠？西方的工匠精神哪去了

德國抓捕兩名工人，往軍艦發動機里倒鋼珠？西方的工匠精神哪去了

那場煙花雨淋濕了夢境了

2026-02-04 20:22:16

林詩棟換主管教練了，亞洲杯首輪3-0獲勝，新教練小試牛刀效果好

林詩棟換主管教練了，亞洲杯首輪3-0獲勝，新教練小試牛刀效果好

真理是我親戚

2026-02-04 13:05:46

潘粵明評價獲證實！董潔22年后與藍顏知己再牽手

潘粵明評價獲證實！董潔22年后與藍顏知己再牽手

獨舞獨舞

2026-01-18 06:37:17

王石：每晚最難熬的是等田樸珺回家，不知道回不回不知道幾點回

王石：每晚最難熬的是等田樸珺回家，不知道回不回不知道幾點回

報君知史

2026-01-04 16:49:46

41歲C羅結束罷賽正式回歸訓練+提前2小時抵達基地 3天后迎來復出

41歲C羅結束罷賽正式回歸訓練+提前2小時抵達基地 3天后迎來復出

風過鄉

2026-02-04 22:56:15

沈陽新娘遠嫁杭州，娘家30口人自駕送親，新郎只愿付當天住宿費

沈陽新娘遠嫁杭州，娘家30口人自駕送親，新郎只愿付當天住宿費

蘭姐說故事

2025-08-21 20:05:04

殺入4強！意甲領頭羊狂飆：豪取4連勝，齊沃目標直指三冠王

殺入4強！意甲領頭羊狂飆：豪取4連勝，齊沃目標直指三冠王

足球狗說

2026-02-05 05:54:50

韓媒揭露大S去世細節，搶救14小時榜熱搜，泡溫泉成死亡關鍵原因

韓媒揭露大S去世細節，搶救14小時榜熱搜，泡溫泉成死亡關鍵原因

黔鄉小姊妹

2026-02-05 08:20:58

科爾：或許是交易流言影響了球隊，大家情緒低落毫無競爭精神

科爾：或許是交易流言影響了球隊，大家情緒低落毫無競爭精神

懂球帝

2026-02-04 14:51:24

2026年家庭存款等級表流出：達到第3級，你才有資格談“不累”

2026年家庭存款等級表流出：達到第3級，你才有資格談“不累”

別人都叫我阿腈

2026-02-04 19:33:38

被曝藏身美國4個月，恒大前總裁再迎壞消息，許家印最后希望破滅

被曝藏身美國4個月，恒大前總裁再迎壞消息，許家印最后希望破滅

李橑在北漂

2026-01-06 21:26:55

算法與數學之美

分享知識，交流思想

5340文章數 64601關注度

往期回顧全部

科技要聞

微信給馬化騰澆了“一盆冷水”

頭條要聞

牛彈琴：中國元首和特朗普通話特朗普就臺灣問題表態

頭條要聞

牛彈琴：中國元首和特朗普通話特朗普就臺灣問題表態

體育要聞

中國棒球，立春

娛樂要聞

春晚主持人陣容曝光，5位都是老面孔

財經要聞

黃金，出現拐點

汽車要聞

綜合續航1730km 5座中級電混SUV吉利銀河M7官圖發布

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

本地

房產

教育

軍事航空

60歲的劉嘉玲、章小蕙太美了！港女的魅力從不是少女感

本地新聞

圍觀了北京第一屆黑色羽絨服大賽，我笑瘋了

房產要聞

還在漲！成交量連飆四個月海口二手房開始穩了！

教育要聞

2025全國畢業生薪酬百強出爐，青島大學上榜！

軍事要聞

卡扎菲兒子被暗殺：4名蒙面人員闖入住所

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<style id="w3xxy"></style>