<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<dfn id="tqoex"><strong id="tqoex"><label id="tqoex"></label></strong></dfn>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

GPT-5.2果然反超谷歌Gemini 3 Pro！北大數院校友核心貢獻

2025-12-12 12:49:03　來源: 量子位

香港舉報

0

分享至

夢晨發自凹非寺
量子位 | 公眾號 QbitAI

紅色警報拉響，OpenAI是真急了：

30天，GPT-5.2系列緊接著GPT-5.1而來，這次還專門強化了打工能力。

這是GPT-5.1 Thinking和GPT-5.2 Thinking做人力資源表格的對比：

雖然版本號只加了0.1，但是在多個實用領域都更強了：做表格、做PPT、寫代碼、理解長文檔、調用工具、處理復雜多步驟項目……

視覺理解能力也大幅提升，GPT-5.2能準確標記出更多主板上的元件。

這是GPT-5.2做的網頁版波浪模擬器：

如果你遇到航班延誤、又錯過轉機、需要當地過夜以及需要特殊醫療座位，聽起來就很頭疼。

但GPT-5.2安排好了一切：重新訂機票、安排特殊座位和賠償。

ARC-AGI也在第一時間發布了測試結果。

一年前的o3 (High) 在ARC-AGI-1測試中得分88%，平均每項任務成本為4500美元。

今天的GPT-5.2 Pro (X-High) ，最新SOTA得分為90.5%，平均任務成本僅為11.64美元，在一年內效率提高了約390倍。

同時超過了谷歌Gemini 3 Pro的對應版本（綠色點），也算扳回一局。

拆解GPT-5.2各項能力

高經濟價值任務

在GDPval測試中，涵蓋美國GDP前九大產業中的44個職業領域，完成人類需要4-8小時才能完成的任務。

在人類評委打分下，GPT-5.2 Thinking與人類專家相比有71%的勝率，GPT-5.2 Pro還能更高一些。

而且速度是人類專家的11倍以上，成本不到人類專家的1%。

在投行分析師的電子表格建模任務上，GPT-5.2 Thinking平均每項任務得分相比GPT-5.1提升了9.3%，從59.1%上升到68.4%。這些任務包括為財富500強公司搭建三表聯動模型、構建杠桿收購模型等。

提示：您是一名投資銀行分析師，剛剛接到一項任務，需要完成一份瀑布式分析，以了解創始人及現有投資者的所有權和回報情況。您的客戶是一家正在考慮 C 輪融資的初創公司。

請查收附件中的模板，您需要對其進行修改。我在 G 列中添加了必要的假設。C 列的名稱在普通股部分重復出現，以便于索引。假設包括退出時的股權、系列投資金額、基金所有權、認股權證、清算優先權、轉換價格、普通股稀釋后股份數和行權價格。假設種子輪、A 輪和 B 輪均為同等權益的非參與性優先股（即，這些輪次的投資者享有同等待遇；對借款人的資產擁有同等的索償權）

在審查一份特別優秀的成果時，一位GDPval評委表示：

在輸出質量上令人興奮且顯著的飛躍……[它]看起來像是由一家專業公司的員工完成的，兩份交付成果的布局設計和建議都出人意料地出色，盡管其中一份仍存在一些小錯誤需要糾正。

要在ChatGPT中使用新的做表格和PPT能力，需要充值Plus、Pro、Business或 Enterprise套餐，選擇GPT-5.2 Thinking或Pro版本。生成復雜的內容可能需要幾分鐘時間。

代碼能力

GPT-5.2代碼能力同樣刷新紀錄，在SWE-bench Verified上，得分達到80%。

在SWE-Bench Pro這個更難的軟件工程評測上，GPT-5.2 Thinking拿下55.6%的新高。

這個評測不止測Python，還包括JavaScript、TypeScript和Go，更貼近真實工業場景。

早期測試者特別提到，GPT-5.2在前端開發和復雜UI工作上明顯更強，尤其是涉及3D元素的場景。

長上下文

長文檔處理是這次升級的重頭戲。

在OpenAI自制的大海撈針MRCRv2評測中，GPT-5.2 Thinking成為首個在256k 上下文長的4針版（4-needle variant）上達到接近100%準確率的模型。

不過8針版性能還是會隨上下文長度明顯下降。

對于需要超越最大上下文窗口進行思考的任務，GPT-5.2 Thinking兼容簡潔回復模式，能夠處理更多工具密集型、長時間運行的工作流。

視覺理解

視覺能力的提升同樣顯著。

在科學論文圖表理解上，GPT-5.2 Thinking的錯誤率大約降低了一半。

更關鍵的是，它對圖像中元素的空間位置有了更強的把握。

在高分辨率圖形面屏幕截圖推理測試中，配合Python工具得分達到86.3%。

如果禁用Python工具得分會低很多，OpenAI建議在這樣的視覺任務中通通啟用工具。

工具調用

工具調用能力同樣達到新高度，在Tau2-bench Telecom多輪交互電話客服場景評測上，GPT-5.2 Thinking取得98.7%的成績。

Tau2-bench Retail零售場景也達到82%。

這些成績意味著更強大的端到端工作流程，例如解決客戶支持案例、從多個系統中提取數據、運行分析以及生成最終輸出，且各步驟之間的故障更少。

科學能力

OpenAI一直希望AI能加速科學研究，這次他們相信GPT-5.2 Pro和GPT-5.2 Thinking是目前世界上最適合輔助科學家的模型。

在GPQA Diamond研究生水平的問答評測上，GPT-5.2 Pro拿下93.2%，GPT-5.2 Thinking緊隨其后達到92.4%。

在專家級數學評測FrontierMath（Tier 1-3）上，GPT-5.2 Thinking以40.3%的解題率創下新紀錄。

官方還透露了一個實際案例：

研究人員使用GPT-5.2 Pro探索了統計學習理論中的一個開放問題，在一個狹窄、明確的設定下，模型提出了一個證明，隨后被作者驗證并經過同行評審。

事實準確性方面，GPT-5.2 Thinking的幻覺問題相比GPT-5.1從8.8%減少到6.2%。

不過OpenAI也提示模型仍不完美，關鍵內容還是需要人工復核。

One More Thing

自從Meta瘋狂挖人以來，OpenAI都很少在研究進展文章后面附上貢獻者列表了，直接統一署名OpenAI了事。

不過從開發者相互祝賀的推文中，還是可以挖出GPT-5.2的幾位核心團隊成員：多為2024年之后加入OpenAI的新面孔，而且多是數學專業出身。

Yu Bai：北大數院校友、斯坦福統計學博士，2024年5月加入OpenAI。

Yaodong Yu：UC伯克利博士畢業，2024年9月加入OpenAI。

Yufeng Zhang：本科中科大數學系、西北大學博士、字節前研究員，2024年底加入OpenAI

梅松：北大數院校友、斯坦福計算與數學工程博士、UC伯克利助理教授，2025年5月暫離學校加入OpenAI。

Ofir Nachum：MIT CS碩士畢業，前谷歌大腦研究員，2023年加入OpenAI。

每當外界覺得OpenAI進展不及預期的時候，總有新的人才帶來新的驚喜。

參考鏈接：
[1]https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

剛剛，GPT-5.2滿分屠榜，OpenAI十周年王者歸來

機器之心Pro 2025-12-12 10:12:27
8 跟貼 8
谷歌智能體發力：增強版Gemini Deep Research和專屬API都來了

量子位 2025-12-12 15:44:10
0 跟貼 0

微信崩上熱搜！騰訊微信團隊致歉，打工人卻破防了

雷科技 2025-12-12 22:22:44
1 跟貼 1

GPT-5.2獲封“最強打工人”，谷歌同日以Gemini“性價比”系列應戰

鈦媒體APP 2025-12-12 16:10:01
3 跟貼 3
孫越拆臺能力多厲害？北大李雪琴都招架不住，讓人笑不活了

一桶漿糊要一統江湖 2025-12-10 20:35:00
1 跟貼 1

PC版「靈光閃應用」？谷歌終于出手，AI瀏覽器也要卷應用

雷科技 2025-12-12 21:32:11
0 跟貼 0

GPT-5.2發布即降智？背后華人被挖出，清北校友核心貢獻

新智元 2025-12-12 13:03:48
12 跟貼 12
清華北大果然盛產頂尖人才

小橘來說劇 2025-12-12 10:29:18
1 跟貼 1

黃仁勛：中國的AI市場無論有沒有英偉達都會進步與華為是競爭對手不是敵人

財聯社 2025-07-21 10:22:14
7 跟貼 7
中國最慘的大學，曾經和清華北大齊名，只可惜后來被拆的七零八落

大醬搞笑 2025-12-08 11:09:08
1 跟貼 1
谷歌新XR眼鏡薄如普通眼鏡，2026年就能買到

極果酷玩 2025-12-10 03:55:10
0 跟貼 0
下一代谷歌頭顯，XREAL x Google 定義混合現實頭顯

愛范兒 2025-12-10 05:12:08
0 跟貼 0
北大才女李雪琴聊結婚段子，想男人都想瘋了，開口笑瘋三個李誕！

阿笎評論哥 2025-12-10 01:20:09
33 跟貼 33
羅翔北大博士為人指路：悟透人性微光！愿善良不被辜負！

痞子說動物 2025-12-11 10:46:35
0 跟貼 0
若不做出更多讓步，谷歌或因Google Play涉嫌違規遭歐盟罰款

界面新聞 2025-12-11 08:54:36
0 跟貼 0
中信證券：建議關注算力基建和應用落地等層面的機會

界面新聞 2025-12-10 08:50:41
0 跟貼 0
今日交通案例快刷

AKA灰叔 2025-12-11 06:50:08
0 跟貼 0
北約秘書長警告：作好與俄羅斯開戰準備

參考消息 2025-12-12 14:29:01
20433 跟貼 20433
男子太有才了，制作了蒸汽小模型，以前蒸汽火車也是這種結構嗎？

逗趣小油條 2025-12-11 15:14:00
1 跟貼 1
70億！迪士尼和OpenAI聯手了，送出200+角色投喂Sora

智東西 2025-12-12 20:11:12
0 跟貼 0
標普全球宣布與谷歌云達成合作，加速企業智能化轉型

界面新聞 2025-12-10 21:35:15
0 跟貼 0
北大天才韋東奕的課堂，黑板東西讓我抄一遍，都不敢保證能抄對！

莎莎搞笑社 2025-12-11 10:27:34
3 跟貼 3
北大才女蒙曼49歲未婚，朱迅問她想嫁給誰，蒙曼說出全場震驚

快樂笑星坊 2025-12-11 11:17:56
1 跟貼 1
大模型公司不搞瀏覽器搞Agent，實測找到原因了

量子位 2025-10-31 16:54:34
2 跟貼 2
參加完百度世界大會，我終于理解了「內化 AI」的正確打開方式

愛范兒 2025-11-13 18:01:50
0 跟貼 0
句子級溯源+生成式歸因，C2-Cite重塑大模型可信度

機器之心Pro 2025-12-03 10:33:12
0 跟貼 0
苗老師的經歷告訴我們，上北大也沒啥用

利奧看劇吧 2025-12-08 16:53:01
1 跟貼 1
沈逸：美國用最強硬的方式吹響戰略撤退號角

澎湃新聞 2025-12-12 16:49:36
3495 跟貼 3495
10年跟拍北京中產95后：考進了北大，還是歸于平凡

麥子熟了 2025-12-12 22:17:36
3 跟貼 3
比亞迪王傳福：做大產業，做出中國制造業應有的位置

每日經濟新聞 2025-07-22 17:51:59
0 跟貼 0
100行代碼打造迷你編程Agent：修復65%真項目bug，適配所有大模型

量子位 2025-07-27 20:32:11
0 跟貼 0
領克09 、寶馬X5L、漢蘭達、途昂Pro爬坡性能大比拼誰更強？

汽車天涯 2025-12-08 19:26:35
1 跟貼 1
港大開源ViMax火了，實現AI自編自導自演

機器之心Pro 2025-12-12 18:33:07
2 跟貼 2
余承東：我有一個夢想馬路上的所有車里都有華為的技術

每日經濟新聞 2025-07-23 17:06:16
267 跟貼 267
老杜創造的“醫學奇跡”大揭秘！

蜻蜓世音 2025-12-11 21:45:35
80 跟貼 80
參加世界扇耳光大賽的中國女孩

澎湃新聞 2025-12-12 11:52:28
1436 跟貼 1436
迪士尼入股OpenAI，誰是最大贏家？

環球旅訊 2025-12-12 21:42:45
0 跟貼 0
柳州、來賓、南寧被廣西環境廳通報應對污染天氣工作不力

澎湃新聞 2025-12-12 09:30:27
73 跟貼 73
北大錢理群教授：我們正在培養精致的利己主義者

柒號樞密院 2025-12-12 07:28:57
2 跟貼 2
賴清德怒斥藍白“沒得到教訓”，吳子嘉不禁脫口5字

新時光點滴 2025-12-13 00:43:07
0 跟貼 0

現如今全球僅剩的5個社會主義國家，誰最富裕？誰最貧窮？

現如今全球僅剩的5個社會主義國家，誰最富裕？誰最貧窮？

時尚的弄潮

2025-12-12 09:10:37

去俄旅游網友：落地圣彼得堡，成功被宰7800盧布

去俄旅游網友：落地圣彼得堡，成功被宰7800盧布

映射生活的身影

2025-12-10 10:10:21

亞洲第1！16歲中國新星身價22.5萬歐，與歐洲頂級新星齊名

亞洲第1！16歲中國新星身價22.5萬歐，與歐洲頂級新星齊名

小金體壇大視野

2025-12-12 17:13:32

42歲港圈女神隱退12年突嫁山東小伙？不雅照風波后現狀曝光太意外

42歲港圈女神隱退12年突嫁山東小伙？不雅照風波后現狀曝光太意外

橙星文娛

2025-12-10 21:21:07

小法：梅西20分鐘能帽子戲法！他增肌后無人能敵！

小法：梅西20分鐘能帽子戲法！他增肌后無人能敵！

氧氣是個地鐵

2025-12-12 18:38:09

2025年，日本海空軍力排名世界第幾？一個被低估的軍事強權

2025年，日本海空軍力排名世界第幾？一個被低估的軍事強權

高博新視野

2025-11-25 21:03:24

大學生捐精，女方要求私下見面，承諾給予費用，內幕如何？

大學生捐精，女方要求私下見面，承諾給予費用，內幕如何？

極品小牛肉

2024-03-22 10:46:53

日本前大使山上信吾接受德媒采訪表示，中國不再是日本熟悉的中國

日本前大使山上信吾接受德媒采訪表示，中國不再是日本熟悉的中國

南權先生

2025-12-11 16:04:24

“一個月做5次，超過就按50萬一次收費！”澤尻英龍華逼丈夫簽下

“一個月做5次，超過就按50萬一次收費！”澤尻英龍華逼丈夫簽下

忠于法紀

2025-12-03 11:35:03

美國與日韓澳等8國就加強稀土供應鏈簽署協議，外交部回應

美國與日韓澳等8國就加強稀土供應鏈簽署協議，外交部回應

瀟湘晨報

2025-12-12 17:04:16

山東村支書賣小米被舉報封店！當場喊話雷軍：放我們一馬行不行

山東村支書賣小米被舉報封店！當場喊話雷軍：放我們一馬行不行

亡海中的彼岸花

2025-12-11 10:17:06

這可能是2026年股市最大的動力

這可能是2026年股市最大的動力

小白讀財經

2025-12-12 15:20:10

為什么世界上只有“大貓”，而沒有“大狗”？科學家終于找到答案

為什么世界上只有“大貓”，而沒有“大狗”？科學家終于找到答案

魅力科學君

2025-12-10 18:17:48

大結局時刻要來？關于中日，高市終于說了句實話

大結局時刻要來？關于中日，高市終于說了句實話

現代小青青慕慕

2025-12-12 12:18:00

幾乎全是假貨！利潤高達2400%，為何消費者還前赴后繼爭相購買

幾乎全是假貨！利潤高達2400%，為何消費者還前赴后繼爭相購買

不寫散文詩

2025-10-26 13:42:27

世界上最致命的動物

喜之春

2025-12-08 06:30:33

3方交易有望達成：庫明加解脫勇士精準補強獨行俠公牛著眼未來

3方交易有望達成：庫明加解脫勇士精準補強獨行俠公牛著眼未來

毒舌NBA

2025-12-12 10:02:28

1977年，左宗棠陵墓被炸開，遺骨散落荒野，王震將軍得知后大怒！

1977年，左宗棠陵墓被炸開，遺骨散落荒野，王震將軍得知后大怒！

顧史

2025-12-09 08:13:09

萬萬沒想到，兩會最火提案不是醫療和就業，而是霍啟剛要治內卷！

萬萬沒想到，兩會最火提案不是醫療和就業，而是霍啟剛要治內卷！

滄海一書客

2025-03-11 09:46:39

重慶女博士拯救清遠雞“純正血統”，一年賺了9個小目標

重慶女博士拯救清遠雞“純正血統”，一年賺了9個小目標

花朵財經

2025-11-21 18:01:38

追蹤人工智能動態

11846文章數 176339關注度

往期回顧全部

科技要聞

凌晨突發！GPT-5.2上線，首批實測感受來了

頭條要聞

38歲男子辭職返鄉花1.3萬用集裝箱給父母造"網紅屋"

頭條要聞

38歲男子辭職返鄉花1.3萬用集裝箱給父母造"網紅屋"

體育要聞

15輪2分，他們怎么成了英超最爛球隊？

娛樂要聞

上海這一夜，33歲陳麗君秒了32歲吉娜？

財經要聞

鎂信健康闖關港交所：被指竊取商業秘密

汽車要聞

表面風平浪靜內里翻天覆地！試駕銀河星艦7 EM-i

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

游戲

家居

房產

時尚

藝術要聞

圓通豪擲10億！上海總部“星空大樓”建成！

油條杯S4今晚開戰，Happy&浪漫領銜八大高手參賽

家居要聞

溫潤質感打造干凈空間

歐式風格純粹優雅氣質
高端私宅理想隱居圣地
現代手法詮釋東方文化

房產要聞

每日狂增1300+企業！封關在即，海南徹底爆發！

秋冬發色天花板！5款顯白溫柔發色拿圖給Tony，染完被夸到過年

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：欧美日本在线一区二区三区| 精品久久久久久无码专区| 亚洲国产综合av| 久久久久亚洲AV成人网人人小说| 国产九九免费| 峨山| √国产精品| 亚洲日韩中文字幕在线播放 | 清苑县| 另类无码| 久久亚洲无码| 久久成人国产精品免费软件| 国产黄色免费看| 日韩成人电影| 亚洲国产成人无码av在线影院| 香港日本三级亚洲三级| 国产极品美女到高潮| 少妇人妻偷人精品一区二区| 国产人妻久久精品一区二区三区| 国产无遮挡又黄又爽高潮| 久久国产乱子精品免费女| 国产成人一区二区三区别| 不卡的无码AV| 永久免费看mv网站入口亚洲| 欧美性xxxx狂欢老少配| 人人妻人人澡人人爽人人欧美一区 | 久久综合亚洲鲁鲁九月天| 欧美色欧美亚洲另类二区| 永仁县| 午夜天堂av天堂久久久| 人人草人人做人人爱| 国产a在视频线精品视频下载| 色婷婷色| 久久精品囯产精品亚洲| 午夜美女裸体福利视频| 黑人videos特大hd粗暴| 洪雅县| 乱色熟女综合一区二区三区| 亚洲中文日韩一区二区三区| 丁香婷婷五月| 国产成人av|

<thead id="4dcrt"></thead>

<center id="4dcrt"><i id="4dcrt"></i></center>

<cite id="4dcrt"></cite>

<blockquote id="4dcrt"><i id="4dcrt"><video id="4dcrt"></video></i></blockquote>

<p id="4dcrt"></p>