<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      GPT-5.2果然反超谷歌Gemini 3 Pro!北大數(shù)院校友核心貢獻

      0
      分享至

      紅色警報拉響,OpenAI是真急了:

      30天,GPT-5.2系列緊接著GPT-5.1而來,這次還專門強化了打工能力。

      這是GPT-5.1 Thinking和GPT-5.2 Thinking做人力資源表格的對比:


      雖然版本號只加了0.1,但是在多個實用領(lǐng)域都更強了:做表格、做PPT、寫代碼、理解長文檔、調(diào)用工具、處理復雜多步驟項目……

      視覺理解能力也大幅提升,GPT-5.2能準確標記出更多主板上的元件。


      這是GPT-5.2做的網(wǎng)頁版波浪模擬器:


      如果你遇到航班延誤、又錯過轉(zhuǎn)機、需要當?shù)剡^夜以及需要特殊醫(yī)療座位,聽起來就很頭疼。

      但GPT-5.2安排好了一切:重新訂機票、安排特殊座位和賠償。


      ARC-AGI也在第一時間發(fā)布了測試結(jié)果。

      一年前的o3 (High) 在ARC-AGI-1測試中得分88%,平均每項任務(wù)成本為4500美元。

      今天的GPT-5.2 Pro (X-High) ,最新SOTA得分為90.5%,平均任務(wù)成本僅為11.64美元,在一年內(nèi)效率提高了約390倍。

      同時超過了谷歌Gemini 3 Pro的對應(yīng)版本(綠色點),也算扳回一局。


      GPT5.2發(fā)布的這一天,也是OpenAI成立十周年,官方還做了個小視頻來回顧10年來的進展。


      拆解GPT-5.2各項能力 高經(jīng)濟價值任務(wù)

      在GDPval測試中,涵蓋美國GDP前九大產(chǎn)業(yè)中的44個職業(yè)領(lǐng)域,完成人類需要4-8小時才能完成的任務(wù)。

      在人類評委打分下,GPT-5.2 Thinking與人類專家相比有71%的勝率,GPT-5.2 Pro還能更高一些。

      而且速度是人類專家的11倍以上,成本不到人類專家的1%。


      在投行分析師的電子表格建模任務(wù)上,GPT-5.2 Thinking平均每項任務(wù)得分相比GPT-5.1提升了9.3%,從59.1%上升到68.4%。這些任務(wù)包括為財富500強公司搭建三表聯(lián)動模型、構(gòu)建杠桿收購模型等。


      提示:您是一名投資銀行分析師,剛剛接到一項任務(wù),需要完成一份瀑布式分析,以了解創(chuàng)始人及現(xiàn)有投資者的所有權(quán)和回報情況。您的客戶是一家正在考慮 C 輪融資的初創(chuàng)公司。

      請查收附件中的模板,您需要對其進行修改。我在 G 列中添加了必要的假設(shè)。C 列的名稱在普通股部分重復出現(xiàn),以便于索引。假設(shè)包括退出時的股權(quán)、系列投資金額、基金所有權(quán)、認股權(quán)證、清算優(yōu)先權(quán)、轉(zhuǎn)換價格、普通股稀釋后股份數(shù)和行權(quán)價格。假設(shè)種子輪、A 輪和 B 輪均為同等權(quán)益的非參與性優(yōu)先股(即,這些輪次的投資者享有同等待遇;對借款人的資產(chǎn)擁有同等的索償權(quán))

      在審查一份特別優(yōu)秀的成果時,一位GDPval評委表示:

      在輸出質(zhì)量上令人興奮且顯著的飛躍……[它]看起來像是由一家專業(yè)公司的員工完成的,兩份交付成果的布局設(shè)計和建議都出人意料地出色,盡管其中一份仍存在一些小錯誤需要糾正。

      要在ChatGPT中使用新的做表格和PPT能力,需要充值Plus、Pro、Business或 Enterprise套餐,選擇GPT-5.2 Thinking或Pro版本 。生成復雜的內(nèi)容可能需要幾分鐘時間。

      代碼能力

      GPT-5.2代碼能力同樣刷新紀錄,在SWE-bench Verified上,得分達到80%。

      在SWE-Bench Pro這個更難的軟件工程評測上,GPT-5.2 Thinking拿下55.6%的新高。

      這個評測不止測Python,還包括JavaScript、TypeScript和Go,更貼近真實工業(yè)場景。

      早期測試者特別提到,GPT-5.2在前端開發(fā)和復雜UI工作上明顯更強,尤其是涉及3D元素的場景。


      長上下文

      長文檔處理是這次升級的重頭戲。

      在OpenAI自制的大海撈針MRCRv2評測中,GPT-5.2 Thinking成為首個在256k 上下文長的4針版(4-needle variant)上達到接近100%準確率的模型。


      不過8針版性能還是會隨上下文長度明顯下降。


      對于需要超越最大上下文窗口進行思考的任務(wù),GPT-5.2 Thinking兼容簡潔回復模式,能夠處理更多工具密集型、長時間運行的工作流。

      視覺理解

      視覺能力的提升同樣顯著。

      在科學論文圖表理解上,GPT-5.2 Thinking的錯誤率大約降低了一半。


      更關(guān)鍵的是,它對圖像中元素的空間位置有了更強的把握。

      在高分辨率圖形面屏幕截圖推理測試中,配合Python工具得分達到86.3%。


      如果禁用Python工具得分會低很多,OpenAI建議在這樣的視覺任務(wù)中通通啟用工具。

      工具調(diào)用

      工具調(diào)用能力同樣達到新高度,在Tau2-bench Telecom多輪交互電話客服場景評測上,GPT-5.2 Thinking取得98.7%的成績。

      Tau2-bench Retail零售場景也達到82%。


      這些成績意味著更強大的端到端工作流程,例如解決客戶支持案例、從多個系統(tǒng)中提取數(shù)據(jù)、運行分析以及生成最終輸出,且各步驟之間的故障更少。

      科學能力

      OpenAI一直希望AI能加速科學研究,這次他們相信GPT-5.2 Pro和GPT-5.2 Thinking是目前世界上最適合輔助科學家的模型。

      在GPQA Diamond研究生水平的問答評測上,GPT-5.2 Pro拿下93.2%,GPT-5.2 Thinking緊隨其后達到92.4%。


      在專家級數(shù)學評測FrontierMath(Tier 1-3)上,GPT-5.2 Thinking以40.3%的解題率創(chuàng)下新紀錄。


      官方還透露了一個實際案例:

      研究人員使用GPT-5.2 Pro探索了統(tǒng)計學習理論中的一個開放問題,在一個狹窄、明確的設(shè)定下,模型提出了一個證明,隨后被作者驗證并經(jīng)過同行評審。


      事實準確性方面,GPT-5.2 Thinking的幻覺問題相比GPT-5.1從8.8%減少到6.2%。

      不過OpenAI也提示模型仍不完美,關(guān)鍵內(nèi)容還是需要人工復核。


      One More Thing

      自從Meta瘋狂挖人以來,OpenAI都很少在研究進展文章后面附上貢獻者列表了,直接統(tǒng)一署名OpenAI了事。


      不過從開發(fā)者相互祝賀的推文中,還是可以挖出GPT-5.2的幾位核心團隊成員:多為2024年之后加入OpenAI的新面孔,而且多是數(shù)學專業(yè)出身。

      Yu Bai:北大數(shù)院校友、斯坦福統(tǒng)計學博士,2024年5月加入OpenAI。


      Yaodong Yu:UC伯克利博士畢業(yè),2024年9月加入OpenAI。


      Yufeng Zhang:本科中科大數(shù)學系、西北大學博士、字節(jié)前研究員,2024年底加入OpenAI


      梅松:北大數(shù)院校友、斯坦福計算與數(shù)學工程博士、UC伯克利助理教授,2025年5月暫離學校加入OpenAI。


      Ofir Nachum:MIT CS碩士畢業(yè),前谷歌大腦研究員,2023年加入OpenAI。


      每當外界覺得OpenAI進展不及預期的時候,總有新的人才帶來新的驚喜。

      參考鏈接:
      [1]https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      “最風流”央視女主持:將2個有婦之夫玩弄于股掌,如今幸福嗎

      “最風流”央視女主持:將2個有婦之夫玩弄于股掌,如今幸福嗎

      優(yōu)趣紀史記
      2025-11-29 17:22:29
      一口氣看完四集郭京飛新劇《老舅》,我感慨萬千,寫下這篇文章

      一口氣看完四集郭京飛新劇《老舅》,我感慨萬千,寫下這篇文章

      晴晴的娛樂日記
      2025-12-15 22:06:55
      何晴去世不到24小時,惡心事發(fā)生!私生活被詬病,網(wǎng)友:紅顏薄命

      何晴去世不到24小時,惡心事發(fā)生!私生活被詬病,網(wǎng)友:紅顏薄命

      徐徐道史
      2025-12-14 18:28:32
      廣西54歲李某甘蔗地殺2女后續(xù)!10萬懸賞追逃,當?shù)厝似馗鄡?nèi)幕

      廣西54歲李某甘蔗地殺2女后續(xù)!10萬懸賞追逃,當?shù)厝似馗鄡?nèi)幕

      奇思妙想草葉君
      2025-12-14 21:46:07
      醫(yī)生苦勸:長期吃降壓藥的人,千萬要牢記,多補充這3種維生素!

      醫(yī)生苦勸:長期吃降壓藥的人,千萬要牢記,多補充這3種維生素!

      紙上的心語
      2025-12-15 21:32:22
      中方一句“東倭”,嚇壞日本右翼?前駐華大使急呼:該臥薪嘗膽了

      中方一句“東倭”,嚇壞日本右翼?前駐華大使急呼:該臥薪嘗膽了

      近史博覽
      2025-12-15 14:43:10
      突發(fā)!澤連斯基,妥協(xié)了!一切結(jié)束了!

      突發(fā)!澤連斯基,妥協(xié)了!一切結(jié)束了!

      財經(jīng)要參
      2025-12-15 13:18:38
      人社部定調(diào)!穩(wěn)步提高社會保障待遇水平,2026年養(yǎng)老金雙增長嗎?

      人社部定調(diào)!穩(wěn)步提高社會保障待遇水平,2026年養(yǎng)老金雙增長嗎?

      財話連篇
      2025-12-15 18:35:49
      亞運三金王王莉?qū)嵜e報:基地主任索要15萬 體罰辱罵下跪是常事

      亞運三金王王莉?qū)嵜e報:基地主任索要15萬 體罰辱罵下跪是常事

      醉臥浮生
      2025-12-15 08:01:17
      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      洲洲影視娛評
      2025-12-13 19:57:10
      張藝興發(fā)文致歉:因參加國家話劇院重要活動而趕回北京,此前SM娛樂臨時公告張藝興將缺席EXO粉絲見面會,已入場觀演門票不可退款

      張藝興發(fā)文致歉:因參加國家話劇院重要活動而趕回北京,此前SM娛樂臨時公告張藝興將缺席EXO粉絲見面會,已入場觀演門票不可退款

      極目新聞
      2025-12-14 18:51:00
      張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個現(xiàn)狀

      張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個現(xiàn)狀

      黃河新流域
      2025-09-28 13:34:43
      被全網(wǎng)瘋傳的“雙頂流”戀愛瓜,竟是他倆?結(jié)果大反轉(zhuǎn)!

      被全網(wǎng)瘋傳的“雙頂流”戀愛瓜,竟是他倆?結(jié)果大反轉(zhuǎn)!

      毒舌八卦
      2025-12-15 22:52:12
      央視一哥畢福劍再婚生子,次子已上幼兒園,生活近況曝光

      央視一哥畢福劍再婚生子,次子已上幼兒園,生活近況曝光

      復轉(zhuǎn)這些年
      2025-12-07 15:39:25
      U23亞洲杯最終23人名單確定,6人無緣參賽或被淘汰

      U23亞洲杯最終23人名單確定,6人無緣參賽或被淘汰

      凡人說體育
      2025-12-15 13:55:06
      何晴離世消息曝光不到24小時,惡心的一幕出現(xiàn)了!

      何晴離世消息曝光不到24小時,惡心的一幕出現(xiàn)了!

      叨嘮
      2025-12-15 01:57:05
      撒切爾夫人在回憶錄中坦言:當年并不想歸還香港,考慮過發(fā)動戰(zhàn)爭

      撒切爾夫人在回憶錄中坦言:當年并不想歸還香港,考慮過發(fā)動戰(zhàn)爭

      泠泠說史
      2025-12-15 18:05:17
      西方內(nèi)訌升級:英銀行家集體反水威脅撤出俄資產(chǎn)

      西方內(nèi)訌升級:英銀行家集體反水威脅撤出俄資產(chǎn)

      夢想的現(xiàn)實
      2025-12-15 10:41:52
      賺大陸錢捐給“臺獨”的集團:民進黨的頭號金主,終于被殺雞儆猴

      賺大陸錢捐給“臺獨”的集團:民進黨的頭號金主,終于被殺雞儆猴

      被誤解的時候能微微一笑
      2025-12-15 08:54:45
      變臉?亞歷山大賽前曾表示想追73勝紀錄,輸馬刺后稱破紀錄毫無意義

      變臉?亞歷山大賽前曾表示想追73勝紀錄,輸馬刺后稱破紀錄毫無意義

      懂球帝
      2025-12-15 15:24:06
      2025-12-16 06:43:00
      算法與數(shù)學之美 incentive-icons
      算法與數(shù)學之美
      分享知識,交流思想
      5267文章數(shù) 64595關(guān)注度
      往期回顧 全部

      科技要聞

      大佬冷酷預言:未來15年 人形機器人成廢鐵

      頭條要聞

      小米車主第1天提車在交付中心撞人 小米內(nèi)部人士回應(yīng)

      頭條要聞

      小米車主第1天提車在交付中心撞人 小米內(nèi)部人士回應(yīng)

      體育要聞

      戰(zhàn)勝完全體雷霆,馬刺“瘋狂動物城”只是半成品

      娛樂要聞

      何晴告別式現(xiàn)場,前夫許亞軍雙眼泛紅?

      財經(jīng)要聞

      新農(nóng)合漲到400元 農(nóng)民斷繳背后的扎心真相

      汽車要聞

      主駕配按摩還可選6座 新款捷途X90PRO售13.59萬起

      態(tài)度原創(chuàng)

      家居
      房產(chǎn)
      藝術(shù)
      數(shù)碼
      軍事航空

      家居要聞

      溫暖色調(diào) 大空間不冷清

      房產(chǎn)要聞

      6.66億摘地,海南封關(guān)大動作,千畝海澄新城震撼登場

      藝術(shù)要聞

      從木匠到巨匠,大師是如何煉成的

      數(shù)碼要聞

      藍寶石喊話AMD等GPU制造商:給我們芯片和顯存,放開設(shè)計自由

      軍事要聞

      澤連斯基稱烏方已妥協(xié)不加入北約 俄方發(fā)聲

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 精品无码久久久久久国产| 阿片免费看| 亚洲成人Av| 日本少妇xxx做受| 龙游县| 精品国产免费人成网站| 久久久久久久| 国内精品久久久久影院优| 超级碰在线视频| 无码人妻精品一区二区三区东京热| 林口县| 国内精品久久人妻无码AV探花影视| 欧美激情精品久久久久久| 成人特黄特色毛片免费看| 久久国产精品无码一区二区三区| 曾医生mp4| 人妻无码一区二区三区| 国内精品大秀视频日韩精品| 久久久精品久久久久久96| 东乌珠穆沁旗| 岛国大片在线免费播放| 精品国产91久久久久久亚瑟| 日本高清一区| 天天狠天天透天天伊人| 色婷婷av| 亚洲午夜精品久久久久久app| 隆林| 中文成人无字幕乱码精品区| 无码人妻精品一区二区三区免费| 亚洲色偷偷色噜噜狠狠99网| 99xav| 日本视频一两二两三区| 成人国产亚洲欧美成人综合网 | 浮妇高潮喷白浆视频| 91视频精选| 国产高颜值大学生情侣酒店| 亚洲精品国产av成拍色拍个| 免费看无码自慰一区二区| 亚洲韩国精品无码一区二区三区 | 精品无码日韩国产不卡av| 东方成人AV在线|