<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.2果然反超谷歌Gemini 3 Pro!北大數院校友核心貢獻

      0
      分享至

      紅色警報拉響,OpenAI是真急了:

      30天,GPT-5.2系列緊接著GPT-5.1而來,這次還專門強化了打工能力。

      這是GPT-5.1 Thinking和GPT-5.2 Thinking做人力資源表格的對比:


      雖然版本號只加了0.1,但是在多個實用領域都更強了:做表格、做PPT、寫代碼、理解長文檔、調用工具、處理復雜多步驟項目……

      視覺理解能力也大幅提升,GPT-5.2能準確標記出更多主板上的元件。


      這是GPT-5.2做的網頁版波浪模擬器:


      如果你遇到航班延誤、又錯過轉機、需要當地過夜以及需要特殊醫療座位,聽起來就很頭疼。

      但GPT-5.2安排好了一切:重新訂機票、安排特殊座位和賠償。


      ARC-AGI也在第一時間發布了測試結果。

      一年前的o3 (High) 在ARC-AGI-1測試中得分88%,平均每項任務成本為4500美元

      今天的GPT-5.2 Pro (X-High) ,最新SOTA得分為90.5%,平均任務成本僅為11.64美元,在一年內效率提高了約390倍。

      同時超過了谷歌Gemini 3 Pro的對應版本(綠色點),也算扳回一局。


      GPT5.2發布的這一天,也是OpenAI成立十周年,官方還做了個小視頻來回顧10年來的進展。


      拆解GPT-5.2各項能力 高經濟價值任務

      在GDPval測試中,涵蓋美國GDP前九大產業中的44個職業領域,完成人類需要4-8小時才能完成的任務。

      在人類評委打分下,GPT-5.2 Thinking與人類專家相比有71%的勝率,GPT-5.2 Pro還能更高一些。

      而且速度是人類專家的11倍以上,成本不到人類專家的1%。


      在投行分析師的電子表格建模任務上,GPT-5.2 Thinking平均每項任務得分相比GPT-5.1提升了9.3%,從59.1%上升到68.4%。這些任務包括為財富500強公司搭建三表聯動模型、構建杠桿收購模型等。


      提示:您是一名投資銀行分析師,剛剛接到一項任務,需要完成一份瀑布式分析,以了解創始人及現有投資者的所有權和回報情況。您的客戶是一家正在考慮 C 輪融資的初創公司。

      請查收附件中的模板,您需要對其進行修改。我在 G 列中添加了必要的假設。C 列的名稱在普通股部分重復出現,以便于索引。假設包括退出時的股權、系列投資金額、基金所有權、認股權證、清算優先權、轉換價格、普通股稀釋后股份數和行權價格。假設種子輪、A 輪和 B 輪均為同等權益的非參與性優先股(即,這些輪次的投資者享有同等待遇;對借款人的資產擁有同等的索償權)

      在審查一份特別優秀的成果時,一位GDPval評委表示:

      在輸出質量上令人興奮且顯著的飛躍……[它]看起來像是由一家專業公司的員工完成的,兩份交付成果的布局設計和建議都出人意料地出色,盡管其中一份仍存在一些小錯誤需要糾正。

      要在ChatGPT中使用新的做表格和PPT能力,需要充值Plus、Pro、Business或 Enterprise套餐,選擇GPT-5.2 Thinking或Pro版本 。生成復雜的內容可能需要幾分鐘時間。

      代碼能力

      GPT-5.2代碼能力同樣刷新紀錄,在SWE-bench Verified上,得分達到80%。

      在SWE-Bench Pro這個更難的軟件工程評測上,GPT-5.2 Thinking拿下55.6%的新高。

      這個評測不止測Python,還包括JavaScript、TypeScript和Go,更貼近真實工業場景。

      早期測試者特別提到,GPT-5.2在前端開發和復雜UI工作上明顯更強,尤其是涉及3D元素的場景。


      長上下文

      長文檔處理是這次升級的重頭戲。

      在OpenAI自制的大海撈針MRCRv2評測中,GPT-5.2 Thinking成為首個在256k 上下文長的4針版(4-needle variant)上達到接近100%準確率的模型。


      不過8針版性能還是會隨上下文長度明顯下降。


      對于需要超越最大上下文窗口進行思考的任務,GPT-5.2 Thinking兼容簡潔回復模式,能夠處理更多工具密集型、長時間運行的工作流。

      視覺理解

      視覺能力的提升同樣顯著。

      在科學論文圖表理解上,GPT-5.2 Thinking的錯誤率大約降低了一半。


      更關鍵的是,它對圖像中元素的空間位置有了更強的把握。

      在高分辨率圖形面屏幕截圖推理測試中,配合Python工具得分達到86.3%。


      如果禁用Python工具得分會低很多,OpenAI建議在這樣的視覺任務中通通啟用工具。

      工具調用

      工具調用能力同樣達到新高度,在Tau2-bench Telecom多輪交互電話客服場景評測上,GPT-5.2 Thinking取得98.7%的成績。

      Tau2-bench Retail零售場景也達到82%。


      這些成績意味著更強大的端到端工作流程,例如解決客戶支持案例、從多個系統中提取數據、運行分析以及生成最終輸出,且各步驟之間的故障更少。

      科學能力

      OpenAI一直希望AI能加速科學研究,這次他們相信GPT-5.2 Pro和GPT-5.2 Thinking是目前世界上最適合輔助科學家的模型。

      在GPQA Diamond研究生水平的問答評測上,GPT-5.2 Pro拿下93.2%,GPT-5.2 Thinking緊隨其后達到92.4%。


      在專家級數學評測FrontierMath(Tier 1-3)上,GPT-5.2 Thinking以40.3%的解題率創下新紀錄。


      官方還透露了一個實際案例:

      研究人員使用GPT-5.2 Pro探索了統計學習理論中的一個開放問題,在一個狹窄、明確的設定下,模型提出了一個證明,隨后被作者驗證并經過同行評審。


      事實準確性方面,GPT-5.2 Thinking的幻覺問題相比GPT-5.1從8.8%減少到6.2%。

      不過OpenAI也提示模型仍不完美,關鍵內容還是需要人工復核。


      One More Thing

      自從Meta瘋狂挖人以來,OpenAI都很少在研究進展文章后面附上貢獻者列表了,直接統一署名OpenAI了事。


      不過從開發者相互祝賀的推文中,還是可以挖出GPT-5.2的幾位核心團隊成員:多為2024年之后加入OpenAI的新面孔,而且多是數學專業出身。

      Yu Bai:北大數院校友、斯坦福統計學博士,2024年5月加入OpenAI。


      Yaodong Yu:UC伯克利博士畢業,2024年9月加入OpenAI。


      Yufeng Zhang:本科中科大數學系、西北大學博士、字節前研究員,2024年底加入OpenAI


      梅松:北大數院校友、斯坦福計算與數學工程博士、UC伯克利助理教授,2025年5月暫離學校加入OpenAI。


      Ofir Nachum:MIT CS碩士畢業,前谷歌大腦研究員,2023年加入OpenAI。


      每當外界覺得OpenAI進展不及預期的時候,總有新的人才帶來新的驚喜。

      參考鏈接:
      [1]https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      重大考古發現!連云港鎮海遺址將我國長江以北海鹽生產史推至4400年前

      重大考古發現!連云港鎮海遺址將我國長江以北海鹽生產史推至4400年前

      極目新聞
      2026-02-04 21:47:06
      越媒:越南U13青年隊11-0橫掃中國俱樂部,小將范光凱獨中七元

      越媒:越南U13青年隊11-0橫掃中國俱樂部,小將范光凱獨中七元

      星耀國際足壇
      2026-02-04 13:49:50
      北京女子移植干細胞后,血型口味都變了

      北京女子移植干細胞后,血型口味都變了

      粵語音樂噴泉
      2026-02-04 15:04:59
      新研究:老年人低密度脂蛋白最佳范圍是3.6到4.2!應該怎么看

      新研究:老年人低密度脂蛋白最佳范圍是3.6到4.2!應該怎么看

      李藥師談健康
      2026-02-04 15:29:09
      爭議!WTA不和諧一幕:烏克蘭女將拒合影+握手 因對手去過俄羅斯

      爭議!WTA不和諧一幕:烏克蘭女將拒合影+握手 因對手去過俄羅斯

      侃球熊弟
      2026-02-05 00:10:03
      上海房價最離譜的郊區,為什么這么貴?

      上海房價最離譜的郊區,為什么這么貴?

      環線房產咨詢
      2026-02-05 07:09:18
      黃巖島對峙升級,中方已備最壞打算,美媒:轟6和055抵達

      黃巖島對峙升級,中方已備最壞打算,美媒:轟6和055抵達

      何氽簡史
      2026-02-04 20:09:13
      日本專家顛覆認知:想健康就不要跑步!?

      日本專家顛覆認知:想健康就不要跑步!?

      馬拉松跑步健身
      2026-02-03 06:30:10
      曝具俊曄將回韓過年,計劃給大S買房攢很多錢,汪小菲遭韓媒炮轟

      曝具俊曄將回韓過年,計劃給大S買房攢很多錢,汪小菲遭韓媒炮轟

      古希臘掌管月桂的神
      2026-02-04 19:50:03
      德國抓捕兩名工人,往軍艦發動機里倒鋼珠?西方的工匠精神哪去了

      德國抓捕兩名工人,往軍艦發動機里倒鋼珠?西方的工匠精神哪去了

      那場煙花雨淋濕了夢境了
      2026-02-04 20:22:16
      林詩棟換主管教練了,亞洲杯首輪3-0獲勝,新教練小試牛刀效果好

      林詩棟換主管教練了,亞洲杯首輪3-0獲勝,新教練小試牛刀效果好

      真理是我親戚
      2026-02-04 13:05:46
      潘粵明評價獲證實!董潔22年后與藍顏知己再牽手

      潘粵明評價獲證實!董潔22年后與藍顏知己再牽手

      獨舞獨舞
      2026-01-18 06:37:17
      王石:每晚最難熬的是等田樸珺回家,不知道回不回不知道幾點回

      王石:每晚最難熬的是等田樸珺回家,不知道回不回不知道幾點回

      報君知史
      2026-01-04 16:49:46
      41歲C羅結束罷賽 正式回歸訓練+提前2小時抵達基地 3天后迎來復出

      41歲C羅結束罷賽 正式回歸訓練+提前2小時抵達基地 3天后迎來復出

      風過鄉
      2026-02-04 22:56:15
      沈陽新娘遠嫁杭州,娘家30口人自駕送親,新郎只愿付當天住宿費

      沈陽新娘遠嫁杭州,娘家30口人自駕送親,新郎只愿付當天住宿費

      蘭姐說故事
      2025-08-21 20:05:04
      殺入4強!意甲領頭羊狂飆:豪取4連勝,齊沃目標直指三冠王

      殺入4強!意甲領頭羊狂飆:豪取4連勝,齊沃目標直指三冠王

      足球狗說
      2026-02-05 05:54:50
      韓媒揭露大S去世細節,搶救14小時榜熱搜,泡溫泉成死亡關鍵原因

      韓媒揭露大S去世細節,搶救14小時榜熱搜,泡溫泉成死亡關鍵原因

      黔鄉小姊妹
      2026-02-05 08:20:58
      科爾:或許是交易流言影響了球隊,大家情緒低落毫無競爭精神

      科爾:或許是交易流言影響了球隊,大家情緒低落毫無競爭精神

      懂球帝
      2026-02-04 14:51:24
      2026年家庭存款等級表流出:達到第3級,你才有資格談“不累”

      2026年家庭存款等級表流出:達到第3級,你才有資格談“不累”

      別人都叫我阿腈
      2026-02-04 19:33:38
      被曝藏身美國4個月,恒大前總裁再迎壞消息,許家印最后希望破滅

      被曝藏身美國4個月,恒大前總裁再迎壞消息,許家印最后希望破滅

      李橑在北漂
      2026-01-06 21:26:55
      2026-02-05 09:40:49
      算法與數學之美 incentive-icons
      算法與數學之美
      分享知識,交流思想
      5340文章數 64601關注度
      往期回顧 全部

      科技要聞

      微信給馬化騰澆了“一盆冷水”

      頭條要聞

      牛彈琴:中國元首和特朗普通話 特朗普就臺灣問題表態

      頭條要聞

      牛彈琴:中國元首和特朗普通話 特朗普就臺灣問題表態

      體育要聞

      中國棒球,立春

      娛樂要聞

      春晚主持人陣容曝光,5位都是老面孔

      財經要聞

      黃金,出現拐點

      汽車要聞

      綜合續航1730km 5座中級電混SUV吉利銀河M7官圖發布

      態度原創

      時尚
      本地
      房產
      教育
      軍事航空

      60歲的劉嘉玲、章小蕙太美了!港女的魅力從不是少女感

      本地新聞

      圍觀了北京第一屆黑色羽絨服大賽,我笑瘋了

      房產要聞

      還在漲!成交量連飆四個月 海口二手房開始穩了!

      教育要聞

      2025全國畢業生薪酬百強出爐,青島大學上榜!

      軍事要聞

      卡扎菲兒子被暗殺:4名蒙面人員闖入住所

      無障礙瀏覽 進入關懷版