<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.2果然反超谷歌Gemini 3 Pro!北大數院校友核心貢獻

      0
      分享至

      夢晨 發自 凹非寺
      量子位 | 公眾號 QbitAI

      紅色警報拉響,OpenAI是真急了:

      30天,GPT-5.2系列緊接著GPT-5.1而來,這次還專門強化了打工能力。

      這是GPT-5.1 Thinking和GPT-5.2 Thinking做人力資源表格的對比:



      雖然版本號只加了0.1,但是在多個實用領域都更強了:做表格、做PPT、寫代碼、理解長文檔、調用工具、處理復雜多步驟項目……

      視覺理解能力也大幅提升,GPT-5.2能準確標記出更多主板上的元件。



      這是GPT-5.2做的網頁版波浪模擬器:



      如果你遇到航班延誤、又錯過轉機、需要當地過夜以及需要特殊醫療座位,聽起來就很頭疼。

      但GPT-5.2安排好了一切:重新訂機票、安排特殊座位和賠償。



      ARC-AGI也在第一時間發布了測試結果。

      一年前的o3 (High) 在ARC-AGI-1測試中得分88%,平均每項任務成本為4500美元

      今天的GPT-5.2 Pro (X-High) ,最新SOTA得分為90.5%,平均任務成本僅為11.64美元,在一年內效率提高了約390倍。

      同時超過了谷歌Gemini 3 Pro的對應版本(綠色點),也算扳回一局。



      拆解GPT-5.2各項能力

      高經濟價值任務

      在GDPval測試中,涵蓋美國GDP前九大產業中的44個職業領域,完成人類需要4-8小時才能完成的任務。

      在人類評委打分下,GPT-5.2 Thinking與人類專家相比有71%的勝率,GPT-5.2 Pro還能更高一些。

      而且速度是人類專家的11倍以上,成本不到人類專家的1%。



      在投行分析師的電子表格建模任務上,GPT-5.2 Thinking平均每項任務得分相比GPT-5.1提升了9.3%,從59.1%上升到68.4%。這些任務包括為財富500強公司搭建三表聯動模型、構建杠桿收購模型等。



      提示:您是一名投資銀行分析師,剛剛接到一項任務,需要完成一份瀑布式分析,以了解創始人及現有投資者的所有權和回報情況。您的客戶是一家正在考慮 C 輪融資的初創公司。

      請查收附件中的模板,您需要對其進行修改。我在 G 列中添加了必要的假設。C 列的名稱在普通股部分重復出現,以便于索引。假設包括退出時的股權、系列投資金額、基金所有權、認股權證、清算優先權、轉換價格、普通股稀釋后股份數和行權價格。假設種子輪、A 輪和 B 輪均為同等權益的非參與性優先股(即,這些輪次的投資者享有同等待遇;對借款人的資產擁有同等的索償權)

      在審查一份特別優秀的成果時,一位GDPval評委表示:

      • 在輸出質量上令人興奮且顯著的飛躍……[它]看起來像是由一家專業公司的員工完成的,兩份交付成果的布局設計和建議都出人意料地出色,盡管其中一份仍存在一些小錯誤需要糾正。

      要在ChatGPT中使用新的做表格和PPT能力,需要充值Plus、Pro、Business或 Enterprise套餐,選擇GPT-5.2 Thinking或Pro版本 。生成復雜的內容可能需要幾分鐘時間。

      代碼能力

      GPT-5.2代碼能力同樣刷新紀錄,在SWE-bench Verified上,得分達到80%。

      在SWE-Bench Pro這個更難的軟件工程評測上,GPT-5.2 Thinking拿下55.6%的新高。

      這個評測不止測Python,還包括JavaScript、TypeScript和Go,更貼近真實工業場景。

      早期測試者特別提到,GPT-5.2在前端開發和復雜UI工作上明顯更強,尤其是涉及3D元素的場景。



      長上下文

      長文檔處理是這次升級的重頭戲。

      在OpenAI自制的大海撈針MRCRv2評測中,GPT-5.2 Thinking成為首個在256k 上下文長的4針版(4-needle variant)上達到接近100%準確率的模型。



      不過8針版性能還是會隨上下文長度明顯下降。



      對于需要超越最大上下文窗口進行思考的任務,GPT-5.2 Thinking兼容簡潔回復模式,能夠處理更多工具密集型、長時間運行的工作流。

      視覺理解

      視覺能力的提升同樣顯著。

      在科學論文圖表理解上,GPT-5.2 Thinking的錯誤率大約降低了一半。



      更關鍵的是,它對圖像中元素的空間位置有了更強的把握。

      在高分辨率圖形面屏幕截圖推理測試中,配合Python工具得分達到86.3%。



      如果禁用Python工具得分會低很多,OpenAI建議在這樣的視覺任務中通通啟用工具。

      工具調用

      工具調用能力同樣達到新高度,在Tau2-bench Telecom多輪交互電話客服場景評測上,GPT-5.2 Thinking取得98.7%的成績。

      Tau2-bench Retail零售場景也達到82%。



      這些成績意味著更強大的端到端工作流程,例如解決客戶支持案例、從多個系統中提取數據、運行分析以及生成最終輸出,且各步驟之間的故障更少。

      科學能力

      OpenAI一直希望AI能加速科學研究,這次他們相信GPT-5.2 Pro和GPT-5.2 Thinking是目前世界上最適合輔助科學家的模型。

      在GPQA Diamond研究生水平的問答評測上,GPT-5.2 Pro拿下93.2%,GPT-5.2 Thinking緊隨其后達到92.4%。



      在專家級數學評測FrontierMath(Tier 1-3)上,GPT-5.2 Thinking以40.3%的解題率創下新紀錄。



      官方還透露了一個實際案例:

      研究人員使用GPT-5.2 Pro探索了統計學習理論中的一個開放問題,在一個狹窄、明確的設定下,模型提出了一個證明,隨后被作者驗證并經過同行評審。



      事實準確性方面,GPT-5.2 Thinking的幻覺問題相比GPT-5.1從8.8%減少到6.2%。

      不過OpenAI也提示模型仍不完美,關鍵內容還是需要人工復核。



      One More Thing

      自從Meta瘋狂挖人以來,OpenAI都很少在研究進展文章后面附上貢獻者列表了,直接統一署名OpenAI了事。



      不過從開發者相互祝賀的推文中,還是可以挖出GPT-5.2的幾位核心團隊成員:多為2024年之后加入OpenAI的新面孔,而且多是數學專業出身。

      Yu Bai:北大數院校友、斯坦福統計學博士,2024年5月加入OpenAI。



      Yaodong Yu:UC伯克利博士畢業,2024年9月加入OpenAI。



      Yufeng Zhang:本科中科大數學系、西北大學博士、字節前研究員,2024年底加入OpenAI



      梅松:北大數院校友、斯坦福計算與數學工程博士、UC伯克利助理教授,2025年5月暫離學校加入OpenAI。



      Ofir Nachum:MIT CS碩士畢業,前谷歌大腦研究員,2023年加入OpenAI。



      每當外界覺得OpenAI進展不及預期的時候,總有新的人才帶來新的驚喜。

      參考鏈接:
      [1]https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      現如今全球僅剩的5個社會主義國家,誰最富裕?誰最貧窮?

      現如今全球僅剩的5個社會主義國家,誰最富裕?誰最貧窮?

      時尚的弄潮
      2025-12-12 09:10:37
      去俄旅游網友:落地圣彼得堡,成功被宰7800盧布

      去俄旅游網友:落地圣彼得堡,成功被宰7800盧布

      映射生活的身影
      2025-12-10 10:10:21
      亞洲第1!16歲中國新星身價22.5萬歐,與歐洲頂級新星齊名

      亞洲第1!16歲中國新星身價22.5萬歐,與歐洲頂級新星齊名

      小金體壇大視野
      2025-12-12 17:13:32
      42歲港圈女神隱退12年突嫁山東小伙?不雅照風波后現狀曝光太意外

      42歲港圈女神隱退12年突嫁山東小伙?不雅照風波后現狀曝光太意外

      橙星文娛
      2025-12-10 21:21:07
      小法:梅西20分鐘能帽子戲法!他增肌后無人能敵!

      小法:梅西20分鐘能帽子戲法!他增肌后無人能敵!

      氧氣是個地鐵
      2025-12-12 18:38:09
      2025年,日本海空軍力排名世界第幾?一個被低估的軍事強權

      2025年,日本海空軍力排名世界第幾?一個被低估的軍事強權

      高博新視野
      2025-11-25 21:03:24
      大學生捐精,女方要求私下見面,承諾給予費用,內幕如何?

      大學生捐精,女方要求私下見面,承諾給予費用,內幕如何?

      極品小牛肉
      2024-03-22 10:46:53
      日本前大使山上信吾接受德媒采訪表示,中國不再是日本熟悉的中國

      日本前大使山上信吾接受德媒采訪表示,中國不再是日本熟悉的中國

      南權先生
      2025-12-11 16:04:24
      “一個月做5次,超過就按50萬一次收費!”澤尻英龍華逼丈夫簽下

      “一個月做5次,超過就按50萬一次收費!”澤尻英龍華逼丈夫簽下

      忠于法紀
      2025-12-03 11:35:03
      美國與日韓澳等8國就加強稀土供應鏈簽署協議,外交部回應

      美國與日韓澳等8國就加強稀土供應鏈簽署協議,外交部回應

      瀟湘晨報
      2025-12-12 17:04:16
      山東村支書賣小米被舉報封店!當場喊話雷軍:放我們一馬行不行

      山東村支書賣小米被舉報封店!當場喊話雷軍:放我們一馬行不行

      亡海中的彼岸花
      2025-12-11 10:17:06
      這可能是2026年股市最大的動力

      這可能是2026年股市最大的動力

      小白讀財經
      2025-12-12 15:20:10
      為什么世界上只有“大貓”,而沒有“大狗”?科學家終于找到答案

      為什么世界上只有“大貓”,而沒有“大狗”?科學家終于找到答案

      魅力科學君
      2025-12-10 18:17:48
      大結局時刻要來?關于中日,高市終于說了句實話

      大結局時刻要來?關于中日,高市終于說了句實話

      現代小青青慕慕
      2025-12-12 12:18:00
      幾乎全是假貨!利潤高達2400%,為何消費者還前赴后繼爭相購買

      幾乎全是假貨!利潤高達2400%,為何消費者還前赴后繼爭相購買

      不寫散文詩
      2025-10-26 13:42:27
      世界上最致命的動物

      世界上最致命的動物

      喜之春
      2025-12-08 06:30:33
      3方交易有望達成:庫明加解脫 勇士精準補強 獨行俠公牛著眼未來

      3方交易有望達成:庫明加解脫 勇士精準補強 獨行俠公牛著眼未來

      毒舌NBA
      2025-12-12 10:02:28
      1977年,左宗棠陵墓被炸開,遺骨散落荒野,王震將軍得知后大怒!

      1977年,左宗棠陵墓被炸開,遺骨散落荒野,王震將軍得知后大怒!

      顧史
      2025-12-09 08:13:09
      萬萬沒想到,兩會最火提案不是醫療和就業,而是霍啟剛要治內卷!

      萬萬沒想到,兩會最火提案不是醫療和就業,而是霍啟剛要治內卷!

      滄海一書客
      2025-03-11 09:46:39
      重慶女博士拯救清遠雞“純正血統”,一年賺了9個小目標

      重慶女博士拯救清遠雞“純正血統”,一年賺了9個小目標

      花朵財經
      2025-11-21 18:01:38
      2025-12-13 02:19:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11846文章數 176339關注度
      往期回顧 全部

      科技要聞

      凌晨突發!GPT-5.2上線,首批實測感受來了

      頭條要聞

      38歲男子辭職返鄉 花1.3萬用集裝箱給父母造"網紅屋"

      頭條要聞

      38歲男子辭職返鄉 花1.3萬用集裝箱給父母造"網紅屋"

      體育要聞

      15輪2分,他們怎么成了英超最爛球隊?

      娛樂要聞

      上海這一夜,33歲陳麗君秒了32歲吉娜?

      財經要聞

      鎂信健康闖關港交所:被指竊取商業秘密

      汽車要聞

      表面風平浪靜 內里翻天覆地!試駕銀河星艦7 EM-i

      態度原創

      藝術
      游戲
      家居
      房產
      時尚

      藝術要聞

      圓通豪擲10億!上海總部“星空大樓”建成!

      油條杯S4今晚開戰,Happy&浪漫領銜八大高手參賽

      家居要聞

      溫潤質感 打造干凈空間

      房產要聞

      每日狂增1300+企業!封關在即,海南徹底爆發!

      秋冬發色天花板!5款顯白溫柔發色拿圖給Tony,染完被夸到過年

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美日本在线一区二区三区| 精品久久久久久无码专区| 亚洲国产综合av| 久久久久亚洲AV成人网人人小说| 国产九九免费| 峨山| √国产精品| 亚洲日韩中文字幕在线播放 | 清苑县| 另类无码| 久久亚洲无码| 久久成人国产精品免费软件| 国产黄色免费看| 日韩成人电影| 亚洲国产成人无码av在线影院| 香港日本三级亚洲三级| 国产极品美女到高潮| 少妇人妻偷人精品一区二区| 国产人妻久久精品一区二区三区| 国产无遮挡又黄又爽高潮| 久久国产乱子精品免费女| 国产成人一区二区三区别| 不卡的无码AV| 永久免费看mv网站入口亚洲| 欧美性xxxx狂欢老少配| 人人妻人人澡人人爽人人欧美一区 | 久久综合亚洲鲁鲁九月天| 欧美色欧美亚洲另类二区| 永仁县| 午夜天堂av天堂久久久| 人人草人人做人人爱| 国产a在视频线精品视频下载| 色婷婷色| 久久精品囯产精品亚洲| 午夜美女裸体福利视频| 黑人videos特大hd粗暴| 洪雅县| 乱色熟女综合一区二区三区| 亚洲中文日韩一区二区三区| 丁香婷婷五月| 国产成人av|