<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.2果然反超谷歌Gemini 3 Pro!北大數院校友核心貢獻

      0
      分享至

      夢晨 發自 凹非寺
      量子位 | 公眾號 QbitAI

      紅色警報拉響,OpenAI是真急了:

      30天,GPT-5.2系列緊接著GPT-5.1而來,這次還專門強化了打工能力。

      這是GPT-5.1 Thinking和GPT-5.2 Thinking做人力資源表格的對比:



      雖然版本號只加了0.1,但是在多個實用領域都更強了:做表格、做PPT、寫代碼、理解長文檔、調用工具、處理復雜多步驟項目……

      視覺理解能力也大幅提升,GPT-5.2能準確標記出更多主板上的元件。



      這是GPT-5.2做的網頁版波浪模擬器:



      如果你遇到航班延誤、又錯過轉機、需要當地過夜以及需要特殊醫療座位,聽起來就很頭疼。

      但GPT-5.2安排好了一切:重新訂機票、安排特殊座位和賠償。



      ARC-AGI也在第一時間發布了測試結果。

      一年前的o3 (High) 在ARC-AGI-1測試中得分88%,平均每項任務成本為4500美元

      今天的GPT-5.2 Pro (X-High) ,最新SOTA得分為90.5%,平均任務成本僅為11.64美元,在一年內效率提高了約390倍。

      同時超過了谷歌Gemini 3 Pro的對應版本(綠色點),也算扳回一局。



      拆解GPT-5.2各項能力

      高經濟價值任務

      在GDPval測試中,涵蓋美國GDP前九大產業中的44個職業領域,完成人類需要4-8小時才能完成的任務。

      在人類評委打分下,GPT-5.2 Thinking與人類專家相比有71%的勝率,GPT-5.2 Pro還能更高一些。

      而且速度是人類專家的11倍以上,成本不到人類專家的1%。



      在投行分析師的電子表格建模任務上,GPT-5.2 Thinking平均每項任務得分相比GPT-5.1提升了9.3%,從59.1%上升到68.4%。這些任務包括為財富500強公司搭建三表聯動模型、構建杠桿收購模型等。



      提示:您是一名投資銀行分析師,剛剛接到一項任務,需要完成一份瀑布式分析,以了解創始人及現有投資者的所有權和回報情況。您的客戶是一家正在考慮 C 輪融資的初創公司。

      請查收附件中的模板,您需要對其進行修改。我在 G 列中添加了必要的假設。C 列的名稱在普通股部分重復出現,以便于索引。假設包括退出時的股權、系列投資金額、基金所有權、認股權證、清算優先權、轉換價格、普通股稀釋后股份數和行權價格。假設種子輪、A 輪和 B 輪均為同等權益的非參與性優先股(即,這些輪次的投資者享有同等待遇;對借款人的資產擁有同等的索償權)

      在審查一份特別優秀的成果時,一位GDPval評委表示:

      • 在輸出質量上令人興奮且顯著的飛躍……[它]看起來像是由一家專業公司的員工完成的,兩份交付成果的布局設計和建議都出人意料地出色,盡管其中一份仍存在一些小錯誤需要糾正。

      要在ChatGPT中使用新的做表格和PPT能力,需要充值Plus、Pro、Business或 Enterprise套餐,選擇GPT-5.2 Thinking或Pro版本 。生成復雜的內容可能需要幾分鐘時間。

      代碼能力

      GPT-5.2代碼能力同樣刷新紀錄,在SWE-bench Verified上,得分達到80%。

      在SWE-Bench Pro這個更難的軟件工程評測上,GPT-5.2 Thinking拿下55.6%的新高。

      這個評測不止測Python,還包括JavaScript、TypeScript和Go,更貼近真實工業場景。

      早期測試者特別提到,GPT-5.2在前端開發和復雜UI工作上明顯更強,尤其是涉及3D元素的場景。



      長上下文

      長文檔處理是這次升級的重頭戲。

      在OpenAI自制的大海撈針MRCRv2評測中,GPT-5.2 Thinking成為首個在256k 上下文長的4針版(4-needle variant)上達到接近100%準確率的模型。



      不過8針版性能還是會隨上下文長度明顯下降。



      對于需要超越最大上下文窗口進行思考的任務,GPT-5.2 Thinking兼容簡潔回復模式,能夠處理更多工具密集型、長時間運行的工作流。

      視覺理解

      視覺能力的提升同樣顯著。

      在科學論文圖表理解上,GPT-5.2 Thinking的錯誤率大約降低了一半。



      更關鍵的是,它對圖像中元素的空間位置有了更強的把握。

      在高分辨率圖形面屏幕截圖推理測試中,配合Python工具得分達到86.3%。



      如果禁用Python工具得分會低很多,OpenAI建議在這樣的視覺任務中通通啟用工具。

      工具調用

      工具調用能力同樣達到新高度,在Tau2-bench Telecom多輪交互電話客服場景評測上,GPT-5.2 Thinking取得98.7%的成績。

      Tau2-bench Retail零售場景也達到82%。



      這些成績意味著更強大的端到端工作流程,例如解決客戶支持案例、從多個系統中提取數據、運行分析以及生成最終輸出,且各步驟之間的故障更少。

      科學能力

      OpenAI一直希望AI能加速科學研究,這次他們相信GPT-5.2 Pro和GPT-5.2 Thinking是目前世界上最適合輔助科學家的模型。

      在GPQA Diamond研究生水平的問答評測上,GPT-5.2 Pro拿下93.2%,GPT-5.2 Thinking緊隨其后達到92.4%。



      在專家級數學評測FrontierMath(Tier 1-3)上,GPT-5.2 Thinking以40.3%的解題率創下新紀錄。



      官方還透露了一個實際案例:

      研究人員使用GPT-5.2 Pro探索了統計學習理論中的一個開放問題,在一個狹窄、明確的設定下,模型提出了一個證明,隨后被作者驗證并經過同行評審。



      事實準確性方面,GPT-5.2 Thinking的幻覺問題相比GPT-5.1從8.8%減少到6.2%。

      不過OpenAI也提示模型仍不完美,關鍵內容還是需要人工復核。



      One More Thing

      自從Meta瘋狂挖人以來,OpenAI都很少在研究進展文章后面附上貢獻者列表了,直接統一署名OpenAI了事。



      不過從開發者相互祝賀的推文中,還是可以挖出GPT-5.2的幾位核心團隊成員:多為2024年之后加入OpenAI的新面孔,而且多是數學專業出身。

      Yu Bai:北大數院校友、斯坦福統計學博士,2024年5月加入OpenAI。



      Yaodong Yu:UC伯克利博士畢業,2024年9月加入OpenAI。



      Yufeng Zhang:本科中科大數學系、西北大學博士、字節前研究員,2024年底加入OpenAI



      梅松:北大數院校友、斯坦福計算與數學工程博士、UC伯克利助理教授,2025年5月暫離學校加入OpenAI。



      Ofir Nachum:MIT CS碩士畢業,前谷歌大腦研究員,2023年加入OpenAI。



      每當外界覺得OpenAI進展不及預期的時候,總有新的人才帶來新的驚喜。

      參考鏈接:
      [1]https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中央首提解決地方財政困難,釋放什么信號?

      中央首提解決地方財政困難,釋放什么信號?

      第一財經資訊
      2025-12-12 15:13:17
      超預期!降息150個基點

      超預期!降息150個基點

      中國基金報
      2025-12-11 20:56:02
      MacBook Pro首次采用OLED:Mini LED時代將終結

      MacBook Pro首次采用OLED:Mini LED時代將終結

      快科技
      2025-12-12 16:42:47
      廣西一中職學校7.7萬采購22套服裝引質疑,招標負責人稱采購合規

      廣西一中職學校7.7萬采購22套服裝引質疑,招標負責人稱采購合規

      澎湃新聞
      2025-12-12 13:08:26
      24年上海女子安樂死,從清醒到離開僅5分鐘,父親哭訴:不想她走

      24年上海女子安樂死,從清醒到離開僅5分鐘,父親哭訴:不想她走

      卷史
      2025-09-06 16:07:00
      烏克蘭最美體操冠軍,放棄國籍做中國媳婦,37歲生二胎仍似少女

      烏克蘭最美體操冠軍,放棄國籍做中國媳婦,37歲生二胎仍似少女

      林雁飛
      2025-12-11 16:20:56
      亞洲第1!16歲中國新星身價22.5萬歐,與歐洲頂級新星齊名

      亞洲第1!16歲中國新星身價22.5萬歐,與歐洲頂級新星齊名

      小金體壇大視野
      2025-12-12 17:13:32
      A股,尾盤突發利好信號,下周,或將迎來新一輪“牛市”行情!

      A股,尾盤突發利好信號,下周,或將迎來新一輪“牛市”行情!

      夜深愛雜談
      2025-12-12 19:28:40
      太炸裂了!印度首富小兒媳和大兒子被曝驚天丑聞,倆人牽手摸腰很自然

      太炸裂了!印度首富小兒媳和大兒子被曝驚天丑聞,倆人牽手摸腰很自然

      小魚愛魚樂
      2025-12-12 08:39:41
      隨著王楚欽4-1勝大勒布倫,晉級半決賽!男單4強國乒提前鎖定2席

      隨著王楚欽4-1勝大勒布倫,晉級半決賽!男單4強國乒提前鎖定2席

      球場沒跑道
      2025-12-12 13:53:27
      華南師范大學林勇教授,在廣州逝世

      華南師范大學林勇教授,在廣州逝世

      南方都市報
      2025-12-12 13:09:11
      學歷貶值太狠!月薪3000,珠海一工廠招現場作業崗要本科以上…

      學歷貶值太狠!月薪3000,珠海一工廠招現場作業崗要本科以上…

      火山詩話
      2025-12-12 05:51:17
      男子因拒絕在公司年會上表演,被領導以曠工為由開除,法院:公司行為違法,判賠18.5萬元

      男子因拒絕在公司年會上表演,被領導以曠工為由開除,法院:公司行為違法,判賠18.5萬元

      觀威海
      2025-12-12 14:14:02
      昔日女團門面買下40億大樓!遭網酸“靠擦|邊致富”!

      昔日女團門面買下40億大樓!遭網酸“靠擦|邊致富”!

      一盅情懷
      2025-12-12 18:07:44
      54歲于和偉演毛主席,這一次,他讓唐國強和整個娛樂圈沉默了!

      54歲于和偉演毛主席,這一次,他讓唐國強和整個娛樂圈沉默了!

      溫讀史
      2025-08-08 23:40:18
      中國“固態電池第一股”要來了

      中國“固態電池第一股”要來了

      界面新聞
      2025-12-12 11:48:19
      蘇聯攻克柏林后,斯大林沒有選黃金,用3000列火車運走德國鐵疙瘩

      蘇聯攻克柏林后,斯大林沒有選黃金,用3000列火車運走德國鐵疙瘩

      古書記史
      2025-12-11 22:22:41
      他是廣東知名主持人,32歲娶了女老師,如今女兒接班主持為他爭光

      他是廣東知名主持人,32歲娶了女老師,如今女兒接班主持為他爭光

      阿訊說天下
      2025-12-11 18:46:43
      男人注意:女人若有過很多男人,多半有這5個表現,別傻傻看不清

      男人注意:女人若有過很多男人,多半有這5個表現,別傻傻看不清

      伊人河畔
      2025-12-04 11:27:19
      山東臨沂一高三男生墜亡,官方介入

      山東臨沂一高三男生墜亡,官方介入

      深圳晚報
      2025-12-11 23:18:58
      2025-12-12 20:44:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11846文章數 176339關注度
      往期回顧 全部

      科技要聞

      凌晨突發!GPT-5.2上線,首批實測感受來了

      頭條要聞

      10人聚餐后9人離開 最后1人拒付餐費:付錢就是冤大頭

      頭條要聞

      10人聚餐后9人離開 最后1人拒付餐費:付錢就是冤大頭

      體育要聞

      15輪2分,他們怎么成了英超最爛球隊?

      娛樂要聞

      上海這一夜,33歲陳麗君秒了32歲吉娜?

      財經要聞

      鎂信健康闖關港交所:被指竊取商業秘密

      汽車要聞

      表面風平浪靜 內里翻天覆地!試駕銀河星艦7 EM-i

      態度原創

      健康
      親子
      手機
      房產
      公開課

      甲狀腺結節到這個程度,該穿刺了!

      親子要聞

      首創“先臨床,后上市”!飛鶴跡萃、啟萃“領鮮”行業

      手機要聞

      vivo官方聲明:網上代購、轉售S50發布會門票為虛假信息

      房產要聞

      每日狂增1300+企業!封關在即,海南徹底爆發!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 97久久精品亚洲中文字幕无码| 国产精品理论片| 91最新在线| 成人午夜精品无码区久久| 国产成人剧情AV麻豆果冻| 波多野在线影院| 亚洲人成18在线看久| 22222se男人的天堂| 亚州成人在线| 韩国三级大全久久网站| 久久久久亚洲精品成人网小说| 亚洲中文字幕人妻系列| 人人妻人人澡人人爽秒播| 南木林县| 真人作爱免费视频| 一本一道人妻久久综合无码| 中文字幕日韩精品有码视频| 国产av激情久久无码天堂| 天堂一区二区三区av| 丝袜.制服.丝袜.亚洲.日韩.中文| 秋霞二区| 久久精品国产99久久无毒不卡| 国产精品美女乱子伦高| 人与兽XXX| 熟妇人妻无乱码中文字幕真矢织江| 99精品久久久久久无码人妻| 国产内射999视频一区| 中文字幕热久久久久久久| 庆云县| 黑人无码av| 久久这里都是精品一区| 无码少妇一区二区| 人妻久久久| 日韩a无v码在线播放| 9191av| 九九精品免费观看| 中国女人做爰视频| 中文字幕乱码在线人视频| 屁屁国产第一页| 精品蜜臀av在线天堂| 平塘县|