<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      GPT-5.2 發(fā)布|信息全整理

      0
      分享至

      上周,

      剛剛,GPT-5.2 來了,包含三個(gè)版本

      • ? GPT-5.2 Instant :日常對(duì)話,快

      • ? GPT-5.2 Thinking :深度任務(wù),代碼、長(zhǎng)文檔、數(shù)學(xué)、規(guī)劃

      • ? GPT-5.2 Pro :最強(qiáng),適合難題,愿意等

      模型肯定是更強(qiáng)的,比如在AIME 2025 中取得滿分,在 ARC-AGI-2 上拿到了 52.9%(和 Gemini3 相當(dāng))

      今天開始向付費(fèi)用戶推送,API 已上線,標(biāo)準(zhǔn)版比 GPT-5.1 貴 40%


      GPT-5.2 核心評(píng)測(cè)

      如下圖所示,是 GPT-5.2 的相關(guān)核心數(shù)據(jù)


      GPT-5.2 Benchmark

      注意:

      • ? AIME 2025 滿分(無工具)

      • ? GPT-5.2 Pro 在 ARC-AGI-1 上達(dá)到 90.5%,是第一個(gè)突破 90% 的模型

      • ? ARC-AGI-2 從 17.6% 到 52.9%,翻了三倍

      處理真實(shí)工作

      GDPval 是 OpenAI 新出的 benchmark

      測(cè)的是 44 個(gè)職業(yè)的真實(shí)工作任務(wù):
      做 PPT、做表格、寫分析報(bào)告

      GPT-5.2 Thinking 在 70.9% 的任務(wù)上勝過或打平行業(yè)專家
      GPT-5.2 Pro 更高,74.1%


      GDPval 知識(shí)工作

      速度是人類專家的 11 倍,成本不到 1%
      一個(gè)評(píng)審員的評(píng)價(jià):
      「看起來像是一個(gè)有員工的專業(yè)公司做的,布局和建議都很專業(yè),雖然還有一些小錯(cuò)誤需要修正」

      在投行分析師的表格建模任務(wù)上
      比如給 Fortune 500 公司做三表模型、做 LBO 模型
      平均分從 59.1% 提升到 68.4%

      官方放了幾個(gè)對(duì)比
      GPT-5.2 做的表格和 PPT 比 GPT-5.1 精細(xì)很多


      Workforce Planner 對(duì)比,左邊 GPT-5.1,右邊 GPT-5.2

      要用這個(gè)功能,需要付費(fèi)版(Plus、Pro、Business、Enterprise),選 GPT-5.2 Thinking 或 Pro

      復(fù)雜任務(wù)可能要跑好幾分鐘

      寫代碼

      SWE-Bench Pro 是新的代碼 benchmark
      比 SWE-bench Verified 更難

      測(cè)四種語(yǔ)言,不只是 Python,更接近真實(shí)軟件工程
      GPT-5.2 Thinking 55.6%,GPT-5.1 是 50.8%


      SWE-Bench Pro

      前端能力也提升了,尤其是 3D 和復(fù)雜 UI
      官方放了幾個(gè) demo,單 prompt 生成的


      海浪模擬,單 prompt 生成

      對(duì)此,Windsurf 的 CEO 表示
      「這是 GPT-5 以來 agentic coding 最大的躍升,版本號(hào)的小幅升級(jí)低估了智能的大幅提升。我們會(huì)把它設(shè)為 Windsurf 和 Devin 核心工作流的默認(rèn)模型」

      看圖

      視覺能力提升明顯,錯(cuò)誤率基本減半


      CharXiv Reasoning

      CharXiv Reasoning:科學(xué)論文圖表問答,88.7%,GPT-5.1 是 80.3%

      ScreenSpot-Pro,GUI 截圖理解,86.3%,GPT-5.1 是 64.2%

      此外,一個(gè)很明顯的區(qū)別是:空間位置理解更強(qiáng)了
      官方放了個(gè)主板識(shí)別的對(duì)比:給一張低質(zhì)量的主板圖片,讓模型標(biāo)注各個(gè)組件的位置

      GPT-5.1 只能標(biāo)幾個(gè),位置也不太對(duì)


      GPT-5.1 主板識(shí)別

      GPT-5.2 能準(zhǔn)確標(biāo)注各個(gè)組件,位置基本對(duì)


      GPT-5.2 主板識(shí)別 長(zhǎng)文檔

      OpenAI MRCRv2,測(cè)的是長(zhǎng)文檔中多個(gè)信息點(diǎn)的整合能力
      在文檔里插入多個(gè)相同的「針/needl」,然后問模型第 n 個(gè)針的內(nèi)容是什么

      4 needle 變體,GPT-5.2 Thinking 在 256k token 長(zhǎng)度接近 100%
      GPT-5.1 在同樣長(zhǎng)度只有 30% 左右

      這是第一個(gè)在 4-needle 變體上達(dá)到接近 100%(256k)的模型


      長(zhǎng)上下文 4 needles

      8 needle 更難,GPT-5.2 也有顯著提升


      長(zhǎng)上下文 8 needles

      API 還支持新的 /compact 端點(diǎn),可以擴(kuò)展有效上下文窗口,適合工具多、跑得久的任務(wù)

      工具調(diào)用

      Tau2-bench 測(cè)的是多輪對(duì)話中的工具使用,模擬客服場(chǎng)景
      Telecom 領(lǐng)域,GPT-5.2 Thinking 98.7%,GPT-5.1 是 95.6%
      Retail 領(lǐng)域,82.0%,GPT-5.1 是 77.9%


      工具調(diào)用

      官方舉了個(gè)例子
      用戶說:我從巴黎飛紐約的航班延誤了,錯(cuò)過了轉(zhuǎn)機(jī)去奧斯汀,行李也丟了,需要在紐約過夜,還有醫(yī)療原因需要前排座位

      GPT-5.1 漏了好幾步


      GPT-5.1 工具調(diào)用

      GPT-5.2 一次性處理完:改簽、特殊座位、賠償,全部搞定


      GPT-5.2 工具調(diào)用 數(shù)學(xué)和科學(xué)

      AIME 2025 100%,滿分,無工具
      HMMT 2025 年 2 月 99.4%,Pro 版 100%
      GPQA Diamond 92.4%,Pro 版 93.2%
      FrontierMath Tier 1-3 40.3%,Tier 4 14.6%
      HLE(Humanity's Last Exam)34.5%(無工具),45.5%(有工具)


      數(shù)學(xué)&科學(xué)

      ARC-AGI 是測(cè)抽象推理的

      ARC-AGI-1,GPT-5.2 Thinking 86.2%,Pro 版 90.5%,第一個(gè)突破 90%

      ARC-AGI-2 更難,GPT-5.2 Thinking 52.9%,Pro 版 54.2%

      GPT-5.1 Thinking 在 ARC-AGI-2 上只有 17.6%


      ARC-AGI 幻覺

      在 ChatGPT 真實(shí)用戶查詢上測(cè)試

      有錯(cuò)誤的回復(fù)比例從 8.8% 降到 6.2%,相對(duì)減少 30%


      幻覺率 價(jià)格

      漲了
      GPT-5.2 比 GPT-5.1 貴 40%;GPT-5.2 Pro 的價(jià)格,一如既往的貴到離譜


      每百萬 token 價(jià)格

      官方解釋:雖然單價(jià)更高,但 token 效率更高,達(dá)到同樣效果的總成本反而更低

      ChatGPT 訂閱價(jià)格不變

      可用性

      ChatGPT 今天開始向付費(fèi)用戶推送:Plus、Pro、Go、Business、Enterprise
      如果還沒看到,過幾天再試

      GPT-5.1 在 ChatGPT 中還會(huì)保留三個(gè)月,之后下線
      API 已經(jīng)上線:

      • ? gpt-5.2 :Thinking 版

      • ? gpt-5.2-chat-latest :Instant 版

      • ? gpt-5.2-pro :Pro 版

      在 PlayGround 里面,可以看到這些模型

      新增 xhigh reasoning effort,適合對(duì)質(zhì)量要求最高的任務(wù)
      GPT-5.1、GPT-5、GPT-4.1 在 API 中暫時(shí)不會(huì)下線
      Codex 優(yōu)化版即將推出

      安全

      延續(xù)了 GPT-5 的 safe completion 研究
      在自殺、自殘、心理健康、情感依賴等敏感對(duì)話上的表現(xiàn)改進(jìn)了


      安全性評(píng)估

      開始部署年齡預(yù)測(cè)模型,18 歲以下用戶自動(dòng)限制敏感內(nèi)容
      官方說過度拒絕的問題還在改進(jìn)中

      最后

      總結(jié)下本次發(fā)布的內(nèi)容

      • ? Code Red 一周后,GPT-5.2 發(fā)布,三個(gè)版本

      • ? 性能更強(qiáng),價(jià)格更貴

      • ? 今天開始向付費(fèi)用戶推送,API 已上線


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      筱梅提前報(bào)喜:小寶貝迫不及待,奔赴新年與溫暖

      筱梅提前報(bào)喜:小寶貝迫不及待,奔赴新年與溫暖

      觀察鑒娛
      2026-02-12 11:53:34
      訂單與股價(jià)齊飛!AI引爆需求,這個(gè)傳統(tǒng)板塊成了“香饃饃”

      訂單與股價(jià)齊飛!AI引爆需求,這個(gè)傳統(tǒng)板塊成了“香饃饃”

      證券時(shí)報(bào)
      2026-02-15 18:14:05
      國(guó)防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      國(guó)防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      南權(quán)先生
      2026-02-12 15:38:28
      52歲龍丹妮上熱搜,網(wǎng)友:舞是龍丹妮跳的,面子是前男友李維丟的

      52歲龍丹妮上熱搜,網(wǎng)友:舞是龍丹妮跳的,面子是前男友李維丟的

      她時(shí)尚丫
      2026-02-13 22:55:36
      古天樂被追問旗下女演員周秀娜被告事件,他非常平靜地說了三個(gè)字

      古天樂被追問旗下女演員周秀娜被告事件,他非常平靜地說了三個(gè)字

      黃河新聞網(wǎng)呂梁頻道
      2026-02-15 10:43:54
      2026是赤馬年,60年一遇,記得:1躲,2穿,3注意

      2026是赤馬年,60年一遇,記得:1躲,2穿,3注意

      讀書文史
      2026-02-15 16:24:49
      中戲風(fēng)波持續(xù)發(fā)酵!王鑫在職期間3人免試入編,易烊千璽飽受質(zhì)疑

      中戲風(fēng)波持續(xù)發(fā)酵!王鑫在職期間3人免試入編,易烊千璽飽受質(zhì)疑

      法老不說教
      2026-02-15 23:24:29
      “把瓦房當(dāng)紫禁城了?”老年人在飯桌上說教,被00后懟到啞口無言

      “把瓦房當(dāng)紫禁城了?”老年人在飯桌上說教,被00后懟到啞口無言

      妍妍教育日記
      2026-02-15 08:15:08
      太遺憾了!短道速滑女子3000米接力最后時(shí)刻被單吃無緣A組決賽!

      太遺憾了!短道速滑女子3000米接力最后時(shí)刻被單吃無緣A組決賽!

      籃球資訊達(dá)人
      2026-02-15 05:35:04
      美媒重排24年選秀!狀元暴跌至13名 火箭隊(duì)謝潑德第5馬刺成大贏家

      美媒重排24年選秀!狀元暴跌至13名 火箭隊(duì)謝潑德第5馬刺成大贏家

      鍋?zhàn)踊@球
      2026-02-15 22:35:02
      農(nóng)村到底蕭條到了啥程度?我在村里住了三個(gè)月,說幾句刺耳的話

      農(nóng)村到底蕭條到了啥程度?我在村里住了三個(gè)月,說幾句刺耳的話

      復(fù)轉(zhuǎn)這些年
      2026-02-11 23:59:46
      男子花80塊錢請(qǐng)人畫畫,付款時(shí),要了張收據(jù),50年后,這張收據(jù)賣了180萬

      男子花80塊錢請(qǐng)人畫畫,付款時(shí),要了張收據(jù),50年后,這張收據(jù)賣了180萬

      霹靂炮
      2026-02-14 20:47:47
      小卡開炮全明星賽!萊昂納德直言:這賽制根本沒人想認(rèn)真打

      小卡開炮全明星賽!萊昂納德直言:這賽制根本沒人想認(rèn)真打

      體育閑話說
      2026-02-15 14:19:21
      以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國(guó)并不會(huì)第一個(gè)翻臉

      以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國(guó)并不會(huì)第一個(gè)翻臉

      八斗小先生
      2025-12-26 09:33:27
      除夕三不擺,來年不惹災(zāi)”,這3樣水果別上桌,易鬧笑話壞彩頭

      除夕三不擺,來年不惹災(zāi)”,這3樣水果別上桌,易鬧笑話壞彩頭

      小陸搞笑日常
      2026-02-13 05:58:45
      男人別碰四五十歲的女人,她們有2個(gè)地方你“惹不起”!

      男人別碰四五十歲的女人,她們有2個(gè)地方你“惹不起”!

      加油丁小文
      2026-01-16 22:16:00
      【微特稿】不顧法院保護(hù)令 美國(guó)將9人秘密驅(qū)逐至喀麥隆

      【微特稿】不顧法院保護(hù)令 美國(guó)將9人秘密驅(qū)逐至喀麥隆

      新華社
      2026-02-15 20:38:11
      布朗尼情人節(jié)曬與女友合影!兩人都是星二代 已見過雙方父母

      布朗尼情人節(jié)曬與女友合影!兩人都是星二代 已見過雙方父母

      Emily說個(gè)球
      2026-02-15 20:40:18
      “學(xué)習(xí)學(xué)傻了吧?”女孩曬滿墻獎(jiǎng)狀,挑釁有錢人被嘲:頭腦不清醒

      “學(xué)習(xí)學(xué)傻了吧?”女孩曬滿墻獎(jiǎng)狀,挑釁有錢人被嘲:頭腦不清醒

      妍妍教育日記
      2026-02-14 17:00:28
      中烏極罕見一幕發(fā)生,普京和特朗普全都沒想到:澤連斯基敢這樣說

      中烏極罕見一幕發(fā)生,普京和特朗普全都沒想到:澤連斯基敢這樣說

      牛鍋巴小釩
      2026-02-16 02:38:23
      2026-02-16 05:12:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      293文章數(shù) 36關(guān)注度
      往期回顧 全部

      科技要聞

      發(fā)春節(jié)紅包的大廠都被約談了

      頭條要聞

      大學(xué)生寒假為媽媽店鋪當(dāng)中老年服裝模特 撞臉明星

      頭條要聞

      大學(xué)生寒假為媽媽店鋪當(dāng)中老年服裝模特 撞臉明星

      體育要聞

      NBA三分大賽:利拉德帶傷第三次奪冠

      娛樂要聞

      2026央視春晚最新劇透 重量級(jí)嘉賓登場(chǎng)

      財(cái)經(jīng)要聞

      誰在掌控你的胃?起底百億"飄香劑"江湖

      汽車要聞

      奔馳中國(guó)換帥:段建軍離任,李德思接棒

      態(tài)度原創(chuàng)

      教育
      家居
      旅游
      公開課
      軍事航空

      教育要聞

      點(diǎn)贊收藏轉(zhuǎn)發(fā)這條視頻,我不怕小日子

      家居要聞

      中古雅韻 樂韻伴日常

      旅游要聞

      開放機(jī)關(guān)事業(yè)單位床位給游客,“寵客”還要善始善終

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:在俄烏沖突問題上 澤連斯基必須行動(dòng)起來

      無障礙瀏覽 進(jìn)入關(guān)懷版