<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      GPT-5.2 發(fā)布|信息全整理

      0
      分享至

      上周,

      剛剛,GPT-5.2 來了,包含三個版本

      • ? GPT-5.2 Instant :日常對話,快

      • ? GPT-5.2 Thinking :深度任務,代碼、長文檔、數(shù)學、規(guī)劃

      • ? GPT-5.2 Pro :最強,適合難題,愿意等

      模型肯定是更強的,比如在AIME 2025 中取得滿分,在 ARC-AGI-2 上拿到了 52.9%(和 Gemini3 相當)

      今天開始向付費用戶推送,API 已上線,標準版比 GPT-5.1 貴 40%


      GPT-5.2 核心評測

      如下圖所示,是 GPT-5.2 的相關核心數(shù)據(jù)


      GPT-5.2 Benchmark

      注意:

      • ? AIME 2025 滿分(無工具)

      • ? GPT-5.2 Pro 在 ARC-AGI-1 上達到 90.5%,是第一個突破 90% 的模型

      • ? ARC-AGI-2 從 17.6% 到 52.9%,翻了三倍

      處理真實工作

      GDPval 是 OpenAI 新出的 benchmark

      測的是 44 個職業(yè)的真實工作任務:
      做 PPT、做表格、寫分析報告

      GPT-5.2 Thinking 在 70.9% 的任務上勝過或打平行業(yè)專家
      GPT-5.2 Pro 更高,74.1%


      GDPval 知識工作

      速度是人類專家的 11 倍,成本不到 1%
      一個評審員的評價:
      「看起來像是一個有員工的專業(yè)公司做的,布局和建議都很專業(yè),雖然還有一些小錯誤需要修正」

      在投行分析師的表格建模任務上
      比如給 Fortune 500 公司做三表模型、做 LBO 模型
      平均分從 59.1% 提升到 68.4%

      官方放了幾個對比
      GPT-5.2 做的表格和 PPT 比 GPT-5.1 精細很多


      Workforce Planner 對比,左邊 GPT-5.1,右邊 GPT-5.2

      要用這個功能,需要付費版(Plus、Pro、Business、Enterprise),選 GPT-5.2 Thinking 或 Pro

      復雜任務可能要跑好幾分鐘

      寫代碼

      SWE-Bench Pro 是新的代碼 benchmark
      比 SWE-bench Verified 更難

      測四種語言,不只是 Python,更接近真實軟件工程
      GPT-5.2 Thinking 55.6%,GPT-5.1 是 50.8%


      SWE-Bench Pro

      前端能力也提升了,尤其是 3D 和復雜 UI
      官方放了幾個 demo,單 prompt 生成的


      海浪模擬,單 prompt 生成

      對此,Windsurf 的 CEO 表示
      「這是 GPT-5 以來 agentic coding 最大的躍升,版本號的小幅升級低估了智能的大幅提升。我們會把它設為 Windsurf 和 Devin 核心工作流的默認模型」

      看圖

      視覺能力提升明顯,錯誤率基本減半


      CharXiv Reasoning

      CharXiv Reasoning:科學論文圖表問答,88.7%,GPT-5.1 是 80.3%

      ScreenSpot-Pro,GUI 截圖理解,86.3%,GPT-5.1 是 64.2%

      此外,一個很明顯的區(qū)別是:空間位置理解更強了
      官方放了個主板識別的對比:給一張低質(zhì)量的主板圖片,讓模型標注各個組件的位置

      GPT-5.1 只能標幾個,位置也不太對


      GPT-5.1 主板識別

      GPT-5.2 能準確標注各個組件,位置基本對


      GPT-5.2 主板識別 長文檔

      OpenAI MRCRv2,測的是長文檔中多個信息點的整合能力
      在文檔里插入多個相同的「針/needl」,然后問模型第 n 個針的內(nèi)容是什么

      4 needle 變體,GPT-5.2 Thinking 在 256k token 長度接近 100%
      GPT-5.1 在同樣長度只有 30% 左右

      這是第一個在 4-needle 變體上達到接近 100%(256k)的模型


      長上下文 4 needles

      8 needle 更難,GPT-5.2 也有顯著提升


      長上下文 8 needles

      API 還支持新的 /compact 端點,可以擴展有效上下文窗口,適合工具多、跑得久的任務

      工具調(diào)用

      Tau2-bench 測的是多輪對話中的工具使用,模擬客服場景
      Telecom 領域,GPT-5.2 Thinking 98.7%,GPT-5.1 是 95.6%
      Retail 領域,82.0%,GPT-5.1 是 77.9%


      工具調(diào)用

      官方舉了個例子
      用戶說:我從巴黎飛紐約的航班延誤了,錯過了轉機去奧斯汀,行李也丟了,需要在紐約過夜,還有醫(yī)療原因需要前排座位

      GPT-5.1 漏了好幾步


      GPT-5.1 工具調(diào)用

      GPT-5.2 一次性處理完:改簽、特殊座位、賠償,全部搞定


      GPT-5.2 工具調(diào)用 數(shù)學和科學

      AIME 2025 100%,滿分,無工具
      HMMT 2025 年 2 月 99.4%,Pro 版 100%
      GPQA Diamond 92.4%,Pro 版 93.2%
      FrontierMath Tier 1-3 40.3%,Tier 4 14.6%
      HLE(Humanity's Last Exam)34.5%(無工具),45.5%(有工具)


      數(shù)學&科學

      ARC-AGI 是測抽象推理的

      ARC-AGI-1,GPT-5.2 Thinking 86.2%,Pro 版 90.5%,第一個突破 90%

      ARC-AGI-2 更難,GPT-5.2 Thinking 52.9%,Pro 版 54.2%

      GPT-5.1 Thinking 在 ARC-AGI-2 上只有 17.6%


      ARC-AGI 幻覺

      在 ChatGPT 真實用戶查詢上測試

      有錯誤的回復比例從 8.8% 降到 6.2%,相對減少 30%


      幻覺率 價格

      漲了
      GPT-5.2 比 GPT-5.1 貴 40%;GPT-5.2 Pro 的價格,一如既往的貴到離譜


      每百萬 token 價格

      官方解釋:雖然單價更高,但 token 效率更高,達到同樣效果的總成本反而更低

      ChatGPT 訂閱價格不變

      可用性

      ChatGPT 今天開始向付費用戶推送:Plus、Pro、Go、Business、Enterprise
      如果還沒看到,過幾天再試

      GPT-5.1 在 ChatGPT 中還會保留三個月,之后下線
      API 已經(jīng)上線:

      • ? gpt-5.2 :Thinking 版

      • ? gpt-5.2-chat-latest :Instant 版

      • ? gpt-5.2-pro :Pro 版

      在 PlayGround 里面,可以看到這些模型

      新增 xhigh reasoning effort,適合對質(zhì)量要求最高的任務
      GPT-5.1、GPT-5、GPT-4.1 在 API 中暫時不會下線
      Codex 優(yōu)化版即將推出

      安全

      延續(xù)了 GPT-5 的 safe completion 研究
      在自殺、自殘、心理健康、情感依賴等敏感對話上的表現(xiàn)改進了


      安全性評估

      開始部署年齡預測模型,18 歲以下用戶自動限制敏感內(nèi)容
      官方說過度拒絕的問題還在改進中

      最后

      總結下本次發(fā)布的內(nèi)容

      • ? Code Red 一周后,GPT-5.2 發(fā)布,三個版本

      • ? 性能更強,價格更貴

      • ? 今天開始向付費用戶推送,API 已上線


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      他是上海頂級敗家子,4年敗光千億資產(chǎn),如今只能靠姐姐力挽狂瀾

      他是上海頂級敗家子,4年敗光千億資產(chǎn),如今只能靠姐姐力挽狂瀾

      涵豆說娛
      2025-12-20 15:56:38
      洪森威脅拋電詐股東名單,并非揭黑,更多是怕老底被抖出來

      洪森威脅拋電詐股東名單,并非揭黑,更多是怕老底被抖出來

      熱點菌本君
      2025-12-21 15:04:14
      號稱鋼鐵女神!短發(fā)天花板,太驚艷了吧

      號稱鋼鐵女神!短發(fā)天花板,太驚艷了吧

      伊人河畔
      2025-12-21 21:37:50
      山東14名醫(yī)院院長被紀委帶走調(diào)查

      山東14名醫(yī)院院長被紀委帶走調(diào)查

      醫(yī)脈圈
      2025-12-20 20:03:59
      2026央視跨年晚會陣容曝光,網(wǎng)友:看完明星名單,廁所都不敢上了

      2026央視跨年晚會陣容曝光,網(wǎng)友:看完明星名單,廁所都不敢上了

      銀河史記
      2025-12-19 12:16:50
      高盛:未來2年房價或再跌10-30%  警告可能出現(xiàn)房價負反饋循環(huán)

      高盛:未來2年房價或再跌10-30% 警告可能出現(xiàn)房價負反饋循環(huán)

      財富情報局
      2025-12-19 23:06:25
      2026高速免費規(guī)則大改?元旦收費實錘,5類車全年免費,千萬注意!

      2026高速免費規(guī)則大改?元旦收費實錘,5類車全年免費,千萬注意!

      老特有話說
      2025-12-21 20:46:32
      54歲埃梅里激動脫衣怒吼!率隊10連勝震撼英超 終結對曼聯(lián)6場不勝

      54歲埃梅里激動脫衣怒吼!率隊10連勝震撼英超 終結對曼聯(lián)6場不勝

      我愛英超
      2025-12-22 02:40:29
      鄭麗文訪問大陸,國民黨副主席曝重大消息,蔣孝嚴已來到大陸

      鄭麗文訪問大陸,國民黨副主席曝重大消息,蔣孝嚴已來到大陸

      娛樂的宅急便
      2025-12-21 13:42:45
      如今回頭來看,他在執(zhí)政的28年,放在任何時代都堪稱曠世奇跡。

      如今回頭來看,他在執(zhí)政的28年,放在任何時代都堪稱曠世奇跡。

      鶴羽說個事
      2025-12-20 11:26:15
      迪麗熱巴“天使蹲”火出圈,顏值驚艷全網(wǎng),醫(yī)生:無基礎者慎入

      迪麗熱巴“天使蹲”火出圈,顏值驚艷全網(wǎng),醫(yī)生:無基礎者慎入

      悠悠說世界
      2025-12-21 08:34:39
      海南封關首日:30克金飾省近萬元,居民排長隊買榴蓮

      海南封關首日:30克金飾省近萬元,居民排長隊買榴蓮

      極目新聞
      2025-12-21 08:11:42
      彈劾已成定局,賴清德時代或結束,臺島百姓覺醒,傅崐萁定調(diào)現(xiàn)狀

      彈劾已成定局,賴清德時代或結束,臺島百姓覺醒,傅崐萁定調(diào)現(xiàn)狀

      芊芊子吟
      2025-12-21 09:50:05
      北京一副局長騎電動車送外賣,“原以為騎手最關心社保政策,沒想到他們張口就是‘別罰我款’”

      北京一副局長騎電動車送外賣,“原以為騎手最關心社保政策,沒想到他們張口就是‘別罰我款’”

      第一財經(jīng)資訊
      2025-12-21 08:55:57
      2026年1月1日新治安法落地!6 類日常行為已違法,罰款拘留跑不了

      2026年1月1日新治安法落地!6 類日常行為已違法,罰款拘留跑不了

      老特有話說
      2025-12-21 19:20:40
      龐家后人對《新華社》報道的聲明:不公正、不理解、不接受

      龐家后人對《新華社》報道的聲明:不公正、不理解、不接受

      每日一見
      2025-12-21 14:31:46
      深圳“日入過萬”烤雞少年塌房了!獨家配方居然是用了“肉寶王”

      深圳“日入過萬”烤雞少年塌房了!獨家配方居然是用了“肉寶王”

      火山詩話
      2025-12-20 10:25:37
      能源賣不動,俄羅斯要憋出內(nèi)傷了

      能源賣不動,俄羅斯要憋出內(nèi)傷了

      山河路口
      2025-12-21 19:47:44
      南博事件升級!參與定"偽"的專家徐沄秋被扒,果然有情況

      南博事件升級!參與定"偽"的專家徐沄秋被扒,果然有情況

      鋭娛之樂
      2025-12-21 08:30:41
      這是有史以來最大的市場泡沫嗎?

      這是有史以來最大的市場泡沫嗎?

      常滌非觀點
      2025-12-21 07:16:04
      2025-12-22 04:31:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      218文章數(shù) 12關注度
      往期回顧 全部

      科技要聞

      生態(tài)適配已超95% 鴻蒙下一關:十萬個應用

      頭條要聞

      洛熙爸爸看1000遍法醫(yī)視頻找女兒 發(fā)解剖臺畫面被禁播

      頭條要聞

      洛熙爸爸看1000遍法醫(yī)視頻找女兒 發(fā)解剖臺畫面被禁播

      體育要聞

      勇士火箭贏球:王牌之外的答案?

      娛樂要聞

      星光大賞太尷尬!搶話擋鏡頭,場地還小

      財經(jīng)要聞

      老房子“強制體檢”,政府出手了

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態(tài)度原創(chuàng)

      教育
      時尚
      手機
      房產(chǎn)
      軍事航空

      教育要聞

      山東理工制藥專業(yè)近三年分數(shù)線揭秘!穩(wěn)操勝券

      紅色不流行了?今年最火的穿搭居然是它

      手機要聞

      曝折疊屏iPhone嘗試 UFG 玻璃,明年九月發(fā)

      房產(chǎn)要聞

      中交·藍色港灣一周年暨藍調(diào)生活沙龍圓滿舉行

      軍事要聞

      石破茂:擁核絕不會給日本帶來正面影響

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 99在线国内在线视频22| 99在线精品国自产拍不卡| 金沙县| 天天躁日日摸久久久精品| 亚洲欧美日韩中文字幕一区二区三区 | 天天做天天爱夜夜爽毛片| 欧美午夜精品一区二区三区电影| 国精品91人妻无码一区二区三区| 国产高清A片| 一本色道久久亚洲综合精品| 国产成人无码av在线影院| 无码人妻精品一区二| 亚洲aⅴ男人的天堂在线观看| 老熟女AV| 欧美成人精品A片人妻| 国产狂喷潮在线观看| 亚洲丰满熟女一区二区v| 亚洲AV第二区国产精品| 中超| 好了av四色综合无码| a毛片免费在线观看| 亚洲无码2| 人妻色综合| 无套内内射视频网站| 亚洲乱码中文字幕小综合 | 国产对白老熟女正在播放 | 99re久久资源最新地址| 日本夜爽爽一区二区三区| 999国产精品| 中文字幕人妻少妇引诱隔壁| 欧美日韩一卡2卡三卡4卡 乱码欧美孕交| 久久婷婷五月天| 子洲县| 久久成人 久久鬼色| 国产区二区三区在线观看| 3P免费视频在线观看| 国产人妻人伦精品1国产丝袜| 奇米777四色在线精品| 亚洲精品无amm毛片| www.91xxx| 亚洲一卡二卡|