<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.2深夜炸場,評測碾壓谷歌Gemini 3 Pro,真正的打工人利器

      0
      分享至

        作者|沐風

        來源|AI先鋒官

        上周,OpenAI CEO奧特曼剛宣布完公司進入“紅色警戒”(Code Red)狀態,要求團隊將工作重心轉移到提高ChatGPT的性能和用戶體驗上后。

        就在今天,OpenAI發布了最新的頂級模型 GPT-5.2系列。

        GPT-5.2 將向 ChatGPT 付費用戶開放,并通過 API 提供給開發者,一共分為三個系列:

        GPT?5.2 Instant(即時版)

        GPT?5.2 Thinking(思考版)

        GPT?5.2 Pro(專業版)

        在OpenAI官方公布的基準測試中,它幾乎對Gemini 3 Pro、Claude Opus 4.5實現了全方位碾壓。

        

        值得注意的是,GPT?5.2 Thinking在AIME 2025(數學)的分數達到了滿分,Gemini 3 Pro 的分數是 95%。

        OpenAI應用CEO Fidji Simo曾說過,GPT-5.2 的設計目標就是為人們創造更多經濟價值。

        那么如何創造呢?

        那就不得不提到GPT-5.2的拿手好戲:制作電子表格、構建演示文稿、編寫代碼、理解圖像、處理超長上下文、使用工具,以及執行復雜的多步驟項目等等。

        空口無憑,讓我們先來看看數據。

        在OpenAI新出的基準測試GDPval(覆蓋 44 個職業、針對明確知識工作任務的評估體系)中,GPT-5.2 Thinking 在70.9%的任務上勝過或打平行業專家,GPT-5.2 Pro更高,為74.1%。

        

        主要測試內容為制作演示文稿、電子表格以及其他專業產出物。

        官方還放出了對比圖,GPT-5.2 做的表格比GPT-5.1確實精細很多。

        

        一個評審員對此的評價是:“看起來像是一個有員工的專業公司做的,布局和建議都很專業,雖然還有一些小錯誤需要修正。”

        另外,GPT-5.2 Thinking生成輸出的速度也超過人類專家11 倍以上,成本不到人類專家的1%。

        OpenAI 聲稱這是AI模型首次達到了“人類專家水平”。

        在ARC-AGI放出的測試中,此前o3 (High) 在ARC-AGI-1測試得分為88%,平均每項任務成本為4500美元。

        而GPT-5.2 Pro (X-High) 最新SOTA得分為90.5%,是第一個突破90%的模型,它的平均任務成本僅為11.64美元,在一年內效率提高了約390倍。

        

        ARC-AGI-2(抽象推理)的分數是 52.9%,相較此前翻了三倍,對比Gemini 3 Pro是 31.1 %。

        

        GPT-5.2 Thinking的代碼能力也同樣刷新了紀錄:

        在SWE-bench Verified上,得分達到80%。

        在SWE-Bench Pro上,得分達到55.6%。

        

        SWE-Bench Pro是新的代碼基準測試,比SWE-bench Verified更難,涵蓋四種編程語言,不只是Python,更接近真實軟件工程。

        早期測試者特別提到,GPT-5.2在前端的能力也明顯提升了,尤其是3D和復雜UI。

        官方也放出了由單prompt生成的demo:

        

        同時,GPT-5.2 Thinking在長文檔處理方面的表現也很亮眼。

        在OpenAI自制的MRCRv2(長文檔中多個信息點的整合能力)評測中,GPT-5.2 Thinking成為首個在256k 上下文長的4-needle上達到接近100%準確率的模型。

        

        不過,更難的8 needle版還是有明顯下降。

        

        GPT-5.2 Thinking的視覺能力也明顯提升,錯誤率基本減半。

        在CharXiv Reasoning測試中,GPT-5.2 Thinking得分達到88.7%,GPT-5.1是80.3%。

        

        在ScreenSpot-Pro測試中,GPT-5.2 Thinking得分達到86.3%。GPT-5.1 是 64.2%。

        

        在官方放出的示例中,OpenAI 要求模型識別輸入圖像中的組件,并返回帶有大致邊界框的標簽。

        

        即使在低質量圖像上,GPT-5.2 也能識別出主要區域,并放置有時能與每個組件真實位置相匹配的框;而 GPT-5.1 僅標記了少數幾個部分,且對其空間排列的理解要弱得多。

        而且,GPT-5.2 Thinking 的幻覺比GPT-5.1 Thinking更少了。

        在一組去標識化的ChatGPT查詢中,前者包含錯誤的回答相對減少了30%

        

        最后,我們來聊聊價格,GPT-5.2的價格一如既往的貴到離譜。

        GPT-5.2的定價為1.75美元/百萬輸入Token,14美元/百萬輸出Token,緩存輸入有90%的折扣,比GPT-5.1貴40%。

        ChatGPT訂閱價格不變。

        

        但是!

        在多個智能體評估中,盡管GPT-5.2的每Token成本更高,但GPT-5.2由于更高的Token效率,性價比反而更高。

        ChatGPT 將于今日開始逐步推出 GPT-5.2(包括 Instant、Thinking 和 Pro 版本),首先面向付費用戶(Plus、Pro、Go、Business 和 Enterprise 版本)提供。

        為確保 ChatGPT 的流暢性和穩定性,GPT-5.2 將分階段部署,在 ChatGPT 中,付費用戶仍可在三個月內繼續使用 GPT-5.1(舊版模式),之后 GPT-5.1 將逐步下線。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      思想配得上苦難

      思想配得上苦難

      求實處
      2026-01-26 22:20:03
      在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進醫院,盒馬回應

      在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進醫院,盒馬回應

      瀟湘晨報
      2026-01-27 18:01:05
      特朗普果然別有用心,美軍準備2套“萬全”方案,用來對付誰?

      特朗普果然別有用心,美軍準備2套“萬全”方案,用來對付誰?

      空天力量
      2026-01-27 13:07:41
      全國9地取消固定分時電價

      全國9地取消固定分時電價

      財聯社
      2026-01-27 13:58:05
      全球唯一!阿富汗官宣永久禁止女性入學,220萬女孩夢碎!

      全球唯一!阿富汗官宣永久禁止女性入學,220萬女孩夢碎!

      老馬拉車莫少裝
      2026-01-27 12:56:30
      上映27天被觀眾趕出院線!網播也救不了它,事實證明爛片已無市場

      上映27天被觀眾趕出院線!網播也救不了它,事實證明爛片已無市場

      娛樂圈筆娛君
      2026-01-27 09:40:32
      中央批準:省級黨委常委跨省履新!近日,五個省級黨委領導班子調整

      中央批準:省級黨委常委跨省履新!近日,五個省級黨委領導班子調整

      上觀新聞
      2026-01-26 22:42:05
      退臟衣女記者全網社死!單位通報,正臉曝光,山東文旅評論區淪陷

      退臟衣女記者全網社死!單位通報,正臉曝光,山東文旅評論區淪陷

      烏娛子醬
      2026-01-27 16:38:27
      赫爾松俄軍主動后撤,美國會對川普強吞格陵蘭發出彈劾通牒

      赫爾松俄軍主動后撤,美國會對川普強吞格陵蘭發出彈劾通牒

      史政先鋒
      2026-01-27 19:58:21
      餐館招牌寫“免費加面”,男子二次續面時被要求付3元,還遭言語歧視?多方回應

      餐館招牌寫“免費加面”,男子二次續面時被要求付3元,還遭言語歧視?多方回應

      瀟湘晨報
      2026-01-27 22:22:52
      14歲陳佳銘已昏迷超30天,上海專家會診后,確認無生還希望

      14歲陳佳銘已昏迷超30天,上海專家會診后,確認無生還希望

      離離言幾許
      2026-01-26 16:15:54
      白銀瘋漲超150%,郎咸平熱評:只是一場針對中國的金融圍獵

      白銀瘋漲超150%,郎咸平熱評:只是一場針對中國的金融圍獵

      凡知
      2026-01-27 18:12:39
      普雷蒂被殺事件持續發酵升溫,可能成為特朗普政治生命滑鐵盧

      普雷蒂被殺事件持續發酵升溫,可能成為特朗普政治生命滑鐵盧

      劉耘博士
      2026-01-27 08:40:05
      要打就打痛!中國手段已升級,日本:中方不批準駐重慶總領事任命

      要打就打痛!中國手段已升級,日本:中方不批準駐重慶總領事任命

      滄海旅行家
      2026-01-27 17:17:15
      紫牛頭條|大連一業主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團陷僵局

      紫牛頭條|大連一業主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團陷僵局

      揚子晚報
      2026-01-27 21:52:52
      特朗普:若遭暗殺,美國將把伊朗“從地球上抹去”

      特朗普:若遭暗殺,美國將把伊朗“從地球上抹去”

      揚子晚報
      2026-01-27 12:19:31
      小區內裝卸鋼化玻璃,不到一小時連發兩起事故,有傷者送醫后身亡;家屬:用工方負責人已被逮捕

      小區內裝卸鋼化玻璃,不到一小時連發兩起事故,有傷者送醫后身亡;家屬:用工方負責人已被逮捕

      大風新聞
      2026-01-27 17:10:11
      信守承諾!球迷直播吃推文:曾放話快船若打出15勝3負他就這么干

      信守承諾!球迷直播吃推文:曾放話快船若打出15勝3負他就這么干

      羅說NBA
      2026-01-27 18:40:41
      “牛鬼蛇神”扎堆,春晚第二次聯排讓人大失所望,網友們坐不住了

      “牛鬼蛇神”扎堆,春晚第二次聯排讓人大失所望,網友們坐不住了

      深析古今
      2026-01-26 18:22:14
      單賽季拿3000分有多難?科比0次,詹姆斯0次,唯獨他3次

      單賽季拿3000分有多難?科比0次,詹姆斯0次,唯獨他3次

      無月可歸辛
      2026-01-27 18:21:38
      2026-01-28 01:15:00
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應用精選與評測
      421文章數 41關注度
      往期回顧 全部

      科技要聞

      馬化騰3年年會講話透露了哪些關鍵信息

      頭條要聞

      因樓下鄰居關閉水閥女子家中斷水400天 起訴索賠被駁

      頭條要聞

      因樓下鄰居關閉水閥女子家中斷水400天 起訴索賠被駁

      體育要聞

      冒充職業球員,比賽規則還和對手現學?

      娛樂要聞

      張雨綺風波持續發酵,曝多個商務被取消

      財經要聞

      多地對壟斷行業"近親繁殖"出手了

      汽車要聞

      標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

      態度原創

      藝術
      時尚
      親子
      本地
      教育

      藝術要聞

      震撼!19世紀油畫巨匠的作品美得不可思議!

      這些韓系穿搭最適合普通人!多穿深色、衣服基礎,簡潔耐看

      親子要聞

      雙職工家庭,孩子上幼兒園后,無老人幫忙,夫妻倆能獨立帶娃嗎?

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      教育要聞

      再創歷史新高!南京高三期末調研考劃線及成績出爐

      無障礙瀏覽 進入關懷版