美國開放人工智能研究中心(OpenAI)12月11日發(fā)布其人工智能模型GPT的最新升級版本GPT-5.2,以應(yīng)對生成式人工智能領(lǐng)域日趨激烈的競爭。
![]()
圖片來源:OpenAI官網(wǎng)
為回應(yīng)谷歌公司11月所發(fā)布人工智能模型雙子座3的出色表現(xiàn),OepnAI首席執(zhí)行官薩姆·奧爾特曼近日啟動“紅色警報”,加快GPT升級版本的發(fā)布速度。
OpenAI今年8月推出GPT-5后,11月即發(fā)布升級版本GPT-5.1,眼下不到一個月就再次更新。業(yè)界認(rèn)為,此舉凸顯人工智能行業(yè)目前面臨的競爭壓力。
![]()
圖片來源:視覺中國
GPT-5.2是OpenAI迄今最先進(jìn)的人工智能(AI)模型,針對專業(yè)工作場景進(jìn)行了全面優(yōu)化,創(chuàng)多個基準(zhǔn)測試的行業(yè)記錄,其中的GPT-5.2 Thinking刷新了SWE編碼能力測試的歷史最高分,也是OpenAI首個性能達(dá)到或超過人類專家水平的模型。
OpenAI介紹稱,GPT?5.2是迄今為止在“專業(yè)知識工作方面”表現(xiàn)最好的模型系列,在制作電子表格、制作演示文稿、圖像感知、編寫代碼以及理解長上下文等方面都優(yōu)于前代產(chǎn)品,旨在"為人們創(chuàng)造更多經(jīng)濟(jì)價值"。OpenAI的研究副總Adain Clark稱,GPT-5.2在數(shù)學(xué)推理方面的進(jìn)步意味著它能更好地處理金融建模、預(yù)測和數(shù)據(jù)分析等任務(wù)。
OpenAI宣布,12月11日當(dāng)天GPT5.2就在ChatGPT上線,面向Plus、Pro、Go、Business和 Enterprise這些付費套餐的用戶, 共推出Instant、Thinking和Pro三個版本,API也同步開放給所有開發(fā)者。
在ChatGPT中,付費用戶可使用三個版本的GPT-5.2,且在未來三個月內(nèi)仍可繼續(xù)使用GPT-5.1。在API平臺,GPT-5.2定價為每百萬輸入token 1.75美元、每百萬輸出token 14美元,緩存輸入可享受90%折扣。雖然單token價格高于GPT-5.1,但OpenAI表示,由于模型效率更高,達(dá)到相同質(zhì)量水平的總成本反而更低。
三個版本GPT-5.2分別主打快速、深度、智能可靠
OpenAI分別介紹稱,Instant是快速高效的日常工作和學(xué)習(xí)助手,在信息查詢、操作指南、技術(shù)寫作和翻譯方面均有顯著提升,并延續(xù)了 GPT-5.1 Instant 中更親切的對話風(fēng)格。早期測試者尤其注意到,GPT-5.2 的解釋更加清晰,能夠直接呈現(xiàn)關(guān)鍵信息。
Thinking 專為深度工作而設(shè)計,能夠幫助用戶更高效地完成更復(fù)雜的任務(wù),尤其是在編碼、總結(jié)長篇文檔、回答有關(guān)上傳文件的問題、逐步進(jìn)行數(shù)學(xué)和邏輯運算、以更清晰的框架和更有用的細(xì)節(jié)輔助規(guī)劃和決策方面。
Pro是需要高質(zhì)量回答難題時“最智能、最可靠”的選擇。早期測試表明,它在編程等復(fù)雜領(lǐng)域表現(xiàn)更出色,且重大錯誤更少。
性能全面領(lǐng)先,多項基準(zhǔn)測試創(chuàng)新高
GPT-5.2在多個關(guān)鍵基準(zhǔn)測試中刷新了行業(yè)紀(jì)錄。在GDPval測試中,該模型在涵蓋44個職業(yè)的知識工作任務(wù)上,有70.9%的表現(xiàn)達(dá)到或超過行業(yè)專家水平。OpenAI稱,GPT-5.2 Thinking完成這些任務(wù)的速度是專家的11倍以上,成本不到專家的1%。
![]()
在編碼能力方面,GPT-5.2 Thinking在SWE-Bench Pro上取得55.6%的成績,在SWE-bench Verified上更是達(dá)到80%的新高。這一基準(zhǔn)測試真實世界軟件工程任務(wù),涵蓋四種編程語言。OpenAI的產(chǎn)品負(fù)責(zé)人Max Schwarzer表示,GPT-5.2在代碼生成和調(diào)試方面取得重大進(jìn)步,Windsurf和CharlieCode等編碼初創(chuàng)公司報告稱該模型實現(xiàn)了"最先進(jìn)的智能體編碼性能"。
![]()
OpenAI聲稱GPT-5.2 Thinking是"世界上最好的視覺模型",在圖表推理和軟件界面理解方面的錯誤率降低了約一半。在長文本處理上,該模型在OpenAI MRCRv2測試中率先在25.6萬token范圍內(nèi)實現(xiàn)近100%的準(zhǔn)確率,使其特別適合深度文檔分析和多源信息工作流。
在科學(xué)研究領(lǐng)域,GPT-5.2 Pro在GPQA Diamond測試中達(dá)到93.2%的準(zhǔn)確率,GPT-5.2 Thinking緊隨其后為92.4%。在專家級數(shù)學(xué)測試FrontierMath上,GPT-5.2 Thinking解決了40.3%的問題,創(chuàng)下新紀(jì)錄。OpenAI稱GPT-5.2 Pro和GPT-5.2 Thinking是"世界上最好的科學(xué)家助手模型"。
作為OpenAI對谷歌的反擊,GPT?5.2僅僅是打出的“第一拳”。
公司CEOAltman在12月11日宣布,下周會給用戶們帶來一些“小小的圣誕禮物”。他表示,Gemini 3對公司各項指標(biāo)的影響比原本擔(dān)心得要小。他還說,預(yù)計OpenAI將在2026年1月“以非常強勁的姿態(tài)”退出目前的紅色警報狀態(tài)。
![]()
OpenAI首席產(chǎn)品官Fidji Simo也在12月11日透露,現(xiàn)在已經(jīng)開始在部分地區(qū)推出年齡估算系統(tǒng),此舉旨在控制ChatGPT對18歲以下用戶回復(fù)的內(nèi)容。Simo也表示,公司希望在明年一季度推出“成人模式”前先引入這一功能。
此前有報道稱,OpenAI計劃在明年1月再發(fā)布一款新模型,具有更好的圖像能力和更完善的個性化特點,但公司周四未對這一傳言予以確認(rèn)。
每日經(jīng)濟(jì)新聞綜合公開消息
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.