<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      GPT-5.2性能爆表,但紅色警報沒有解除

      0
      分享至



      就在剛剛,ChatGPT-5.2發(fā)布了。

      這是OpenAI成立以來,首次發(fā)布紅色警報(Code Red)后的第一款產(chǎn)品。

      雖然在時間上,GPT-5.2只跟5.1相隔了一個月。但是從公布的性能數(shù)據(jù)來看,GPT-5.2較上一代提升巨大,而且遠超谷歌和Anthropic的同期產(chǎn)品。

      然而OpenAI的紅色警報并未因此解除,這家公司仍處于危機之中。

      究其原因,現(xiàn)在的市場已經(jīng)逐漸開始對OpenAI祛魅,而是更冷靜地審視每一分算力背后的投入產(chǎn)出比。在這種前所未有的環(huán)境之下,OpenAI不僅需要證明自己是最強的,還需要證明自己不可被替代。

      01

      首先要說的,就是GPT-5.2的數(shù)學(xué)能力。

      長期以來,業(yè)界普遍認為大語言模型雖然能寫代碼、能聊天,但在嚴(yán)格的數(shù)學(xué)推理上總是差強人意。這次GPT-5.2 Thinking在AIME 2025數(shù)學(xué)競賽中拿到了100%的滿分。



      AIME是美國數(shù)學(xué)邀請賽,題目難度遠超普通高中數(shù)學(xué),需要扎實的數(shù)學(xué)功底和靈活的解題思路。GPT-5.2能在這樣的測試中全部答對,說明它在數(shù)學(xué)推理上已經(jīng)達到了相當(dāng)高的水平。

      在更高難度的FrontierMath測試中,GPT-5.2 Thinking解決了40.3%的專家級數(shù)學(xué)難題。這個測試專門針對前沿數(shù)學(xué)研究設(shè)計,許多題目連專業(yè)數(shù)學(xué)家都需要花費大量時間思考。能解決其中40%的問題,已經(jīng)展現(xiàn)出在輔助科學(xué)研究方面的潛力。

      除了推理和數(shù)學(xué),GPT-5.2在專業(yè)工作領(lǐng)域也表現(xiàn)突出。

      在OpenAI新推出的GDPval基準(zhǔn)測試中,GPT-5.2 Thinking在涵蓋44種職業(yè)的知識工作任務(wù)上,有70.9%的情況下?lián)魯』虼蚱搅隧敿庑袠I(yè)專家。

      這些任務(wù)包括制作演示文稿、構(gòu)建復(fù)雜的財務(wù)模型、撰寫專業(yè)文檔等。OpenAI表示,它完成這些任務(wù)的速度是人類專家的11倍以上,成本卻不到1%。

      在軟件工程方面,GPT-5.2 Thinking在SWE-Bench Pro上達到55.6%的準(zhǔn)確率,在SWE-bench Verified上達到80%。這些測試評估的是模型在真實代碼庫中修復(fù)bug、實現(xiàn)新功能的能力。

      早期測試者反饋,它在前端開發(fā)和復(fù)雜UI實現(xiàn)上尤其出色,甚至能夠根據(jù)一條提示就生成包含3D效果和物理模擬的完整應(yīng)用。

      GPT-5.2在長文檔理解上也有明顯進步。在OpenAI的MRCRv2測試中,它成為首個在256k token長度下,針對4-needle變體任務(wù)達到近乎100%準(zhǔn)確率的模型。

      這意味著用戶可以上傳數(shù)百頁的報告、合同或研究論文,模型仍能準(zhǔn)確理解分散在不同位置的相關(guān)信息,并進行綜合分析。



      在視覺理解方面,GPT-5.2的錯誤率在圖表推理和軟件界面理解任務(wù)上幾乎減半。它對圖像中物體的空間位置有了更準(zhǔn)確的把握。

      OpenAI展示了一個例子:即使輸入一張模糊的主板照片,GPT-5.2也能準(zhǔn)確識別出各個組件的位置并標(biāo)注邊界框,而前代模型只能識別出少數(shù)部分且位置偏差較大。



      此次發(fā)布包含三個版本。GPT-5.2 Instant定位為日常工作的快速助手,適合信息查詢、技術(shù)寫作和翻譯等任務(wù)。GPT-5.2 Thinking專注于深度推理,在編程、數(shù)據(jù)分析和復(fù)雜文檔處理上表現(xiàn)最佳,是專業(yè)工作的首選。GPT-5.2 Pro則是最智能的版本,適合那些"值得等待高質(zhì)量答案"的高難度問題。

      同時這次發(fā)布最引人注目的,不僅是模型本身的能力提升,更是一個令人驚訝的效率數(shù)據(jù):在ARC-AGI-1測試中,GPT-5.2 Pro實現(xiàn)了約390倍的效率改進。

      一年前,OpenAI曾驗證過一個未發(fā)布的o3預(yù)覽版本,在ARC-AGI-1測試中達到88%的準(zhǔn)確率,但每個任務(wù)的成本約為4500美元。如今,GPT-5.2 Pro不僅將準(zhǔn)確率提升至90.5%,還將單任務(wù)成本降至11.64美元。這種量級的效率提升,意味著原本只能在實驗室中演示的能力,現(xiàn)在有可能真正走向?qū)嶋H應(yīng)用。



      ARC-AGI測試被設(shè)計用來衡量抽象推理能力,它要求模型在面對從未見過的模式時,仍能找出規(guī)律并給出答案。這種能力接近人類所謂的“舉一反三”。

      GPT-5.2 Pro在ARC-AGI-1驗證集上的表現(xiàn),使其成為首個突破90%門檻的模型。在難度更高的ARC-AGI-2上,GPT-5.2 Thinking也達到了52.9%的準(zhǔn)確率,創(chuàng)下了鏈?zhǔn)剿季S模型的新紀(jì)錄。

      02

      GPT-5.2是奧特曼啟動Code Red后的一次強有力證明,但競爭的結(jié)果不會由單一基準(zhǔn)測試決定。真正的較量在于誰能更好地理解用戶需求,誰能在保持技術(shù)領(lǐng)先的同時控制成本,誰能在不同應(yīng)用場景中提供更可靠的服務(wù)。

      一個來自GitHub的開源基準(zhǔn)測試給出了答案。在lechmazur維護的NYT Connections測試中,GPT-5.2的表現(xiàn)并不如預(yù)期。



      NYT Connections是《紐約時報》推出的一個文字游戲,要求玩家從16個詞語中找出四組相關(guān)的詞匯。這個測試被設(shè)計成了一個LLM基準(zhǔn),通過加入額外的干擾詞來增加難度,目前包含759個謎題。這種測試考察的是模型對語言的細微理解、聯(lián)想能力和分類推理。

      在這個排行榜上,Gemini 3 Pro Preview以96.8%的準(zhǔn)確率位居第一。緊隨其后的是xAI的Grok 4.1 Fast Reasoning,準(zhǔn)確率為93.5%。OpenAI的模型中,表現(xiàn)最好的是GPT-5 Pro,準(zhǔn)確率為83.9%,排在第八位。GPT-5.2在高推理模式下的準(zhǔn)確率為77.9%,排名第11位。

      這個結(jié)果多少有些出人意料。GPT-5.2在數(shù)學(xué)競賽中能拿滿分,在專業(yè)工作任務(wù)中能超越人類專家,但在這個看似簡單的文字游戲上,卻落后于競爭對手近20個百分點。

      深入分析會發(fā)現(xiàn),這并不是簡單的性能問題。NYT Connections測試的是模型對語言文化背景的理解,對詞語之間隱含關(guān)聯(lián)的把握,以及在多個可能性中做出合理選擇的能力。

      比如BANK、INTEREST、RATE、LOAN可能組成金融類別,也可能BANK與SHORE、BEACH、COAST組成河岸類別。

      模型需要同時考慮多個維度的關(guān)聯(lián),并找到最合理的分組方式。

      Gemini 3 Pro在這個測試上的領(lǐng)先,說明谷歌在語言理解的某些維度上確實有獨到之處。Grok系列模型的表現(xiàn)也值得注意,xAI雖然起步較晚,但在特定任務(wù)上已經(jīng)展現(xiàn)出競爭力。

      有趣的是,測試數(shù)據(jù)還顯示,在最新的100個謎題中,各模型的排名基本保持一致,這說明訓(xùn)練數(shù)據(jù)污染的可能性不大。模型之間的差距是實質(zhì)性的,而非來自對題目的記憶。

      這個測試的存在,給AI社區(qū)提供了一個更全面的視角。模型能力的評估不應(yīng)該只看幾個主流基準(zhǔn)測試,也需要關(guān)注那些看似邊緣但實則反映深層能力的測試。

      NYT Connections考察的聯(lián)想和分類能力,在實際應(yīng)用中同樣重要,比如在信息檢索、內(nèi)容推薦、知識圖譜構(gòu)建等場景中。

      從這個角度看,奧特曼的Code Red警報確實還不能解除。雖然GPT-5.2在很多領(lǐng)域表現(xiàn)出色,但它并沒有在所有維度上都取得領(lǐng)先。競爭對手在某些方向上依然保持著優(yōu)勢,甚至在擴大差距。

      03

      技術(shù)競爭最終要落到商業(yè)層面。OpenAI在市場上的處境,比技術(shù)指標(biāo)的對比要復(fù)雜得多。

      從定價策略來看,GPT-5.2在API層面的價格定在每百萬輸入token 1.75美元,每百萬輸出token 14美元,比前代GPT-5.1分別貴了40%。

      GPT-5.2 Pro價格也提高了,每百萬輸入token 21美元,每百萬輸出token 168美元。



      這個漲價幅度不小,OpenAI的解釋是新模型能力更強,性價比實際上更高。但對于大量調(diào)用API的開發(fā)者來說,成本的增加是實實在在的。

      相較之下,Gemini 3 Pro的核心型號為gemini-3-pro-preview,其token定價按上下文窗口長度區(qū)分,提示詞≤20 萬 token 時,輸入每百萬token 2美元、輸出每百萬token 12美元,提示詞>20萬token時,輸入和輸出價格分別翻倍至每百萬token 4美元和18美元。

      Claude 方面,最新的 Opus 4.5定價大幅下調(diào),輸入每百萬token 5美元、輸出每百萬token 25美元,相比前代降幅約2/3,上下文窗口為200K token,且無長上下文加價情況。

      當(dāng)競爭對手們?nèi)鏕emini和Claude都在通過大幅降價,試圖讓AI變成像水電一樣廉價的基礎(chǔ)設(shè)施時,OpenAI 卻反其道而行之,不僅沒有參與價格戰(zhàn),反而坦然地掛出了高昂的價格標(biāo)簽。這只能說明一件事:奧特曼正在試圖把 GPT 變成一件“奢侈品”。

      在商業(yè)邏輯中,奢侈品的定義往往不在于“有用”,而在于“稀缺”和“極致”。OpenAI 正在賭,賭這個世界上存在一部分最高端的智力需求,它們對價格不敏感,但對質(zhì)量有著近乎偏執(zhí)的要求。

      對于這部分用戶,只要能提供那個唯一的、最正確的答案,168美元的價格不僅不貴,反而是一種身份和能力的篩選。

      這或許才是“紅色警報”在商業(yè)層面的真正回響。它不再是擔(dān)心落后,而是擔(dān)心平庸。

      OpenAI正在進行一場危險的博弈:它試圖通過高價策略,將自己與“普通 AI”徹底區(qū)隔開來,建立起類似愛馬仕或蘋果那樣的品牌護城河。

      但這也意味著,它從此失去了“差不多就行”的容錯空間。可問題就在于一旦這件昂貴的“奢侈品”在實際體驗中無法提供碾壓式的優(yōu)越感,那么用戶轉(zhuǎn)身離開的速度。

      況且,能挽救OpenAI的遠不止一個高性能的模型那么簡單,奧特曼現(xiàn)在需要的,是一個足夠動人的新故事。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      大陸公安局正式向全球通告:懸賞25萬元追捕兩名臺灣籍犯罪嫌疑人

      大陸公安局正式向全球通告:懸賞25萬元追捕兩名臺灣籍犯罪嫌疑人

      科技處長
      2025-12-24 14:51:42
      為何古代女死刑犯斬首前要剝光衣褲?劊子手道出其中隱情!

      為何古代女死刑犯斬首前要剝光衣褲?劊子手道出其中隱情!

      老踝是個手藝人
      2025-12-25 16:08:31
      聶磊栽在一個女人手上,聶磊被抓,為什么大領(lǐng)導(dǎo)出面都不好使?

      聶磊栽在一個女人手上,聶磊被抓,為什么大領(lǐng)導(dǎo)出面都不好使?

      千年人參它會跑
      2024-11-18 21:18:41
      順德魚生是淡水生魚片,不擔(dān)心寄生蟲嗎?網(wǎng)友:大數(shù)據(jù)不會騙人!

      順德魚生是淡水生魚片,不擔(dān)心寄生蟲嗎?網(wǎng)友:大數(shù)據(jù)不會騙人!

      夜深愛雜談
      2025-12-23 17:35:17
      直接起飛!中國男籃決戰(zhàn)日本隊,收兩大喜訊,郭士強要打爆小日子

      直接起飛!中國男籃決戰(zhàn)日本隊,收兩大喜訊,郭士強要打爆小日子

      宗介說體育
      2025-12-25 15:51:59
      快手瘋了?大量直播間直播淫穢視頻,還有女主播“袒胸露乳”吸粉無數(shù)

      快手瘋了?大量直播間直播淫穢視頻,還有女主播“袒胸露乳”吸粉無數(shù)

      三言科技
      2025-12-23 00:24:15
      【國際3分鐘】高市早苗勿闖紅線!若參拜靖國神社,就是與歷史正義為敵

      【國際3分鐘】高市早苗勿闖紅線!若參拜靖國神社,就是與歷史正義為敵

      環(huán)球網(wǎng)資訊
      2025-12-25 17:15:59
      咸魚還是太全面了,怪不得人稱國內(nèi)黑市

      咸魚還是太全面了,怪不得人稱國內(nèi)黑市

      另子維愛讀史
      2025-12-20 17:07:20
      本田最便宜小踏板Today,能掛藍牌速度比電動車快,售價5980元!

      本田最便宜小踏板Today,能掛藍牌速度比電動車快,售價5980元!

      騎士分享
      2025-12-25 10:30:03
      中國的鄭大世?18歲日本J聯(lián)賽后衛(wèi)選擇中國籍:國足可征召!

      中國的鄭大世?18歲日本J聯(lián)賽后衛(wèi)選擇中國籍:國足可征召!

      邱澤云
      2025-12-25 16:19:54
      鄭州中原保時捷中心人去樓空,貴州也有保時捷4S店被曝經(jīng)營異常,均為同一家控股股東

      鄭州中原保時捷中心人去樓空,貴州也有保時捷4S店被曝經(jīng)營異常,均為同一家控股股東

      澎湃新聞
      2025-12-25 18:58:26
      山姆爆火的400克女款羽絨服,打了多少商家的臉?

      山姆爆火的400克女款羽絨服,打了多少商家的臉?

      娛樂資本論
      2025-12-22 11:53:59
      全球首富榜揭曉:美首富造火箭,俄首富搞天然氣,中國首富在干啥

      全球首富榜揭曉:美首富造火箭,俄首富搞天然氣,中國首富在干啥

      策略述
      2025-12-19 12:39:06
      失業(yè)的人越來越多了

      失業(yè)的人越來越多了

      曹多魚的財經(jīng)世界
      2025-12-24 14:56:20
      中國股市:唯一不騙人的指標(biāo)“換手率”,大于10%說明可以入場!

      中國股市:唯一不騙人的指標(biāo)“換手率”,大于10%說明可以入場!

      股經(jīng)縱橫談
      2025-12-24 17:54:29
      055遇勁敵!全能艦橫空出世,未來海戰(zhàn)要變天!

      055遇勁敵!全能艦橫空出世,未來海戰(zhàn)要變天!

      Ck的蜜糖
      2025-12-24 12:35:23
      意外收獲!南博事件拔出蘿卜帶出泥!

      意外收獲!南博事件拔出蘿卜帶出泥!

      大道微言
      2025-12-23 19:29:03
      金價這么高,還能追漲嗎?世界黃金協(xié)會:43%央行表示明年接著買

      金價這么高,還能追漲嗎?世界黃金協(xié)會:43%央行表示明年接著買

      時代周報
      2025-12-25 17:44:08
      地主傻兒子往井里扔金條,土匪洗劫一空,他指著井底:這是后路

      地主傻兒子往井里扔金條,土匪洗劫一空,他指著井底:這是后路

      牛魔王與芭蕉扇
      2025-12-22 16:51:33
      賈國龍首次回應(yīng)西貝預(yù)制菜風(fēng)波:如果能重來,不和羅永浩硬剛

      賈國龍首次回應(yīng)西貝預(yù)制菜風(fēng)波:如果能重來,不和羅永浩硬剛

      PChome電腦之家
      2025-12-25 14:20:27
      2025-12-25 22:28:49
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2133文章數(shù) 8032關(guān)注度
      往期回顧 全部

      科技要聞

      小米17Ultra發(fā)布,徠卡2億像素 ,6999元起

      頭條要聞

      韓國"最毒"財閥千金被捕 韓國人稱"經(jīng)過她身邊就會死"

      頭條要聞

      韓國"最毒"財閥千金被捕 韓國人稱"經(jīng)過她身邊就會死"

      體育要聞

      單賽季11冠,羽壇“安洗瑩時代”真的來了

      娛樂要聞

      朱孝天把阿信好意當(dāng)球踢!

      財經(jīng)要聞

      時隔15月,人民幣升破7,三大推手曝光

      汽車要聞

      速來!智界在上海西岸準(zhǔn)備了年末潮流盛典

      態(tài)度原創(chuàng)

      藝術(shù)
      數(shù)碼
      健康
      本地
      公開課

      藝術(shù)要聞

      緬懷 | 著名油畫家宮立龍逝世,享年73歲

      數(shù)碼要聞

      小米Buds 6耳機發(fā)布 支持智能錄音翻譯功能 售價699元

      這些新療法,讓化療不再那么痛苦

      本地新聞

      這輩子要積多少德,下輩子才能投胎到德國當(dāng)狗

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 看亚洲黄色不在线网占| 久操国产| 亚洲国产成人无码av在线影院| 久久精品无码专区免费东京热 | 最新亚洲人成网站在线观看| 99er热精品视频| 蜜桃av无码免费看永久| 国产9区| 亚洲成人国产精品| 99精品国产一区二区三区2021| 日韩欧美亚洲国产精品字幕久久久| 亚洲第一国产综合| 蜜桃视频在线免费观看一区二区 | 国产喷水1区2区3区咪咪爱AV| 亚洲中文视频| 亚洲国产精选| 少妇人妻真实偷人精品视频| 国内不卡的一区二区三区| 韩国三级网址| 延津县| 亚洲成色www久久网站| 亚洲日韩中文第一精品| 亚洲熟妇自偷自拍另欧美| 桃花岛av| 人妻人人澡人人添人人爽国产一区| 日本肥老妇色xxxxx日本老妇| 五月天激情婷婷婷久久| 亚洲av午夜福利精品一区二区| 亚洲成年网站| 一本色道久久88亚洲精品综合| 男人靠女人免费视频网站| 人人妻人人狠人人爽| 另类一区| 国内露脸少妇精品视频| 亚洲xxxx做受欧美| 国产无码中文| 尚志市| 一区二区三区无码视频免费福利 | 石门县| 偷拍激情视频一区二区三区| 免费av网站|