![]()
圖片由AI生成
“我從未像現在這樣對我們的研發和產品路線圖,以及實現我們使命的整體方向感到如此樂觀。”
12月12日,在正式上線GPT-5.2的同時,OpenAI CEO薩姆·奧爾特曼(Sam Altman)發布了一篇十周年紀念文章中這樣說。
他極力向外界展現著自己依舊自信的一面。畢竟,雖然GPT大模型和ChatGPT聊天機器人至今仍是當前AI大潮的造浪者,但想必此刻,奧爾特曼感受到的競爭壓力堪稱空前。
今年以來,DeepSeek、Grok、Claude等競爭者的強勢追趕,尤其是谷歌上個月推出的Gemini 3大放異彩,都將AI大模型競爭推上了更新的高度。
最近,奧爾特曼先是在內部備忘錄中提示員工,需要接受最好的大模型不出自家之手的事實,繼而,又發出公司首個“紅色警報”,強調“立即行動,集中所有資源奪回領先地位”。
![]()
截圖來自社交平臺X
只有更強大的產品,才能支撐自信的底氣。
在十周年紀念日這天,OpenAI重磅發布預熱了一周多的GPT-5.2,評測表現再次反超所有競爭對手。
但谷歌不甘示弱,幾乎在同一時間發布了新品,讓這場大模型之爭的戰況再次升級。
GPT-5.2獲評“最強AI打工人”,但“工資”很高
GPT-5.2此次仍然“全線出擊”,一次性發布了Instant、Thinking和Pro三款不同層級的模型。
近一個月前Gemini 3發布時,其評測得分幾乎“碾壓”GPT-5的表現引發市場巨大關注。
而這次,根據OpenAI發布的基準測試結果,GPT-5.2實現了全面反超,其Thinking模型基準測試得分均高于Gemini 3 PRO和Anthropic的Claude Opus 4.5。
其中,GPT-5.2在博士級別的專家推理評估GPQA Diamond得分高達92.4%,相比GPT-5.1 Thinking的88.1%和Gemini 3 PRO剛剛刷出的91.9%高分再進一步。在不用工具的情況下,GPT-5.2在最新美國數學邀請賽(AIME2025)中拿到了滿分。
OpenAI尤其強調了GPT-5.2在專業工作方面的領先地位,稱其Thinking模型是“目前最能夠勝任現實中各類專業用途的模型”。
在用于評估專業型技能的GDPval測試中,該模型得到了70.9%的高分,比GPT-5.1 Thinking高了足足32.1%,領先Gemini 3 PRO有17.4%。此外,對比尤其擅長編程等企業工作,此前在該評估中更勝一籌的Claude Opus 4.5,OpenAI的新品也高出了11.3%。
![]()
圖片來自OpenAI
OpenAI給出的案例演示中,GPT-5.2聚焦了制作表格、整理分析數據、制作項目流程圖等十分落地的現實工作場景。
公司還表示,新模型在編寫代碼、制作PPT、圖像感知、理解長上下文、使用工具、處理復雜的多步驟項目方面都表現出色,而且錯誤率較前代產品大大減少。
模型發布后,GPT-5.2在實際工作場景中的表現也確實獲得了不少贊許,一些使用者給予了其“最強AI打工人”“職場最佳拍檔”等稱號。
不過,這個“打工人”的“高工資”可能會成為問題。
數據顯示,在輸入輸出價格方面,GPT-5.2要比前代貴了40%,輸入價格21美元,輸出價格高達168美元。
這再次引發了一些擔憂,此前,OpenAI堆算力發展大模型的做法已經受到質疑,無論是DeepSeek還是Gemini,似乎都證明著AI應用可以采取更具性價比的模式。
如果再考慮市場對以OpenAI和英偉達等引領的資本支出狂潮,以及市場對泡沫焦慮的警惕,GPT-5.2是靠算力“硬懟”實現的反擊,那這顯然對奧爾特曼來說,也是個隱憂。
可以看到的是,一些用戶在吐槽Thinking和PRO的應答時間明顯較慢,比其前代產品還要慢。而對于逐漸嵌入日常生活、工作的AI產品來說,機會成本和效率顯然已愈發重要。
普通即時版GPT-5.2仍然在一些常識問題上犯錯,也引發了一些用戶玩梗吐槽。
當然,OpenAI的動作還沒有結束。奧爾特曼表示,下周,會繼續給用戶帶來“小圣誕禮物”,ChatGPT的“成人模式”也預計將于明年一季度面世。
谷歌給OpenAI扔了個炸彈,提前1小時搶發Gemini Deep Research
OpenAI的勁敵們,早已準備好子彈,回擊這次GPT的重要更新。
谷歌搶在GPT-5.2前一個小時左右進行了產品更新,稱其深度研究智能體Gemini Deep Research全面增強,并首次向開發者開放,再次引發了關注,試圖不讓OpenAI獨占“頭條”。
據谷歌介紹,Gemini Deep Research基于Gemini 3 PRO構建,通過多步強化學習訓練,顯著減少“幻覺”,在復雜研究任務中表現出更高精度。
在人類終極大考(HLE)中,Gemini Deep Research得到46.4%分,比GPT-5.2 Thinking的45.5%要高,僅低于GPT-5 Pro的50%。
![]()
圖片來自谷歌
但是,其更大的優勢在成本極低,谷歌產品經理透露,新版智能體在與GPT-5 Pro表現相當的同時,成本僅為后者的十分之一左右,展現出強大的性價比優勢。
相對于OpenAI,更好的性價比、另辟蹊徑的訓練模式、公司的現金流、自研專用芯片等,都是谷歌“逆襲”敘事的核心。
如今,在大模型比拼性能的同時,谷歌的核心優勢仍在繼續,這也持續為OpenAI帶來壓力。
此外,為科學評估研究型智能體的能力,谷歌還同步開源了基準測試工具DeepSearchQA,包含覆蓋17個領域的900項復雜任務。
當然,GPT-5.2未必是奧爾特曼捍衛大模型王座的殺手锏。
此前有消息稱,OpenAI在加速開發自身全新的模型“Garlic”,致力于通過新的方式重建絕對領先的優勢。谷歌、Anthropic顯然還會繼續拿出更好的產品。而Meta和DeepSeek等競爭者也同樣有著令人期待的新品可能面世。
大模型浪潮的另一大贏家英偉達,最近與美銀舉辦了一次投資者線上交流會。英偉達方面提到,只依據Gemini 3的表現比GPT5更優,就認為谷歌自研的TPU要好于英偉達的GPU是不合理的。
尤其目前大部分的大模型都是用上一代H系列芯片訓練的,用Blackwell訓練的大模型要到2026年才會上線,其優勢到時才會顯現,更不用說還未投入使用的新一代超級芯片Rubin。
市場對英偉達的說法看法不一,有觀點認為模型強大與否與芯片代際不直接掛鉤,也有觀點認為更關鍵的還是性價比問題。不過,不管怎樣,英偉達的說法已讓明年的大模型之爭看起來更值得期待了。
2025年年末之際,AI大模型之戰和AI芯片之戰的戰局,都變得更加刺激,2026年,想必戰況還會繼續升級。這場戰事不僅是大模型能力之爭,更是關系到大模型的訓練、發展路徑,以及AI芯片的未來之戰。(作者|胡珈萌,編輯|李程程)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.