![]()
新智元報道
編輯:元宇
【新智元導讀】如同智能手機一樣,大模型也進入了一個「能力過剩」時代,即大模型本身的能力與人類使用方式之間存在著巨大斷層。
剛剛,GPT-5.2刷新了一項新紀錄!
![]()
OpenAI聯合創始人Greg Brockman發帖稱使用GPT-5.2在ARC-AGI-2基準測試上,表現超過了人類基線水平。
在基準測試時技能爆表,但一到實際應用就「掉鏈子」,OpenAI前首席科學家Ilya Sutskever提到的這種大模型「性能悖論」我們并不陌生。
這也是AGI評估領域一個長期存在的難題——如何區分大模型「真正的推理能力」與「刷題型能力」。
而ARC-AGI-2的出現正好打破了這一難題。
ARC-AGI-2的全稱為「Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2」,是ARC系列基準的最新升級版本。
該基準由Fran?ois Chollet(Keras之父、前Google Brain研究員)及其團隊在2025年推出,其設計初衷十分明確:
測試AI是否具備AGI所必需的抽象、歸納與遷移推理能力,而非記憶或統計模式匹配。
ARC系列與傳統NLP或多模態benchmark最大的不同在于:它沒有大規模訓練集,每道題目都是從未見過的新任務,因此不存在通過「刷數據」獲得高分的可能。
它要求AI像人類一樣具備真正的推理和舉一反三的能力。
Chollet曾多次公開表示,如果一個系統只能在見過的數據分布上表現良好,那它并不具備AGI所需的能力。
因此,ARC基準測試剛好直擊大模型的「軟肋」。
從「及格」到「優等生」
一次關鍵跨越
![]()
新紀錄的刷新者,并非單一模型,而是一個名為Poetiq(GPT-5.2X-High)的系統。
Poetiq是一家專注于元系統(Meta-System)架構的AI公司。
其核心理念并不是訓練一個更大的模型,而是通過軟件層面的系統設計,自動構建「會調用模型的系統」。
Poetiq(GPT-5.2X-High)在ARC-AGI-2數據集上實現了75%準確率,每問題成本不到8美元,超越前SOTA 15個百分點。
在Poetiq(GPT-5.2X-High)系統出現之前,GPT-5.2(X-High)已經非常接近人類平均水平。
ARC-AGI-2榜單中,人類平均準確率約為60%,GPT-5.2X-High的成績與之幾乎持平,代表了當時AI在該基準上的最強推理能力。
但Poetiq的加入,使GPT-5.2(X-High)的得分從60%直接拉升到了75%,從勉強及格(人類平均水平)邁入了優等生的行列(顯著超越人類平均水平)。
在同一榜單上,還能看到Gemini 3 Deep Think(Preview)的身影。
該模型主打「深度思考(Deep Think)」技術,在ARC-AGI-2上的成績約為46%,明顯落后于GPT-5.2系列,并且成本相對后者也略高。
![]()
Poetiq表示,整個過程沒有對GPT-5.2進行任何訓練或者特定優化。
這正是Poetiq元系統的初衷,旨在自動構建完整的系統,通過調用任何現有的前沿模型來解決特定任務。
![]()
從15%的提升數據來看,Poetiq對于基礎模型性能的提升幅度還是非常明顯的。
它的存在證明了不需要堆算力,通過優秀的軟件架構也能大幅提升AI性能。
從這個角度上,它也驗證了接下來OpenAI的一個判斷——
當前大模型,正逐漸進入「能力過剩」階段。
大模型「能力過剩」時代
![]()
就在同一天,OpenAI官方也在X平臺發布了一項關于2026年的預測。
在這條推文中,OpenAI明確提到一個關鍵詞:Capability Overhang(能力過剩)。
核心意思是:
當前模型「能夠做到的事情」,與人們「實際使用AI的方式」(產生效果)之間,存在巨大的斷層。
OpenAI認為,未來AGI的進展將不再僅取決于模型本身的突破,還將取決于:
人們是否知道如何有效使用AI
AI是否真正融入現實工作與生活
系統是否能將模型能力轉化為實際價值
因此,在2026年,OpenAI將繼續前沿研究,同時重點投入于應用層、系統層、人機協同,尤其強調醫療、商業和日常生活場景。
人機協同
AGI的另一半拼圖
OpenAI這篇官方推文涉及一個人機協同的問題。
實現AGI,是需要模型和人協同發揮作用:AGI不只靠模型升級,更要「教人用AI」。
通過正確的使用AI,充分發揮出AI的潛能,這樣才能讓AI開始從「炫技」轉向「普惠」,真正影響億萬人生活。
這一觀點也得到了社區的強烈回應。
于是,樂觀的網友稱「直接把我整個人自動化吧」!
![]()
也有網友提到,真正的挑戰在于如何將AI融入工作流程中:見過太多組織買了「AI」,卻從未改變任何一個流程。
![]()
大模型真的「能力過剩」了嗎?
那么,是不是真如OpenAI所說的,大模型的能力已經過剩了呢?
通過上面Poetiq所公布的Poetiq(GPT-5.2X-High)在ARC-AGI-2上的表現,75%的得分超過了人類平均水平(60%)15個百分點。
此前OpenAI官方在介紹GPT-5時強調其在解決復雜跨學科問題上達到了專家級基準,后被外界引申為「博士級智能」。
這說明GPT-5等大模型在某些專業任務中表現類似于人類博士的專業水平。
從模型本身來說,也許并未完全過剩,但從「未被充分釋放的能力」角度來看,已經嚴重過剩。
其中,有模型設計者方的原因,比如他們沒有緊跟用戶的使用場景,「不再與用戶并肩同行了」。
![]()
也可能由于前沿模型在推理和創新上缺乏根本性的突破。
![]()
還有模型本身迭代得太快,用戶不得不在日常生活中不斷棄用已經「成功上手」的模型。
![]()
Poetiq 的出現,以及OpenAI對「能力過剩」的判斷,共同指向了未來AI領域的一個新方向:
下一階段的AI競爭,不再只是模型參數之爭,而是系統、流程與人機協同的競爭。
參考資料:
https://x.com/poetiq_ai/status/2003546910427361402
https://x.com/OpenAI/status/2003594025098785145
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.