<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.2考贏人類!OpenAI警告:大模型能力已過剩,AGI天花板不是AI

      0
      分享至


      新智元報道

      編輯:元宇

      【新智元導讀】如同智能手機一樣,大模型也進入了一個「能力過剩」時代,即大模型本身的能力與人類使用方式之間存在著巨大斷層。

      剛剛,GPT-5.2刷新了一項新紀錄!


      OpenAI聯合創始人Greg Brockman發帖稱使用GPT-5.2在ARC-AGI-2基準測試上,表現超過了人類基線水平。

      在基準測試時技能爆表,但一到實際應用就「掉鏈子」,OpenAI前首席科學家Ilya Sutskever提到的這種大模型「性能悖論」我們并不陌生。

      這也是AGI評估領域一個長期存在的難題——如何區分大模型「真正的推理能力」與「刷題型能力」。

      而ARC-AGI-2的出現正好打破了這一難題。

      ARC-AGI-2的全稱為「Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2」,是ARC系列基準的最新升級版本。

      該基準由Fran?ois Chollet(Keras之父、前Google Brain研究員)及其團隊在2025年推出,其設計初衷十分明確:

      測試AI是否具備AGI所必需的抽象、歸納與遷移推理能力,而非記憶或統計模式匹配。

      ARC系列與傳統NLP或多模態benchmark最大的不同在于:它沒有大規模訓練集,每道題目都是從未見過的新任務,因此不存在通過「刷數據」獲得高分的可能。

      它要求AI像人類一樣具備真正的推理和舉一反三的能力。

      Chollet曾多次公開表示,如果一個系統只能在見過的數據分布上表現良好,那它并不具備AGI所需的能力。

      因此,ARC基準測試剛好直擊大模型的「軟肋」。

      從「及格」到「優等生」

      一次關鍵跨越


      新紀錄的刷新者,并非單一模型,而是一個名為Poetiq(GPT-5.2X-High)的系統。

      Poetiq是一家專注于元系統(Meta-System)架構的AI公司。

      其核心理念并不是訓練一個更大的模型,而是通過軟件層面的系統設計,自動構建「會調用模型的系統」。

      Poetiq(GPT-5.2X-High)在ARC-AGI-2數據集上實現了75%準確率,每問題成本不到8美元,超越前SOTA 15個百分點。

      在Poetiq(GPT-5.2X-High)系統出現之前,GPT-5.2(X-High)已經非常接近人類平均水平。

      ARC-AGI-2榜單中,人類平均準確率約為60%,GPT-5.2X-High的成績與之幾乎持平,代表了當時AI在該基準上的最強推理能力。

      但Poetiq的加入,使GPT-5.2(X-High)的得分從60%直接拉升到了75%,從勉強及格(人類平均水平)邁入了優等生的行列(顯著超越人類平均水平)。

      在同一榜單上,還能看到Gemini 3 Deep Think(Preview)的身影。

      該模型主打「深度思考(Deep Think)」技術,在ARC-AGI-2上的成績約為46%,明顯落后于GPT-5.2系列,并且成本相對后者也略高。


      Poetiq表示,整個過程沒有對GPT-5.2進行任何訓練或者特定優化。

      這正是Poetiq元系統的初衷,旨在自動構建完整的系統,通過調用任何現有的前沿模型來解決特定任務。


      從15%的提升數據來看,Poetiq對于基礎模型性能的提升幅度還是非常明顯的。

      它的存在證明了不需要堆算力,通過優秀的軟件架構也能大幅提升AI性能。

      從這個角度上,它也驗證了接下來OpenAI的一個判斷——

      當前大模型,正逐漸進入「能力過剩」階段。

      大模型「能力過剩」時代


      就在同一天,OpenAI官方也在X平臺發布了一項關于2026年的預測。

      在這條推文中,OpenAI明確提到一個關鍵詞:Capability Overhang(能力過剩)。

      核心意思是:

      當前模型「能夠做到的事情」,與人們「實際使用AI的方式」(產生效果)之間,存在巨大的斷層。

      OpenAI認為,未來AGI的進展將不再僅取決于模型本身的突破,還將取決于:

      • 人們是否知道如何有效使用AI

      • AI是否真正融入現實工作與生活

      • 系統是否能將模型能力轉化為實際價值

      因此,在2026年,OpenAI將繼續前沿研究,同時重點投入于應用層、系統層、人機協同,尤其強調醫療、商業和日常生活場景。

      人機協同

      AGI的另一半拼圖

      OpenAI這篇官方推文涉及一個人機協同的問題。

      實現AGI,是需要模型和人協同發揮作用:AGI不只靠模型升級,更要「教人用AI」。

      通過正確的使用AI,充分發揮出AI的潛能,這樣才能讓AI開始從「炫技」轉向「普惠」,真正影響億萬人生活。

      這一觀點也得到了社區的強烈回應。

      于是,樂觀的網友稱「直接把我整個人自動化吧」!


      也有網友提到,真正的挑戰在于如何將AI融入工作流程中:見過太多組織買了「AI」,卻從未改變任何一個流程。


      大模型真的「能力過剩」了嗎?

      那么,是不是真如OpenAI所說的,大模型的能力已經過剩了呢?

      通過上面Poetiq所公布的Poetiq(GPT-5.2X-High)在ARC-AGI-2上的表現,75%的得分超過了人類平均水平(60%)15個百分點。

      此前OpenAI官方在介紹GPT-5時強調其在解決復雜跨學科問題上達到了專家級基準,后被外界引申為「博士級智能」。

      這說明GPT-5等大模型在某些專業任務中表現類似于人類博士的專業水平。

      從模型本身來說,也許并未完全過剩,但從「未被充分釋放的能力」角度來看,已經嚴重過剩。

      其中,有模型設計者方的原因,比如他們沒有緊跟用戶的使用場景,「不再與用戶并肩同行了」。


      也可能由于前沿模型在推理和創新上缺乏根本性的突破。


      還有模型本身迭代得太快,用戶不得不在日常生活中不斷棄用已經「成功上手」的模型。


      Poetiq 的出現,以及OpenAI對「能力過剩」的判斷,共同指向了未來AI領域的一個新方向:

      下一階段的AI競爭,不再只是模型參數之爭,而是系統、流程與人機協同的競爭。

      參考資料:

      https://x.com/poetiq_ai/status/2003546910427361402

      https://x.com/OpenAI/status/2003594025098785145

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      11 次觸球 2 腳射門!阿森納王牌給阿爾特塔上了一課,鋒線該換了

      11 次觸球 2 腳射門!阿森納王牌給阿爾特塔上了一課,鋒線該換了

      瀾歸序
      2026-01-12 01:20:58
      隨著廣東新疆狂勝!廣廈險勝北京連敗!排名大洗盤,前3戰績相同

      隨著廣東新疆狂勝!廣廈險勝北京連敗!排名大洗盤,前3戰績相同

      老吳說體育
      2026-01-12 01:11:18
      不演了?莎頭缺席 多哈賽票房冷清,多個大V嘲諷王曼昱“嗓子梗”

      不演了?莎頭缺席 多哈賽票房冷清,多個大V嘲諷王曼昱“嗓子梗”

      丁丁鯉史紀
      2026-01-09 10:18:26
      海歸光環徹底消失?49.5萬留學生涌回國,殘酷真相:企業只認這個

      海歸光環徹底消失?49.5萬留學生涌回國,殘酷真相:企業只認這個

      南權先生
      2025-12-23 16:16:33
      痛心!陜西15歲“巨嬰”孫寶去世,媽媽背著爬華山,網友:解脫了

      痛心!陜西15歲“巨嬰”孫寶去世,媽媽背著爬華山,網友:解脫了

      靜若梨花
      2026-01-07 17:00:46
      閆學晶多平臺賬號被禁止關注,掉粉20多萬,多個小號已設置為私密,此前“哭窮”言論引爭議,抖音客服回應

      閆學晶多平臺賬號被禁止關注,掉粉20多萬,多個小號已設置為私密,此前“哭窮”言論引爭議,抖音客服回應

      極目新聞
      2026-01-10 09:52:23
      上熱搜!李晨官宣結婚,夫妻合照曝光,全網恭喜,終于等到這一天

      上熱搜!李晨官宣結婚,夫妻合照曝光,全網恭喜,終于等到這一天

      可樂談情感
      2026-01-12 01:16:37
      領導突然問你“要不要考慮去別的崗位”,千萬不要說“我考慮下”,高情商這么回,反客為主!

      領導突然問你“要不要考慮去別的崗位”,千萬不要說“我考慮下”,高情商這么回,反客為主!

      二胡的歲月如歌
      2026-01-03 18:02:12
      鄭麗文出招讓全場懵?蔡正元入獄、藍營壓力山大,柯文哲也成變數

      鄭麗文出招讓全場懵?蔡正元入獄、藍營壓力山大,柯文哲也成變數

      蘭妮搞笑分享
      2026-01-12 03:50:31
      突然!美國,發動大規模襲擊!

      突然!美國,發動大規模襲擊!

      數據寶
      2026-01-11 18:24:31
      多哈冠軍賽!林詩棟止步半決賽!球迷擔心王皓!聽聽媒體怎么評價

      多哈冠軍賽!林詩棟止步半決賽!球迷擔心王皓!聽聽媒體怎么評價

      稗官青史
      2026-01-11 20:17:04
      日媒沮喪發聲:張本智和爆冷出局止步四強 日乒選手竟無一入決賽

      日媒沮喪發聲:張本智和爆冷出局止步四強 日乒選手竟無一入決賽

      顏小白的籃球夢
      2026-01-11 22:07:00
      阿爾特塔必須下狠手!阿森納新星 61 次觸球災難級表現,球迷怒了

      阿爾特塔必須下狠手!阿森納新星 61 次觸球災難級表現,球迷怒了

      瀾歸序
      2026-01-12 01:13:52
      最高9.8分,美劇史上的入門級Top.10,建議收藏

      最高9.8分,美劇史上的入門級Top.10,建議收藏

      來看美劇
      2026-01-04 20:33:49
      60歲阿姨再嫁34歲小伙,阿姨:晚上太折騰,小伙:這是妻子的責任

      60歲阿姨再嫁34歲小伙,阿姨:晚上太折騰,小伙:這是妻子的責任

      烙任情感
      2026-01-10 21:10:24
      《小城大事》質量翻車,趙麗穎和黃曉明,在塑造角色中迷失

      《小城大事》質量翻車,趙麗穎和黃曉明,在塑造角色中迷失

      光影新天地
      2026-01-11 21:51:17
      核查結果公布!002969、603778,明起復牌!

      核查結果公布!002969、603778,明起復牌!

      大眾證券報
      2026-01-11 20:04:52
      狂飆2000%!美國嚴防死守的技術,中國小廠硬核突圍沖進全球前三

      狂飆2000%!美國嚴防死守的技術,中國小廠硬核突圍沖進全球前三

      科普100克克
      2025-12-20 16:07:32
      A股市場全線拉升,滬指再漲37點創新高,日k線十六連陽創紀錄

      A股市場全線拉升,滬指再漲37點創新高,日k線十六連陽創紀錄

      投資觀
      2026-01-11 17:20:03
      夏奇拉翻牌梓渝!內娛小生逆襲驚動國際天后

      夏奇拉翻牌梓渝!內娛小生逆襲驚動國際天后

      不甜的李子
      2026-01-11 10:00:17
      2026-01-12 05:08:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14313文章數 66452關注度
      往期回顧 全部

      科技要聞

      “我們與美國的差距也許還在拉大”

      頭條要聞

      美軍突襲委內瑞拉俄制防空系統失聯 俄方回應

      頭條要聞

      美軍突襲委內瑞拉俄制防空系統失聯 俄方回應

      體育要聞

      U23國足形勢:末輪不負泰國即確保晉級

      娛樂要聞

      留幾手為閆學晶叫屈?稱網友自卑敏感

      財經要聞

      外賣平臺"燒錢搶存量市場"迎來終局?

      汽車要聞

      2026款宋Pro DM-i長續航補貼后9.98萬起

      態度原創

      手機
      時尚
      親子
      健康
      軍事航空

      手機要聞

      曝三星Galaxy S26 Ultra支持?eSIM,新機下月見

      當一個57歲的女人,決定從零開始

      親子要聞

      最近的孩子怎么都長得這么著急?你不說,誰知道他還是個寶寶?

      這些新療法,讓化療不再那么痛苦

      軍事要聞

      俄大使:馬杜羅夫婦被控制時身邊沒人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品久久精品| AV色综合| 久久精品国产亚洲AⅤ无码| 67194熟妇在线观看线路1| 国产一线视频在线观看高清| 亚洲日本国产| 成熟丰满熟妇高潮xxxxx视频| 999国产精品| 人妖毛片| 四虎影视一区二区精品| 成人免费ā片在线观看| 久久久久久免费一区二区三区 | 免费乱理伦片在线观看| 中文字幕欧洲有码无码| 色婷婷一区二区三区四区成人网| 固安县| 久久久久久毛片免费播放| 欧美性交无码| 中文字幕无码av激情不卡| 亚洲中字幕| 日韩高清日韩一区二区三区四区| 精品国产乱码久久久久夜深人妻| 成人片99久久精品国产桃花岛| 国产一区二区三区不卡在线观看| 亚洲欧洲av一区二区| 午夜成人无码福利免费视频| AV色综合| 精品国产日韩亚洲一区| 色婷婷Av| 国产精品久久久久久久久久久久| 亚洲国产熟女第一页| 456中文字幕| 97人妻精品一区二区三区免费| 亚洲毛片不卡av在线播放一区| 精品黄色av一区二区三区| 国内精品一区二区三区最新| 又色又爽又黄的视频网站| 亚洲制服无码一区二区三区| 秋霞无码一区二区| 璧山县| 偷拍激情视频一区二区三区|