<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.2考贏人類!OpenAI警告:大模型能力已過剩,AGI天花板不是AI

      0
      分享至


      新智元報道

      編輯:元宇

      【新智元導讀】如同智能手機一樣,大模型也進入了一個「能力過剩」時代,即大模型本身的能力與人類使用方式之間存在著巨大斷層。

      剛剛,GPT-5.2刷新了一項新紀錄!


      OpenAI聯合創始人Greg Brockman發帖稱使用GPT-5.2在ARC-AGI-2基準測試上,表現超過了人類基線水平。

      在基準測試時技能爆表,但一到實際應用就「掉鏈子」,OpenAI前首席科學家Ilya Sutskever提到的這種大模型「性能悖論」我們并不陌生。

      這也是AGI評估領域一個長期存在的難題——如何區分大模型「真正的推理能力」與「刷題型能力」。

      而ARC-AGI-2的出現正好打破了這一難題。

      ARC-AGI-2的全稱為「Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2」,是ARC系列基準的最新升級版本。

      該基準由Fran?ois Chollet(Keras之父、前Google Brain研究員)及其團隊在2025年推出,其設計初衷十分明確:

      測試AI是否具備AGI所必需的抽象、歸納與遷移推理能力,而非記憶或統計模式匹配。

      ARC系列與傳統NLP或多模態benchmark最大的不同在于:它沒有大規模訓練集,每道題目都是從未見過的新任務,因此不存在通過「刷數據」獲得高分的可能。

      它要求AI像人類一樣具備真正的推理和舉一反三的能力。

      Chollet曾多次公開表示,如果一個系統只能在見過的數據分布上表現良好,那它并不具備AGI所需的能力。

      因此,ARC基準測試剛好直擊大模型的「軟肋」。

      從「及格」到「優等生」

      一次關鍵跨越


      新紀錄的刷新者,并非單一模型,而是一個名為Poetiq(GPT-5.2X-High)的系統。

      Poetiq是一家專注于元系統(Meta-System)架構的AI公司。

      其核心理念并不是訓練一個更大的模型,而是通過軟件層面的系統設計,自動構建「會調用模型的系統」。

      Poetiq(GPT-5.2X-High)在ARC-AGI-2數據集上實現了75%準確率,每問題成本不到8美元,超越前SOTA 15個百分點。

      在Poetiq(GPT-5.2X-High)系統出現之前,GPT-5.2(X-High)已經非常接近人類平均水平。

      ARC-AGI-2榜單中,人類平均準確率約為60%,GPT-5.2X-High的成績與之幾乎持平,代表了當時AI在該基準上的最強推理能力。

      但Poetiq的加入,使GPT-5.2(X-High)的得分從60%直接拉升到了75%,從勉強及格(人類平均水平)邁入了優等生的行列(顯著超越人類平均水平)。

      在同一榜單上,還能看到Gemini 3 Deep Think(Preview)的身影。

      該模型主打「深度思考(Deep Think)」技術,在ARC-AGI-2上的成績約為46%,明顯落后于GPT-5.2系列,并且成本相對后者也略高。


      Poetiq表示,整個過程沒有對GPT-5.2進行任何訓練或者特定優化。

      這正是Poetiq元系統的初衷,旨在自動構建完整的系統,通過調用任何現有的前沿模型來解決特定任務。


      從15%的提升數據來看,Poetiq對于基礎模型性能的提升幅度還是非常明顯的。

      它的存在證明了不需要堆算力,通過優秀的軟件架構也能大幅提升AI性能。

      從這個角度上,它也驗證了接下來OpenAI的一個判斷——

      當前大模型,正逐漸進入「能力過剩」階段。

      大模型「能力過剩」時代


      就在同一天,OpenAI官方也在X平臺發布了一項關于2026年的預測。

      在這條推文中,OpenAI明確提到一個關鍵詞:Capability Overhang(能力過剩)。

      核心意思是:

      當前模型「能夠做到的事情」,與人們「實際使用AI的方式」(產生效果)之間,存在巨大的斷層。

      OpenAI認為,未來AGI的進展將不再僅取決于模型本身的突破,還將取決于:

      • 人們是否知道如何有效使用AI

      • AI是否真正融入現實工作與生活

      • 系統是否能將模型能力轉化為實際價值

      因此,在2026年,OpenAI將繼續前沿研究,同時重點投入于應用層、系統層、人機協同,尤其強調醫療、商業和日常生活場景。

      人機協同

      AGI的另一半拼圖

      OpenAI這篇官方推文涉及一個人機協同的問題。

      實現AGI,是需要模型和人協同發揮作用:AGI不只靠模型升級,更要「教人用AI」。

      通過正確的使用AI,充分發揮出AI的潛能,這樣才能讓AI開始從「炫技」轉向「普惠」,真正影響億萬人生活。

      這一觀點也得到了社區的強烈回應。

      于是,樂觀的網友稱「直接把我整個人自動化吧」!


      也有網友提到,真正的挑戰在于如何將AI融入工作流程中:見過太多組織買了「AI」,卻從未改變任何一個流程。


      大模型真的「能力過剩」了嗎?

      那么,是不是真如OpenAI所說的,大模型的能力已經過剩了呢?

      通過上面Poetiq所公布的Poetiq(GPT-5.2X-High)在ARC-AGI-2上的表現,75%的得分超過了人類平均水平(60%)15個百分點。

      此前OpenAI官方在介紹GPT-5時強調其在解決復雜跨學科問題上達到了專家級基準,后被外界引申為「博士級智能」。

      這說明GPT-5等大模型在某些專業任務中表現類似于人類博士的專業水平。

      從模型本身來說,也許并未完全過剩,但從「未被充分釋放的能力」角度來看,已經嚴重過剩。

      其中,有模型設計者方的原因,比如他們沒有緊跟用戶的使用場景,「不再與用戶并肩同行了」。


      也可能由于前沿模型在推理和創新上缺乏根本性的突破。


      還有模型本身迭代得太快,用戶不得不在日常生活中不斷棄用已經「成功上手」的模型。


      Poetiq 的出現,以及OpenAI對「能力過剩」的判斷,共同指向了未來AI領域的一個新方向:

      下一階段的AI競爭,不再只是模型參數之爭,而是系統、流程與人機協同的競爭。

      參考資料:

      https://x.com/poetiq_ai/status/2003546910427361402

      https://x.com/OpenAI/status/2003594025098785145

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      驚人的兩倍電力鴻溝,讓所有制裁成了笑話

      驚人的兩倍電力鴻溝,讓所有制裁成了笑話

      李榮茂
      2026-01-20 08:45:13
      日本版水滸傳公開最新宣傳照,將于2月15日正式開播

      日本版水滸傳公開最新宣傳照,將于2月15日正式開播

      隨波蕩漾的漂流瓶
      2026-01-21 22:28:29
      1斤315元!黑草莓成水果新“刺客”!有店鋪銷售超3000單,業內人士:黑草莓的糖度更高,基本都在15度以上

      1斤315元!黑草莓成水果新“刺客”!有店鋪銷售超3000單,業內人士:黑草莓的糖度更高,基本都在15度以上

      大象新聞
      2026-01-21 13:45:03
      國內媒體:向余望打進關鍵一球,其父親喝酒慶祝到早上

      國內媒體:向余望打進關鍵一球,其父親喝酒慶祝到早上

      懂球帝
      2026-01-21 16:30:14
      多只牛股業績出爐!002636,預計盈利增長超6倍!

      多只牛股業績出爐!002636,預計盈利增長超6倍!

      證券時報e公司
      2026-01-21 21:12:47
      被打服!越媒:中國U23不按常理出牌,越南隊本自信卻輸得慘痛

      被打服!越媒:中國U23不按常理出牌,越南隊本自信卻輸得慘痛

      足球大腕
      2026-01-21 10:33:39
      事做太絕了!徐帆回應離婚5個月近況曝光,體面被馮小剛徹底撕碎

      事做太絕了!徐帆回應離婚5個月近況曝光,體面被馮小剛徹底撕碎

      李橑在北漂
      2026-01-21 22:26:50
      80年前費孝通的《生育制度》神預言,如今被最新出生人口數據證實

      80年前費孝通的《生育制度》神預言,如今被最新出生人口數據證實

      齊天候
      2026-01-21 15:45:18
      聚焦|林肯的年終總結:品牌、產品、體驗三大標簽與穩步前行

      聚焦|林肯的年終總結:品牌、產品、體驗三大標簽與穩步前行

      桑之未
      2026-01-21 12:19:17
      滴滴 AI 叫車,用了幾天我發現這才是打車該有的樣子

      滴滴 AI 叫車,用了幾天我發現這才是打車該有的樣子

      愛范兒
      2026-01-20 12:09:40
      嫣然醫院房東身份遭深扒:疑是醫美機構老板,不賣樓或想重操舊業

      嫣然醫院房東身份遭深扒:疑是醫美機構老板,不賣樓或想重操舊業

      古希臘掌管月桂的神
      2026-01-21 15:21:20
      拳王鄒市明創業失敗后,妻子自曝家庭節儉開支:水費每月100元,兒子午飯39.5元

      拳王鄒市明創業失敗后,妻子自曝家庭節儉開支:水費每月100元,兒子午飯39.5元

      紅星新聞
      2026-01-21 17:10:09
      日本U23主帥:球員們經受住了考驗,用任何陣容出戰我們都能贏球

      日本U23主帥:球員們經受住了考驗,用任何陣容出戰我們都能贏球

      懂球帝
      2026-01-21 11:43:35
      非洲杯奪冠!總統宣布:球員12萬美元+1500平米土地 全國放假

      非洲杯奪冠!總統宣布:球員12萬美元+1500平米土地 全國放假

      葉青足球世界
      2026-01-21 20:17:50
      女子拍攝姑姑偷玉米被姑父棒殺!姑姑哀求出諒解書,女兒絕不原諒

      女子拍攝姑姑偷玉米被姑父棒殺!姑姑哀求出諒解書,女兒絕不原諒

      葉公子
      2026-01-21 18:50:53
      “回國禍害人了?”女留子畢業美圖被群嘲,網友:看過牢A就懂了

      “回國禍害人了?”女留子畢業美圖被群嘲,網友:看過牢A就懂了

      妍妍教育日記
      2026-01-20 19:09:20
      “女生遭4170元天價開鎖”事件:開鎖商戶屢查屢犯,被罰款9550元并吊銷營業執照

      “女生遭4170元天價開鎖”事件:開鎖商戶屢查屢犯,被罰款9550元并吊銷營業執照

      紅星新聞
      2026-01-21 18:02:27
      取消臨停,銀川一小區千余車位被“包銷”,車主回家擁堵6小時;住建部門介入

      取消臨停,銀川一小區千余車位被“包銷”,車主回家擁堵6小時;住建部門介入

      大風新聞
      2026-01-21 16:11:07
      新榮記張勇對暴風雨中的賈國龍伸出援手

      新榮記張勇對暴風雨中的賈國龍伸出援手

      界面新聞
      2026-01-21 19:40:41
      猛料!嫣然醫院房東拒1.6億愛心收購,卻死磕2600萬欠租?

      猛料!嫣然醫院房東拒1.6億愛心收購,卻死磕2600萬欠租?

      小徐講八卦
      2026-01-21 08:19:44
      2026-01-22 07:28:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14380文章數 66521關注度
      往期回顧 全部

      科技要聞

      給機器人做仿真訓練 這家創企年營收破億

      頭條要聞

      特朗普稱“美國擁有無人知曉的武器” 克宮回應

      頭條要聞

      特朗普稱“美國擁有無人知曉的武器” 克宮回應

      體育要聞

      只會防守反擊?不好意思,我們要踢決賽了

      娛樂要聞

      首位捐款的明星 苗圃現身嫣然醫院捐款

      財經要聞

      丹麥打響第一槍 歐洲用資本保衛格陵蘭島

      汽車要聞

      2026款上汽大眾朗逸正式上市 售價12.09萬起

      態度原創

      親子
      數碼
      藝術
      旅游
      教育

      親子要聞

      沒想到小伙子也能用英語跟我對話了。他的發音比我標準,最后還知道來一句“Good job” 楊雪呀

      數碼要聞

      追覓科技成為央視春晚智能科技生態戰略合作伙伴

      藝術要聞

      黃永玉精品欣賞

      旅游要聞

      天宮燈會明日啟幕

      教育要聞

      某高中電話旁邊墻上的兩個字,刺痛多少家長的心?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 97久久久人妻一区精品| 欧美中日韩免费观看网站| 一区色| 精品国产网站| 91视频污| 久久综合九色综合欧洲98| 亚洲国产日韩欧美一区二区三区 | 国产精品户外野外| 六月婷婷久香在线视频| 精品人体无码一区二区三区| 中文字幕久久六月色综合| 久久九九兔免费精品6| 亚洲av二区| 亚洲无码精品人妻| 天堂无码| 亚洲毛片不卡av在线播放一区| 天天看片视频免费观看| 国产成人精品免费视频大| 丝袜天堂| 大地资源免费视频观看| 国内国外精品影片无人区| 男人av无码天堂| 少妇人妻偷人精品视蜜桃| 乌审旗| 午夜天堂一区人妻| 九九天堂| 婷婷色香合缴缴情AV第三区| 99久久久国产精品消防器材| 中文有码亚洲制服av片| 人妻另类 专区 欧美 制服| 久久av老司机精品网站导航| 男女一边摸一边做爽爽| 国产一级AAAAA片免费| 人人干人人噪人人摸| 三级九九| 国产又色又爽又黄的免费软件| 国产在线拍揄自揄拍无码男男| 国产av剧情md精品麻豆| 亚洲AV电影网| 国产成人无码av在线影院| 久久免费少妇高潮久久精品99|