<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.2考贏人類!OpenAI警告:大模型能力已過剩,AGI天花板不是AI

      0
      分享至


      新智元報道

      編輯:元宇

      【新智元導讀】如同智能手機一樣,大模型也進入了一個「能力過剩」時代,即大模型本身的能力與人類使用方式之間存在著巨大斷層。

      剛剛,GPT-5.2刷新了一項新紀錄!


      OpenAI聯合創始人Greg Brockman發帖稱使用GPT-5.2在ARC-AGI-2基準測試上,表現超過了人類基線水平。

      在基準測試時技能爆表,但一到實際應用就「掉鏈子」,OpenAI前首席科學家Ilya Sutskever提到的這種大模型「性能悖論」我們并不陌生。

      這也是AGI評估領域一個長期存在的難題——如何區分大模型「真正的推理能力」與「刷題型能力」。

      而ARC-AGI-2的出現正好打破了這一難題。

      ARC-AGI-2的全稱為「Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2」,是ARC系列基準的最新升級版本。

      該基準由Fran?ois Chollet(Keras之父、前Google Brain研究員)及其團隊在2025年推出,其設計初衷十分明確:

      測試AI是否具備AGI所必需的抽象、歸納與遷移推理能力,而非記憶或統計模式匹配。

      ARC系列與傳統NLP或多模態benchmark最大的不同在于:它沒有大規模訓練集,每道題目都是從未見過的新任務,因此不存在通過「刷數據」獲得高分的可能。

      它要求AI像人類一樣具備真正的推理和舉一反三的能力。

      Chollet曾多次公開表示,如果一個系統只能在見過的數據分布上表現良好,那它并不具備AGI所需的能力。

      因此,ARC基準測試剛好直擊大模型的「軟肋」。

      從「及格」到「優等生」

      一次關鍵跨越


      新紀錄的刷新者,并非單一模型,而是一個名為Poetiq(GPT-5.2X-High)的系統。

      Poetiq是一家專注于元系統(Meta-System)架構的AI公司。

      其核心理念并不是訓練一個更大的模型,而是通過軟件層面的系統設計,自動構建「會調用模型的系統」。

      Poetiq(GPT-5.2X-High)在ARC-AGI-2數據集上實現了75%準確率,每問題成本不到8美元,超越前SOTA 15個百分點。

      在Poetiq(GPT-5.2X-High)系統出現之前,GPT-5.2(X-High)已經非常接近人類平均水平。

      ARC-AGI-2榜單中,人類平均準確率約為60%,GPT-5.2X-High的成績與之幾乎持平,代表了當時AI在該基準上的最強推理能力。

      但Poetiq的加入,使GPT-5.2(X-High)的得分從60%直接拉升到了75%,從勉強及格(人類平均水平)邁入了優等生的行列(顯著超越人類平均水平)。

      在同一榜單上,還能看到Gemini 3 Deep Think(Preview)的身影。

      該模型主打「深度思考(Deep Think)」技術,在ARC-AGI-2上的成績約為46%,明顯落后于GPT-5.2系列,并且成本相對后者也略高。


      Poetiq表示,整個過程沒有對GPT-5.2進行任何訓練或者特定優化。

      這正是Poetiq元系統的初衷,旨在自動構建完整的系統,通過調用任何現有的前沿模型來解決特定任務。


      從15%的提升數據來看,Poetiq對于基礎模型性能的提升幅度還是非常明顯的。

      它的存在證明了不需要堆算力,通過優秀的軟件架構也能大幅提升AI性能。

      從這個角度上,它也驗證了接下來OpenAI的一個判斷——

      當前大模型,正逐漸進入「能力過剩」階段。

      大模型「能力過剩」時代


      就在同一天,OpenAI官方也在X平臺發布了一項關于2026年的預測。

      在這條推文中,OpenAI明確提到一個關鍵詞:Capability Overhang(能力過剩)。

      核心意思是:

      當前模型「能夠做到的事情」,與人們「實際使用AI的方式」(產生效果)之間,存在巨大的斷層。

      OpenAI認為,未來AGI的進展將不再僅取決于模型本身的突破,還將取決于:

      • 人們是否知道如何有效使用AI

      • AI是否真正融入現實工作與生活

      • 系統是否能將模型能力轉化為實際價值

      因此,在2026年,OpenAI將繼續前沿研究,同時重點投入于應用層、系統層、人機協同,尤其強調醫療、商業和日常生活場景。

      人機協同

      AGI的另一半拼圖

      OpenAI這篇官方推文涉及一個人機協同的問題。

      實現AGI,是需要模型和人協同發揮作用:AGI不只靠模型升級,更要「教人用AI」。

      通過正確的使用AI,充分發揮出AI的潛能,這樣才能讓AI開始從「炫技」轉向「普惠」,真正影響億萬人生活。

      這一觀點也得到了社區的強烈回應。

      于是,樂觀的網友稱「直接把我整個人自動化吧」!


      也有網友提到,真正的挑戰在于如何將AI融入工作流程中:見過太多組織買了「AI」,卻從未改變任何一個流程。


      大模型真的「能力過剩」了嗎?

      那么,是不是真如OpenAI所說的,大模型的能力已經過剩了呢?

      通過上面Poetiq所公布的Poetiq(GPT-5.2X-High)在ARC-AGI-2上的表現,75%的得分超過了人類平均水平(60%)15個百分點。

      此前OpenAI官方在介紹GPT-5時強調其在解決復雜跨學科問題上達到了專家級基準,后被外界引申為「博士級智能」。

      這說明GPT-5等大模型在某些專業任務中表現類似于人類博士的專業水平。

      從模型本身來說,也許并未完全過剩,但從「未被充分釋放的能力」角度來看,已經嚴重過剩。

      其中,有模型設計者方的原因,比如他們沒有緊跟用戶的使用場景,「不再與用戶并肩同行了」。


      也可能由于前沿模型在推理和創新上缺乏根本性的突破。


      還有模型本身迭代得太快,用戶不得不在日常生活中不斷棄用已經「成功上手」的模型。


      Poetiq 的出現,以及OpenAI對「能力過剩」的判斷,共同指向了未來AI領域的一個新方向:

      下一階段的AI競爭,不再只是模型參數之爭,而是系統、流程與人機協同的競爭。

      參考資料:

      https://x.com/poetiq_ai/status/2003546910427361402

      https://x.com/OpenAI/status/2003594025098785145

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      U23國足戰術有變!王鈺棟或替補待命,兩大王牌或首發出場

      U23國足戰術有變!王鈺棟或替補待命,兩大王牌或首發出場

      徽派體育
      2026-01-10 22:27:43
      班級聚餐每人收1萬,我瞅著太貴就沒參加,結果第二天就聽說消息

      班級聚餐每人收1萬,我瞅著太貴就沒參加,結果第二天就聽說消息

      蘭姐說故事
      2025-12-02 08:05:05
      44歲秦嵐同居實錘!情侶拖鞋+見家長,偏不領證太清醒

      44歲秦嵐同居實錘!情侶拖鞋+見家長,偏不領證太清醒

      陳意小可愛
      2026-01-09 08:29:47
      《戴珍珠耳環的少女》將訪日 | 日本一彩票店連出3注大獎 | 在留者要求日語能力

      《戴珍珠耳環的少女》將訪日 | 日本一彩票店連出3注大獎 | 在留者要求日語能力

      今日日本
      2026-01-11 14:03:29
      王曼昱3-4引發連鎖反應!王勵勤動真格,馬琳下課,孫穎莎引熱議

      王曼昱3-4引發連鎖反應!王勵勤動真格,馬琳下課,孫穎莎引熱議

      體育就你秀
      2026-01-11 06:45:05
      做最壞打算!中國055大驅第二批加速,美媒:還有被美軍扣船隱憂

      做最壞打算!中國055大驅第二批加速,美媒:還有被美軍扣船隱憂

      諦聽骨語本尊
      2026-01-09 19:26:20
      別墅搜出23件國寶,全家集體失聯!徐湖平案落幕,17年舉報有結果

      別墅搜出23件國寶,全家集體失聯!徐湖平案落幕,17年舉報有結果

      詩意世界
      2026-01-03 15:19:25
      93年我32歲升連長,總司令視察盯我半天,突然面色鐵青:你跟我走

      93年我32歲升連長,總司令視察盯我半天,突然面色鐵青:你跟我走

      蕭竹輕語
      2025-09-04 19:04:31
      中方王牌還沒出,高市早苗慌了,找G7幫自己撐腰,一架專機將抵日

      中方王牌還沒出,高市早苗慌了,找G7幫自己撐腰,一架專機將抵日

      賈文彬的史書
      2026-01-11 13:56:53
      2026監管利刃出鞘!外賣平臺“燒錢搶存量市場”迎來終局?

      2026監管利刃出鞘!外賣平臺“燒錢搶存量市場”迎來終局?

      野馬財經
      2026-01-10 22:29:05
      炸裂!切爾西新帥激活 3700 萬水貨,庫庫雷利亞主力位置告急

      炸裂!切爾西新帥激活 3700 萬水貨,庫庫雷利亞主力位置告急

      瀾歸序
      2026-01-11 06:21:24
      特朗普公然“搶劫”全世界,普京選擇暫避鋒芒,但中國避無可避!

      特朗普公然“搶劫”全世界,普京選擇暫避鋒芒,但中國避無可避!

      達文西看世界
      2026-01-11 13:50:57
      笑噴了!董宇輝“敲打”員工,董玉琢爆與輝同行述職要開始了

      笑噴了!董宇輝“敲打”員工,董玉琢爆與輝同行述職要開始了

      誰將笑到最后
      2026-01-11 11:34:53
      閆學晶代言品牌統廚回應遭抵制:近期退貨率較高,正協商解約

      閆學晶代言品牌統廚回應遭抵制:近期退貨率較高,正協商解約

      南方都市報
      2026-01-10 17:54:06
      禁令執行第四天,中國電路板廠商不再向日本發貨,日本廠商天塌了

      禁令執行第四天,中國電路板廠商不再向日本發貨,日本廠商天塌了

      愛看劇的阿峰
      2026-01-10 14:20:48
      伊朗抗議人群占領市政府大樓,舉牌感謝川普

      伊朗抗議人群占領市政府大樓,舉牌感謝川普

      知兵
      2026-01-08 08:04:01
      85%的血管淤堵,根本不用過度治療!醫生:做好3件事,比吃藥管用

      85%的血管淤堵,根本不用過度治療!醫生:做好3件事,比吃藥管用

      孟大夫之家1
      2026-01-09 15:47:05
      大瓜!蓋茨新年給前妻560億天價“封口費”?對方疑有他在惡魔島勁爆證據…

      大瓜!蓋茨新年給前妻560億天價“封口費”?對方疑有他在惡魔島勁爆證據…

      英國報姐
      2026-01-10 21:08:24
      電詐“殺”到西半球:400美國人被騙2億美元,智利出動500探員抓捕,涉119家洗錢公司

      電詐“殺”到西半球:400美國人被騙2億美元,智利出動500探員抓捕,涉119家洗錢公司

      紅星新聞
      2026-01-10 19:39:16
      特朗普一句輕飄飄的話,把日本給嚇得不輕,李在明:馬上就去日本

      特朗普一句輕飄飄的話,把日本給嚇得不輕,李在明:馬上就去日本

      輝輝歷史記
      2026-01-11 09:08:29
      2026-01-11 14:52:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14309文章數 66452關注度
      往期回顧 全部

      科技要聞

      “我們與美國的差距也許還在拉大”

      頭條要聞

      日本知名女星結婚:酷似高圓圓 曾和林志玲老公交往

      頭條要聞

      日本知名女星結婚:酷似高圓圓 曾和林志玲老公交往

      體育要聞

      詹皇曬照不滿打手沒哨 裁判報告最后兩分鐘無誤判

      娛樂要聞

      網友偶遇賈玲張小斐崇禮滑雪

      財經要聞

      外賣平臺"燒錢搶存量市場"迎來終局?

      汽車要聞

      2026款宋Pro DM-i長續航補貼后9.98萬起

      態度原創

      家居
      教育
      本地
      親子
      手機

      家居要聞

      木色留白 演繹現代自由

      教育要聞

      從沈陽小學數學考卷風波,看教育命題之殤

      本地新聞

      云游內蒙|“包”你再來?一座在硬核里釀出詩意的城

      親子要聞

      爸爸帶娃有多輕松媽媽帶娃就有多費勁

      手機要聞

      OPPO雙機齊發:Find X9s與Ultra版,均三月份發布

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成人国产精品秘片多多| 色欲av狠狠躁天天躁无码中文| 亚洲а∨天堂久久精品9966| 建昌县| 蜜臀av人妻国产精品建身房 | 有码无码中文字幕国产精品| 日韩人妻无码精品久久久不卡 | 麻豆国产成人AV在线播放| 国内精品久久久久久| 国产三级精品三级在专区| 国产精品久久久久高潮| 丝袜老师办公室里做好紧好爽| 91在线视频播放| 国产无人区码一码二码三mba| 中国无码人妻丰满熟妇啪啪软件| 国产亚洲精品aaaa片app| 精品久久欧美熟妇www| 实拍女处破www免费看| 97免费人妻在线视频| 久久久国产精品消防器材| 男人亚洲天堂| 无码国产精成人午夜视频不卡| 欧美日韩在线第一页免费观看| av网站可以直接看的| 群交射精白浆视频| 荆门市| 人妻丰满熟妇无码区免费| 国产精品中文| 国产成人AV| 国产女人看国产在线女人| 久久国内精品自在自线观看| 成年午夜无码av片在线观看| 国产无套内射久久久国产| 日韩一区精品视频一区二区| 板桥市| 亚洲熟妇久久精品| 成人国产三级精品秘| 亚洲人妻久久| 亚洲成av人片大线观看| 亚洲AV成人一区二区三区在线| 亚洲午夜精品久久久久久抢|