<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<ruby id="ia938"><samp id="ia938"><form id="ia938"></form></samp></ruby><legend id="ia938"><track id="ia938"><dfn id="ia938"></dfn></track></legend>

<style id="ia938"></style>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

GPT-5.2考贏人類！OpenAI警告：大模型能力已過剩，AGI天花板不是AI

2026-01-10 22:12:55　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：元宇

【新智元導讀】如同智能手機一樣，大模型也進入了一個「能力過剩」時代，即大模型本身的能力與人類使用方式之間存在著巨大斷層。

剛剛，GPT-5.2刷新了一項新紀錄！

OpenAI聯合創始人Greg Brockman發帖稱使用GPT-5.2在ARC-AGI-2基準測試上，表現超過了人類基線水平。

在基準測試時技能爆表，但一到實際應用就「掉鏈子」，OpenAI前首席科學家Ilya Sutskever提到的這種大模型「性能悖論」我們并不陌生。

這也是AGI評估領域一個長期存在的難題——如何區分大模型「真正的推理能力」與「刷題型能力」。

而ARC-AGI-2的出現正好打破了這一難題。

ARC-AGI-2的全稱為「Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2」，是ARC系列基準的最新升級版本。

該基準由Fran?ois Chollet（Keras之父、前Google Brain研究員）及其團隊在2025年推出，其設計初衷十分明確：

測試AI是否具備AGI所必需的抽象、歸納與遷移推理能力，而非記憶或統計模式匹配。

ARC系列與傳統NLP或多模態benchmark最大的不同在于：它沒有大規模訓練集，每道題目都是從未見過的新任務，因此不存在通過「刷數據」獲得高分的可能。

它要求AI像人類一樣具備真正的推理和舉一反三的能力。

Chollet曾多次公開表示，如果一個系統只能在見過的數據分布上表現良好，那它并不具備AGI所需的能力。

因此，ARC基準測試剛好直擊大模型的「軟肋」。

從「及格」到「優等生」

一次關鍵跨越

新紀錄的刷新者，并非單一模型，而是一個名為Poetiq（GPT-5.2X-High）的系統。

Poetiq是一家專注于元系統（Meta-System）架構的AI公司。

其核心理念并不是訓練一個更大的模型，而是通過軟件層面的系統設計，自動構建「會調用模型的系統」。

Poetiq（GPT-5.2X-High）在ARC-AGI-2數據集上實現了75%準確率，每問題成本不到8美元，超越前SOTA 15個百分點。

在Poetiq（GPT-5.2X-High）系統出現之前，GPT-5.2(X-High)已經非常接近人類平均水平。

ARC-AGI-2榜單中，人類平均準確率約為60%，GPT-5.2X-High的成績與之幾乎持平，代表了當時AI在該基準上的最強推理能力。

但Poetiq的加入，使GPT-5.2(X-High)的得分從60%直接拉升到了75%，從勉強及格（人類平均水平）邁入了優等生的行列（顯著超越人類平均水平）。

在同一榜單上，還能看到Gemini 3 Deep Think（Preview）的身影。

該模型主打「深度思考（Deep Think）」技術，在ARC-AGI-2上的成績約為46%，明顯落后于GPT-5.2系列，并且成本相對后者也略高。

Poetiq表示，整個過程沒有對GPT-5.2進行任何訓練或者特定優化。

這正是Poetiq元系統的初衷，旨在自動構建完整的系統，通過調用任何現有的前沿模型來解決特定任務。

從15%的提升數據來看，Poetiq對于基礎模型性能的提升幅度還是非常明顯的。

它的存在證明了不需要堆算力，通過優秀的軟件架構也能大幅提升AI性能。

從這個角度上，它也驗證了接下來OpenAI的一個判斷——

當前大模型，正逐漸進入「能力過剩」階段。

大模型「能力過剩」時代

就在同一天，OpenAI官方也在X平臺發布了一項關于2026年的預測。

在這條推文中，OpenAI明確提到一個關鍵詞：Capability Overhang（能力過剩）。

核心意思是：

當前模型「能夠做到的事情」，與人們「實際使用AI的方式」（產生效果）之間，存在巨大的斷層。

OpenAI認為，未來AGI的進展將不再僅取決于模型本身的突破，還將取決于：

人們是否知道如何有效使用AI
AI是否真正融入現實工作與生活
系統是否能將模型能力轉化為實際價值

因此，在2026年，OpenAI將繼續前沿研究，同時重點投入于應用層、系統層、人機協同，尤其強調醫療、商業和日常生活場景。

人機協同

AGI的另一半拼圖

OpenAI這篇官方推文涉及一個人機協同的問題。

實現AGI，是需要模型和人協同發揮作用：AGI不只靠模型升級，更要「教人用AI」。

通過正確的使用AI，充分發揮出AI的潛能，這樣才能讓AI開始從「炫技」轉向「普惠」，真正影響億萬人生活。

這一觀點也得到了社區的強烈回應。

于是，樂觀的網友稱「直接把我整個人自動化吧」！

也有網友提到，真正的挑戰在于如何將AI融入工作流程中：見過太多組織買了「AI」，卻從未改變任何一個流程。

大模型真的「能力過剩」了嗎？

那么，是不是真如OpenAI所說的，大模型的能力已經過剩了呢？

通過上面Poetiq所公布的Poetiq（GPT-5.2X-High）在ARC-AGI-2上的表現，75%的得分超過了人類平均水平（60%）15個百分點。

此前OpenAI官方在介紹GPT-5時強調其在解決復雜跨學科問題上達到了專家級基準，后被外界引申為「博士級智能」。

這說明GPT-5等大模型在某些專業任務中表現類似于人類博士的專業水平。

從模型本身來說，也許并未完全過剩，但從「未被充分釋放的能力」角度來看，已經嚴重過剩。

其中，有模型設計者方的原因，比如他們沒有緊跟用戶的使用場景，「不再與用戶并肩同行了」。

也可能由于前沿模型在推理和創新上缺乏根本性的突破。

還有模型本身迭代得太快，用戶不得不在日常生活中不斷棄用已經「成功上手」的模型。

Poetiq 的出現，以及OpenAI對「能力過剩」的判斷，共同指向了未來AI領域的一個新方向：

下一階段的AI競爭，不再只是模型參數之爭，而是系統、流程與人機協同的競爭。

參考資料：

https://x.com/poetiq_ai/status/2003546910427361402

https://x.com/OpenAI/status/2003594025098785145

秒追ASI

?點贊、轉發、在看一鍵三連?

點亮星標，鎖定新智元極速推送！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

山姆·奧特曼的炒作史

DeepTech深科技 2025-12-24 14:02:44
0 跟貼 0
笑死！xAI員工竟用Claude寫代碼？這回Anthropic反手拔了馬斯克的網線

新智元 2026-01-10 17:25:23
2 跟貼 2

吳恩達：圖靈測試不夠用了，我會設計一個AGI專用版

量子位 2026-01-10 12:49:23
3 跟貼 3

《麻省理工科技評論》預測2026年AI五大趨勢

DeepTech深科技 2026-01-09 11:42:30
0 跟貼 0
OpenAI上線健康助理，AI持續滲透個人健康管理領域

經濟觀察報 2026-01-09 20:49:56
0 跟貼 0

對話鹿明機器人：在具身智能的“數據荒”里，做一個送水人｜AI Founder 請回答

鈦媒體APP 2026-01-11 12:48:38
0 跟貼 0

中國“AI四巨頭”罕見同臺，阿里、騰訊、Kimi與智譜“論劍”：大模型的下一步與中國反超的可能性

華爾街見聞官方 2026-01-11 11:33:57
0 跟貼 0
物理AI落地的標桿答案，深庭紀給出了戶外陪伴的最優解

鈦媒體APP 2026-01-10 19:49:08
2 跟貼 2

深度｜AGI是不是一個陰謀論？

DeepTech深科技 2025-12-08 15:01:46
0 跟貼 0
人形機器人手眼協同的難題，速騰聚創給出了新解法｜CES 2026

鈦媒體APP 2026-01-11 11:35:30
0 跟貼 0
出門問問又發AI智能體硬件了，支持同聲傳譯，還給團隊協作送助攻

智東西 2026-01-11 00:48:50
0 跟貼 0
大模型也會賭博上癮！理智出走！

量子位 2025-11-03 07:06:08
0 跟貼 0
端側AI最優解：速度破百Token！CES歸來就看生態大會

新智元 2026-01-11 13:37:52
0 跟貼 0
行業最大規模具身數據集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
行業最大規模具身數據集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
陶哲軒：AI看似在推理，其實是在背答案

量子位 2026-01-05 09:20:21
0 跟貼 0
未來醫生摘得全球第一，臨床安全有效性評估新基準

量子位 2025-11-19 11:14:03
0 跟貼 0
高通萬衛星談終端大模型優勢：個性化與數據推理

量子位 2025-12-11 03:38:41
0 跟貼 0
姚順雨對著唐杰楊植麟林俊旸貼大臉開講！基模四杰中關村論英雄

量子位 2026-01-11 11:04:48
0 跟貼 0
他發明了價值萬億的AGI，如今窮困潦倒

新智元 2025-11-04 20:19:19
57 跟貼 57
英偉達巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
31 跟貼 31
GPT-5編程成績有貓膩！自刪23道測試題，關鍵基準還是自己提的

量子位 2025-08-12 13:12:51
15 跟貼 15
民間有高人，自己動手做出南水北調的模型，這技術水平太高明了

電工維修技術 2026-01-07 10:12:56
1 跟貼 1
我們可能沒有技術，但我們會抄啊

萌哥電影 2026-01-09 17:59:23
1 跟貼 1
“深圳成全國首個電動車停車收費城市”系不實信息

上觀新聞 2026-01-10 19:14:14
363 跟貼 363
多益網絡發布聲明調整招聘政策，允許廣東工業大學的學生投遞簡歷，該公司將另一所高校也列入招聘黑名單

極目新聞 2026-01-10 18:13:47
690 跟貼 690
100年后，外賣員全都變成了機器人，再也沒有人類送外賣，短片

火影電影 2026-01-09 17:55:11
5 跟貼 5
比電動車還強的，皮卡模型，能帶動一個成年男子爬坡

筆筆皆笑 2026-01-10 14:17:38
1 跟貼 1
副部級張寶娟，職務調整

新京報政事兒 2026-01-10 22:30:19
447 跟貼 447
速度提高62.5%！中國科學家突破世界難題

環球網資訊 2026-01-10 20:30:12
115 跟貼 115
茶葉保質期標注“100年”？知名品牌回應

環球網資訊 2026-01-10 09:52:17
705 跟貼 705
國外AI無人直播，一個房間幾十臺設備，難道主播也要失業！

搞笑派大星 2026-01-07 10:12:52
20 跟貼 20
垃圾進垃圾出，大模型刷多了垃圾推文，智商驟降還變自戀狂

機器之心Pro 2025-10-24 18:51:47
0 跟貼 0
翠萍才是這不劇里真正的高手

小叮當剪輯 2026-01-09 09:18:23
0 跟貼 0
車開走后才做手勢，這傻玩意兒用處多，采購維修全搞定

趣味加工廠 2026-01-07 00:00:00
0 跟貼 0
諸葛亮發明的防盜機關，真正的有進無出，不愧是古人的智慧！

文鴻愛搞笑 2026-01-10 16:52:33
24 跟貼 24
費米悖論的終極答案：外星人不是不在，而是他們都躲在黑暗里

六六冷知識 2026-01-09 15:11:00
1 跟貼 1
宜家宣布將關7家門店后首個休息日：有消費者“錯峰付款”，有人來“打卡”告別

紅星新聞 2026-01-10 19:20:56
555 跟貼 555
確定清倉閉店！大批上海人涌入，餐廳排隊超40分鐘，網友：這輩子沒見過宜家這么多人

環球網資訊 2026-01-10 17:41:12
263 跟貼 263

U23國足戰術有變！王鈺棟或替補待命，兩大王牌或首發出場

U23國足戰術有變！王鈺棟或替補待命，兩大王牌或首發出場

徽派體育

2026-01-10 22:27:43

班級聚餐每人收1萬，我瞅著太貴就沒參加，結果第二天就聽說消息

班級聚餐每人收1萬，我瞅著太貴就沒參加，結果第二天就聽說消息

蘭姐說故事

2025-12-02 08:05:05

44歲秦嵐同居實錘！情侶拖鞋+見家長，偏不領證太清醒

44歲秦嵐同居實錘！情侶拖鞋+見家長，偏不領證太清醒

陳意小可愛

2026-01-09 08:29:47

《戴珍珠耳環的少女》將訪日 | 日本一彩票店連出3注大獎 | 在留者要求日語能力

《戴珍珠耳環的少女》將訪日 | 日本一彩票店連出3注大獎 | 在留者要求日語能力

今日日本

2026-01-11 14:03:29

王曼昱3-4引發連鎖反應！王勵勤動真格，馬琳下課，孫穎莎引熱議

王曼昱3-4引發連鎖反應！王勵勤動真格，馬琳下課，孫穎莎引熱議

體育就你秀

2026-01-11 06:45:05

做最壞打算！中國055大驅第二批加速，美媒：還有被美軍扣船隱憂

做最壞打算！中國055大驅第二批加速，美媒：還有被美軍扣船隱憂

諦聽骨語本尊

2026-01-09 19:26:20

別墅搜出23件國寶，全家集體失聯！徐湖平案落幕，17年舉報有結果

別墅搜出23件國寶，全家集體失聯！徐湖平案落幕，17年舉報有結果

詩意世界

2026-01-03 15:19:25

93年我32歲升連長，總司令視察盯我半天，突然面色鐵青：你跟我走

93年我32歲升連長，總司令視察盯我半天，突然面色鐵青：你跟我走

蕭竹輕語

2025-09-04 19:04:31

中方王牌還沒出，高市早苗慌了，找G7幫自己撐腰，一架專機將抵日

中方王牌還沒出，高市早苗慌了，找G7幫自己撐腰，一架專機將抵日

賈文彬的史書

2026-01-11 13:56:53

2026監管利刃出鞘！外賣平臺“燒錢搶存量市場”迎來終局？

2026監管利刃出鞘！外賣平臺“燒錢搶存量市場”迎來終局？

野馬財經

2026-01-10 22:29:05

炸裂！切爾西新帥激活 3700 萬水貨，庫庫雷利亞主力位置告急

炸裂！切爾西新帥激活 3700 萬水貨，庫庫雷利亞主力位置告急

瀾歸序

2026-01-11 06:21:24

特朗普公然“搶劫”全世界，普京選擇暫避鋒芒，但中國避無可避！

特朗普公然“搶劫”全世界，普京選擇暫避鋒芒，但中國避無可避！

達文西看世界

2026-01-11 13:50:57

笑噴了！董宇輝“敲打”員工，董玉琢爆與輝同行述職要開始了

笑噴了！董宇輝“敲打”員工，董玉琢爆與輝同行述職要開始了

誰將笑到最后

2026-01-11 11:34:53

閆學晶代言品牌統廚回應遭抵制：近期退貨率較高，正協商解約

閆學晶代言品牌統廚回應遭抵制：近期退貨率較高，正協商解約

南方都市報

2026-01-10 17:54:06

禁令執行第四天，中國電路板廠商不再向日本發貨，日本廠商天塌了

禁令執行第四天，中國電路板廠商不再向日本發貨，日本廠商天塌了

愛看劇的阿峰

2026-01-10 14:20:48

伊朗抗議人群占領市政府大樓，舉牌感謝川普

伊朗抗議人群占領市政府大樓，舉牌感謝川普

知兵

2026-01-08 08:04:01

85%的血管淤堵，根本不用過度治療！醫生：做好3件事，比吃藥管用

85%的血管淤堵，根本不用過度治療！醫生：做好3件事，比吃藥管用

孟大夫之家1

2026-01-09 15:47:05

大瓜！蓋茨新年給前妻560億天價“封口費”？對方疑有他在惡魔島勁爆證據…

大瓜！蓋茨新年給前妻560億天價“封口費”？對方疑有他在惡魔島勁爆證據…

英國報姐

2026-01-10 21:08:24

電詐“殺”到西半球：400美國人被騙2億美元，智利出動500探員抓捕，涉119家洗錢公司

電詐“殺”到西半球：400美國人被騙2億美元，智利出動500探員抓捕，涉119家洗錢公司

紅星新聞

2026-01-10 19:39:16

特朗普一句輕飄飄的話，把日本給嚇得不輕，李在明：馬上就去日本

特朗普一句輕飄飄的話，把日本給嚇得不輕，李在明：馬上就去日本

輝輝歷史記

2026-01-11 09:08:29

AI產業主平臺領航智能+時代

14309文章數 66452關注度

往期回顧全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

日本知名女星結婚：酷似高圓圓曾和林志玲老公交往

頭條要聞

日本知名女星結婚：酷似高圓圓曾和林志玲老公交往

體育要聞

詹皇曬照不滿打手沒哨裁判報告最后兩分鐘無誤判

娛樂要聞

網友偶遇賈玲張小斐崇禮滑雪

財經要聞

外賣平臺"燒錢搶存量市場"迎來終局？

汽車要聞

2026款宋Pro DM-i長續航補貼后9.98萬起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

教育

本地

親子

手機

家居要聞

木色留白演繹現代自由

溫暖色調大空間不冷清
溫潤質感打造干凈空間
歐式風格純粹優雅氣質

教育要聞

從沈陽小學數學考卷風波，看教育命題之殤

本地新聞

云游內蒙｜“包”你再來？一座在硬核里釀出詩意的城

親子要聞

爸爸帶娃有多輕松媽媽帶娃就有多費勁

手機要聞

OPPO雙機齊發：Find X9s與Ultra版，均三月份發布

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：成人国产精品秘片多多| 色欲av狠狠躁天天躁无码中文| 亚洲а∨天堂久久精品9966| 建昌县| 蜜臀av人妻国产精品建身房 | 有码无码中文字幕国产精品| 日韩人妻无码精品久久久不卡 | 麻豆国产成人AV在线播放| 国内精品久久久久久| 国产三级精品三级在专区| 国产精品久久久久高潮| 丝袜老师办公室里做好紧好爽| 91在线视频播放| 国产无人区码一码二码三mba| 中国无码人妻丰满熟妇啪啪软件| 国产亚洲精品aaaa片app| 精品久久欧美熟妇www| 实拍女处破www免费看| 97免费人妻在线视频| 久久久国产精品消防器材| 男人亚洲天堂| 无码国产精成人午夜视频不卡| 欧美日韩在线第一页免费观看| av网站可以直接看的| 群交射精白浆视频| 荆门市| 人妻丰满熟妇无码区免费| 国产精品中文| 国产成人AV| 国产女人看国产在线女人| 久久国内精品自在自线观看| 成年午夜无码av片在线观看| 国产无套内射久久久国产| 日韩一区精品视频一区二区| 板桥市| 亚洲熟妇久久精品| 成人国产三级精品秘| 亚洲人妻久久| 亚洲成av人片大线观看| 亚洲AV成人一区二区三区在线| 亚洲午夜精品久久久久久抢|

<sub id="cz888"><p id="cz888"><li id="cz888"></li></p></sub>