<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      無需再訓練微調,一個輔助系統讓GPT-5.2準確率飆到創紀錄的75%

      0
      分享至



      編輯 | 杜偉、陳陳

      什么?決定 AI 上限的已不再是底座模型,而是外圍的「推理編排」(Orchestration)。

      在 LLM 完全不變的前提下,僅靠一套 Agentic System,就能讓 AI 的智力表現原地暴漲一截。

      在看了「AI 推理和自我改進系統」初創公司 Poetiq 的最新評測之后,有人得出了這樣的結論。



      部分截圖

      近日,Poetiq 表示其使用 ARC-AGI-2 測試集,在他們的系統上(稱為 meta-system)運行了 GPT-5.2 X-High。該測試集通常被用來衡量當前 SOTA 模型在復雜抽象推理任務上的表現。

      結果顯示,在相同的 Poetiq 測試平臺上,GPT?5.2 X?High 在完整的 PUBLIC-EVAL 數據集上的成績高達 75%,這比之前的 SOTA 高出了約 15%,同時每個問題的成本低于 8 美元。

      這里的 PUBLIC-EVAL 是 ARC 測試的一部分,前者一般包含基礎推理任務和標準的 NLP、數學推理測試,適合廣泛的模型評測,數據集更為公開、標準;后者包含更多復雜且富有挑戰性的推理問題,考察模型的抽象推理、常識推理、創新能力等,是針對高水平模型的推理極限測試。



      下圖展示了各個 SOTA 模型在 PUBLIC-EVAL 數據集上的成績分布:



      Poetiq 還特別強調了,其沒有對 GPT-5.2 進行任何再訓練或模型特定的優化。

      在如此短的時間內,相較于 Poetiq 之前在 PUBLIC-EVAL 數據集上測試的其他模型,GPT-5.2 在準確率和價格方面實現了顯著改進。

      Poetiq 進一步做出設想:如果在 PUBLIC-EVAL 測試中表現好的規律能夠延續到 ARC Prize 官方的 SEMI-PRIVATE 測試中,那么「GPT-5.2 X-High + Poetiq」會比以往任何系統配置都更強、更好。

      ARC Prize 總裁 Greg Kamradt 表示,「很高興看到 Poetiq 發布 GPT-5.2 X-High 的結果。如果這個成績能保持下去,他們的系統看起來能很好地處理模型交換。不過,在 OpenAI API 的基礎設施問題解決之前,結果還沒有得到完全驗證。」

      這里的模型交換指的是:系統通過切換不同的模型來應對不同的任務需求,而無需對系統或模型進行大規模的調整或重新訓練



      OpenAI 總裁 Greg Brockman 也轉推表示:GPT-5.2 在 ARC-AGI-2 上超越人類基準成績。



      對于全新的測試結果,評論區提出了更多問題,比如「每個任務平均需要多長時間」。

      Poetiq 回復稱,「我們現在沒有專門收集這些統計數據,最簡單的問題大概在 8 到 10 分鐘后就能完成,而最難的問題必須在 12 小時之前終止,以保持在時間限制內。所以,未來肯定還有改進的空間。」



      還有人指出「大部分改進似乎來自于測試框架和協調機制,而不是任何模型特定的調優。沒有訓練變更的情況下,ARC-AGI-2 上提高了大約 15%,這表明僅在搜索、路由和終止邏輯方面就還有很大的提升空間」。

      可問題是:為什么在這個設置中,X-High 每個任務的成本比 High 還要低?是因為它通過更早找到正確的解決方案而更快收斂,還是因為測試框架更積極地修剪了無效的推理過程?

      對于這個問題,Poetiq 肯定了「X-High 只是比 High 更快地收斂到正確的答案」這一觀點。



      6 人團隊打造 Meta-system 系統

      Poetiq 是一支由 6 位研究員和工程師組成的團隊,有多位核心成員來自 Google DeepMind 。

      • Ian Fischer (聯合創始人 & 聯席 CEO): 曾是 Google DeepMind 的資深研究員;
      • Shumeet Baluja (聯合創始人 & 聯席 CEO): 同樣出身于 Google/DeepMind 的資深專家。



      Poetiq 能夠取得上述成績,關鍵在于其構建的meta-system(元系統)

      Meta-system 不依賴特定的大模型,可以與任何前沿模型配合使用(如 Gemini 3、GPT-5.1、Grok 等),而不是訓練或微調模型本身,這意味著它能隨著新模型發布快速適配并提升性能。

      Poetiq meta-system 構建了一種迭代式推理過程,其與傳統一次性生成答案的方法不同,有兩個主要機制:

      • 迭代式的問題求解循環:系統并不是只向模型提出一次問題,而是利用大語言模型(LLM)生成一個潛在的解決方案,隨后接收反饋、分析反饋,并再次調用 LLM 對方案進行改進。這種多步驟、自我改進的過程,使系統能夠逐步構建并不斷完善最終答案。
      • 自我審計(Self-Auditing):系統能夠自主審計自身的運行進度,并自行判斷何時已經獲得足夠的信息、當前解決方案是否令人滿意,從而決定終止整個過程。這種自我監控機制對于避免不必要的計算浪費、有效降低整體成本至關重要。

      Poetiq 還特別強調,他們所有 meta-system 的適配工作是在新模型發布前完成的,而且系統從未直接接觸過 ARC-AGI 任務集,但依然在多個不同模型上取得跨版本、跨模型族的性能提升,說明 meta-system 對 reasoning 策略具有良好的泛化能力。

      正是這種靈活、強大且具備遞歸能力的架構,使得 Poetiq 這樣一支小規模團隊,能夠在極短時間內取得一系列最先進(SOTA)的成果。

      對于這個 meta-system,有人認為「太棒了。在模型之上構建智能,而不是在模型內部構建,意味著可以在幾個小時內適配新模型,非常高明。適配開源模型,并且成功遷移到新的封閉模型,這表明捕捉到的東西是推理過程本身的基本規律,而不是模型特定的怪癖。」



      參考鏈接:
      https://poetiq.ai/posts/arcagi_verified/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      黃蜂7人上雙爆冷大勝魔術 三球22+7+5班凱羅13中4夢游

      黃蜂7人上雙爆冷大勝魔術 三球22+7+5班凱羅13中4夢游

      醉臥浮生
      2025-12-27 10:48:18
      向太曝馬伊琍已再婚:當年文章過不了心理那關

      向太曝馬伊琍已再婚:當年文章過不了心理那關

      娛樂看阿敞
      2025-12-12 15:50:00
      日本今年逾2萬種食品漲價 明年初再漲近3600種

      日本今年逾2萬種食品漲價 明年初再漲近3600種

      財聯社
      2025-12-26 21:21:09
      老人被城管推倒離世:年齡86歲,事因老人路見不平,他并沒有擺攤

      老人被城管推倒離世:年齡86歲,事因老人路見不平,他并沒有擺攤

      鋭娛之樂
      2025-12-26 13:33:07
      “萬稅之國”加拿大被冤枉了?實際稅負比例竟然比中國還要低

      “萬稅之國”加拿大被冤枉了?實際稅負比例竟然比中國還要低

      回旋鏢
      2025-12-27 13:46:40
      中日關系緊張之際,俄羅斯公然接待日本高層,我們還能相信普京嗎

      中日關系緊張之際,俄羅斯公然接待日本高層,我們還能相信普京嗎

      吃貨的分享
      2025-12-27 06:40:13
      特朗普又要征稅,給中國18個月期限,不到24小時,中方通告全球

      特朗普又要征稅,給中國18個月期限,不到24小時,中方通告全球

      趣文說娛
      2025-12-27 15:01:29
      新一輪國資國企改革加快醞釀 多領域重組整合料提速

      新一輪國資國企改革加快醞釀 多領域重組整合料提速

      新華社
      2025-12-27 14:38:08
      永州男子發現女兒非親生,和女友分手后獨自撫養至5歲,為上戶口發尋親公告,當地回應

      永州男子發現女兒非親生,和女友分手后獨自撫養至5歲,為上戶口發尋親公告,當地回應

      瀟湘晨報
      2025-12-26 19:54:11
      一場大裁員正在席卷中國的銀行!金飯碗,也不香了,什么原因?

      一場大裁員正在席卷中國的銀行!金飯碗,也不香了,什么原因?

      小鬼頭體育
      2025-12-26 13:05:21
      蒙古國大膽想法:拿400平方公里和中國換通道?想將稀土運往美國

      蒙古國大膽想法:拿400平方公里和中國換通道?想將稀土運往美國

      游者走天下
      2025-12-26 16:20:18
      真有錢!中超土豪強挖南美全能中場,轉會費1200萬!73場造14球

      真有錢!中超土豪強挖南美全能中場,轉會費1200萬!73場造14球

      國足風云
      2025-12-27 10:23:09
      徐鶯與亞洲周刊的口水戰升級,這次她不但火了,而且徹底“瘋”了

      徐鶯與亞洲周刊的口水戰升級,這次她不但火了,而且徹底“瘋”了

      達文西看世界
      2025-12-27 14:37:20
      多名華人圣誕節遭殃! 白天神秘人敲門, 晚上家就被盜! 房子被搬空, 奢侈品全丟

      多名華人圣誕節遭殃! 白天神秘人敲門, 晚上家就被盜! 房子被搬空, 奢侈品全丟

      澳微Daily
      2025-12-27 15:00:13
      中國軍隊回撤時越軍為何不追擊?越南少將阮德輝回憶:并非不敢打

      中國軍隊回撤時越軍為何不追擊?越南少將阮德輝回憶:并非不敢打

      古書記史
      2025-12-22 19:50:50
      慘勝也是勝!廣東6連勝!不得不承認廣東不能缺少三人!頑疾難克

      慘勝也是勝!廣東6連勝!不得不承認廣東不能缺少三人!頑疾難克

      老牛體育解說
      2025-12-26 22:53:02
      U23亞洲杯:澳大利亞U22有望擊敗對手

      U23亞洲杯:澳大利亞U22有望擊敗對手

      小齊艱難度日
      2025-12-27 14:49:10
      最狠“順風車”,一年跑了24萬公里!司機:車子有智駕!

      最狠“順風車”,一年跑了24萬公里!司機:車子有智駕!

      網約車焦點
      2025-12-27 10:52:34
      離譜!17歲女生被18歲男生弄懷孕,接生醫生發視頻點贊,配文炸裂

      離譜!17歲女生被18歲男生弄懷孕,接生醫生發視頻點贊,配文炸裂

      溫辭韞
      2025-12-25 15:46:31
      人口告別世界第一?二孩催生無效后,國家終于向住房出手了

      人口告別世界第一?二孩催生無效后,國家終于向住房出手了

      春秋論娛
      2025-12-25 07:11:24
      2025-12-27 16:00:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12000文章數 142522關注度
      往期回顧 全部

      科技要聞

      小米也漲價了!業界稱終端再不漲明年必虧

      頭條要聞

      "和平計劃"差臨門一腳 特朗普放話烏命運掌握在他手里

      頭條要聞

      "和平計劃"差臨門一腳 特朗普放話烏命運掌握在他手里

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂要聞

      劉宇寧:我的價值不需要靠番位來證明

      財經要聞

      注意,開始拉物價了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態度原創

      本地
      時尚
      教育
      公開課
      軍事航空

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬年史書

      從0度穿到20度,這件衣服才是今年冬天的“頂流”!

      教育要聞

      美國境內旅游簽轉學簽到底需要花多少錢?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      英法德三國領導人通話 重申對烏支持

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 妇女性内射冈站hdwww000| 精久视频| 亚洲va| 亚洲熟妇自偷自拍另欧美| 亚洲精品成人a在线观看| 国产精品沙发午睡系列990531| 亚洲一区自拍| 亚洲图片在线| 亚洲色成人网站www永久四虎| 亚洲精品一区二区三区四区乱码 | 无码人妻精品一区二| 无码国产精品一区二区免费3p| 伊人久久精品久久亚洲一区 | 国产wwww| 国产丝袜在线| 精品午夜福利在线视在亚洲| 男人猛躁进女人免费播放| 亚洲成在人网站av天堂| 国产精品扒开腿做爽爽爽视频| 亚洲精品乱码久久久久久蜜桃 | 久久成人 久久鬼色| 久久国产精品成人免费| 永久天堂网 av手机版| 国产精品特级毛片一区二区三区| 人草逼视频频| 熟女在线视频| 一级AV韩国| 亚洲v欧美| 小泽玛利亚三级片| 久久96热在精品国产高清| 久久久噜噜噜久久| 国产97在线 | 免费| 国产亚洲欧美精品永久| 91导航| 日韩亚洲欧美中文高清| 日韩精品内射视频免费观看| 亚洲真人无码永久在线| 色伦专区97中文字幕| 亚洲国产精品一区二区第一页| 国产亚洲精品久久久久丝瓜| 欧美真人做爰在线观看|