<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.2,對Gemini-3反手一掌,2026做牛馬比當學霸重要

      0
      分享至

      你方唱罷我登場,各領風騷十幾天。

      GPT-5.2出來了,它實現了對Gemini-3和Claude-4.5的部分反超,在多個實用領域都更強了:做表格、弄PPT、寫代碼、理解長文檔、調用工具、處理復雜多步驟項目……視覺理解能力也大幅提升,能辨別出板卡上的螺絲釘。


      (來源OpenAI)

      從5.1到5.2,僅用了30天,OpenAI回答了市場上對其前景的質疑,證明了團隊實力,預示了2026年,擴展定律依然是前沿大模型的競爭的最重要法寶,基礎設施將起到更重要的作用。

      OpenAI首次引入了它自己開發的打工能力的測評基準GDPval,要證明它既會做學霸,也能當牛馬。

      結果5.2成為首個達到或超過人類專家水平的模型。根據人類專家評審的結果,5.2 Thinking 在 GDPval 的知識型任務中,有 70.9% 的項目表現優于頂尖行業專業人士或持平。這些任務包括那些白領打工基本技能,如制作演示文稿、電子表格以及其他活兒。5.2 Thinking 的輸出速度在 GDPval 任務中比專家快 11 倍以上,成本卻不到其 1%。這表明,在有人類監督的情況下,GPT?5.2 能有效輔助專業工作。


      (在 GDPval 測試中,模型嘗試完成定義明確的知識型工作,內容涵蓋美國 GDP 貢獻度最高的 9 個行業中的 44 種職業。任務要求生成真實的工作成果。)

      兩個半月前,OpenAI公布這個測評體系時,GPT-5的得分,不及當時的Claude最高版本Opus 4.1,但是勝過Gemini 2.5和Grok-4。如今,5.2得分幾乎翻倍。


      (來源OpenAI)

      盡管如此,GPT?5.2 Thinking想要在實際工作中替代OpenAI的員工仍然相當遙遠。在最新系統卡(system-card)的AI自我改進(Self-Improvement)能力測評中,GPT?5.2 Thinking并沒有未達到一名表現優秀的中等資歷(mid-career)研究工程師的水平。OpenAI 基于20個曾導致重大項目至少延遲一天的真實研發瓶頸問題,構建了OPQA 測試基準。結果,即使在可訪問歷史代碼、日志和實驗數據的條件下,GPT-5.2 Thinking仍缺乏有效診斷問題根源并提出合理解釋的能力,它做得比GPT-5.1 Codex Max更差一點。不能自主發現、分析、解決新問題,意味著AI距離“自我改進”所需的能力仍有巨大差距。


      (來源OpenAI)

      也就是說,大模型仍然是“高分低能”,干活出活能力,還沒有擺脫最初級的水平。

      但我們也不得不服前沿大模型的學霸級考試水平。ARC-AGI也在第一時間發布了測試結果。5.2的準確率高達 90.5%,每個任務的成本僅為 11.64 美元,一年內效率提升了約 390 倍。回顧過去 12 個月,在 ARC-AGI 測試中,任何超過 85% 的準確率都需要近乎瘋狂的計算資源。早期對 o3-preview 的估算顯示,每個任務的成本在 3000 美元到 3 萬美元之間。基本上,每次想要得到一個答案,你消耗的算力成本相當于一輛汽車。現在GPT-5.2 Pro 登場,取得了 90.5% 的準確率,而價格卻只相當于幾杯咖啡。已經相當接近人類95%的水平了。


      (來源ARC-AGI)

      讓智能體干活,我們正悄無聲息地跨越與人工成本持平的界限,幾乎無人察覺。整個推理的經濟格局正在發生翻天覆地的變化。我們才剛剛開始,接下來會有更快的優化。

      谷歌用TPU-6集群首次訓練出最領先的前沿大模型Gemini-3,動搖了英偉達GPU一統天下的格局。Anthropic與谷歌TPU和亞馬遜Trainium的合作,明年分別都達到了百萬卡級。

      OpenAI與xAI主要依靠英偉達GPU。這次OpenAI還披露,5.2 是其與長期合作伙伴英偉達和微軟共同打造的成果。Azure 數據中心與 英偉達的 H100、H200、GB200-NVL72 等 GPU 構成了 OpenAI 大規模訓練的核心基礎設施,為模型智能帶來了顯著提升。“正是這種合作,使我們能夠更有信心地擴展算力,并更快速地將新模型推向市場。”

      這預示著到了2026年的大模型之爭,也將是一場基礎設施之爭。今年砸下的數千億美元,明年將實現滾滾算力。一代GPU,一代大模型。B200和B300的全面擔當主力,英偉達Rubin CPX預計年底上市,專為長上下文推理和視頻生成應用設計。還有TPU-7、Trainium-3的上市。大模型新一波擴展,值得期待。

      小結一下,5.2對于明年意味著什么:

      1,前沿大模型將會繼續拼擴展定律,也就是拼基礎設施。明年的下一代模型競爭值得期待。在基礎設施門檻顯著提升的情況下,明年中國的DeepSeek-3.x或4用什么基礎設施預訓練?

      2,在這樣的大模型競爭升級態勢下,美國已經放開對中國H200的出口,它用來訓練GPT-5,仍然起到了主力作用。這樣,中國領先的開源模型,在訓練階段是否需要H200?

      3,面向真實工作場景,擴展可驗證性,建立相應測評基準,加快大模型的實際使用,實現其經濟性,智能體完成復雜真實任務,將是明年一個競爭重點;也就是說,AI大模型公司拼ARR,比爭當學霸更重要了。這也是中國快速學習、打分優異的開源模型需要直面的價值變現問題。

      5.2各項能力的得分,最權威和最詳細的,以及它的系統卡,可以看OpenAI官網的公布:

      https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

      https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國乒出征倫敦!新隊服亮相,合影王楚欽讓位,“三大主父”穿旗袍

      國乒出征倫敦!新隊服亮相,合影王楚欽讓位,“三大主父”穿旗袍

      阿鳧愛吐槽
      2026-04-28 03:00:47
      朱琳北京國際電影節上引關注!她沒有離婚,與丈夫做丁克一言難盡

      朱琳北京國際電影節上引關注!她沒有離婚,與丈夫做丁克一言難盡

      街上的行人很刺眼
      2026-04-28 01:08:07
      鯰魚須之后,“水母頭”又在小學生中流行,顏值低的剪了很尷尬

      鯰魚須之后,“水母頭”又在小學生中流行,顏值低的剪了很尷尬

      蝴蝶花雨話教育
      2026-04-19 00:50:03
      內塔尼亞胡剛宣布大捷,轉頭發現家里變天,總理寶座懸了?

      內塔尼亞胡剛宣布大捷,轉頭發現家里變天,總理寶座懸了?

      觸摸史跡
      2026-04-28 04:46:14
      交通部正式官宣!私家車順路帶人合法上路,保險理賠規則全新調整

      交通部正式官宣!私家車順路帶人合法上路,保險理賠規則全新調整

      芳姐侃社會
      2026-04-25 17:07:08
      活久見!網傳河南一千萬富家兒子結婚,女方接受不辦婚禮不給彩禮

      活久見!網傳河南一千萬富家兒子結婚,女方接受不辦婚禮不給彩禮

      火山詩話
      2026-04-22 15:04:24
      人類馬拉松突破2小時,秘訣是啥?教練:每周跑200公里,賽前吃了蜂蜜面包和火腿

      人類馬拉松突破2小時,秘訣是啥?教練:每周跑200公里,賽前吃了蜂蜜面包和火腿

      紅星新聞
      2026-04-27 12:08:33
      美國華人直言:中國手機掃碼支付是最不智能的發明!

      美國華人直言:中國手機掃碼支付是最不智能的發明!

      阿傖說事
      2026-01-20 12:53:01
      夫妻性生活:女人最討厭的5種“床上行為”,男人千萬別犯!

      夫妻性生活:女人最討厭的5種“床上行為”,男人千萬別犯!

      精彩分享快樂
      2025-11-25 00:05:03
      人窮能卑微到什么地步?網友說:一個男人兩千塊買了我三個晚上!

      人窮能卑微到什么地步?網友說:一個男人兩千塊買了我三個晚上!

      黯泉
      2026-04-14 12:13:04
      保時捷新一代卡宴Turbo和Coupé 官方降價76萬

      保時捷新一代卡宴Turbo和Coupé 官方降價76萬

      網上車市
      2026-04-26 01:56:41
      從國米非賣品到熱刺棄將,只用了3年時間,齊達內接班人毀于性格

      從國米非賣品到熱刺棄將,只用了3年時間,齊達內接班人毀于性格

      足籃大世界
      2026-04-27 17:27:12
      第二個伊朗誕生?印尼想在馬六甲海峽收錢,中國海軍用行動回應

      第二個伊朗誕生?印尼想在馬六甲海峽收錢,中國海軍用行動回應

      春深似海水
      2026-04-27 14:58:45
      中東局勢失控!50國對中國做出了明智選擇,特朗普的臉被打得生疼

      中東局勢失控!50國對中國做出了明智選擇,特朗普的臉被打得生疼

      硯底沉香LIU
      2026-04-27 21:18:20
      以色列士兵與定居者用性暴力驅逐巴勒斯坦人

      以色列士兵與定居者用性暴力驅逐巴勒斯坦人

      世間閑事
      2026-04-22 12:35:05
      2:0!射門8:5,英超焦點戰,曼聯半場領先小蜜蜂,歐冠資格穩了

      2:0!射門8:5,英超焦點戰,曼聯半場領先小蜜蜂,歐冠資格穩了

      光輝記
      2026-04-28 04:11:25
      聰明過頭!廣東一男子為兒子備婚房,將房產證落自己名下,引熱議

      聰明過頭!廣東一男子為兒子備婚房,將房產證落自己名下,引熱議

      火山詩話
      2026-04-26 08:58:51
      楊瀚森91秒創季后賽新高:第二次單場0+0+0+0+0 首輪4場仍0分

      楊瀚森91秒創季后賽新高:第二次單場0+0+0+0+0 首輪4場仍0分

      醉臥浮生
      2026-04-27 06:27:08
      打卡大陸軍艦并點贊“祖國強大臺灣安”!臺退役艦長被綠營威脅“法辦”

      打卡大陸軍艦并點贊“祖國強大臺灣安”!臺退役艦長被綠營威脅“法辦”

      海峽導報社
      2026-04-27 00:20:03
      05年廠花未婚先孕被辭,我給她5千塊,她拉住我問敢不敢當孩子爹

      05年廠花未婚先孕被辭,我給她5千塊,她拉住我問敢不敢當孩子爹

      千秋文化
      2026-04-13 19:50:23
      2026-04-28 05:36:49
      未盡研究 incentive-icons
      未盡研究
      新能源、人工智能、合成生物、地緣X
      366文章數 63關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4上線三天,第一批實測出來了

      頭條要聞

      坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

      頭條要聞

      坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

      體育要聞

      人類馬拉松"破二"新紀元,一場跑鞋軍備競賽

      娛樂要聞

      黃楊鈿甜為“耳環風波”出鏡道歉:謠言已澄清

      財經要聞

      Meta 140億收購Manus遭中國發改委否決

      汽車要聞

      不那么小眾也可以 smart的路會越走越寬

      態度原創

      親子
      數碼
      本地
      公開課
      軍事航空

      親子要聞

      警惕!深圳1歲女童小區玩耍后高燒半年,元兇竟是常見的它

      數碼要聞

      6K/3K雙模切換!三星這款顯示器什么水平?

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統文化

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗外長折返伊斯蘭堡內情披露

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文字幕无码A片| 国产免费又黄又爽又色毛| 激情综合网五月婷婷| 久久综合九色综合欧美就去吻| 四虎永久免费高清视频| 色婷婷六月亚洲综合香蕉| 乱人伦人妻中文字幕无码| 欧美激情精品久久久久久| 国产免费无码一区二区三区| 欧美不在线| 灵寿县| 91欧洲在线视精品在亚洲| 无码人妻丝袜| 亚洲国产精品无码久久久| 天堂在线观看av一区二区三区| 日韩高清日韩一区二区三区四区| 中文字幕乱码无码人妻系列蜜桃| 在线v片免费观看视频| 色老头亚洲成人免费影院| 国产熟女精品传媒| 99热在线只有精品| 日本一本免费一二区| 99久久国产宗和精品1上映| 成人视频在线观看18| 精品国产99久久久久久www| 色妺妺视频网| 国模无码免费视频| 岛国中文字幕一区二区| 欧美色综合天天久久综合精品| 国产精欧美一区二区三区| 精品国产成人A区在线观看| 日日操影院| 丰满老熟好大bbb| 亚洲国产日韩欧美一区二区三区| 无码精品a∨在线观看中文| 亚州人妻中文| 国内精品视频一区二区三区| 人妻无码| 成人性能视频在线| 搡老熟女老女人一区二区| 综合AV第一页|