<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.2,對Gemini-3反手一掌,2026做牛馬比當學霸重要

      0
      分享至

      你方唱罷我登場,各領風騷十幾天。

      GPT-5.2出來了,它實現了對Gemini-3和Claude-4.5的部分反超,在多個實用領域都更強了:做表格、弄PPT、寫代碼、理解長文檔、調用工具、處理復雜多步驟項目……視覺理解能力也大幅提升,能辨別出板卡上的螺絲釘。


      (來源OpenAI)

      從5.1到5.2,僅用了30天,OpenAI回答了市場上對其前景的質疑,證明了團隊實力,預示了2026年,擴展定律依然是前沿大模型的競爭的最重要法寶,基礎設施將起到更重要的作用。

      OpenAI首次引入了它自己開發的打工能力的測評基準GDPval,要證明它既會做學霸,也能當牛馬。

      結果5.2成為首個達到或超過人類專家水平的模型。根據人類專家評審的結果,5.2 Thinking 在 GDPval 的知識型任務中,有 70.9% 的項目表現優于頂尖行業專業人士或持平。這些任務包括那些白領打工基本技能,如制作演示文稿、電子表格以及其他活兒。5.2 Thinking 的輸出速度在 GDPval 任務中比專家快 11 倍以上,成本卻不到其 1%。這表明,在有人類監督的情況下,GPT?5.2 能有效輔助專業工作。


      (在 GDPval 測試中,模型嘗試完成定義明確的知識型工作,內容涵蓋美國 GDP 貢獻度最高的 9 個行業中的 44 種職業。任務要求生成真實的工作成果。)

      兩個半月前,OpenAI公布這個測評體系時,GPT-5的得分,不及當時的Claude最高版本Opus 4.1,但是勝過Gemini 2.5和Grok-4。如今,5.2得分幾乎翻倍。


      (來源OpenAI)

      盡管如此,GPT?5.2 Thinking想要在實際工作中替代OpenAI的員工仍然相當遙遠。在最新系統卡(system-card)的AI自我改進(Self-Improvement)能力測評中,GPT?5.2 Thinking并沒有未達到一名表現優秀的中等資歷(mid-career)研究工程師的水平。OpenAI 基于20個曾導致重大項目至少延遲一天的真實研發瓶頸問題,構建了OPQA 測試基準。結果,即使在可訪問歷史代碼、日志和實驗數據的條件下,GPT-5.2 Thinking仍缺乏有效診斷問題根源并提出合理解釋的能力,它做得比GPT-5.1 Codex Max更差一點。不能自主發現、分析、解決新問題,意味著AI距離“自我改進”所需的能力仍有巨大差距。


      (來源OpenAI)

      也就是說,大模型仍然是“高分低能”,干活出活能力,還沒有擺脫最初級的水平。

      但我們也不得不服前沿大模型的學霸級考試水平。ARC-AGI也在第一時間發布了測試結果。5.2的準確率高達 90.5%,每個任務的成本僅為 11.64 美元,一年內效率提升了約 390 倍。回顧過去 12 個月,在 ARC-AGI 測試中,任何超過 85% 的準確率都需要近乎瘋狂的計算資源。早期對 o3-preview 的估算顯示,每個任務的成本在 3000 美元到 3 萬美元之間。基本上,每次想要得到一個答案,你消耗的算力成本相當于一輛汽車?,F在GPT-5.2 Pro 登場,取得了 90.5% 的準確率,而價格卻只相當于幾杯咖啡。已經相當接近人類95%的水平了。


      (來源ARC-AGI)

      讓智能體干活,我們正悄無聲息地跨越與人工成本持平的界限,幾乎無人察覺。整個推理的經濟格局正在發生翻天覆地的變化。我們才剛剛開始,接下來會有更快的優化。

      谷歌用TPU-6集群首次訓練出最領先的前沿大模型Gemini-3,動搖了英偉達GPU一統天下的格局。Anthropic與谷歌TPU和亞馬遜Trainium的合作,明年分別都達到了百萬卡級。

      OpenAI與xAI主要依靠英偉達GPU。這次OpenAI還披露,5.2 是其與長期合作伙伴英偉達和微軟共同打造的成果。Azure 數據中心與 英偉達的 H100、H200、GB200-NVL72 等 GPU 構成了 OpenAI 大規模訓練的核心基礎設施,為模型智能帶來了顯著提升?!罢沁@種合作,使我們能夠更有信心地擴展算力,并更快速地將新模型推向市場。”

      這預示著到了2026年的大模型之爭,也將是一場基礎設施之爭。今年砸下的數千億美元,明年將實現滾滾算力。一代GPU,一代大模型。B200和B300的全面擔當主力,英偉達Rubin CPX預計年底上市,專為長上下文推理和視頻生成應用設計。還有TPU-7、Trainium-3的上市。大模型新一波擴展,值得期待。

      小結一下,5.2對于明年意味著什么:

      1,前沿大模型將會繼續拼擴展定律,也就是拼基礎設施。明年的下一代模型競爭值得期待。在基礎設施門檻顯著提升的情況下,明年中國的DeepSeek-3.x或4用什么基礎設施預訓練?

      2,在這樣的大模型競爭升級態勢下,美國已經放開對中國H200的出口,它用來訓練GPT-5,仍然起到了主力作用。這樣,中國領先的開源模型,在訓練階段是否需要H200?

      3,面向真實工作場景,擴展可驗證性,建立相應測評基準,加快大模型的實際使用,實現其經濟性,智能體完成復雜真實任務,將是明年一個競爭重點;也就是說,AI大模型公司拼ARR,比爭當學霸更重要了。這也是中國快速學習、打分優異的開源模型需要直面的價值變現問題。

      5.2各項能力的得分,最權威和最詳細的,以及它的系統卡,可以看OpenAI官網的公布:

      https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

      https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      1月25日周日:13家公司發重大利好,8公司集體暴增翻倍 最高超300%

      1月25日周日:13家公司發重大利好,8公司集體暴增翻倍 最高超300%

      股市皆大事
      2026-01-25 08:19:27
      向中國要1250億,中方拒絕西方急了,COP30上我們沒義務當冤大頭

      向中國要1250億,中方拒絕西方急了,COP30上我們沒義務當冤大頭

      愛吃醋的貓咪
      2026-01-03 20:24:16
      俄羅斯沒想到,美國更沒想到,中國幾乎所有“關鍵”技術遙遙領先

      俄羅斯沒想到,美國更沒想到,中國幾乎所有“關鍵”技術遙遙領先

      流史歲月
      2026-01-18 17:20:06
      陳建斌曝李亞鵬大學宿舍趣事!30年前的頂流李亞鵬,曾是盛世美顏

      陳建斌曝李亞鵬大學宿舍趣事!30年前的頂流李亞鵬,曾是盛世美顏

      露珠聊影視
      2026-01-25 12:32:00
      2噸原材料煉出191克黃金!對話當代“煉金客”:只能賺到10克金,普通人沒有資質根本做不了

      2噸原材料煉出191克黃金!對話當代“煉金客”:只能賺到10克金,普通人沒有資質根本做不了

      每日經濟新聞
      2026-01-25 15:11:08
      開始清算!逃英兩年的許家印前妻,迎兩大噩耗,兒子也徹底被牽連

      開始清算!逃英兩年的許家印前妻,迎兩大噩耗,兒子也徹底被牽連

      阿芒娛樂說
      2026-01-25 10:13:17
      壞消息,猛龍隊中鋒珀爾特爾的“持續背傷”仍未見好轉跡象

      壞消息,猛龍隊中鋒珀爾特爾的“持續背傷”仍未見好轉跡象

      好火子
      2026-01-26 01:05:12
      李瑋鋒談王鈺棟:球迷都在捧殺他,日本后衛都扛不住能去德甲和英超踢?

      李瑋鋒談王鈺棟:球迷都在捧殺他,日本后衛都扛不住能去德甲和英超踢?

      懂球帝
      2026-01-26 00:09:46
      大跳水!暴跌40%,又土又貴還開遍機場,中產的標配,賣不動了

      大跳水!暴跌40%,又土又貴還開遍機場,中產的標配,賣不動了

      毒sir財經
      2025-11-16 23:08:08
      英超三隊全取三分:切爾西進歐冠區,維拉追平曼城

      英超三隊全取三分:切爾西進歐冠區,維拉追平曼城

      格斗聯盟有話說
      2026-01-26 00:50:04
      婚姻里的“哄”,是最高級的浪漫

      婚姻里的“哄”,是最高級的浪漫

      青蘋果sht
      2025-12-27 05:12:18
      廣州一出租車司機機場排隊時提前1小時開始計費,收取乘客車費267元,被立案查處

      廣州一出租車司機機場排隊時提前1小時開始計費,收取乘客車費267元,被立案查處

      極目新聞
      2026-01-24 21:00:48
      口碑反轉!王菲沒想到,負債累累的李亞鵬,如今卻讓自己“難堪”

      口碑反轉!王菲沒想到,負債累累的李亞鵬,如今卻讓自己“難堪”

      白面書誏
      2026-01-19 17:22:22
      韓國人知道自己是個小國家嗎?網友:小小的韓國包含了整個宇宙

      韓國人知道自己是個小國家嗎?網友:小小的韓國包含了整個宇宙

      帶你感受人間冷暖
      2026-01-26 00:15:05
      李賽鳳趁丈夫出差,和體格壯碩的干兒子發生了親密接觸

      李賽鳳趁丈夫出差,和體格壯碩的干兒子發生了親密接觸

      西樓知趣雜談
      2026-01-20 17:11:19
      “一坐高鐵就犯困”?12306回應車廂二氧化碳濃度超標

      “一坐高鐵就犯困”?12306回應車廂二氧化碳濃度超標

      中國日報
      2026-01-24 16:19:19
      毛主席在電視前看莊則棟打球,突然大喊:我的小祖宗,快拿下來吧

      毛主席在電視前看莊則棟打球,突然大喊:我的小祖宗,快拿下來吧

      蔣南強讀歷史
      2026-01-13 06:00:03
      炸裂!利物浦 1 億歐死磕皇馬巨星,熱刺雙線截胡太狠了

      炸裂!利物浦 1 億歐死磕皇馬巨星,熱刺雙線截胡太狠了

      瀾歸序
      2026-01-25 05:20:06
      印度與歐盟達成協議 將汽車進口關稅從最高110%下調至40%

      印度與歐盟達成協議 將汽車進口關稅從最高110%下調至40%

      財聯社
      2026-01-25 20:42:06
      羅云峰已赴安徽省政協任職

      羅云峰已赴安徽省政協任職

      鳳凰網安徽
      2026-01-25 10:14:50
      2026-01-26 01:43:00
      未盡研究 incentive-icons
      未盡研究
      新能源、人工智能、合成生物、地緣X
      292文章數 61關注度
      往期回顧 全部

      科技要聞

      黃仁勛在上海逛菜市場,可能惦記著三件事

      頭條要聞

      男孩打碎電視屏為"還債"在小區創業 不到2個月賺了6千

      頭條要聞

      男孩打碎電視屏為"還債"在小區創業 不到2個月賺了6千

      體育要聞

      中國足球不會一夜變強,但他們已經創造歷史

      娛樂要聞

      央八開播 楊紫胡歌主演的40集大劇來了

      財經要聞

      隋廣義等80人被公訴 千億騙局進入末路

      汽車要聞

      別克至境E7內飾圖曝光 新車將于一季度正式發布

      態度原創

      旅游
      教育
      游戲
      本地
      公開課

      旅游要聞

      鋼城“后花園”開出振興之花,看聚源橋村如何玩轉“三村聯動”

      教育要聞

      孩子為何愛電子游戲

      LCK春季賽:道心沒有破碎,KT找回狀態,三局戰勝BRO

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 沁阳市| 东阿县| 北条麻妃一区二区三区av高清| jizz日本版| 欧美亚洲另类国产很色婷婷| 毛片免费观看天天干天天爽| 美女丝袜诱惑一区二区三区| 日本中文字幕在线| 沙湾县| 2021最新国产精品网站| 国产黄色影院| 成人网亚洲| 成人免费A级毛片无码网站入口| 国产精品一区二区av不卡| WWW.四虎成人影院.CN| 亚洲av永久无码精品一百度影院| 日本丰满白嫩大屁股ass| 国精产品一区一区三区有限公司杨 | 久久久久久国产精品美女| 巴青县| 无码人妻久久久一区二区三区| 99r久久| 亚洲最大国产成人综合网站| 老湿机69午夜福利区| 亚洲欧洲另类| 海角社区91熟女丝袜脚国产| 亚洲人成网站在线播放2019| 国产成人剧情AV麻豆果冻| 亚洲综合区小说区激情区| 国产一区二区视频啪啪视频 | 大胸少妇午夜三级| 91资源总站| 天天做天天爱夜夜爽毛片| 国产黑丝袜在线观看视频| 综合久久亚洲| 中文无码人妻少妇| AV天堂色| 2020国产欧洲精品网站| 喂奶人妻被中出中文字幕| 国产99在线 | 免费| 人妻 日韩 欧美 综合 制服|