<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      GPT-5.2發(fā)布,真正的牛馬打工人專屬AI來了。

      0
      分享至

      在各種小道消息,各種預(yù)測之后。

      終于,在OpenAI十周年的這一天。



      也就是今天的凌晨2點(diǎn),GPT-5.2終于跟大家見面了。



      這是Gemini 3 Pro爆火,第一次讓OpenAI沒有領(lǐng)先優(yōu)勢(shì),奧特曼在內(nèi)部官宣紅色警戒狀態(tài)之后,他們掏出的第一款模型。

      也是OpenAI的十周年獻(xiàn)禮。

      而這款模型的特點(diǎn)也非常有意思。

      OpenAI的原話是:

      We are introducing GPT?5.2, the most capable model series yet for professional knowledge work.(我們正式發(fā)布 GPT-5.2,這是迄今為止在專業(yè)知識(shí)工作方面能力最強(qiáng)的一代模型系列。)

      專業(yè)知識(shí)工作,記住這個(gè)關(guān)鍵詞,后面要考。

      我們先從各種跑分上看,其實(shí)能看到,一些跑分其實(shí)沒有質(zhì)的飛躍,有一種數(shù)碼廠開始擠牙膏的感覺。。。



      對(duì)比了GPT-5.2、GPT-5.1、Claude Opus 4.5和Gemini 3 Pro。

      在軟件工程(SWE-Bench Pro)、科學(xué)問題(GPQA Diamond)、數(shù)學(xué)競賽(AIME 2025)這些傳統(tǒng)評(píng)測集上。

      GPT-5.2確實(shí)又強(qiáng)了一些,也回到了第一的位置,全面領(lǐng)先。

      在前端審美還有3D元素上,表現(xiàn)的更牛逼了。



      在視覺理解能力上也更強(qiáng)了。

      比如要求模型識(shí)別圖像輸入中的組件,并返回帶有近似邊界框的標(biāo)簽。

      即使在低質(zhì)量的圖像上,GPT-5.2也能識(shí)別主要區(qū)域并放置與每個(gè)組件真實(shí)位置大致匹配的框,而GPT-5.1只標(biāo)注了幾個(gè)部分,對(duì)它們的空間排列理解不是很好。



      但是這些東西,說實(shí)話,確實(shí)也就那樣,大家很難體感上還覺得有多牛逼。

      就像芯片廠子告訴你,我的手機(jī)芯片性能又提升了25%,你聽了以后,哦確實(shí)強(qiáng),但是完全不影響你繼續(xù)刷抖音和小紅書對(duì)吧。

      不過有兩個(gè)評(píng)測集,是我覺得這次GPT-5.2最大的亮點(diǎn),且一定要單拎出來,跟大家單獨(dú)聊一下的。

      一個(gè)是ARC-AGI-2,一個(gè)是GDPval。

      這兩個(gè),非常有意思。



      先說ARC-AGI-2。

      過去的AI評(píng)測,比如MMLU,考的主要是是知識(shí)。

      比如它會(huì)問你“美國第一任總統(tǒng)是誰?”、“光合作用的化學(xué)方程式是什么?”。

      這種評(píng)測呢,坦率的講,對(duì)于一個(gè)讀了半個(gè)互聯(lián)網(wǎng)的AI來說,有點(diǎn)像開卷考試,它有很大概率不是真的推理出來的,而是背出來的。

      這就導(dǎo)致一個(gè)問題,在實(shí)際的評(píng)測中,我們分不清AI是真的聰明,還是只是記性好。

      于是,F(xiàn)ran?ois Chollet,就是那位Keras(一個(gè)著名的機(jī)器學(xué)習(xí)框架)之父,2019年第一次在論文《On the Measure of Intelligence》里,提出了ARC這個(gè)變態(tài)測試。

      而這個(gè)測試,跟知識(shí)儲(chǔ)備一毛錢關(guān)系都沒有。

      全名叫,Abstraction and Reasoning Corpus,抽象與推理語料庫。

      設(shè)計(jì)目標(biāo)就是測模型的通用智能的能力。

      大概就是,不看你在某一道題上有多熟練,而是是看你在沒見過的新題上,能不能自己推理出規(guī)則、舉一反三。

      目前正式版發(fā)展到了第二代,也就是ARC-AGI-2,我給大家放一下,ARC-AGI-2里面的一些典型的題目,大家就懂了。







      這種能力,現(xiàn)在稱為流體智力

      (Fluid Intelligence),意思就是指不依賴于已有的知識(shí),在全新情境下進(jìn)行邏輯推理、識(shí)別模式和解決問題的能力。

      悟性開竅的能力。

      說白了,就是你的

      這玩意兒對(duì)AI來說,難于登天。

      因?yàn)樗诨ヂ?lián)網(wǎng)上找不到任何現(xiàn)成的答案,它必須當(dāng)場理解、當(dāng)場推理

      在很長一段時(shí)間里,頂級(jí)AI的得分都低得可憐。

      在ARC-AGI-2上,之前GPT-5.1的得分是17.6%,而GPT-5.2,直接飆到了52.9%。

      直接翻了三倍。

      這是一個(gè)很恐怖的數(shù)據(jù)。

      GPT-5.2的模型,直接在排行榜上屠榜了。



      而且,效率還很高。



      基本都在同成本區(qū)間,能力做到了最高。

      在真正的智力水平上,GPT-5.2確實(shí)達(dá)到了目前的最優(yōu)。

      這就比較有意思了。

      然后是第二個(gè),也是我自己現(xiàn)在最關(guān)心、也是我認(rèn)為最重要的一個(gè):

      GDPval。

      可能很多人沒聽說過這個(gè)評(píng)測集。

      他是OpenAI自己在2個(gè)半月前新出的。



      其實(shí)你看這個(gè)名字也能看出來一點(diǎn)端倪。

      val,就是生產(chǎn)總值的那個(gè)GDP。

      GDP

      他們要用一個(gè)全新的標(biāo)準(zhǔn),來衡量AI在上的表現(xiàn)。

      真實(shí)世界中、具有經(jīng)濟(jì)價(jià)值的任務(wù)

      過去,我們說一個(gè)模型牛逼,是因?yàn)樗a寫得好,或者知識(shí)答得準(zhǔn),或者考試分?jǐn)?shù)高。

      這當(dāng)然很重要,但就像我常說的,這個(gè)世界不只有程序員和科學(xué)家。

      還有律師、設(shè)計(jì)師、市場經(jīng)理、護(hù)士、建筑師、銷售……

      無數(shù)專業(yè)知識(shí)工作者。

      他們工作的價(jià)值,其實(shí)很難用一張考卷來衡量。

      于是,OpenAI他們?cè)诿绹暙I(xiàn)GDP最高的9個(gè)行業(yè)里,選取了44個(gè)核心職業(yè),然后,他們找到了在這些行業(yè)里平均有14年工作經(jīng)驗(yàn)的資深專家,讓他們出了1320道專業(yè)知識(shí)任務(wù),并且每一項(xiàng),都基于真實(shí)工作成果。



      比如,給律師的任務(wù),可能就是一份真實(shí)的合同草案和客戶需求,讓他去審閱和修改。

      給市場經(jīng)理的任務(wù),可能就是一堆產(chǎn)品資料和市場數(shù)據(jù),讓他寫一份營銷方案PPT。

      給制造工程師的任務(wù),可能就是一張產(chǎn)品設(shè)計(jì)圖,讓他優(yōu)化生產(chǎn)流程。

      這些任務(wù),不僅有文字,還可能包含PDF、Excel表格、圖片、PPT,是高度復(fù)雜的、多模態(tài)的、沒有標(biāo)準(zhǔn)答案的真實(shí)工作。

      整套任務(wù)的平均用時(shí),是人類專家要花 7 個(gè)小時(shí)才能做完,有些甚至是一兩周的活。

      然后,模型和人類的成果,會(huì)被同領(lǐng)域的另一批專家進(jìn)行盲評(píng)。

      他們也不知道誰是AI,誰是人類。

      評(píng)委只需要回答一個(gè)問題:你更愿意把哪份交給客戶?是這份,還是這份?

      結(jié)果,GPT-5.2 Thinking在這套 GDPval 上,贏或打平行業(yè)專家的比例,達(dá)到了70.9%,而GPT-5.2Pro 模型是74.1%。

      注意,這里的參照系不是普通實(shí)習(xí)生,而是行業(yè)專家。

      也就是說,在一個(gè)有著十幾年經(jīng)驗(yàn)的采購經(jīng)理、或者審計(jì)師面前,GPT-5.2干出來的活兒,有七成的時(shí)候,比專家干得好,或者至少一樣好。

      而 GPT-5,只有 38.8%。



      這個(gè)進(jìn)步的速度,還有有一點(diǎn)快的。

      看一下官方放的case的對(duì)比,還是比較直觀的。





      我們過去的模型,都花過于著重的筆墨在編程開發(fā)上了,我并不是說編程開發(fā)不重要,它很重要,很牛逼。

      但,其他的領(lǐng)域的工作,我也覺得應(yīng)該被重視。

      而GDPval,就是我認(rèn)為最重要的一個(gè)指標(biāo)。

      而且這次GPT-5.2,在上下文上,也有大幅的加強(qiáng)。

      用我們以前的大海撈針測試,在一個(gè)256K的巨型文檔里面埋四根針,讓AI來根據(jù)文檔內(nèi)容回答。



      GPT-5.2干到了離譜的100%,這也是我印象中,唯一一個(gè)能干到100%的。

      8根針的正確度會(huì)下降,但是這個(gè)衰減,已經(jīng)比GPT-5.1牛逼太多了。



      而且,還有最新的知識(shí)庫截止日期:



      牛逼的知識(shí)工作處理+最新的知識(shí)庫截止日期+更棒的智力+準(zhǔn)確性超高的上下文。

      這簡直,就是真正的天選牛馬搭子,對(duì)打工人的加持,實(shí)在是太強(qiáng)了。

      這是真正,奔著大眾、奔著實(shí)用去的。

      目前今天會(huì)開放給ChatGPT付費(fèi)會(huì)員,明天會(huì)開放給免費(fèi)會(huì)員,會(huì)直接替代GPT-5.1,但是如果你是付費(fèi)會(huì)員的話,還會(huì)在老模型中存續(xù)3個(gè)月。

      就是這。



      可惜截止到我發(fā)文的凌晨6點(diǎn)這一刻,作為尊貴的200刀的ChatGPT Pro會(huì)員,我還是沒有拿到GPT-5.2的體驗(yàn)資格。



      一些所謂的ChatGPT上的為GPT-5.2專用的文件精修,也只能等拿到實(shí)測以后,再出一篇GPT-5.2的打工合集了。

      然后開發(fā)者的話,已經(jīng)可以通過API調(diào)用。



      價(jià)格上,會(huì)比5.1貴一些。



      整體上,GPT-5.2的所有消息差不多就這樣了。

      而我自己一直期待的,成人模式。

      還是沒有到來。

      奧特曼自己這個(gè)龜兒子說的是12月上線。



      也不知道能不能等到。

      反正他說,下周還會(huì)再送一些小的圣誕禮物。



      盲猜一手OpenAI家的生圖模型,或者成人模式。

      對(duì)于一個(gè)創(chuàng)作者來說,這兩玩意,真的很需要。。。

      最后總結(jié),GPT-5.2在我心中,是一個(gè)合格的迭代,并沒有跟很多模型一樣,專注于純粹的傳統(tǒng)刷分,而是聚焦在了廣大白領(lǐng)打工人身上,幫大家解決實(shí)際工作中的問題。

      這個(gè)點(diǎn),我覺得就很酷,非常的剛需。

      但是從路線上來說,感覺GPT-5.2還是被原生多模態(tài)的Gemini 3 Pro壓了一頭,12月大概率還是要發(fā)個(gè)生圖模型出來的,不知道對(duì)標(biāo)Banana,會(huì)不會(huì)有新的驚喜。

      總之,還是保持期待。

      反正每一個(gè)新模型的發(fā)布,只要是我覺得有意思的。

      也一定會(huì)熬夜給大家?guī)淼谝粫r(shí)間的解讀。

      我們以后。

      還是,不見不散~

      晚安。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      華為新機(jī)突然官宣:12月21日,全面官降!

      華為新機(jī)突然官宣:12月21日,全面官降!

      科技堡壘
      2025-12-21 11:28:59
      剛說淘汰中國激光雷達(dá),最后希望的 Luminar 就破產(chǎn)了?

      剛說淘汰中國激光雷達(dá),最后希望的 Luminar 就破產(chǎn)了?

      差評(píng)XPIN
      2025-12-21 00:10:40
      如今回頭來看,他在執(zhí)政的28年,放在任何時(shí)代都堪稱曠世奇跡。

      如今回頭來看,他在執(zhí)政的28年,放在任何時(shí)代都堪稱曠世奇跡。

      鶴羽說個(gè)事
      2025-12-20 11:26:15
      深圳“日入過萬”烤雞少年塌房了!獨(dú)家配方居然是用了“肉寶王”

      深圳“日入過萬”烤雞少年塌房了!獨(dú)家配方居然是用了“肉寶王”

      火山詩話
      2025-12-20 10:25:37
      看誰還敢動(dòng)臺(tái)灣?當(dāng)著全世界的面,中國曾掀了美日韓的桌子!

      看誰還敢動(dòng)臺(tái)灣?當(dāng)著全世界的面,中國曾掀了美日韓的桌子!

      boss外傳
      2025-12-21 00:00:05
      郭艾倫賽季首次缺席!廣州送江蘇4連敗 徐昕27+14+4帽大爆發(fā)

      郭艾倫賽季首次缺席!廣州送江蘇4連敗 徐昕27+14+4帽大爆發(fā)

      醉臥浮生
      2025-12-21 21:32:25
      南博事件徹底升級(jí)!龐叔令港媒開火,直指徐湖平“涉嫌犯罪”

      南博事件徹底升級(jí)!龐叔令港媒開火,直指徐湖平“涉嫌犯罪”

      奇思妙想草葉君
      2025-12-21 23:10:43
      優(yōu)質(zhì)“蛋白質(zhì)”排行榜!牛奶倒數(shù)第一,蝦肉才排第5,建議了解

      優(yōu)質(zhì)“蛋白質(zhì)”排行榜!牛奶倒數(shù)第一,蝦肉才排第5,建議了解

      岐黃傳人孫大夫
      2025-12-20 10:00:03
      風(fēng)流成性、揮霍無度,37歲“紙醉金迷”的王思聰,再次傳出大丑聞

      風(fēng)流成性、揮霍無度,37歲“紙醉金迷”的王思聰,再次傳出大丑聞

      寒士之言本尊
      2025-12-21 14:39:58
      南京博物院的事,炸出了一個(gè)去年的視頻

      南京博物院的事,炸出了一個(gè)去年的視頻

      麥杰遜
      2025-12-21 12:17:15
      騎車下班路被堵 成都“較真哥”9天舉報(bào)92次違停

      騎車下班路被堵 成都“較真哥”9天舉報(bào)92次違停

      封面新聞
      2025-12-19 16:09:10
      臉都不要了,但還是低估了他們的無恥

      臉都不要了,但還是低估了他們的無恥

      胖胖說他不胖
      2025-12-21 11:00:20
      對(duì)華合約全部撕毀!中國又一伙伴背后捅刀,騙走20億倒向美國

      對(duì)華合約全部撕毀!中國又一伙伴背后捅刀,騙走20億倒向美國

      離離言幾許
      2025-12-20 19:56:40
      西甲奪冠最大熱門誕生:8輪全勝,46分領(lǐng)跑,前2相差4分

      西甲奪冠最大熱門誕生:8輪全勝,46分領(lǐng)跑,前2相差4分

      足球狗說
      2025-12-22 01:16:19
      官宣!廣東史上最長高鐵,明天正式通車...

      官宣!廣東史上最長高鐵,明天正式通車...

      深圳好玩
      2025-12-21 10:11:51
      2026央視跨年晚會(huì)陣容曝光,網(wǎng)友:看完明星名單,廁所都不敢上了

      2026央視跨年晚會(huì)陣容曝光,網(wǎng)友:看完明星名單,廁所都不敢上了

      銀河史記
      2025-12-19 12:16:50
      周末打虎!江西省政協(xié)副主席尹建業(yè)任上落馬,長期在云南任職

      周末打虎!江西省政協(xié)副主席尹建業(yè)任上落馬,長期在云南任職

      界面新聞
      2025-12-21 16:53:19
      300萬人連夜注銷攜程!平臺(tái)推柬埔寨旅游惹眾怒,至今未道歉

      300萬人連夜注銷攜程!平臺(tái)推柬埔寨旅游惹眾怒,至今未道歉

      胡嚴(yán)亂語
      2025-12-21 14:49:26
      王炸開局!新機(jī)官宣:1月1日,正式發(fā)售上市!

      王炸開局!新機(jī)官宣:1月1日,正式發(fā)售上市!

      科技堡壘
      2025-12-21 11:33:39
      你見過最主動(dòng)的女人是啥樣?網(wǎng)友:不要主動(dòng),主動(dòng)了,他就不理了

      你見過最主動(dòng)的女人是啥樣?網(wǎng)友:不要主動(dòng),主動(dòng)了,他就不理了

      帶你感受人間冷暖
      2025-12-20 00:20:10
      2025-12-22 02:04:49
      數(shù)字生命卡茲克 incentive-icons
      數(shù)字生命卡茲克
      反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
      424文章數(shù) 489關(guān)注度
      往期回顧 全部

      科技要聞

      生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個(gè)應(yīng)用

      頭條要聞

      必勝客牛排口感奇怪遭質(zhì)疑"到底用的什么肉" 官方介入

      頭條要聞

      必勝客牛排口感奇怪遭質(zhì)疑"到底用的什么肉" 官方介入

      體育要聞

      勇士火箭贏球:王牌之外的答案?

      娛樂要聞

      星光大賞太尷尬!搶話擋鏡頭,場地還小

      財(cái)經(jīng)要聞

      老房子“強(qiáng)制體檢”,政府出手了

      汽車要聞

      -30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

      態(tài)度原創(chuàng)

      教育
      游戲
      家居
      本地
      數(shù)碼

      教育要聞

      高考地理中的球狀風(fēng)化

      誰說游戲里只能打怪?這游戲讓你做鬼差推因果,善惡全由你定

      家居要聞

      高端私宅 理想隱居圣地

      本地新聞

      云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

      數(shù)碼要聞

      OPPO Watch X3智能手表入網(wǎng),預(yù)計(jì)和OPPO Find N6一起發(fā)布

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久久久亚洲AV成人无码电影| 日本视频一两二两三区| 人妻色综合| 国产VA| 久久精品国产99国产精品导航| 男人亚洲天堂| 伊人久久无码中文字幕| 91资源总站| 国产+亚洲+制服| 国产精品va在线观看无码| 日韩av裸体在线播放| 国产在线视频www色| 国产一二三| 激情内射亚洲一区二区三区| 极品偷拍网| 中文字幕人成无码免费视频| 性欧美老人牲交xxxxx视频| 99中文在线精品 | 国产九九在线视频| 欧美性极品| 国产全是老熟女太爽了| 本溪| 亚洲性爱AV| 国产真实露脸乱子伦| 国产足交| 亚洲爽图| 欧美人与动人物牲交免费观看久久 | 亚洲日韩中文字幕在线播放| 亚洲女初尝黑人巨| 精品a片| 在线高清理伦片a| 国产精品久久久久av福利动漫| 91视频你懂的| 亚洲AV自拍| 国产精品久久久一区二区三区 | 国模一区二区三区白浆| 亚洲区精品区日韩区综合区| 欧美肥妇多毛bbw| 伊人久久大香线蕉综合影院首页| 女同AV在线| 亚洲不卡av不卡一区二区|