<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      OpenAI 最強(qiáng)推理模型 o3 發(fā)布,AGI 測試能力暴漲,它有多強(qiáng)大?會對哪些領(lǐng)域帶來影響?

      0
      分享至

      12天的直播,最后一天放出來的東西大家都知道是個大招,挺多人猜GPT5的,因?yàn)樽詈髩狠S的大概率是大模型本身。

      因?yàn)樯壌竽P停貏e是對于OpenAI這種標(biāo)桿公司,每一次的模型升級,基本上都代表了AI大模型領(lǐng)域的某種風(fēng)向。

      這次壓軸大菜上的是o3模型,包括我在內(nèi)的很多人都很疑惑,o1之后為什么不是o2,而是o3。

      OpenAI的CEO山姆奧特曼特意解釋了原因,就是他們公司非常不擅長起名字,然后o1之后就直接o3了。(可能這就是任性吧)


      其實(shí)OpenAI的o系列模型,最大的特點(diǎn)就是擅長推理。比如說編程中涉及到了推理,數(shù)學(xué)也需要,物理化學(xué)這樣的理科學(xué)科也需要大量的推理,而o系列在這樣的任務(wù)中表現(xiàn)的尤其突出。

      新的o3模型在推理上更進(jìn)一步,在Software Engineering和Codeforeces這倆測試上分?jǐn)?shù)相比它的上一代,o1模型提升很大。


      第一個測試集的分?jǐn)?shù)從48.9提升到了71.7,第二個從1891到2727,提升幅度很大。

      然后在數(shù)學(xué)上也有了提升,在AIME這個測試集上o1就已經(jīng)達(dá)到了83.3,o3直接把準(zhǔn)確率提升到了96.7,幾乎相同于一套數(shù)學(xué)卷子只錯一個的程度。


      然后下一個測試集叫GPQA,它是一個博士生級別的問題測試集,如果要某個學(xué)科的博士來答題,一般能拿到70分左右。

      o1模型可以做到78分左右,o3直接把分?jǐn)?shù)拉到87.7,遠(yuǎn)超人類選手的程度。


      除了這幾個很常見的測試集,甚至引入了一個不太常見的測試集ARC AGI,它的全稱是Abstraction and Reasoning Corpus for Artificial General Intelligence ,專門設(shè)計(jì)出來測試AI。


      這個相比大多數(shù)測試用的數(shù)據(jù)集都要難,其中的題目大多是這種推理問題,下面是一個簡單的例子,憑借直覺就能答得上來。


      但是有些題目難度很高,比如下面這個。


      黃色塊中有幾個其他色塊,新圖像外面就有幾層相同色塊。

      你可以看到GPT4o只有9%的分?jǐn)?shù),但是o1直接翻了兩倍多到了21%,o3的分?jǐn)?shù)遠(yuǎn)超第二名的60%,達(dá)到了82.8%。


      你可以看ARC AGI主席公開的數(shù)據(jù),o系列模型性能提升太線性了,甚至有點(diǎn)兒過于線性。


      o3模型有幾個形態(tài),除了o3,還有o3 mini,應(yīng)該是蒸餾出來的小模型,mini版本也分為三種類型,分類的標(biāo)準(zhǔn)是推理消耗的計(jì)算資源。

      分為low,medium以及high三種,滿足計(jì)算資源給的越多,性能越好的定理。


      直播中測試了o3 mini low模式,用它做198道題,速度極快,只用了45秒,準(zhǔn)確率61.62%,估計(jì)用high模式或者o3滿血版,可能分?jǐn)?shù)會提升非常大。


      最后,OpenAI提到了他們對于安全性的升級,總的來說,就是讓模型可以在這兩個維度上達(dá)到了很優(yōu)化的平衡。

      它們用下面兩個維度做了評估:

      ?拒絕惡意提示(jailbreaks):測試模型是否能拒絕回答惡意請求,如繞過政策或生成有害內(nèi)容。

      ?避免過度拒絕(overrefusal):檢查模型在處理無害請求時是否會過于保守而拒絕回答。


      o1 模型(深綠色星形)在拒絕惡意提示方面表現(xiàn)突出,同時對無害提示也更寬容,達(dá)到安全性和靈活性的平衡。


      GPT-4o 表現(xiàn)較好,但相較于 o1 模型,在靈活性或安全性之間略顯妥協(xié)。Claude 3.5 和 Gemini 1.5 模型分別在某些方面表現(xiàn)突出,但無法同時兼顧兩方面優(yōu)化。

      這一切的原因都來自于安全方面的考慮:

      ·大型語言模型容易受到對抗性攻擊(例如越獄攻擊、濫用內(nèi)容等)的威脅,同時可能過于保守,對無害請求拒絕回答。

      ·主要挑戰(zhàn):

      a.如何防止模型生成有害內(nèi)容?

      b.如何避免對無害輸入的過度拒絕?

      現(xiàn)有方法的缺陷

      ·傳統(tǒng)方法依賴于“強(qiáng)化學(xué)習(xí)獎勵優(yōu)化”(RLHF)和“對抗性訓(xùn)練”(Adversarial Training),但這些方法存在以下問題:

      a.過度依賴人工標(biāo)注,訓(xùn)練成本高,且難以擴(kuò)展。

      b.泛化能力較差,在處理分布外輸入(out-of-distribution)時表現(xiàn)不穩(wěn)定。

      新方法 - 深思熟慮的對齊 (Deliberative Alignment):

      ·提出了一個新型訓(xùn)練框架,結(jié)合了過程監(jiān)督和結(jié)果監(jiān)督,以改進(jìn)模型的安全性和泛化能力。

      ·自動生成訓(xùn)練數(shù)據(jù),減少人工依賴,提升對惡意提示的抵抗能力,同時減少對無害請求的過度拒絕。

      下面的圖片詳細(xì)的介紹了幾個不同模型訓(xùn)練和推理的邏輯,o3采用的方法更多的利用了COT以及包含了大量的推理。


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      馬面女孩吳小燕:毛巾蒙面13年,手術(shù)取出2公斤異物后過得怎樣了

      馬面女孩吳小燕:毛巾蒙面13年,手術(shù)取出2公斤異物后過得怎樣了

      小熊侃史
      2025-12-25 11:27:42
      又一個保利尼奧!俄媒:中超有望150萬歐買斷智利國腳后腰!

      又一個保利尼奧!俄媒:中超有望150萬歐買斷智利國腳后腰!

      邱澤云
      2025-12-27 18:50:12
      洪都拉斯新總統(tǒng)上任第一件事,或?qū)⑴c中國斷交?中方回應(yīng)暗藏鋒芒

      洪都拉斯新總統(tǒng)上任第一件事,或?qū)⑴c中國斷交?中方回應(yīng)暗藏鋒芒

      文史旺旺旺
      2025-12-26 19:56:13
      如果人類是宇宙的唯一文明,人類存在的意義是什么?

      如果人類是宇宙的唯一文明,人類存在的意義是什么?

      宇宙時空
      2025-12-26 19:39:40
      50歲佘詩曼私生活曝光:未婚,身價(jià)過億,獨(dú)居客廳僅10㎡小破宅,只想當(dāng)個富婆

      50歲佘詩曼私生活曝光:未婚,身價(jià)過億,獨(dú)居客廳僅10㎡小破宅,只想當(dāng)個富婆

      黎兜兜
      2025-12-25 21:56:18
      男子得知暗戀多年女生離婚了,見面后想擁抱被拒,網(wǎng)友:放棄吧

      男子得知暗戀多年女生離婚了,見面后想擁抱被拒,網(wǎng)友:放棄吧

      唐小糖說情感
      2025-12-25 15:57:21
      為什么龐家敢硬剛南京博物館,龐家的底蘊(yùn)你想不到

      為什么龐家敢硬剛南京博物館,龐家的底蘊(yùn)你想不到

      鶴羽說個事
      2025-12-25 11:39:22
      突發(fā)訃告!福建省書法家協(xié)會顧問吳乃光在福州去世

      突發(fā)訃告!福建省書法家協(xié)會顧問吳乃光在福州去世

      環(huán)球網(wǎng)資訊
      2025-12-27 15:21:06
      廣州人挺住!又濕又冷模式開啟,明天最低溫要破10℃

      廣州人挺住!又濕又冷模式開啟,明天最低溫要破10℃

      傲傲講歷史
      2025-12-27 09:55:18
      洪秀柱最新表態(tài)!美軍火還未抵臺,大陸告知臺當(dāng)局,祖國必將統(tǒng)一

      洪秀柱最新表態(tài)!美軍火還未抵臺,大陸告知臺當(dāng)局,祖國必將統(tǒng)一

      貓女的小樹屋
      2025-12-26 18:35:09
      廣州天河最新提醒:非必要勿駕車前往

      廣州天河最新提醒:非必要勿駕車前往

      羊城攻略
      2025-12-27 23:37:28
      自23/24賽季9連勝收官以來,曼城首次取得單賽季英超6連勝

      自23/24賽季9連勝收官以來,曼城首次取得單賽季英超6連勝

      懂球帝
      2025-12-27 23:10:09
      震驚!網(wǎng)傳廣東某醫(yī)院因業(yè)績下滑,全員工資6折發(fā),不低于2450元

      震驚!網(wǎng)傳廣東某醫(yī)院因業(yè)績下滑,全員工資6折發(fā),不低于2450元

      火山詩話
      2025-12-25 18:04:47
      全軍覆沒!網(wǎng)貸公司盯上印度市場,結(jié)果反被三哥收割得體無完膚!

      全軍覆沒!網(wǎng)貸公司盯上印度市場,結(jié)果反被三哥收割得體無完膚!

      青青子衿
      2025-12-26 04:42:30
      成功了!彈劾提案通過,賴清德或?qū)⑾屡_,兩岸統(tǒng)一最佳窗口出現(xiàn)?

      成功了!彈劾提案通過,賴清德或?qū)⑾屡_,兩岸統(tǒng)一最佳窗口出現(xiàn)?

      博覽歷史
      2025-12-26 19:07:23
      比特幣一度“閃崩”超70%至24111美元!趙長鵬發(fā)文回應(yīng)

      比特幣一度“閃崩”超70%至24111美元!趙長鵬發(fā)文回應(yīng)

      格隆匯
      2025-12-27 19:37:06
      拜鬼行程被取消?中俄朝韓四國壓力下,高市躲在首相官邸不敢現(xiàn)身

      拜鬼行程被取消?中俄朝韓四國壓力下,高市躲在首相官邸不敢現(xiàn)身

      石江月
      2025-12-26 17:46:05
      心理學(xué)家:極度自私的人,往往不是斤斤計(jì)較,而是有著這3個特征

      心理學(xué)家:極度自私的人,往往不是斤斤計(jì)較,而是有著這3個特征

      木言觀
      2025-12-27 18:01:28
      19歲女主播揭露團(tuán)播內(nèi)幕:上播擦邊,下播找大哥“做作業(yè)”,陪酒女轉(zhuǎn)行成“榜樣”

      19歲女主播揭露團(tuán)播內(nèi)幕:上播擦邊,下播找大哥“做作業(yè)”,陪酒女轉(zhuǎn)行成“榜樣”

      大風(fēng)新聞
      2025-12-27 16:46:04
      新能源車高速上電量耗盡,2人下車推行被撞身亡,先后經(jīng)過兩個服務(wù)區(qū),乘客多次提醒充電,駕駛員都不理會

      新能源車高速上電量耗盡,2人下車推行被撞身亡,先后經(jīng)過兩個服務(wù)區(qū),乘客多次提醒充電,駕駛員都不理會

      大風(fēng)新聞
      2025-12-27 17:28:04
      2025-12-28 00:04:49
      平凡AI incentive-icons
      平凡AI
      高校AI從業(yè)者
      54文章數(shù) 23關(guān)注度
      往期回顧 全部

      科技要聞

      小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

      頭條要聞

      美媒:特朗普顯然觸及了中國的紅線 中方怒了

      頭條要聞

      美媒:特朗普顯然觸及了中國的紅線 中方怒了

      體育要聞

      83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

      娛樂要聞

      張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

      財(cái)經(jīng)要聞

      注意,開始拉物價(jià)了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態(tài)度原創(chuàng)

      手機(jī)
      本地
      藝術(shù)
      游戲
      公開課

      手機(jī)要聞

      榮耀第二款“萬級”電池曝光,下月發(fā)

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬年史書

      藝術(shù)要聞

      震撼!Tamara Dean的水中人像攝影,油畫般的絕美畫面!

      我真幸運(yùn):《泰拉瑞亞》1.4.5更新定檔1月份!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产色AV| 国精产品999国精产| 日本真人做爰免费的视频| 欧美视频免费一区二区三区| 精品久久一区| 国产AV中文字幕| 类乌齐县| 国产一級A片免费看| 國產尤物AV尤物在線觀看| 国自产偷精品不卡在线| 99re66| 又黄又爽又色的少妇毛片| 国产亚洲精品2021自在线| 欧美三级在线播放| 91av天堂| 91精彩视频在线观看| 人妻日韩精品中文字幕| 青青草原国产精品啪啪视频| 成在线人永久免费视频播放| 少妇无码太爽了在线播放| 平乐县| 美女一区二区三区亚洲麻豆| 免费99视频| 顺平县| 熟妇无码熟妇毛片| 亚洲红杏AV无码专区首页| 色噜噜狠狠色综合日日| 粗了大了 整进去好爽视频| 潮喷在线播放| 凌源市| 西和县| 亚洲欧洲综合| 一线二线三线天堂| 欧美人成在线播放网站免费| jjzz国产| 欧美野外疯狂做受xxxx高潮| 欧美精品黑人粗大| 91超碰在线观看| 中文字幕人妻小说| 中国xxx农村性视频| 欧美做受视频播放|