網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

OpenAI 最強(qiáng)推理模型 o3 發(fā)布，AGI 測試能力暴漲，它有多強(qiáng)大？會對哪些領(lǐng)域帶來影響？

2024-12-21 08:51:17　來源: 平凡AI

海外舉報(bào)

分享至

12天的直播，最后一天放出來的東西大家都知道是個大招，挺多人猜GPT5的，因?yàn)樽詈髩狠S的大概率是大模型本身。

因?yàn)樯壌竽Ｐ停貏e是對于OpenAI這種標(biāo)桿公司，每一次的模型升級，基本上都代表了AI大模型領(lǐng)域的某種風(fēng)向。

這次壓軸大菜上的是o3模型，包括我在內(nèi)的很多人都很疑惑，o1之后為什么不是o2，而是o3。

OpenAI的CEO山姆奧特曼特意解釋了原因，就是他們公司非常不擅長起名字，然后o1之后就直接o3了。（可能這就是任性吧）

其實(shí)OpenAI的o系列模型，最大的特點(diǎn)就是擅長推理。比如說編程中涉及到了推理，數(shù)學(xué)也需要，物理化學(xué)這樣的理科學(xué)科也需要大量的推理，而o系列在這樣的任務(wù)中表現(xiàn)的尤其突出。

新的o3模型在推理上更進(jìn)一步，在Software Engineering和Codeforeces這倆測試上分?jǐn)?shù)相比它的上一代，o1模型提升很大。

第一個測試集的分?jǐn)?shù)從48.9提升到了71.7，第二個從1891到2727，提升幅度很大。

然后在數(shù)學(xué)上也有了提升，在AIME這個測試集上o1就已經(jīng)達(dá)到了83.3，o3直接把準(zhǔn)確率提升到了96.7，幾乎相同于一套數(shù)學(xué)卷子只錯一個的程度。

然后下一個測試集叫GPQA，它是一個博士生級別的問題測試集，如果要某個學(xué)科的博士來答題，一般能拿到70分左右。

o1模型可以做到78分左右，o3直接把分?jǐn)?shù)拉到87.7，遠(yuǎn)超人類選手的程度。

除了這幾個很常見的測試集，甚至引入了一個不太常見的測試集ARC AGI，它的全稱是Abstraction and Reasoning Corpus for Artificial General Intelligence ，專門設(shè)計(jì)出來測試AI。

這個相比大多數(shù)測試用的數(shù)據(jù)集都要難，其中的題目大多是這種推理問題，下面是一個簡單的例子，憑借直覺就能答得上來。

但是有些題目難度很高，比如下面這個。

黃色塊中有幾個其他色塊，新圖像外面就有幾層相同色塊。

你可以看到GPT4o只有9%的分?jǐn)?shù)，但是o1直接翻了兩倍多到了21%，o3的分?jǐn)?shù)遠(yuǎn)超第二名的60%，達(dá)到了82.8%。

你可以看ARC AGI主席公開的數(shù)據(jù)，o系列模型性能提升太線性了，甚至有點(diǎn)兒過于線性。

o3模型有幾個形態(tài)，除了o3，還有o3 mini，應(yīng)該是蒸餾出來的小模型，mini版本也分為三種類型，分類的標(biāo)準(zhǔn)是推理消耗的計(jì)算資源。

分為low，medium以及high三種，滿足計(jì)算資源給的越多，性能越好的定理。

直播中測試了o3 mini low模式，用它做198道題，速度極快，只用了45秒，準(zhǔn)確率61.62%，估計(jì)用high模式或者o3滿血版，可能分?jǐn)?shù)會提升非常大。

最后，OpenAI提到了他們對于安全性的升級，總的來說，就是讓模型可以在這兩個維度上達(dá)到了很優(yōu)化的平衡。

它們用下面兩個維度做了評估：

?拒絕惡意提示（jailbreaks）：測試模型是否能拒絕回答惡意請求，如繞過政策或生成有害內(nèi)容。

?避免過度拒絕（overrefusal）：檢查模型在處理無害請求時是否會過于保守而拒絕回答。

o1 模型（深綠色星形）在拒絕惡意提示方面表現(xiàn)突出，同時對無害提示也更寬容，達(dá)到安全性和靈活性的平衡。

GPT-4o 表現(xiàn)較好，但相較于 o1 模型，在靈活性或安全性之間略顯妥協(xié)。Claude 3.5 和 Gemini 1.5 模型分別在某些方面表現(xiàn)突出，但無法同時兼顧兩方面優(yōu)化。

這一切的原因都來自于安全方面的考慮：

·大型語言模型容易受到對抗性攻擊（例如越獄攻擊、濫用內(nèi)容等）的威脅，同時可能過于保守，對無害請求拒絕回答。

·主要挑戰(zhàn)：

a.如何防止模型生成有害內(nèi)容？

b.如何避免對無害輸入的過度拒絕？

現(xiàn)有方法的缺陷：

·傳統(tǒng)方法依賴于“強(qiáng)化學(xué)習(xí)獎勵優(yōu)化”（RLHF）和“對抗性訓(xùn)練”（Adversarial Training），但這些方法存在以下問題：

a.過度依賴人工標(biāo)注，訓(xùn)練成本高，且難以擴(kuò)展。

b.泛化能力較差，在處理分布外輸入（out-of-distribution）時表現(xiàn)不穩(wěn)定。

新方法 - 深思熟慮的對齊 (Deliberative Alignment)：

·提出了一個新型訓(xùn)練框架，結(jié)合了過程監(jiān)督和結(jié)果監(jiān)督，以改進(jìn)模型的安全性和泛化能力。

·自動生成訓(xùn)練數(shù)據(jù)，減少人工依賴，提升對惡意提示的抵抗能力，同時減少對無害請求的過度拒絕。

下面的圖片詳細(xì)的介紹了幾個不同模型訓(xùn)練和推理的邏輯，o3采用的方法更多的利用了COT以及包含了大量的推理。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

美媒：特朗普顯然觸及了中國的紅線中方怒了

澎湃新聞 2025-12-27 20:18:30
2977 跟貼 2977
泰國與柬埔寨就停火問題簽署聯(lián)合聲明

央視新聞客戶端 2025-12-27 11:15:50
7286 跟貼 7286

袁心玥，有新身份

新京報(bào)政事兒 2025-12-27 18:48:07
73 跟貼 73

探訪浙江龐萊臣舊宅：展出9件真跡，龐家曾捐藏品給故宮南博

大風(fēng)新聞 2025-12-27 17:59:04
317 跟貼 317
張升民任解放軍選舉委員會副主任

央視新聞客戶端 2025-12-27 18:14:28
121 跟貼 121

“火鍋店腌制肉亂象”引熱議！記者實(shí)探多家店：部分肉制品加工存“商業(yè)機(jī)密”

封面新聞 2025-12-26 01:27:09
1934 跟貼 1934

揭穿南京博物院背后的徐小姐“畫皮”，這就是打蛇能打的“七寸”

人格志 2025-12-27 23:44:32
1 跟貼 1
男子徒手打開滅火毯，雙手刺痛扎滿玻璃纖維

學(xué)申論的談妹 2025-12-27 04:40:56
427 跟貼 427

60歲女兒考營養(yǎng)師搭配98歲父親一日三餐，老人臉色白里透紅仿佛“年輕30歲”

瀟湘晨報(bào) 2025-12-27 15:23:15
93 跟貼 93
“漲到可怕了！”有人一覺醒來賺了18萬

都市快報(bào)橙柿互動 2025-12-27 13:41:17
0 跟貼 0
太原龍城大街確定西延

錦繡太原 2025-12-27 06:54:03
93 跟貼 93
賈國龍靠安眠藥入睡，敬畏消費(fèi)者才是解藥

上游新聞 2025-12-27 11:19:05
899 跟貼 899
神舟出差返回后 "太空鼠"當(dāng)媽媽啦

央視新聞客戶端 2025-12-27 08:08:30
555 跟貼 555
中國航發(fā)集團(tuán)原董事長曹建國已從中國工程院院士名單中撤下

澎湃新聞 2025-12-27 09:54:26
0 跟貼 0
2026年全國兩會召開時間來了

央視新聞客戶端 2025-12-27 09:14:00
97 跟貼 97
鄭麗文計(jì)劃明年到訪大陸：黃花崗起義紀(jì)念日不錯

看看新聞Knews 2025-12-26 23:21:04
179 跟貼 179
中南大學(xué)黨委常委、副校長郭學(xué)益被查

界面新聞 2025-12-27 10:33:12
5 跟貼 5
全國無償獻(xiàn)血者達(dá)1.4億人衛(wèi)健委呼吁各單位每年組織員工無償獻(xiàn)血

中國經(jīng)營報(bào) 2025-12-27 17:11:22
1376 跟貼 1376
日本2026財(cái)年擬用560億日元新建彈藥庫

央視新聞客戶端 2025-12-27 07:17:11
574 跟貼 574
跳漲、斷貨！男子睡前搶到5個，醒來就后悔

昆明信息港 2025-12-27 18:03:17
42 跟貼 42
iPhone又行了？蘋果手機(jī)11月中國銷售同比翻番

第一財(cái)經(jīng)資訊 2025-12-26 16:24:14
212 跟貼 212
2025“三農(nóng)”成績單｜精耕良田提質(zhì)效厚植沃野育新機(jī)

新華社 2025-12-27 17:21:25
53 跟貼 53
他們吸過毒，曾經(jīng)是“爛人”，想要個機(jī)會

大風(fēng)新聞 2025-12-27 15:04:03
1 跟貼 1
價(jià)格飆升，多地零售價(jià)突破10元/斤！年初一斤僅一兩元，網(wǎng)友：雞蛋都快配不上它了

每日經(jīng)濟(jì)新聞 2025-12-26 10:01:26
1 跟貼 1
瀘州一高層住宅樓這把火，死亡3人

靠山屯閑話 2025-12-27 23:51:06
0 跟貼 0
“奶奶喜喪，能來送送最后一程嗎？”哈爾濱女子因朋友少謙卑求助，眾多網(wǎng)友冒大雪趕來

瀟湘晨報(bào) 2025-12-27 19:16:16
0 跟貼 0
借3500元10天后要還4970元，蘋果應(yīng)用商場一借款A(yù)pp遭投訴：未審核強(qiáng)制放款，私人賬戶轉(zhuǎn)賬，年化利率超1500%

大風(fēng)新聞 2025-12-27 21:18:11
0 跟貼 0
大波業(yè)主的傳奇

求實(shí)處 2025-12-28 00:00:09
0 跟貼 0
西安一小區(qū)電梯發(fā)生故障致1人墜亡，住戶稱事發(fā)樓棟已連夜檢修，小區(qū)多部電梯此前曾出現(xiàn)故障

極目新聞 2025-12-27 23:59:28
0 跟貼 0

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

OpenAI 最強(qiáng)推理模型 o3 發(fā)布，AGI 測試能力暴漲，它有多強(qiáng)大？會對哪些領(lǐng)域帶來影響？

小米也漲價(jià)了！業(yè)界稱終端再不漲明年必虧

美媒：特朗普顯然觸及了中國的紅線 中方怒了

美媒：特朗普顯然觸及了中國的紅線 中方怒了

83分鐘絕殺！曼城2-1年度收官：英超6連勝狂飆

張昊唯逃稅涉黃風(fēng)波落幕：法院認(rèn)定朋友造謠

注意，開始拉物價(jià)了！

好音響比大屏更重要？車企開始“聽”用戶的

態(tài)度原創(chuàng)

榮耀第二款“萬級”電池曝光，下月發(fā)

云游安徽｜踏訪池州，讀懂山水間的萬年史書

震撼！Tamara Dean的水中人像攝影，油畫般的絕美畫面！

我真幸運(yùn)：《泰拉瑞亞》1.4.5更新定檔1月份！

美媒：特朗普顯然觸及了中國的紅線中方怒了

美媒：特朗普顯然觸及了中國的紅線中方怒了