12天的直播,最后一天放出來的東西大家都知道是個大招,挺多人猜GPT5的,因?yàn)樽詈髩狠S的大概率是大模型本身。
因?yàn)樯壌竽P停貏e是對于OpenAI這種標(biāo)桿公司,每一次的模型升級,基本上都代表了AI大模型領(lǐng)域的某種風(fēng)向。
這次壓軸大菜上的是o3模型,包括我在內(nèi)的很多人都很疑惑,o1之后為什么不是o2,而是o3。
OpenAI的CEO山姆奧特曼特意解釋了原因,就是他們公司非常不擅長起名字,然后o1之后就直接o3了。(可能這就是任性吧)
![]()
其實(shí)OpenAI的o系列模型,最大的特點(diǎn)就是擅長推理。比如說編程中涉及到了推理,數(shù)學(xué)也需要,物理化學(xué)這樣的理科學(xué)科也需要大量的推理,而o系列在這樣的任務(wù)中表現(xiàn)的尤其突出。
新的o3模型在推理上更進(jìn)一步,在Software Engineering和Codeforeces這倆測試上分?jǐn)?shù)相比它的上一代,o1模型提升很大。
![]()
第一個測試集的分?jǐn)?shù)從48.9提升到了71.7,第二個從1891到2727,提升幅度很大。
然后在數(shù)學(xué)上也有了提升,在AIME這個測試集上o1就已經(jīng)達(dá)到了83.3,o3直接把準(zhǔn)確率提升到了96.7,幾乎相同于一套數(shù)學(xué)卷子只錯一個的程度。
![]()
然后下一個測試集叫GPQA,它是一個博士生級別的問題測試集,如果要某個學(xué)科的博士來答題,一般能拿到70分左右。
o1模型可以做到78分左右,o3直接把分?jǐn)?shù)拉到87.7,遠(yuǎn)超人類選手的程度。
![]()
除了這幾個很常見的測試集,甚至引入了一個不太常見的測試集ARC AGI,它的全稱是Abstraction and Reasoning Corpus for Artificial General Intelligence ,專門設(shè)計(jì)出來測試AI。
![]()
這個相比大多數(shù)測試用的數(shù)據(jù)集都要難,其中的題目大多是這種推理問題,下面是一個簡單的例子,憑借直覺就能答得上來。
![]()
但是有些題目難度很高,比如下面這個。
![]()
黃色塊中有幾個其他色塊,新圖像外面就有幾層相同色塊。
你可以看到GPT4o只有9%的分?jǐn)?shù),但是o1直接翻了兩倍多到了21%,o3的分?jǐn)?shù)遠(yuǎn)超第二名的60%,達(dá)到了82.8%。
![]()
你可以看ARC AGI主席公開的數(shù)據(jù),o系列模型性能提升太線性了,甚至有點(diǎn)兒過于線性。
![]()
o3模型有幾個形態(tài),除了o3,還有o3 mini,應(yīng)該是蒸餾出來的小模型,mini版本也分為三種類型,分類的標(biāo)準(zhǔn)是推理消耗的計(jì)算資源。
分為low,medium以及high三種,滿足計(jì)算資源給的越多,性能越好的定理。
![]()
直播中測試了o3 mini low模式,用它做198道題,速度極快,只用了45秒,準(zhǔn)確率61.62%,估計(jì)用high模式或者o3滿血版,可能分?jǐn)?shù)會提升非常大。
![]()
最后,OpenAI提到了他們對于安全性的升級,總的來說,就是讓模型可以在這兩個維度上達(dá)到了很優(yōu)化的平衡。
它們用下面兩個維度做了評估:
?拒絕惡意提示(jailbreaks):測試模型是否能拒絕回答惡意請求,如繞過政策或生成有害內(nèi)容。
?避免過度拒絕(overrefusal):檢查模型在處理無害請求時是否會過于保守而拒絕回答。
![]()
o1 模型(深綠色星形)在拒絕惡意提示方面表現(xiàn)突出,同時對無害提示也更寬容,達(dá)到安全性和靈活性的平衡。
GPT-4o 表現(xiàn)較好,但相較于 o1 模型,在靈活性或安全性之間略顯妥協(xié)。Claude 3.5 和 Gemini 1.5 模型分別在某些方面表現(xiàn)突出,但無法同時兼顧兩方面優(yōu)化。
這一切的原因都來自于安全方面的考慮:
·大型語言模型容易受到對抗性攻擊(例如越獄攻擊、濫用內(nèi)容等)的威脅,同時可能過于保守,對無害請求拒絕回答。
·主要挑戰(zhàn):
a.如何防止模型生成有害內(nèi)容?
b.如何避免對無害輸入的過度拒絕?
現(xiàn)有方法的缺陷:
·傳統(tǒng)方法依賴于“強(qiáng)化學(xué)習(xí)獎勵優(yōu)化”(RLHF)和“對抗性訓(xùn)練”(Adversarial Training),但這些方法存在以下問題:
a.過度依賴人工標(biāo)注,訓(xùn)練成本高,且難以擴(kuò)展。
b.泛化能力較差,在處理分布外輸入(out-of-distribution)時表現(xiàn)不穩(wěn)定。
新方法 - 深思熟慮的對齊 (Deliberative Alignment):
·提出了一個新型訓(xùn)練框架,結(jié)合了過程監(jiān)督和結(jié)果監(jiān)督,以改進(jìn)模型的安全性和泛化能力。
·自動生成訓(xùn)練數(shù)據(jù),減少人工依賴,提升對惡意提示的抵抗能力,同時減少對無害請求的過度拒絕。
下面的圖片詳細(xì)的介紹了幾個不同模型訓(xùn)練和推理的邏輯,o3采用的方法更多的利用了COT以及包含了大量的推理。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.