OpenAI的一個員工連續發了11個帖子,稱他們的內部實驗模型已經可以拿到國際數學奧賽金牌,真是這樣嗎?這款模型實力到底如何?
要回答這個問題,我們首先要確定一個共識:那就是像OpenAI這樣的公司不管是CEO奧特曼,還是任意員工在公開社交媒體發布信息,都肯定是精心策劃的具有明確目的性的商業行為。
說白了,他們說話,絕不可能像普通人發個朋友圈一樣,而是想要達到類似于Marketing營銷的效果。
第一個帖子就很講究,直接1/N開頭,表明還有更多信息,但具體不知道多少,給人期待值。另外直接說了OpenAI一個實驗中的模型達到了世界上最著名的數學競賽IMO金牌水平。
![]()
IMO就是數學競賽中的奧林匹克比賽,能拿到金牌的都是能力萬中無一的人,圖中可以看到這些人后來成就都遠超普通人。
![]()
而AI能拿到這個級別的分數,其實OpenAI就在這里埋下一個“隱喻”,那就是OpenAI的模型依舊冠絕全世界。
配圖也暗示了這一點兒,它用的是草莓+金牌。
![]()
草莓的單詞是strawberry,不知道大家記不記得,去年年底有一個巨大的hype,就是OpenAI在秘密的訓練名叫Q和Strawberry的模型,現在我覺得GPT5的代號就是Strawberry。
![]()
我的假設基于8/N條推,發帖人說了,GPT5馬上要發布,因為他是代表OpenAI發的這個帖子,并且沒有刪除或者其他爭議,那說明這個信息就是OpenAI公關部門或者市場營銷部門共同參與編寫的,所以真實度很高
![]()
同時他還說,拿到IMO金牌的模型是一個實驗性質的模型,近幾個月內不準備發布。
那說明了什么,這個實驗模型大概率是基于GPT5做的post-training,極有可能是o系列的,甚至有盡可能就叫o4-ultra或者o4-heavy之類的名字。
我的想法基于第3和4條twitter,作者說了,IMO題目的難度必須要經過超長時間的思考,所以大模型LLM reasoning的時間就得從幾秒延長到100mins,這個數據遠超市面上的reasoning LLM的時間,特別是過長的reasoning會被認為是死鎖被強制的切斷。
那么這個reasoning時間>=10 mins的實驗版,一定是基于GPT5,做的超長reasoning frame的超重型模型,專門用來做超級復雜問題的推理模型。
![]()
結合第二個帖子看,他宣稱實驗模型和人類一樣的規則,2個4.5小時的時間,不用工具或者網絡,單純憑借模型本身的能力。
![]()
這就也變相的印證了第五個帖子的核心信息,這也是OpenAI想要秀的肌肉。
![]()
他強調,這一成就并非通過“狹隘的、針對特定任務的方法論”實現的。簡單來說,他們沒有為IMO問題專門設計一個“數學求解器”,而是通過改進通用強化學習(general-purpose reinforcement learning)和測試時計算擴展(test-time compute scaling)這兩個基礎方法論。
這就是秀肌肉,他想要說的就是GPT5以及基于GPT5做的post-training得到的模型就是世界級的,同時它也是通用型大模型。
所謂的general-purpose,其實就跟AGI中的General異曲同工,還是告訴大家,OpenAI還是朝著AGI的方向在走,同時依舊最前沿SOTA。
這里面的兩個核心詞匯,都在暗示他們的技術先進性。
通用強化學習(general-purpose reinforcement learning): 這意味著他們很可能解決了“獎勵稀疏”和“信用分配”等在復雜任務中的核心RL難題。特別是帖子4中提到的,IMO證明這種難以驗證、沒有明確獎勵的場景,他們成功“超越了傳統RL范式”,這對于所有需要復雜規劃和創造性的任務(如科學發現、寫小說、制定商業策略)都有著巨大的借鑒意義。
測試時計算擴展(test-time compute scaling)這暗示了模型在推理(inference)階段使用了大量的計算資源進行類似“深度思考”或“搜索”的過程(可能類似于思維樹/Tree of Thoughts的復雜版本)。模型不是“一蹴而就”給出答案,而是可以花時間去探索、驗證和構建一個復雜的論證。這是一種讓模型能力在不重新訓練的情況下大幅提升的有效路徑。
此外他還提到了一些測試時候的方法論,盡量讓大家覺得他們的模型測試是公平合理的,這里不展開說,陶哲軒也評價了這件事,他的主要觀點就是OpenAI做IMO題目的過程并不公開,所以他不予置評。
![]()
最后,作者還說了一個比較私人的事情,讓整個thread顯得不那么營銷。做法是作者用自己2021年對2025年的預測(MATH達到30%)與現實(IMO金牌)進行對比,展示了AI發展的超指數級速度。
![]()
怎么說呢,對于整個AI環境來說肯定是有好處的,畢竟大家都推舉,才有可能讓整個行業獲得大量關注,以及大量金錢,但OpenAI的目的明顯不止于此,他們可能一直想做的是AI寡頭。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.