網易首頁 > 網易號 > 正文申請入駐

從IMO金牌到GPT-5：OpenAI如何用一場“技術營銷”重新定義AI推理？

2025-07-21 06:45:48　來源: 平凡AI

海外舉報

分享至

OpenAI的一個員工連續發了11個帖子，稱他們的內部實驗模型已經可以拿到國際數學奧賽金牌，真是這樣嗎？這款模型實力到底如何？

要回答這個問題，我們首先要確定一個共識：那就是像OpenAI這樣的公司不管是CEO奧特曼，還是任意員工在公開社交媒體發布信息，都肯定是精心策劃的具有明確目的性的商業行為。

說白了，他們說話，絕不可能像普通人發個朋友圈一樣，而是想要達到類似于Marketing營銷的效果。

第一個帖子就很講究，直接1/N開頭，表明還有更多信息，但具體不知道多少，給人期待值。另外直接說了OpenAI一個實驗中的模型達到了世界上最著名的數學競賽IMO金牌水平。

IMO就是數學競賽中的奧林匹克比賽，能拿到金牌的都是能力萬中無一的人，圖中可以看到這些人后來成就都遠超普通人。

而AI能拿到這個級別的分數，其實OpenAI就在這里埋下一個“隱喻”，那就是OpenAI的模型依舊冠絕全世界。

配圖也暗示了這一點兒，它用的是草莓+金牌。

草莓的單詞是strawberry，不知道大家記不記得，去年年底有一個巨大的hype，就是OpenAI在秘密的訓練名叫Q和Strawberry的模型，現在我覺得GPT5的代號就是Strawberry。

我的假設基于8/N條推，發帖人說了，GPT5馬上要發布，因為他是代表OpenAI發的這個帖子，并且沒有刪除或者其他爭議，那說明這個信息就是OpenAI公關部門或者市場營銷部門共同參與編寫的，所以真實度很高

同時他還說，拿到IMO金牌的模型是一個實驗性質的模型，近幾個月內不準備發布。

那說明了什么，這個實驗模型大概率是基于GPT5做的post-training，極有可能是o系列的，甚至有盡可能就叫o4-ultra或者o4-heavy之類的名字。

我的想法基于第3和4條twitter，作者說了，IMO題目的難度必須要經過超長時間的思考，所以大模型LLM reasoning的時間就得從幾秒延長到100mins，這個數據遠超市面上的reasoning LLM的時間，特別是過長的reasoning會被認為是死鎖被強制的切斷。

那么這個reasoning時間>=10 mins的實驗版，一定是基于GPT5，做的超長reasoning frame的超重型模型，專門用來做超級復雜問題的推理模型。

結合第二個帖子看，他宣稱實驗模型和人類一樣的規則，2個4.5小時的時間，不用工具或者網絡，單純憑借模型本身的能力。

這就也變相的印證了第五個帖子的核心信息，這也是OpenAI想要秀的肌肉。

他強調，這一成就并非通過“狹隘的、針對特定任務的方法論”實現的。簡單來說，他們沒有為IMO問題專門設計一個“數學求解器”，而是通過改進通用強化學習（general-purpose reinforcement learning）和測試時計算擴展（test-time compute scaling）這兩個基礎方法論。

這就是秀肌肉，他想要說的就是GPT5以及基于GPT5做的post-training得到的模型就是世界級的，同時它也是通用型大模型。

所謂的general-purpose，其實就跟AGI中的General異曲同工，還是告訴大家，OpenAI還是朝著AGI的方向在走，同時依舊最前沿SOTA。

這里面的兩個核心詞匯，都在暗示他們的技術先進性。

通用強化學習（general-purpose reinforcement learning）: 這意味著他們很可能解決了“獎勵稀疏”和“信用分配”等在復雜任務中的核心RL難題。特別是帖子4中提到的，IMO證明這種難以驗證、沒有明確獎勵的場景，他們成功“超越了傳統RL范式”，這對于所有需要復雜規劃和創造性的任務（如科學發現、寫小說、制定商業策略）都有著巨大的借鑒意義。
測試時計算擴展（test-time compute scaling）這暗示了模型在推理（inference）階段使用了大量的計算資源進行類似“深度思考”或“搜索”的過程（可能類似于思維樹/Tree of Thoughts的復雜版本）。模型不是“一蹴而就”給出答案，而是可以花時間去探索、驗證和構建一個復雜的論證。這是一種讓模型能力在不重新訓練的情況下大幅提升的有效路徑。

此外他還提到了一些測試時候的方法論，盡量讓大家覺得他們的模型測試是公平合理的，這里不展開說，陶哲軒也評價了這件事，他的主要觀點就是OpenAI做IMO題目的過程并不公開，所以他不予置評。

最后，作者還說了一個比較私人的事情，讓整個thread顯得不那么營銷。做法是作者用自己2021年對2025年的預測（MATH達到30%）與現實（IMO金牌）進行對比，展示了AI發展的超指數級速度。

怎么說呢，對于整個AI環境來說肯定是有好處的，畢竟大家都推舉，才有可能讓整個行業獲得大量關注，以及大量金錢，但OpenAI的目的明顯不止于此，他們可能一直想做的是AI寡頭。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.