在 ChatGPT 問世近一年半后,OpenAI 再次邁出關鍵一步。
2025 年 4 月 16 日,OpenAI 正式發布新一代推理模型 o3 及輕量版 o4-mini,這是繼 GPT-4 Turbo 之后,首次從底層架構、訓練策略到能力定位全面重構的模型更新。相比以往,這一次的關鍵詞不再是“更強的生成能力”,而是“更清晰的推理路徑、更主動的工具調度、更真實的問題感知”。
官方沒有過多渲染“AGI 臨近”這樣的宏大敘事,卻實實在在交付了一個“能讀圖、能思考、能動手”的智能體雛形——它能看懂你上傳的手寫公式,也能自己查資料、調用工具鏈、重構任務解法,真正從“助手”邁向“代理者”(Agent)。
如果我們將視野從參數躍遷拉回到結構演化,o3 的出現,標志著一個重要趨勢:訓練范式的極限已現,推理結構的重塑正在成為 AI 進化的主戰場。
OpenAI 在這個關鍵節點推出 o3 系列,不止是一次模型升級,更像是一種范式上的聲明,也是一種技術坐標系的重新標定。
2025 年 4 月 16 日,OpenAI 正式發布新一代推理模型 o3 及輕量版 o4-mini。它們不僅性能領先,更在“結構”與“能力”上開啟了范式轉折:不再僅僅強調上下文長度和生成流暢度,而是從根本上強調推理路徑的清晰性、工具調用的主動性,以及圖文信息的融合處理能力。
為更好理解這一變革,我們系統梳理了 OpenAI 官方發布的產品博客內容,并結合團隊在 X 平臺 AMA 中的回應與解讀,從七個方面提煉出 o3 系列模型在推理方式、結構策略與實際應用中的關鍵進展,輔以我們對趨勢脈絡的觀察,供開發者與關注 AI 基礎設施演進的讀者參考。
OpenAI 團隊在 X 平臺上舉辦的 AMA 總結
![]()
發布和路線圖
- 強化微調(GA)將很快對公開微調或具有推理模型的強化學習(RL)可用
- OpenAI 計劃在未來幾個月發布一個優秀的開源模型,并歡迎開發者反饋以改進其實用性
- API 中的新圖像生成功能將很快可用
- API 中的 o3-mini 永遠不會支持視覺功能,但 o4-mini 已經支持視覺功能,目前作為具有圖像輸入的推理迷你模型可用
- o3 今天已在 API 中提供,更高級的 o3-pro 模型正在開發中,并將很快發布
模型性能和用法
- GPT-4.1 系列模型專門針對編碼和代理任務進行訓練;模型選擇取決于用戶的工作流程以及所需的性能、成本和延遲之間的平衡
- o3 在處理困難的編碼問題或廣泛的主題搜索時最為強大,而 o4-mini 則速度更快,在大多數場景中性能相當,更適合快速交互或較小的編碼任務
- o4-mini 具有更高的速率限制,在涉及視覺、數學、科學和某些編碼任務的評估中與 o3 相當;o3 在處理深奧知識和細微任務方面具有明顯優勢
- 微調 GPT-4.1 可以提高針對特定用例的性能,減少提示中所需的示例數量;GPT-4.1 經過訓練以探索可能的解決方案、自我反思和自我糾正
- o3 和 o4-mini 都提供 200k 個 token 的上下文窗口,最大輸出 100k 個 token,并已通過內部和第三方進行網絡安全評估;兩者均未達到高風險閾值,但仍然是迄今為止最強大的模型
- 模型具有分析圖像細節的工具;o3 在從 PDF 中提取結構化數據方面特別有效 - 如從“注意力就是一切”論文中完美提取表格所示
- 與 GPT-4.1 相比,GPT-4.1-mini 在圖像分析方面具有更低的成本
API 功能和支持工具
- 在 Responses API 中,開發者消息和系統消息之間的切換是自動處理的;向 o3 發送系統消息或向 GPT-4.1 發送開發者消息會導致自動轉換
- API 中提供了一個推理努力參數,用于控制 o 系列模型的成本,特別是在它們變得越來越具有代理性時,允許優化工具使用
- 目前,ChatCompletions 或 Responses API 不支持托管工具;然而,一旦支持可用,開發者將獲得對啟用工具的控制權
- 在 Responses API 中支持推理摘要(推理跟蹤),提供更清晰的可見性,以便在模型解決問題和調用各種工具時了解推理步驟
- SDK 自動將 Pydantic 架構轉換為兼容的 JSON 架構,以處理“additionalProperties”等屬性
- 在 o3 和 o4-mini 的推理階段,積極使用工具如網絡搜索、文件搜索和代碼解釋器;目前,這些工具在 ChatGPT 中得到支持,但在 API 中尚未支持 - 將很快添加支持
代理 SDK 和 Codex CLI
- OpenAI 正在積極開發線程支持以改進代理 SDK 中的對話歷史和保留
- 他們對為 Agents SDK 提出的低代碼平臺建議很感興趣,并邀請反饋最有用的功能通過 Agents SDK 調用外部模型提供商已得到支持
- Codex CLI 包含多個文檔化的批準模式,允許用戶按操作或會話選擇模式;Codex CLI 并非旨在取代 Cursor、Windsurf 或 Lovable 等 IDE 工具;相反,它旨在在用戶在主 IDE 中工作時運行后臺任務
- 將 Codex 的編碼能力與深度研究能力進行比較取決于所選的模型(o3 或 o4-mini);Codex 專門利用函數調用,直接在用戶的計算機上執行命令
- 新模型主要在通用瀏覽、Python/代碼執行工具以及有助于開發者的用戶定義工具上進行訓練
GPT-4.1 和模型命名
- GPT-4.1 通過 API 發布而非 ChatGPT,因為它專門針對 API 使用場景進行了優化,例如指令遵循、長上下文管理、編碼和工具使用
- GPT-4.5 雖然更強大,但速度較慢且計算密集,因此 GPT-4.1 為開發者提供了一種更快、更經濟的選項
- GPT-4.1 的一些改進已經集成到 ChatGPT 中,并將繼續集成更多改進
- OpenAI 承認了模型名稱如“4o”和“o4”之間的命名混淆,并計劃不久后簡化模型命名
推理能力的躍升:o3 vs o1,為什么是質變?
首先要介紹OpenAI o3,它是OpenAI最強大的推理模型,它推動了ChatGPT在編碼、數學、科學、視覺感知等領域的發展。它在 Codeforces、SWE-bench(無需構建特定于模型的自定義支架)和 MMMU 等基準測試中創造了新的 SOTA。
OpenAI o3非常適合進行多方面分析的復雜查詢,而且并不會給出簡單的答案。它在分析圖像、圖表和圖形等可視化任務方面表現尤為突出。在外部專家的評估中,o3 在高難度的任務中比 OpenAI o1 少犯 20% 的大錯誤,尤其是在編程、商務/咨詢和創意構思等領域表現出色。早期的測試人員強調了它作為思想伙伴的嚴謹分析能力,并強調了它生成和批判性評估新假設的能力--尤其是在生物學、數學和工程學方面。
OpenAI o4-mini 是一個較小的模型,為實現快速、經濟高效的推理而進行了優化--就其大小和成本而言,它實現了卓越的性能,尤其是在數學、編碼和視覺任務方面。它是 AIME 2024 和 2025 上表現最佳的基準模型。在專家評估中,它在非 STEM 任務以及數據科學等領域的表現也優于其前身 o3-mini。由于效率高,o4-mini 比 o3 支持更高的使用限制,因此對于需要推理的問題來說,o4-mini 是高容量、高吞吐量的理想選擇。
![]()
OpenAI O3 是解決復雜編碼問題或廣泛主題搜索的最佳選擇,而 o4-mini 速度更快,在大多數情況下同樣強大,更適合快速交互或較小的編碼任務。o3 和 o4-mini 均提供 20 萬個令牌的上下文窗口,最大輸出令牌數為 10 萬個,并且已經過內部和第三方的網絡安全評估;雖然均未達到高風險閾值,但仍然是目前性能最強的模型。
外部專家評估員對這兩個模型的評價是,與前代產品相比,由于智能化程度的提高和網絡資源的加入,這兩個模型都能更好地跟上指令,并提供更有用、更可驗證的回答。與以前的推理模型迭代相比,這兩個模型應該會讓人感覺更自然、更會說話,特別是它們會參考記憶和過去的對話,使回答更個性化、更相關。
RL 再次被證實:強化學習成性能提升主引擎
在 OpenAI o3 的整個開發過程中,我們觀察到大規模強化學習呈現出與 GPT 系列預訓練相同的趨勢,既 "更多計算 = 更佳性能 "。通過回溯擴展路徑,我們在訓練計算和推理時間上都增加了一個數量級,但仍能看到明顯的性能提升,這驗證了模型的性能會隨著思考時間的增加而不斷提高。
在延遲和成本與 OpenAI o1 相當的情況下,o3 在 ChatGPT 中提供了更高的性能,而且我們已經驗證,如果讓它思考更長時間,其性能會繼續攀升。
我們還通過強化學習訓練這兩種模型使用工具--不僅教它們如何使用工具,還教它們推理何時使用工具。它們根據預期結果部署工具的能力,使它們在開放式情境中,尤其是在涉及視覺推理和多步驟工作流程的情境中更有能力。根據早期測試者的報告,這種進步既體現在學術基準上,也體現在實際任務中。
圖像即語言:首次實現“視覺參與推理鏈”
![]()
這兩款模型模型首次具備將圖像直接融入他們的思維鏈中的能力。它們不僅能看到圖像,還能用圖像進行思考。這開啟了一種融合視覺和文字推理的新的問題解決方式,體現在它們在多模態基準測試中的一流性能上。
![]()
人們可以上傳白板、教科書圖表或手繪草圖的照片,而模型可以對其進行解讀--即使圖像模糊、顛倒或質量不高。通過使用工具,模型可以在推理過程中對圖片進行旋轉、縮放或變換等操作。
這些模型在視覺感知任務上具有同類最佳的準確性,使其能夠解決以前無法解決的問題。
我們還通過強化學習訓練這兩種模型使用工具--不僅教它們如何使用工具,還教它們推理何時使用工具。它們根據預期結果部署工具的能力,使它們在開放式情境中,尤其是在涉及視覺推理和多步驟工作流程的情境中更有能力。根據早期測試者的報告,這種進步既體現在學術基準上,也體現在實際任務中。
調用工具不是技能,而是策略判斷
OpenAI o3 和 o4-mini 可以訪問 ChatGPT 中的工具,也可以通過 API 中的函數調用訪問用戶的自定義工具。這些模型經過訓練,能夠推理如何解決問題,選擇何時以及如何使用工具,以正確的輸出格式快速生成詳細周到的答案--通常不超過一分鐘。
例如,用戶可能會問:“與去年相比,加州的夏季能源使用情況如何?”。模型可以在網絡上搜索公共數據,編寫 Python 代碼以建立預測路徑,并生成圖表或圖像,還能解釋預測背后的關鍵因素,將多個工具調用串聯起來。通過推理,模型可以對遇到的信息做出必要的反應和調整。例如,它們可以在搜索提供商的幫助下多次搜索網絡,查看結果,并在需要更多信息時嘗試新的搜索。
這種靈活的戰略方法使模型能夠處理需要獲取模型內置知識以外的最新信息、擴展推理、綜合和跨模態生成輸出的任務。
成本效能邊界再擴:更強,更便宜
![]()
![]()
OpenAI o3 和 o4-mini 是我們發布過的最智能的模型,而且它們通常比其前身 OpenAI o1 和 o3-mini 更高效。例如,在 2025 年 AIME 數學競賽中,o3 的性價比前沿嚴格優于 o1,同樣,o4-mini 的前沿也嚴格優于 o3-mini。一般來說,我們預計在大多數實際應用中,o3 和 o4-mini 也將分別比 o1 和 o3-mini 更智能、更便宜。
模型安全:推理力進化背后的底線重構
模型能力的每一次提升都需要相應的安全性改進。對于 OpenAI o3 和 o4-mini,我們完全重建了安全培訓數據,在生物威脅(生物風險)、惡意軟件生成和越獄等領域添加了新的拒絕提示。更新后的數據使 o3 和 o4-mini 在我們的內部拒絕基準(如指令分級、越獄)上取得了優異的表現。除了在模型拒絕方面表現出色外,我們還開發了系統級緩解措施,以標記前沿風險領域的危險提示。與圖像生成方面的早期工作類似,我們訓練了一個推理 LLM 監測器,該監測器根據人類編寫的、可解釋的安全規范工作。當應用于生物風險時,該監控器在我們的人類紅隊活動中成功標記了約 99% 的對話。
我們用迄今為止最嚴格的安全計劃對兩種型號進行了壓力測試。根據我們更新的 "準備框架",我們對 o3 和 o4-mini 進行了框架所涵蓋的三個跟蹤能力領域的評估:生物與化學、網絡安全和人工智能自我改進。根據這些評估結果,我們確定 o3 和 o4-mini 在所有三個類別中均低于該框架的 "高 "閾值。我們在隨附的系統卡中公布了這些評估的詳細結果。
Codex CLI 發布:最小代理化入口
![]()
我們還將分享一項新實驗:Codex CLI,一種可在終端運行的輕量級編碼代理。它可直接在電腦上運行,旨在最大限度地發揮 o3 和 o4-mini 等模型的推理能力,并即將支持 GPT-4.1 等其他 API 模型。
通過向模型傳遞屏幕截圖或低保真草圖,并結合本地代碼訪問,您可以從命令行獲得多模態推理的好處。我們將其視為將模型與用戶及其電腦連接起來的最小接口。現在,Codex CLI 已在 github.com/openai/codex(在新窗口中打開)上完全開源。
與此同時,我們還啟動了一項 100 萬美元的計劃,以支持使用 Codex CLI 和 OpenAI 模型的項目。我們將評估并接受以 API 點數形式遞增的 25,000 美元資助申請。提案可在此處提交。
從今天起,ChatGPT Plus、Pro 和 Team 用戶將在型號選擇器 中看到 o3、o4-mini 和 o4-mini-high,取代 o1、o3-mini 和 o3-mini-high。ChatGPT 企業和教育用戶 將在一周后獲得訪問權限。免費用戶可以在提交查詢之前,通過在構成器中選擇 "Think "來試用 o4-mini。所有計劃的費率限制與上一組模型相比保持不變。
o3 現已在 API 中可用,更先進的 o3-pro 模型正在開發中,預計將在幾周后發布支持全部工具的 OpenAI o3-pro。目前,專業版用戶仍可訪問 o1-pro。
目前,開發人員還可以通過 Chat Completions API 和 Responses API 訪問 o3 和 o4-mini(某些開發人員需要驗證其組織(在新窗口中打開)才能訪問這些模型)。Responses API 支持推理摘要,能夠保留函數調用周圍的推理標記以提高性能,不久還將支持內置工具,如網絡搜索、文件搜索和模型推理中的代碼解釋器。要開始使用,請瀏覽我們的文檔(在新窗口中打開),并隨時關注更多更新。
今天的更新反映了我們模型的發展方向:我們正在將 o 系列的專業推理能力與 GPT 系列的更多自然對話能力和工具使用能力融合在一起。通過整合這些優勢,我們未來的模型將支持無縫、自然的對話,以及主動的工具使用和高級問題解決。
https://openai.com/index/introducing-o3-and-o4-mini/
https://x.com/btibor91/status/1912608982063349897?utm_source=chatgpt.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.