網易首頁 > 網易號 > 正文申請入駐

OpenAI發布o3/o4-mini："最智能"模型，圖片推理、工具調用全都有

2025-04-17 22:07:22　來源: 四木相對論

北京舉報

分享至

本周果然是諸神之戰！

繼 GPT-4.1 發布、可靈2.0 發布、Claude 上線 Research、Gemini 全面上線 Veo 2 等等之后，OpenAI 帶來了 o3 滿血版和 o4-mini。

先來劃重點：

本次發布的模型，分別是 o3 和 o4-mini；
綜合看o4-mini性價比最高，o3能力最為綜合；
兩個模型均為多模態推理模型，在代碼、科學方面表現出色；

*網友實測，認為Benchmark又要更新了

多模態推理也是本次官宣的重點。我們順手拿蘋果手表對o3做了測試：

*識別略有出入，真實型號是S9。不過這幾個型號確實外觀無太大差別，肉眼直接分辨也有難度。

Sam Altman本人也對這次發布劃了重點

ChatGPT 的 Pro、Plus、Teams 用戶將從今天開始能夠使用新模型，免費用戶可以通過打開“深度思考”按鈕來試用 o4-mini。

*ChatGPT更新的頁面

"OpenAI 迄今為止最強大的模型們"

OpenAI 聯創之一 Greg Brockman 主持直播，開場白簡單直接，直接宣布今天的重點：“發布兩款新模型，o3 和 o4-mini”。

首先被拋出的新模型描述就是，o3 和 o4-mini 是 OpenAI 目前為止最智能的模型。相比前代 o 系列模型，這兩款模型在深度思考方面的能力更突出，在回答問題之前會進行更長時間的思考。

另一個特點是，o3 滿血版和 o4-mini 可以使用 OpenAI 已經發布的所有工具能力，包括聯網搜索、永久記憶等等。當然，它們還是多模態的，可以直接對圖片進行推理。

強大的推理能力，以及廣泛的工具調用能力，使得這兩款模型非常適合科學研究、代碼生成或數學問題解答。

分開來看，o3 定位為OpenAI當前最強大、最前沿的推理引擎。尤其是在編程、商業/咨詢和創意構思等領域表現出色。

o4-mini 則更強調性價比，是一款專為快速、成本效率優化的推理模型，它的體量更小，性價比更高，在數學、編程和視覺任務方面有著不錯的表現。

從科學方面的測評結果來看，o3 與 o4-mini 顯著領先于前代 o 系列模型。而在 o3 與 o4-mini 之間來進行比較，得分差距并不是十分明顯，多數情況下，o4-mini 會略微領先于 o3。

現場直播中也給出了一道 AIME 題目的測試結果：

對于這個數學問題，模型在給出了正確的常規解法和答案后，甚至還額外給出了一個相對更“聰明”的解法。

再來看代碼能力

本次發布的兩款新模型在代碼能力上相較前代 o 系列模型提升明顯。在 SWE-Bench Verified 評測集上，o3 與 o4-mini 分別取得了 69.1% 與 68.1% 的分數。可以提供參考的是，剛剛發布的 GPT-4.1 在這項測試上的成績為 54.6%，而 Claude 3.7 Sonnet 一般情況下得分是 62.3%。

OpenAI 發布的模型在代碼生成能力測評上，終于超越了這個領域的王者Claude。

從現場給出的代碼類任務的 case 來看，模型在接到代碼問題后，到最終生成并執行代碼之前，拆解出了一個個核心步驟。

本次發布的 o3 和 o4-mini 也都是多模態模型。

在官方給出的4項多模態測評數據結果中，o3 又一次全部超越了 o4-mini。

值得注意的是，在指令遵循方面，前幾天的 GPT-4.1 發布時，在 Scale MultiChallenge 榜單中得分僅排名第十。但本次發布的 o3 在這項測評中的成績，直接超越了原榜單第一名的 Gemini 2.5 Pro。

不僅在效果上超越了前代的 o 系列模型，在推理成本上也有顯著下降。

官方給出了新模型在 AIME 和 GPQA 兩個評測集上進行的模型效果與預估推理成本之間的對比結果。

在達到相同的推理效果時，新模型所花費的預計推理成本基本均小于前代模型。模型的推理成本優化效果在 o3 與 o1 進行對比時，提升十分的明顯。

OpenAI 稱對于大多數現實世界的使用，o3和o4 mini也將分別比o1和o3-mini更智能、更便宜。

*各模型 API 價格對比，圖源：機器之心

總之，o4-mini是性價比之選，o3是最新的任務效果天花板。o3-mini和o1，似乎都可以被替代了。

除了模型，還有 Agent

在介紹完新模型的信息后，Greg Brockman 還官宣了一個可以直接在命令行工具中運行的、具備推理能力的代碼 Agent——Codex CLI。

Sam Altman對此的解讀是，它可以和擅長Coding的o3和o4-mini搭配。

插播一句，今天OpenAI還被曝出，正在洽談以30億美元收購知名的AI輔助編程工具Windsurf。如果成真，將是OpenAI迄今為止規模最大的一筆收購。

在實際演示中，用戶只上傳了一張網友制作的小項目的帖子截圖。

模型先是對圖像中的內容進行了識別，然后就在沒有任何指令的情況下，開始嘗試猜測用戶關于這張圖片的具體需求。

僅通過自然語言描述需求后，Codex CLI 就直接生成了符合用戶要求的 HTML 文件。

在直播演示中，OpenAI Agent研究團隊成員，僅通過一張“圖像到 ASCII 風格轉換”的截圖，把這個圖拖進終端，Codex 就將此前截圖網友的項目準確完成，成功創建了一個簡單的ASCII風格圖像轉換工具。

在發布會的最后，Greg Brockman 還預告說，o3-pro 預計將在幾周內完成發布。

在萬眾期待的 GPT-5 遲遲未到的情況下，這幾天的接連出新，可能也是OpenAI的“緩兵之計”，希望用戶對 OpenAI 保留一些信心。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.