<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI發布o3/o4-mini:"最智能"模型,圖片推理、工具調用全都有

      0
      分享至

      本周果然是諸神之戰!

      繼 GPT-4.1 發布、可靈2.0 發布、Claude 上線 Research、Gemini 全面上線 Veo 2 等等之后,OpenAI 帶來了 o3 滿血版和 o4-mini。



      先來劃重點:

      • 本次發布的模型,分別是 o3 和 o4-mini;
      • 綜合看o4-mini性價比最高,o3能力最為綜合;
      • 兩個模型均為多模態推理模型,在代碼、科學方面表現出色;



      *網友實測,認為Benchmark又要更新了

      多模態推理也是本次官宣的重點。我們順手拿蘋果手表對o3做了測試:



      *識別略有出入,真實型號是S9。不過這幾個型號確實外觀無太大差別,肉眼直接分辨也有難度。

      Sam Altman本人也對這次發布劃了重點



      ChatGPT 的 Pro、Plus、Teams 用戶將從今天開始能夠使用新模型,免費用戶可以通過打開“深度思考”按鈕來試用 o4-mini。



      *ChatGPT更新的頁面

      "OpenAI 迄今為止最強大的模型們"

      OpenAI 聯創之一 Greg Brockman 主持直播,開場白簡單直接,直接宣布今天的重點:“發布兩款新模型,o3 和 o4-mini”。



      首先被拋出的新模型描述就是,o3 和 o4-mini 是 OpenAI 目前為止最智能的模型。相比前代 o 系列模型,這兩款模型在深度思考方面的能力更突出,在回答問題之前會進行更長時間的思考。

      另一個特點是,o3 滿血版和 o4-mini 可以使用 OpenAI 已經發布的所有工具能力,包括聯網搜索、永久記憶等等。當然,它們還是多模態的,可以直接對圖片進行推理。

      強大的推理能力,以及廣泛的工具調用能力,使得這兩款模型非常適合科學研究、代碼生成或數學問題解答。

      分開來看,o3 定位為OpenAI當前最強大、最前沿的推理引擎。尤其是在編程、商業/咨詢和創意構思等領域表現出色。

      o4-mini 則更強調性價比,是一款專為快速、成本效率優化的推理模型,它的體量更小,性價比更高,在數學、編程和視覺任務方面有著不錯的表現。

      從科學方面的測評結果來看,o3 與 o4-mini 顯著領先于前代 o 系列模型。而在 o3 與 o4-mini 之間來進行比較,得分差距并不是十分明顯,多數情況下,o4-mini 會略微領先于 o3。



      現場直播中也給出了一道 AIME 題目的測試結果:





      對于這個數學問題,模型在給出了正確的常規解法和答案后,甚至還額外給出了一個相對更“聰明”的解法。

      再來看代碼能力



      本次發布的兩款新模型在代碼能力上相較前代 o 系列模型提升明顯。在 SWE-Bench Verified 評測集上,o3 與 o4-mini 分別取得了 69.1% 與 68.1% 的分數。可以提供參考的是,剛剛發布的 GPT-4.1 在這項測試上的成績為 54.6%,而 Claude 3.7 Sonnet 一般情況下得分是 62.3%。

      OpenAI 發布的模型在代碼生成能力測評上,終于超越了這個領域的王者Claude。

      從現場給出的代碼類任務的 case 來看,模型在接到代碼問題后,到最終生成并執行代碼之前,拆解出了一個個核心步驟。











      本次發布的 o3 和 o4-mini 也都是多模態模型。



      在官方給出的4項多模態測評數據結果中,o3 又一次全部超越了 o4-mini。

      值得注意的是,在指令遵循方面,前幾天的 GPT-4.1 發布時,在 Scale MultiChallenge 榜單中得分僅排名第十。但本次發布的 o3 在這項測評中的成績,直接超越了原榜單第一名的 Gemini 2.5 Pro。



      不僅在效果上超越了前代的 o 系列模型,在推理成本上也有顯著下降。

      官方給出了新模型在 AIME 和 GPQA 兩個評測集上進行的模型效果與預估推理成本之間的對比結果。

      在達到相同的推理效果時,新模型所花費的預計推理成本基本均小于前代模型。模型的推理成本優化效果在 o3 與 o1 進行對比時,提升十分的明顯。

      OpenAI 稱對于大多數現實世界的使用,o3和o4 mini也將分別比o1和o3-mini更智能、更便宜。







      *各模型 API 價格對比,圖源:機器之心

      總之,o4-mini是性價比之選,o3是最新的任務效果天花板。o3-mini和o1,似乎都可以被替代了。

      除了模型,還有 Agent

      在介紹完新模型的信息后,Greg Brockman 還官宣了一個可以直接在命令行工具中運行的、具備推理能力的代碼 Agent——Codex CLI。

      Sam Altman對此的解讀是,它可以和擅長Coding的o3和o4-mini搭配。



      插播一句,今天OpenAI還被曝出,正在洽談以30億美元收購知名的AI輔助編程工具Windsurf。如果成真,將是OpenAI迄今為止規模最大的一筆收購。

      在實際演示中,用戶只上傳了一張網友制作的小項目的帖子截圖。

      模型先是對圖像中的內容進行了識別,然后就在沒有任何指令的情況下,開始嘗試猜測用戶關于這張圖片的具體需求。



      僅通過自然語言描述需求后,Codex CLI 就直接生成了符合用戶要求的 HTML 文件。

      在直播演示中,OpenAI Agent研究團隊成員,僅通過一張“圖像到 ASCII 風格轉換”的截圖,把這個圖拖進終端,Codex 就將此前截圖網友的項目準確完成,成功創建了一個簡單的ASCII風格圖像轉換工具。



      在發布會的最后,Greg Brockman 還預告說,o3-pro 預計將在幾周內完成發布。

      在萬眾期待的 GPT-5 遲遲未到的情況下,這幾天的接連出新,可能也是OpenAI的“緩兵之計”,希望用戶對 OpenAI 保留一些信心。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      泰國繳獲柬埔寨中式武器后,找中國使館興師問罪,我方有言在先

      泰國繳獲柬埔寨中式武器后,找中國使館興師問罪,我方有言在先

      南宮一二
      2025-12-16 18:38:29
      撿到寶了!泰國上將:中國沒要求歸還導彈,將反打柬埔寨59D坦克

      撿到寶了!泰國上將:中國沒要求歸還導彈,將反打柬埔寨59D坦克

      南宮一二
      2025-12-17 07:22:32
      美國首次宣布,如果俄羅斯再次襲擊烏克蘭,美國將作出軍事反應

      美國首次宣布,如果俄羅斯再次襲擊烏克蘭,美國將作出軍事反應

      清濱酒客
      2025-12-16 18:12:17
      著名國腳想替戴琳還債+捐款!去世球迷家屬拒絕:冤有頭債有主

      著名國腳想替戴琳還債+捐款!去世球迷家屬拒絕:冤有頭債有主

      念洲
      2025-12-17 07:41:36
      韋德談保羅離隊:我覺得快船內部溝通不暢,不是所有人都贊成

      韋德談保羅離隊:我覺得快船內部溝通不暢,不是所有人都贊成

      懂球帝
      2025-12-17 01:53:06
      黃有龍做夢也沒想到,自己花重金培養大的女兒,竟給趙薇做了嫁衣

      黃有龍做夢也沒想到,自己花重金培養大的女兒,竟給趙薇做了嫁衣

      查爾菲的筆記
      2025-12-16 15:14:06
      恭喜!楊瀚森NBA首次首發球衣被拍賣 最終成交價42356元

      恭喜!楊瀚森NBA首次首發球衣被拍賣 最終成交價42356元

      醉臥浮生
      2025-12-16 16:23:58
      不許緬甸生戰火!中方監督組已到前線,緬甸全境一夜之間槍炮啞火

      不許緬甸生戰火!中方監督組已到前線,緬甸全境一夜之間槍炮啞火

      養牛的大昆
      2025-12-15 19:10:49
      2400個訂單只有一個網約車司機,打車的人變多了,網約車行業旺季回歸!

      2400個訂單只有一個網約車司機,打車的人變多了,網約車行業旺季回歸!

      網約車觀察室
      2025-12-16 10:27:49
      向大陸求救!
國民黨亂成一鍋粥了!

鄭麗文遭受內外夾擊!

      向大陸求救! 國民黨亂成一鍋粥了! 鄭麗文遭受內外夾擊!

      百態人間
      2025-12-16 16:20:45
      安宮牛黃丸為何成了中國最昂貴的假藥?

      安宮牛黃丸為何成了中國最昂貴的假藥?

      微評社
      2025-12-15 15:38:28
      向太曝馬伊琍已再婚:當年文章過不了心理那關

      向太曝馬伊琍已再婚:當年文章過不了心理那關

      娛樂看阿敞
      2025-12-12 15:50:00
      上海男籃輸球揪出最大毒瘤!他上場12分鐘 投籃4中0 上空籃都不進

      上海男籃輸球揪出最大毒瘤!他上場12分鐘 投籃4中0 上空籃都不進

      籃球專區
      2025-12-16 22:52:28
      成都蓉城被坑慘了?徐正源突然翻臉不認人,拒絕續約+想回韓國!

      成都蓉城被坑慘了?徐正源突然翻臉不認人,拒絕續約+想回韓國!

      羅掌柜體育
      2025-12-16 09:44:54
      年輕教師:放下粉筆后的另一種狂野

      年輕教師:放下粉筆后的另一種狂野

      疾跑的小蝸牛
      2025-12-16 21:18:09
      特朗普政府威脅動用“一切工具”報復歐盟數字稅,罕見點名或瞄準SAP、西門子等歐企

      特朗普政府威脅動用“一切工具”報復歐盟數字稅,罕見點名或瞄準SAP、西門子等歐企

      華爾街見聞官方
      2025-12-17 03:30:47
      日媒驚嘆:中國或有望成荷蘭和日本后第三個獨立制造光刻機的國家

      日媒驚嘆:中國或有望成荷蘭和日本后第三個獨立制造光刻機的國家

      王新喜
      2025-12-17 08:01:38
      刺激夜:巴塞羅那2-0晉級,切爾西3-1晉級,埃因霍溫3-0晉級,埃及2-1

      刺激夜:巴塞羅那2-0晉級,切爾西3-1晉級,埃因霍溫3-0晉級,埃及2-1

      側身凌空斬
      2025-12-17 06:32:05
      鴻蒙智行停止“鴻蒙智行大飯店”宣傳 禁止提供免費餐飲

      鴻蒙智行停止“鴻蒙智行大飯店”宣傳 禁止提供免費餐飲

      手機中國
      2025-12-16 16:06:28
      王清海:山楂是個寶,配上一味藥,給血管“洗個澡”,趕緊存好了

      王清海:山楂是個寶,配上一味藥,給血管“洗個澡”,趕緊存好了

      蠟筆小小子
      2025-12-06 14:49:41
      2025-12-17 11:55:00
      四木相對論 incentive-icons
      四木相對論
      嘮嘮科技,看看世界
      89文章數 1關注度
      往期回顧 全部

      科技要聞

      無人駕駛邁關鍵一步 特斯拉股價觸歷史新高

      頭條要聞

      罰站照片被老師發到家長群 八年級男孩從十八樓跳下

      頭條要聞

      罰站照片被老師發到家長群 八年級男孩從十八樓跳下

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      鞠婧祎收入曝光,絲芭稱已支付1.3億

      財經要聞

      "祥源系"爆雷 有投資者數百萬元無法提現

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      教育
      房產
      旅游
      數碼
      公開課

      教育要聞

      《全民閱讀促進條例》:能改變“想讀沒時間,有時間卻不想讀”嗎?

      房產要聞

      封關前夜!海南綠發20億拿下三亞重磅宅地!

      旅游要聞

      秀我中國|黃河壺口瀑布出現冰掛彩虹景觀

      數碼要聞

      機械師推出GX11Pro頭戴式耳機,169元

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 少妇高潮喷水久久久影院| 青青草av| 精品一区二区ww| 天堂一区人妻无码| 国产一级小视频| 樱花影院电视剧免费| 亚洲日韩一区精品射精| 亚洲人成网站在线播放2019| av天堂中文| 黄色18禁网站| 亚洲精品97久久中文| 国产成人无码a区在线观看导航 | 亚洲欧美另类久久久精品| 亚洲热妇无码av在线播放| 欧美色综合天天久久综合精品 | 豆花视频在线吃瓜| 免费无遮挡无码永久视频| 成人性生交大片免费看r老牛网站| 刺激一区仑乱| 欧美精品在线视频| 龙岩市| 暖暖视频日本在线观看| 日本丰满熟妇videossex一| 欧美亚洲人成网站在线观看| 亚洲国产高清av网站| 日本噜噜影院| 夜夜国自一区| 滦南县| 亚洲AV无码成人精品一区| 久久99国产亚洲高清观看首页| 色伦专区97中文字幕| 久久999| 在线视频精品中文无码| 亚洲综合色丁香婷婷六月图片| 亚洲免费福利在线视频| 丰满少妇在线观看网站| 亚洲综合天堂一区二区三区| 亚洲区视频| 国产熟女在线播放| 日韩1级| 沁水县|