<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.4深夜登場!能操控電腦,編程超Opus 4.6,開發者直呼“離譜”

      0
      分享至


      智東西
      編譯 程茜
      編輯 李水青

      智東西3月6日消息,今日凌晨,OpenAIGPT-5.4系列模型來了,ChatGPT、API和Codex同步上線,這是其首款具備原生、最先進計算機使用能力的通用模型。

      根據OpenAI的官方測評結果,GPT-5.4在電腦操控、知識工作、工具使用等綜合任務上全面領先GPT-5.2、Claude Opus 4.6、Gemini 3.1 Pro等頂尖模型。


      OpenAI聯合創始人、CEO薩姆·阿爾特曼(Sam Altman)在社交平臺X上稱,GPT-5.4在知識工作和網頁搜索方面做得更好。OpenAI高級研究科學家、德撲AI之父Noam Brown也發帖稱,GPT?5.4在電腦操控能力與具備經濟價值的任務上實現了巨大飛躍,他們看不到能力天花板,預計今年AI的整體性能仍將持續大幅提升。


      GPT-5.4今天將逐步上線ChatGPT、Codex、API,但其思考模型僅正式向ChatGPT Plus、Team及Pro用戶開放,替代原有GPT?5.2思考模式。GPT?5.2思考模式將在模型選擇器的舊版模型專區為付費用戶再保留三個月,隨后將于2026年6月5日下線。

      GPT-5.4 Pro適合需要在復雜任務中達到最大性能的開發者,將為Pro與企業版用戶提供。

      定價方面,GPT-5.4的單token定價高于GPT?5.2,但OpenAI博客提到,它更高的token效率可降低多數任務的總token消耗量。

      值得一提的是,Codex中的GPT?5.4已實驗性支持100萬上下文窗口,超出標準272K上下文窗口的請求,將按正常用量的2倍計入使用額度。此外,批量處理與彈性計費價格為標準API費率的一半,優先處理則為標準費率的2倍。

      輸入價格,GPT-5.4相對GPT-5.2漲幅超過40%,輸出價格漲幅為7.14%


      參與早期測試的開發者、AI寫作助手公司HyperWrite CEO Matt Shumer對GPT-5.4開啟了夸夸夸模式,稱其是世界上最好的模型,并且相比Pro更常用GPT-5.4的標準版,編程能力好到離譜

      還有網友稱蘋果發了MacBook Neo,OpenAI轉頭就上線100萬token上下文+原生電腦操控,“筆記本正經歷存在主義危機”。但有開發者吐槽,GPT-5.4的價格太瘋狂了,完全沒法基于它做開發


      一、OpenAI首個能原生操作電腦的模型上線,token使用效率更高

      GPT?5.4繼承了OpenAI近期在推理、代碼生成與智能體工作流領域的頂尖技術成果。

      該模型繼承了GPT?5.3?Codex的編程能力,并優化了模型在各類工具、軟件環境及專業任務中的協同表現,涵蓋表格、演示文稿與文檔處理等場景。這使得GPT?5.4能夠精準、高效、可靠地完成復雜的實際工作,直接交付用戶想要的結果。

      ChatGPT的推理模式中,GPT-5.4思考模式可以提前展示思考規劃,用戶可以在模型運行過程中調整方向,無需額外交互輪次,就能實現更符合需求的輸出。

      面對更長、更復雜的查詢,ChatGPT中的GPT?5.4思考模式會先以一段前置說明來規劃解題步驟。用戶可以在回復過程中補充指令或調整方向,無需重新開始或多輪追問,就能引導模型得到你想要的精確結果。

      針對復雜任務,該模型能進行更長時間的思考,同時更好地記住對話前期步驟。這使其能夠處理更長的工作流與更復雜的提示詞,并始終保持回答連貫、切題。


      GPT?5.4思考模式增強了深度網絡檢索能力,尤其針對高度專業化的查詢,同時在需要更長思考過程的問題上更好地維持上下文連貫性。

      在Codex和API中,GPT-5.4是OpenAI首個具備原生、最先進計算機使用能力的通用模型,使Agent可以操作計算機并執行跨應用的復雜工作流。

      其支持100萬個token的上下文,允許Agent執行長時間的規劃、執行和驗證任務,其還能通過工作搜索提升模型在大型工具和連接器生態系統中的工作,幫Agent高效找到和使用工具。

      GPT-5.4是OpenAI迄今為止最高效的token推理模型,相比GPT-5.2,新模型用的token數量明顯更少,從而能減少token使用并加快速度。


      ▲GPT?5.4、GPT?5.3?Codex和GPT?5.2三款模型在不同專業任務上的性能對比表:

      二、知識工作成果:PPT生成效果更強,單個錯誤出現概率降低33%

      GPT?5.4、GPT?5.3?Codex和GPT?5.2三款模型在不同專業任務上的性能對比表,

      評估模型在真實經濟價值任務的GDPval測試上,大模型需在44個職業中產出規范的知識工作成果,GPT-5.4在83.0%的比較率下,其表現達到或超越了行業專業人士的水平,而GPT?5.2的這一比例為70.9%。


      對于創建和編輯電子表格、PPT、文檔的任務,在一項模擬初級投行分析師所做的電子表格建模任務內部基準測試中,GPT?5.4的平均得分達到87.3%,GPT?5.2為68.4%。在一組PPT評估任務中,人類評審在68.0%的情況下更偏好GPT?5.4生成的演示文稿,原因是其美學表現更強、視覺形式更豐富,且圖像生成的運用更具效果。


      在消除幻覺方面,OpenAI官方稱,OpenAI是其迄今事實準確性最高的模型:在一組用戶標記過事實錯誤的去標識化提示測試中,與GPT?5.2相比,GPT?5.4的單個事實陳述出現錯誤的概率降低了33%,整段回答包含任何錯誤的概率降低了18%。

      三、計算機使用與視覺:操控電腦超人類水平,視覺輸入支持最高1024萬像素

      GPT?5.4是OpenAI首款具備原生計算機操作能力的通用模型,OpenAI稱其是目前開發者構建可在各類網站與軟件系統中完成真實任務的智能體時,可選用的最佳模型。

      該模型擅長通過Playwright等庫編寫控制計算機的代碼,也能根據截圖下達鼠標與鍵盤指令。模型行為可通過開發者指令靈活調控,開發者可根據具體場景調整其行為邏輯。開發者還能通過自定義確認策略,配置模型的安全行為,以適配不同的風險容忍等級。

      GPT?5.4在各類計算機操作場景的基準測試中,成績相較前代模型都有所提升。在通過截圖與鍵鼠操作評估模型在桌面環境中的執行能力的OSWorld?Verified測試中,GPT?5.4的成功率達到75.0%,遠超GPT?5.2的47.3%,同時超過了人類水平的72.4%。


      在測試瀏覽器使用能力的WebArena-Verified基準中,GPT?5.4在同時采用DOM與截圖交互時,成功率達到67.3%的,GPT?5.2為65.4%。

      GPT?5.4更強的計算機操作能力,建立在模型通用視覺感知能力的提升之上。在測試模型視覺理解與推理能力的MMMU?Pro基準中,GPT?5.4在不使用工具的情況下達到81.2%的成功率,優于GPT?5.2的79.5%。


      ▲GPT?5.4解析瀏覽器界面截圖,并通過基于坐標的點擊操作與UI元素交互,完成發送郵件、創建日歷日程等任務

      其視覺感知能力的提升也轉化為更出色的文檔解析能力。在OmniDocBench測試中,不啟用深度推理的GPT?5.4平均誤差為0.109,優于GPT?5.2的0.140。


      OpenAI還針對高分辨率、信息密集型圖像優化了視覺理解能力,確保完整保真度。

      從GPT?5.4開始,OpenAI將推出原始圖像輸入精度模式,支持最高1024萬像素或最大邊長6000像素(取較低值)的全保真感知;原有的高圖像輸入精度模式現已支持最高256萬像素或最大邊長2048像素。

      在面向API用戶的早期測試中,研究人員觀察到,使用原始精度或高精度模式時,模型在定位能力、圖像理解與點擊準確率上均有顯著提升。

      四、編程:表現超越GPT?5.3?Codex,token生成速度最高可提升1.5倍

      GPT?5.4融合了GPT?5.3?Codex的代碼能力優勢,以及知識工作與計算機操作能力,這些能力在長時間運行的任務中尤為關鍵,模型可自主調用工具、迭代推進任務,大幅減少人工干預。

      在SWE?Bench Pro測試中,GPT?5.4的表現持平甚至超越GPT?5.3?Codex,同時在各類推理任務中延遲更低。


      在Codex中開啟/fast模式后,GPT?5.4的token生成速度最高可提升1.5倍。模型與智能水平保持不變,僅速度更快。這意味著用戶可以在編碼、迭代與調試過程中保持流暢狀態。

      開發者可通過API的優先處理功能,以同等高速體驗使用GPT?5.4。

      在評估和內部測試中,研究人員發現GPT-5.4在復雜的前端任務中表現出色,其美觀效果和功能性均優于我們之前發布的任何模型。

      為展示模型計算機操作能力與代碼能力協同提升的效果,OpenAI還同步推出一項實驗性Codex技能,名為“Playwright(交互式)”。該功能讓Codex能夠以視覺方式調試網頁與Electron應用,甚至可以在應用開發過程中,邊構建邊測試。


      ▲一款僅通過簡短提示詞、由GPT?5.4生成的主題公園模擬游戲, 開發過程中使用 Playwright Interactive 進行瀏覽器端實機測試,并通過圖像生成創建等距視角美術資源。

      五、工具使用:能快速搜索調用,完成長時間多輪復雜任務

      基于GPT-5.4,智能體現在可在更龐大的工具生態中運行,更可靠地選擇合適工具,并以更低成本、更低延遲完成多步驟工作流。

      在API中,GPT-5.4引入了工具搜索功能,使模型在擁有多種工具時能夠高效工作。借助工具搜索功能,GPT?5.4會先獲取一份輕量化的可用工具列表,并具備工具檢索能力。當模型需要使用某一工具時,可實時查詢該工具的定義,并將其即時加入對話上下文。

      這可以減少工具密集型工作流所需的token數量,并能有效利用緩存,讓請求更快、成本更低。智能體也可以能夠穩定適配規模更龐大的工具生態系統。

      為展示效率提升效果,OpenAI選取了Scale旗下MCP Atlas基準測試中的250項任務,在啟用全部36臺MCP服務器的情況下,采用兩種模式進行評估:將所有MCP函數直接暴露在模型上下文、將所有MCP服務器置于工具搜索機制之后,對比結果如下:


      GPT-5.4還改進了工具調用,在測試AI智能體如何使用真實工具與API完成多步驟任務的Toolathlon基準測試中,相比GPT?5.2,GPT?5.4以更少的交互輪次實現了更高的準確率。其任務包含智能體需要讀取郵件、提取任務附件、上傳文件、進行評分,并將結果記錄到電子表格中。


      對于偏好無推理模式、對延遲敏感的應用場景,GPT?5.4相比前代模型實現了進一步優化。


      網頁搜索中,在衡量AI智能體持續瀏覽網頁以尋找難以定位信息能力的指標BrowseComp上,GPT-5.4躍升了17%,GPT-5.4 Pro達到89.3%。這意味著GPT-5.4可以更持久地跨多輪搜索,找出最相關的來源。


      結語:OpenAI鞏固行業主導權

      GPT-5.4此次在計算機操作能力上、GDPval 83%的勝率都說明,AI在執行經濟價值任務、原生電腦操控方面的天花板進一步被拉高,讓進一步證明AI已能穩定完成高價值的知識工作,如數據分析、客戶服務、業務流程處理等,直接產生經濟效益。

      從當前的測評表現來看,GPT?5.4的發布進一步鞏固了OpenAI的行業頭部地位,其測評表現遠超前代模型及競對公司的頂尖模型,或為其規模化商業化與AGI路線圖奠定關鍵基礎。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普:美軍在與伊朗沖突中可能還會出現更多傷亡

      特朗普:美軍在與伊朗沖突中可能還會出現更多傷亡

      界面新聞
      2026-03-08 07:13:38
      西貝再暴大雷!總部人去樓空,新任領導威逼員工,300人討薪無門

      西貝再暴大雷!總部人去樓空,新任領導威逼員工,300人討薪無門

      離離言幾許
      2026-03-07 15:53:37
      偷往帽子倒螺螄粉湯的女子已經社死,正面照遭網友Ai修復后瘋傳

      偷往帽子倒螺螄粉湯的女子已經社死,正面照遭網友Ai修復后瘋傳

      映射生活的身影
      2026-03-08 02:42:07
      越扒瓜越大!魯山舅舅與亡姐結婚再添猛料,遠不止吃絕戶這么簡單

      越扒瓜越大!魯山舅舅與亡姐結婚再添猛料,遠不止吃絕戶這么簡單

      夢史
      2026-03-07 09:26:14
      特朗普發表聲明:伊朗已向其中東鄰國投降!這是由于美以的持續攻擊才實現的

      特朗普發表聲明:伊朗已向其中東鄰國投降!這是由于美以的持續攻擊才實現的

      爆角追蹤
      2026-03-07 21:09:51
      伊朗發視頻嘲諷:500萬美元導彈摧毀10美元假直升機 這就是所謂的“精準勝利”

      伊朗發視頻嘲諷:500萬美元導彈摧毀10美元假直升機 這就是所謂的“精準勝利”

      閃電新聞
      2026-03-07 14:00:07
      國家下狠手了!體制內大地震,少爺、公主們的“天”,要塌了

      國家下狠手了!體制內大地震,少爺、公主們的“天”,要塌了

      霹靂炮
      2026-01-19 22:24:13
      汪小菲怒撕親媽翻車!張蘭撕開汪家四十年遮羞布,六麻記口碑暴跌

      汪小菲怒撕親媽翻車!張蘭撕開汪家四十年遮羞布,六麻記口碑暴跌

      離離言幾許
      2026-03-07 16:06:38
      就在下周一,或迎來本年度飆升!加滿一箱油要貴20元

      就在下周一,或迎來本年度飆升!加滿一箱油要貴20元

      都市快報橙柿互動
      2026-03-07 23:13:42
      網友吐槽別糊弄老百姓了,又是天才少年發國際論文,誰家的公子?

      網友吐槽別糊弄老百姓了,又是天才少年發國際論文,誰家的公子?

      眼光很亮
      2026-03-08 01:43:40
      劉詩詩直播美的好權威,金絲眼鏡+大波浪造型,讓她美的發光了

      劉詩詩直播美的好權威,金絲眼鏡+大波浪造型,讓她美的發光了

      明星私服穿搭daily
      2026-03-05 07:24:32
      以色列特種兵深夜突襲慘敗,伊朗系成功伏擊,遠火轟擊F-35維修廠

      以色列特種兵深夜突襲慘敗,伊朗系成功伏擊,遠火轟擊F-35維修廠

      軍機Talk
      2026-03-07 16:42:12
      38歲破格被復旦大學錄取為博士的東北三輪車夫,如今怎么樣了?

      38歲破格被復旦大學錄取為博士的東北三輪車夫,如今怎么樣了?

      凡知
      2026-03-07 12:12:50
      魯迅在北京用3765塊大洋,買一套32間的四合院,如今值多少錢?

      魯迅在北京用3765塊大洋,買一套32間的四合院,如今值多少錢?

      鶴羽說個事
      2026-03-07 18:52:54
      特朗普沒想到:美伊大戰打醒兩個國家,一個是越南,一個是菲律賓

      特朗普沒想到:美伊大戰打醒兩個國家,一個是越南,一個是菲律賓

      探索新高度
      2026-03-07 23:24:06
      愛德華茲評NBA歷史首發五虎:現役三人在列包括自己 沒選詹姆斯

      愛德華茲評NBA歷史首發五虎:現役三人在列包括自己 沒選詹姆斯

      羅說NBA
      2026-03-08 06:08:56
      伊朗戰術奏效了,再對林肯號航母發射導彈,這個武器成美軍數學題

      伊朗戰術奏效了,再對林肯號航母發射導彈,這個武器成美軍數學題

      書紀文譚
      2026-03-07 15:19:19
      人大代表畢利霞哽咽發言:老一輩的農民為農村改革發展奉獻了一輩子,懇請將農村70歲以上老人養老金每月提高到400元,免除居民醫保費

      人大代表畢利霞哽咽發言:老一輩的農民為農村改革發展奉獻了一輩子,懇請將農村70歲以上老人養老金每月提高到400元,免除居民醫保費

      大風新聞
      2026-03-07 17:46:10
      伊朗問題,注意普京的動向

      伊朗問題,注意普京的動向

      新民周刊
      2026-03-08 09:11:54
      "小龍蝦”背后暗藏極大危險:目前所有部署OpenClaw的電腦都可能成為"肉雞"!

      "小龍蝦”背后暗藏極大危險:目前所有部署OpenClaw的電腦都可能成為"肉雞"!

      識局Insight
      2026-03-07 19:42:12
      2026-03-08 09:43:00
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      11320文章數 116989關注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      媒體:伊朗問題要注意普京的動向 其在向美以喊話

      頭條要聞

      媒體:伊朗問題要注意普京的動向 其在向美以喊話

      體育要聞

      塔圖姆298天走完這段路 只用27分鐘征服這座城

      娛樂要聞

      汪小菲曝親媽猛料,張蘭公開財產分配

      財經要聞

      油價要失控?

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      教育
      親子
      游戲
      時尚
      本地

      教育要聞

      成長路上的心靈迷霧:青春期女生常見心理

      親子要聞

      12歲孩子腸癌晚期,腫瘤年輕化不是開玩笑!

      成功是必然!《幻獸帕魯》高管盛贊《殺戮尖塔2》

      2026春夏一定要擁有的6只包,好看又百搭

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      無障礙瀏覽 進入關懷版