<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI發布最強專業模型GPT-5.4,自動操作電腦,插件支持AI玩轉Excel和金融分析

      0
      分享至

      更快更有判斷力的GPT-5系列模型GPT-5.3 Instant問世才一天,美東時間5日周四,OpenAI就發布了全新的旗艦基礎模型GPT-5.4,在ChatGPT、API以及開發工具Codex中同步上線。

      OpenAI稱GPT-5.4是“迄今能力最強、最高效的專業工作前沿模型”,重點面向企業辦公與復雜知識工作場景。相比此前版本,GPT-5.4的最大變化在于強化AI智能體(Agent)的能力。在API和Codex中,GPT-5.4首次實現了原生級“電腦操作”功能,支持智能體跨軟件執行復雜工作流。

      GPT-5.4不僅能生成文本或代碼,還首次將原生電腦操控能力引入通用模型,能直接操作電腦軟件、瀏覽網頁、控制鼠標和鍵盤完成任務,并可與電子表格、金融分析工具等企業應用深度整合,深度嵌入微軟Excel和谷歌表格。

      在ChatGPT中,GPT-5.4支持“提前展示思維過程”,允許用戶在模型響應過程中調整任務方向,并提升了深度網頁搜索與長邏輯語境下的上下文保持能力。

      業內認為,GPT-5.4的一系列升級標志著AI模型正從“對話工具”走向自動化執行任務的數字代理系統,進一步滲透企業生產力軟件與專業知識工作。

      OpenAI本周四同時推出兩個版本,包括更擅長復雜推理的GPT-5.4 Thinking以及高性能的GPT-5.4 Pro,分別面向付費用戶和高端企業用戶。

      在計算機操控基準測試OSWorld-Verified中,GPT-5.4以75.0%的成功率超越人類平均水平72.4%,較前代GPT-5.2的47.3%大幅躍升。同期發布的財務服務套件顯示,GPT-5.4在OpenAI內部投行基準測試中的得分從GPT-5的43.7%躍升至88.0%。


      早期測試機構給出積極反饋。投資公司Walleye Capital的AI解決方案主管Daniel Swiecki表示,GPT-5.4在內部財務和Excel評估中準確率提升了30個百分點。AI人才平臺Mercor的CEO Brendan Foody稱其為該公司“迄今嘗試過的最佳模型”,并表示GPT-5.4已在Mercor面向專業服務工作的APEX-Agents基準測試中排名第一。

      通用模型中首次內置原生電腦操控功能 突破單輪問答邊界

      GPT-5.4最具突破性的能力在于其原生電腦操控功能,這也是OpenAI首次在通用模型中內置該能力。通過API和Codex,該模型可像人類一樣操控計算機,跨應用完成多步驟工作流程。

      具體而言,GPT-5.4既可通過Playwright等庫編寫代碼來操控計算機,也可直接響應截圖發出鼠標和鍵盤指令,開發者還可配置自定義確認策略以適配不同風險容忍度場景。

      基準測試數據支撐了這一能力的實質性進步:在測試桌面導航能力的OSWorld-Verified中,GPT-5.4成功率達75.0%,不僅超過GPT-5.2的47.3%,也超越了人類基準水平72.4%;在瀏覽器操控測試WebArena-Verified中,成功率為67.3%,高于GPT-5.2的65.4%;在Online-Mind2Web中,僅憑截圖即實現92.8%的成功率。

      在網絡搜索能力方面,BrowseComp測試顯示GPT-5.4較GPT-5.2提升17個百分點,GPT-5.4 Pro更以89.3%的成績創下該基準測試的最高評分紀錄。


      地產科技公司Mainstay的CEO Dod Fraser表示,在覆蓋約3萬個房產稅門戶的測試中,GPT-5.4首次嘗試成功率達95%,三次內成功率達100%,相比此前的計算機操控模型(成功率約73%至79%)大幅提升,同時完成速度加快約3倍,tokens消耗減少約70%。

      工具搜索機制重構 大幅降低token消耗

      隨著工具生態規模擴大,如何高效管理工具調用成為制約代理系統落地的瓶頸。GPT-5.4在API中引入"工具搜索"(Tool Search)機制,從根本上改變了工具定義的傳遞方式。

      此前,模型在每次請求時均需在提示詞中預加載全部工具定義,在工具數量龐大的系統中,這會在每次請求中額外消耗數千乃至數萬tokens,推高成本、增加延遲并稀釋上下文。新機制下,模型僅接收工具的輕量化列表,僅在實際需要使用某工具時才按需檢索其完整定義。

      OpenAI以具體數據佐證效果:在使用Scale的MCP Atlas基準測試的250項任務中,啟用全部36個MCP服務器的配置下,工具搜索模式相較將全部MCP功能直接暴露于上下文的模式,在保持相同準確率的前提下,總token用量減少47%。


      Zapier的CEO Wade表示,GPT-5.4在該公司橫跨數百個高級真實工作流的工具使用基準測試中表現優異,"是迄今為止最具持續性的模型"。

      金融與企業場景:Excel深度集成,投行任務成績翻倍

      與GPT-5.4同步發布的還有面向企業和金融機構的“OpenAI金融服務”套件,核心產品是ChatGPT for Excel和Google Sheets(測試版)——ChatGPT將直接嵌入電子表格單元格,支持構建、分析和更新復雜財務模型。

      該套件還整合了FactSet、MSCI、Third Bridge和Moody's等數據合作伙伴,并推出可復用的Skills功能,覆蓋盈利預覽、可比公司分析、DCF估值分析及投資備忘錄撰寫等高頻金融工作場景。

      在內部投行基準測試中,GPT-5.4 Thinking的得分從GPT-5的43.7%躍升至88.0%;在模擬初級投行分析師電子表格建模任務的測試中,GPT-5.4平均得分87.3%,遠高于GPT-5.2的68.4%。


      法律AI平臺Harvey的應用研究主管Niko Grupen表示,GPT-5.4在該公司BigLaw Bench評估中得分91%,"在結構化復雜交易分析、跨長篇合同保持準確性以及提供法律從業者所需的高度細節方面,目前優于其他模型"。

      知識工作與幻覺抑制:全面對標專業人士

      OpenAI在多個衡量真實職場輸出的基準測試上展示了GPT-5.4的能力邊界。在GDPval測試中——該測試涵蓋44個職業的知識工作任務,包括銷售演示、會計表格、制造業圖表等真實工作產出——GPT-5.4在83.0%的比較中達到或超越行業專業人士水平,高于GPT-5.2的71.0%。


      在演示文稿質量評估中,人類評審在68.0%的情況下更偏好GPT-5.4的輸出,原因包括更強的視覺美感、更豐富的視覺多樣性以及更有效的圖像生成應用。

      在幻覺和事實錯誤控制方面,OpenAI表示GPT-5.4是其"迄今最具事實準確性的模型":在用戶此前標記過事實錯誤的去標識化提示詞測試集上,GPT-5.4的單項陳述錯誤率較GPT-5.2降低33%,完整回應中出現任意錯誤的概率降低18%。

      在編程能力方面,GPT-5.4在SWE-Bench Pro上的表現與GPT-5.3-Codex持平或更優,且在各推理強度設置下延遲更低。Codex的/fast模式可為GPT-5.4帶來最高1.5倍的token生成速度提升,該模式使用相同模型與相同智能,僅在速度層面進行優化。GitHub首席產品官Mario Rodriguez表示,GPT-5.4在邏輯推理及執行復雜多步驟工具依賴工作流方面表現突出,"是企業第一天就應該采用的模型"。

      兩個版本分層覆蓋不同用戶需求 上下文窗口最高100萬token

      GPT-5.4 Thinking面向需要深度推理的通用專業場景,GPT-5.4 Pro則專為最復雜任務設計,追求性能上限。

      在ChatGPT端,GPT-5.4 Thinking從本周四起向Plus(月費20美元)、Team及Pro用戶開放,取代此前的GPT-5.2 Thinking,GPT-5.2 Thinking將在三個月后于2026年6月5日正式退役。

      GPT-5.4 Pro僅限Pro(月費200美元)及Enterprise計劃用戶使用。免費用戶亦可在系統自動路由時有限接觸GPT-5.4。企業和教育計劃用戶可通過管理員設置提前開啟訪問權限。

      在API端,GPT-5.4以gpt-5.4標識符提供,GPT-5.4 Pro以gpt-5.4-pro提供,兩者均可在Codex開發平臺使用。API最大輸出為12.8萬token,與此前模型保持一致。API及Codex同時支持最高100萬token的上下文窗口,是OpenAI迄今提供的最大上下文容量,適合跨步驟長鏈路任務的規劃、執行與驗證。

      定價高于前代,效率提升部分抵消成本增加

      在API定價上,GPT-5.4的價格相較GPT-5.2有所上調。具體如下:

      • GPT-5.4:輸入2.50美元/百萬token,輸出15美元/百萬token(GPT5.2的定價為輸入1.75美元/百萬token、輸出14美元/百萬token)
      • GPT-5.4 Pro:輸入30美元/百萬token,輸出180美元/百萬token(GPT5.2 Pro為輸入21美元/百萬token、輸出168美元/百萬token)
      • Batch及Flex定價享半價優惠,Priority(優先)處理則按標準價格的兩倍計費


      值得注意的是,當單次輸入超過27.2萬token時,超出部分將按兩倍標準費率計費。在Codex中,默認壓縮上限為27.2萬token,開發者可手動上調上限以處理更大提示詞,超出部分方觸發較高計費。

      OpenAI對較高定價給出三點解釋:一是在編程、計算機操控、深度研究、高級文檔生成及工具調用等復雜任務上能力更強;二是來自研究路線圖的重大技術進步;三是更高效的推理機制在相同任務上消耗更少推理tokens,一定程度上抵消了單價上升的影響。OpenAI同時表示,即便提價,GPT-5.4的定價仍低于同等能力的競品前沿模型。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      請注意:10日美以將進入伊朗空域全面轟炸,福特號已前往波斯灣

      請注意:10日美以將進入伊朗空域全面轟炸,福特號已前往波斯灣

      邵旭峰域
      2026-03-07 17:50:03
      陜西女警花臥底被揪出,被歹徒折磨7天解救:人都已經垮了

      陜西女警花臥底被揪出,被歹徒折磨7天解救:人都已經垮了

      罪案洞察者
      2025-03-07 08:59:25
      董宇輝直播間數據下滑?質疑聲與銷售奇跡的幕后真相

      董宇輝直播間數據下滑?質疑聲與銷售奇跡的幕后真相

      草莓解說體育
      2026-03-07 20:06:45
      清朝時期,康熙若要從北京到承德避暑山莊,究竟需要多長時間?

      清朝時期,康熙若要從北京到承德避暑山莊,究竟需要多長時間?

      芊芊子吟
      2026-03-07 20:25:03
      一旦中美開戰,第一天會發生什么?美智庫被兵推結果驚出一身汗

      一旦中美開戰,第一天會發生什么?美智庫被兵推結果驚出一身汗

      星星沒有你亮
      2026-02-07 02:24:58
      男子釣獲變異紅紋豬麻鋸,釣魚十幾年沒見過!網友:吃了會登仙!

      男子釣獲變異紅紋豬麻鋸,釣魚十幾年沒見過!網友:吃了會登仙!

      貍貓之一的動物圈
      2026-03-07 10:02:36
      奪下全國第一,磷化工巨頭,一戰成名!

      奪下全國第一,磷化工巨頭,一戰成名!

      飛鯨投研
      2026-03-07 19:25:33
      芒果立大功!中國科學家最新研究:連續補充26天 生存時間延長23%

      芒果立大功!中國科學家最新研究:連續補充26天 生存時間延長23%

      思思夜話
      2026-03-06 15:59:05
      現實教訓!重慶女子離婚無家可歸,抱娃跪求前任接盤,被連趕3次

      現實教訓!重慶女子離婚無家可歸,抱娃跪求前任接盤,被連趕3次

      今朝牛馬
      2026-03-02 21:27:47
      谷維素加維生素B12,可改善老年人4大常見問題,建議收藏!

      谷維素加維生素B12,可改善老年人4大常見問題,建議收藏!

      李藥師談健康
      2026-03-06 13:25:58
      油價如果沖上100美元,A股最受益的10家公司

      油價如果沖上100美元,A股最受益的10家公司

      風風順
      2026-03-07 07:32:40
      CBA外援縮減人數!重回6年前,遼籃吃到紅利,上海、廣廈受限

      CBA外援縮減人數!重回6年前,遼籃吃到紅利,上海、廣廈受限

      體壇大事記
      2026-03-07 16:28:12
      《逐玉》ai換臉僵硬出戲,連田曦薇也帶不動,原演員被換原因離譜

      《逐玉》ai換臉僵硬出戲,連田曦薇也帶不動,原演員被換原因離譜

      劇芒芒
      2026-03-07 14:00:04
      寧夏大學教授:為什么哈梅內伊不慌張?

      寧夏大學教授:為什么哈梅內伊不慌張?

      必記本
      2026-03-06 18:21:35
      德云社弟子人氣大洗牌!4人上桌,3人邊緣,2人換桌,岳云鵬退場

      德云社弟子人氣大洗牌!4人上桌,3人邊緣,2人換桌,岳云鵬退場

      好賢觀史記
      2026-03-07 09:50:01
      中甲金靴中超首秀0射門0過人,卻13次丟球,他怎么了?

      中甲金靴中超首秀0射門0過人,卻13次丟球,他怎么了?

      小犙拍客在北漂
      2026-03-08 05:13:35
      詹姆斯今年是否會退役?韋德:我覺得不會,他還能再多打兩年

      詹姆斯今年是否會退役?韋德:我覺得不會,他還能再多打兩年

      懂球帝
      2026-03-07 20:03:37
      鄒市明一家國外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

      鄒市明一家國外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

      小徐講八卦
      2026-03-01 05:51:11
      宋方金曝光陳道明接戲“潛規則”:他主動要請你吃飯,就是不演了

      宋方金曝光陳道明接戲“潛規則”:他主動要請你吃飯,就是不演了

      落雪聽梅a
      2026-03-06 22:10:36
      新疆真是五十步一個迪麗熱巴,這美貌不爆紅沒天理

      新疆真是五十步一個迪麗熱巴,這美貌不爆紅沒天理

      飛娛日記
      2026-03-07 08:08:03
      2026-03-08 07:20:49
      華爾街見聞官方 incentive-icons
      華爾街見聞官方
      中國領先的金融商業信息提供商
      142616文章數 2652791關注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養蝦人"自述與AI共生

      頭條要聞

      伊朗啟動“真實承諾4”第27輪軍事行動

      頭條要聞

      伊朗啟動“真實承諾4”第27輪軍事行動

      體育要聞

      塔圖姆298天走完這段路 只用27分鐘征服這座城

      娛樂要聞

      汪小菲曝親媽猛料,張蘭公開財產分配

      財經要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      房產
      時尚
      親子
      游戲
      軍事航空

      房產要聞

      傳統學區房熄火?2月海口二手房爆火的板塊竟然是…

      2026春夏一定要擁有的6只包,好看又百搭

      親子要聞

      抓住長個兒好時機,讓孩子躥一躥!

      外媒:Xbox新主機恐成微軟絕唱!失敗即退出硬件市場

      軍事要聞

      美第三個航母打擊群據稱準備部署至中東

      無障礙瀏覽 進入關懷版