<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI發布最強專業模型GPT-5.4,自動操作電腦,插件支持AI玩轉Excel和金融分析

      0
      分享至

      更快更有判斷力的GPT-5系列模型GPT-5.3 Instant問世才一天,美東時間5日周四,OpenAI就發布了全新的旗艦基礎模型GPT-5.4,在ChatGPT、API以及開發工具Codex中同步上線。

      OpenAI稱GPT-5.4是“迄今能力最強、最高效的專業工作前沿模型”,重點面向企業辦公與復雜知識工作場景。相比此前版本,GPT-5.4的最大變化在于強化AI智能體(Agent)的能力。在API和Codex中,GPT-5.4首次實現了原生級“電腦操作”功能,支持智能體跨軟件執行復雜工作流。

      GPT-5.4不僅能生成文本或代碼,還首次將原生電腦操控能力引入通用模型,能直接操作電腦軟件、瀏覽網頁、控制鼠標和鍵盤完成任務,并可與電子表格、金融分析工具等企業應用深度整合,深度嵌入微軟Excel和谷歌表格。

      在ChatGPT中,GPT-5.4支持“提前展示思維過程”,允許用戶在模型響應過程中調整任務方向,并提升了深度網頁搜索與長邏輯語境下的上下文保持能力。

      業內認為,GPT-5.4的一系列升級標志著AI模型正從“對話工具”走向自動化執行任務的數字代理系統,進一步滲透企業生產力軟件與專業知識工作。

      OpenAI本周四同時推出兩個版本,包括更擅長復雜推理的GPT-5.4 Thinking以及高性能的GPT-5.4 Pro,分別面向付費用戶和高端企業用戶。

      在計算機操控基準測試OSWorld-Verified中,GPT-5.4以75.0%的成功率超越人類平均水平72.4%,較前代GPT-5.2的47.3%大幅躍升。同期發布的財務服務套件顯示,GPT-5.4在OpenAI內部投行基準測試中的得分從GPT-5的43.7%躍升至88.0%。


      早期測試機構給出積極反饋。投資公司Walleye Capital的AI解決方案主管Daniel Swiecki表示,GPT-5.4在內部財務和Excel評估中準確率提升了30個百分點。AI人才平臺Mercor的CEO Brendan Foody稱其為該公司“迄今嘗試過的最佳模型”,并表示GPT-5.4已在Mercor面向專業服務工作的APEX-Agents基準測試中排名第一。

      通用模型中首次內置原生電腦操控功能 突破單輪問答邊界

      GPT-5.4最具突破性的能力在于其原生電腦操控功能,這也是OpenAI首次在通用模型中內置該能力。通過API和Codex,該模型可像人類一樣操控計算機,跨應用完成多步驟工作流程。

      具體而言,GPT-5.4既可通過Playwright等庫編寫代碼來操控計算機,也可直接響應截圖發出鼠標和鍵盤指令,開發者還可配置自定義確認策略以適配不同風險容忍度場景。

      基準測試數據支撐了這一能力的實質性進步:在測試桌面導航能力的OSWorld-Verified中,GPT-5.4成功率達75.0%,不僅超過GPT-5.2的47.3%,也超越了人類基準水平72.4%;在瀏覽器操控測試WebArena-Verified中,成功率為67.3%,高于GPT-5.2的65.4%;在Online-Mind2Web中,僅憑截圖即實現92.8%的成功率。

      在網絡搜索能力方面,BrowseComp測試顯示GPT-5.4較GPT-5.2提升17個百分點,GPT-5.4 Pro更以89.3%的成績創下該基準測試的最高評分紀錄。


      地產科技公司Mainstay的CEO Dod Fraser表示,在覆蓋約3萬個房產稅門戶的測試中,GPT-5.4首次嘗試成功率達95%,三次內成功率達100%,相比此前的計算機操控模型(成功率約73%至79%)大幅提升,同時完成速度加快約3倍,tokens消耗減少約70%。

      工具搜索機制重構 大幅降低token消耗

      隨著工具生態規模擴大,如何高效管理工具調用成為制約代理系統落地的瓶頸。GPT-5.4在API中引入"工具搜索"(Tool Search)機制,從根本上改變了工具定義的傳遞方式。

      此前,模型在每次請求時均需在提示詞中預加載全部工具定義,在工具數量龐大的系統中,這會在每次請求中額外消耗數千乃至數萬tokens,推高成本、增加延遲并稀釋上下文。新機制下,模型僅接收工具的輕量化列表,僅在實際需要使用某工具時才按需檢索其完整定義。

      OpenAI以具體數據佐證效果:在使用Scale的MCP Atlas基準測試的250項任務中,啟用全部36個MCP服務器的配置下,工具搜索模式相較將全部MCP功能直接暴露于上下文的模式,在保持相同準確率的前提下,總token用量減少47%。


      Zapier的CEO Wade表示,GPT-5.4在該公司橫跨數百個高級真實工作流的工具使用基準測試中表現優異,"是迄今為止最具持續性的模型"。

      金融與企業場景:Excel深度集成,投行任務成績翻倍

      與GPT-5.4同步發布的還有面向企業和金融機構的“OpenAI金融服務”套件,核心產品是ChatGPT for Excel和Google Sheets(測試版)——ChatGPT將直接嵌入電子表格單元格,支持構建、分析和更新復雜財務模型。

      該套件還整合了FactSet、MSCI、Third Bridge和Moody's等數據合作伙伴,并推出可復用的Skills功能,覆蓋盈利預覽、可比公司分析、DCF估值分析及投資備忘錄撰寫等高頻金融工作場景。

      在內部投行基準測試中,GPT-5.4 Thinking的得分從GPT-5的43.7%躍升至88.0%;在模擬初級投行分析師電子表格建模任務的測試中,GPT-5.4平均得分87.3%,遠高于GPT-5.2的68.4%。


      法律AI平臺Harvey的應用研究主管Niko Grupen表示,GPT-5.4在該公司BigLaw Bench評估中得分91%,"在結構化復雜交易分析、跨長篇合同保持準確性以及提供法律從業者所需的高度細節方面,目前優于其他模型"。

      知識工作與幻覺抑制:全面對標專業人士

      OpenAI在多個衡量真實職場輸出的基準測試上展示了GPT-5.4的能力邊界。在GDPval測試中——該測試涵蓋44個職業的知識工作任務,包括銷售演示、會計表格、制造業圖表等真實工作產出——GPT-5.4在83.0%的比較中達到或超越行業專業人士水平,高于GPT-5.2的71.0%。


      在演示文稿質量評估中,人類評審在68.0%的情況下更偏好GPT-5.4的輸出,原因包括更強的視覺美感、更豐富的視覺多樣性以及更有效的圖像生成應用。

      在幻覺和事實錯誤控制方面,OpenAI表示GPT-5.4是其"迄今最具事實準確性的模型":在用戶此前標記過事實錯誤的去標識化提示詞測試集上,GPT-5.4的單項陳述錯誤率較GPT-5.2降低33%,完整回應中出現任意錯誤的概率降低18%。

      在編程能力方面,GPT-5.4在SWE-Bench Pro上的表現與GPT-5.3-Codex持平或更優,且在各推理強度設置下延遲更低。Codex的/fast模式可為GPT-5.4帶來最高1.5倍的token生成速度提升,該模式使用相同模型與相同智能,僅在速度層面進行優化。GitHub首席產品官Mario Rodriguez表示,GPT-5.4在邏輯推理及執行復雜多步驟工具依賴工作流方面表現突出,"是企業第一天就應該采用的模型"。

      兩個版本分層覆蓋不同用戶需求 上下文窗口最高100萬token

      GPT-5.4 Thinking面向需要深度推理的通用專業場景,GPT-5.4 Pro則專為最復雜任務設計,追求性能上限。

      在ChatGPT端,GPT-5.4 Thinking從本周四起向Plus(月費20美元)、Team及Pro用戶開放,取代此前的GPT-5.2 Thinking,GPT-5.2 Thinking將在三個月后于2026年6月5日正式退役。

      GPT-5.4 Pro僅限Pro(月費200美元)及Enterprise計劃用戶使用。免費用戶亦可在系統自動路由時有限接觸GPT-5.4。企業和教育計劃用戶可通過管理員設置提前開啟訪問權限。

      在API端,GPT-5.4以gpt-5.4標識符提供,GPT-5.4 Pro以gpt-5.4-pro提供,兩者均可在Codex開發平臺使用。API最大輸出為12.8萬token,與此前模型保持一致。API及Codex同時支持最高100萬token的上下文窗口,是OpenAI迄今提供的最大上下文容量,適合跨步驟長鏈路任務的規劃、執行與驗證。

      定價高于前代,效率提升部分抵消成本增加

      在API定價上,GPT-5.4的價格相較GPT-5.2有所上調。具體如下:

      • GPT-5.4:輸入2.50美元/百萬token,輸出15美元/百萬token(GPT5.2的定價為輸入1.75美元/百萬token、輸出14美元/百萬token)
      • GPT-5.4 Pro:輸入30美元/百萬token,輸出180美元/百萬token(GPT5.2 Pro為輸入21美元/百萬token、輸出168美元/百萬token)
      • Batch及Flex定價享半價優惠,Priority(優先)處理則按標準價格的兩倍計費


      值得注意的是,當單次輸入超過27.2萬token時,超出部分將按兩倍標準費率計費。在Codex中,默認壓縮上限為27.2萬token,開發者可手動上調上限以處理更大提示詞,超出部分方觸發較高計費。

      OpenAI對較高定價給出三點解釋:一是在編程、計算機操控、深度研究、高級文檔生成及工具調用等復雜任務上能力更強;二是來自研究路線圖的重大技術進步;三是更高效的推理機制在相同任務上消耗更少推理tokens,一定程度上抵消了單價上升的影響。OpenAI同時表示,即便提價,GPT-5.4的定價仍低于同等能力的競品前沿模型。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      韓國“天弓-Ⅱ”防空系統在阿聯酋參與攔截伊朗導彈,首次實戰,成功攔截

      韓國“天弓-Ⅱ”防空系統在阿聯酋參與攔截伊朗導彈,首次實戰,成功攔截

      瀟湘晨報
      2026-03-04 12:59:30
      母子相認現場:母親袖口磨破舍不得扔,卻給26歲兒子買新衣新鞋

      母子相認現場:母親袖口磨破舍不得扔,卻給26歲兒子買新衣新鞋

      匹夫來搞笑
      2026-03-05 14:26:35
      北約首次擊落伊朗導彈,土耳其卷入沖突 英國變臉:不排除攻擊伊朗導彈裝置

      北約首次擊落伊朗導彈,土耳其卷入沖突 英國變臉:不排除攻擊伊朗導彈裝置

      紅星新聞
      2026-03-05 11:38:30
      針對美國眾議員的挑釁,谷愛凌正面回擊!將中國與正面影響掛鉤

      針對美國眾議員的挑釁,谷愛凌正面回擊!將中國與正面影響掛鉤

      十點街球體育
      2026-03-05 16:33:15
      韓國教授:漢朝前中國一直歸屬韓國統治,外國網友評論出奇一致

      韓國教授:漢朝前中國一直歸屬韓國統治,外國網友評論出奇一致

      談史論天地
      2026-02-24 12:51:25
      手握“中國最繁忙高速”,寧滬高速董事長辭任,“新帥”已確定

      手握“中國最繁忙高速”,寧滬高速董事長辭任,“新帥”已確定

      紅星新聞
      2026-03-05 14:30:10
      廣州官方:經初步檢查診斷,郭艾倫傷病位置為左膝前交叉韌帶

      廣州官方:經初步檢查診斷,郭艾倫傷病位置為左膝前交叉韌帶

      懂球帝
      2026-03-05 23:54:07
      郵報:姆巴佩考取駕照后,被發現在巴黎駕駛寶馬MINI出行

      郵報:姆巴佩考取駕照后,被發現在巴黎駕駛寶馬MINI出行

      懂球帝
      2026-03-06 02:35:13
      女子曝浙江餐廳強制消費,滿698才能入座,店家仍嘴硬,結局爽了

      女子曝浙江餐廳強制消費,滿698才能入座,店家仍嘴硬,結局爽了

      離離言幾許
      2026-03-05 15:56:41
      以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      八斗小先生
      2025-12-26 09:33:27
      圖片報:呂迪格作惡多端,根本無法控制自己,不應該去世界杯

      圖片報:呂迪格作惡多端,根本無法控制自己,不應該去世界杯

      懂球帝
      2026-03-05 16:32:06
      招商局集團領導班子調整

      招商局集團領導班子調整

      新浪財經
      2026-03-05 23:39:48
      中方還沒批準進口,特朗普先一步下令,對華先進芯片必須“限購”

      中方還沒批準進口,特朗普先一步下令,對華先進芯片必須“限購”

      井普椿的獨白
      2026-03-05 17:21:08
      央視火速曝光:全是假貨!別再往家里搬了,很多人天天在用!

      央視火速曝光:全是假貨!別再往家里搬了,很多人天天在用!

      悠悠說世界
      2026-03-06 05:55:14
      不止魅族,這10個品牌已“全劇終”,全是我們的青春啊!

      不止魅族,這10個品牌已“全劇終”,全是我們的青春啊!

      小蜜情感說
      2026-03-04 14:20:13
      《生化危機9》大雷成人mod登上外網熱搜 被批性化女性!

      《生化危機9》大雷成人mod登上外網熱搜 被批性化女性!

      3DM游戲
      2026-03-03 14:45:05
      有些地方機關事業單位退休人員退休金因為績效獎金均攤到月而增加

      有些地方機關事業單位退休人員退休金因為績效獎金均攤到月而增加

      郭愛華追問教育
      2026-03-05 06:29:26
      女毒梟阮氏慧花5000萬買精液逃避死刑,結果如何?

      女毒梟阮氏慧花5000萬買精液逃避死刑,結果如何?

      命運自認幽默
      2026-03-06 05:11:15
      比亞迪砍向蔚來

      比亞迪砍向蔚來

      版面之外
      2026-03-06 00:08:17
      夏窗得賣人,電訊報:阿森納正在討論出售哪名球員收入最高

      夏窗得賣人,電訊報:阿森納正在討論出售哪名球員收入最高

      懂球帝
      2026-03-06 03:25:47
      2026-03-06 07:27:00
      華爾街見聞官方 incentive-icons
      華爾街見聞官方
      中國領先的金融商業信息提供商
      142530文章數 2652758關注度
      往期回顧 全部

      科技要聞

      獨家|林俊旸辭職 我們和認識他的人聊了聊

      頭條要聞

      伊朗:已作好準備應對美國地面行動

      頭條要聞

      伊朗:已作好準備應對美國地面行動

      體育要聞

      不開玩笑,沒人想在季后賽碰上黃蜂

      娛樂要聞

      謝娜下場撕薛之謙,張杰前女友爆猛料

      財經要聞

      “十五五”開局之年,這么干!

      汽車要聞

      15.98萬元起 第三代領克03大尾翼版上市

      態度原創

      親子
      本地
      旅游
      手機
      公開課

      親子要聞

      去挖煤了?娃穿一天的衣服能臟到哪種程度?網友:掃地機都多余買

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      旅游要聞

      云南蘭坪向陽山坡長出“空中民宿”,兩地共建現代農業產業園探路農文旅融合

      手機要聞

      第三方品牌即將適配Flyme,魅族手機「借身還魂」?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版