<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      OpenAI發(fā)布最強(qiáng)專業(yè)模型GPT-5.4,自動(dòng)操作電腦,插件支持AI玩轉(zhuǎn)Excel和金融分析

      0
      分享至

      更快更有判斷力的GPT-5系列模型GPT-5.3 Instant問(wèn)世才一天,美東時(shí)間5日周四,OpenAI就發(fā)布了全新的旗艦基礎(chǔ)模型GPT-5.4,在ChatGPT、API以及開(kāi)發(fā)工具Codex中同步上線。

      OpenAI稱GPT-5.4是“迄今能力最強(qiáng)、最高效的專業(yè)工作前沿模型”,重點(diǎn)面向企業(yè)辦公與復(fù)雜知識(shí)工作場(chǎng)景。相比此前版本,GPT-5.4的最大變化在于強(qiáng)化AI智能體(Agent)的能力。在API和Codex中,GPT-5.4首次實(shí)現(xiàn)了原生級(jí)“電腦操作”功能,支持智能體跨軟件執(zhí)行復(fù)雜工作流。

      GPT-5.4不僅能生成文本或代碼,還首次將原生電腦操控能力引入通用模型,能直接操作電腦軟件、瀏覽網(wǎng)頁(yè)、控制鼠標(biāo)和鍵盤完成任務(wù),并可與電子表格、金融分析工具等企業(yè)應(yīng)用深度整合,深度嵌入微軟Excel和谷歌表格。

      在ChatGPT中,GPT-5.4支持“提前展示思維過(guò)程”,允許用戶在模型響應(yīng)過(guò)程中調(diào)整任務(wù)方向,并提升了深度網(wǎng)頁(yè)搜索與長(zhǎng)邏輯語(yǔ)境下的上下文保持能力。

      業(yè)內(nèi)認(rèn)為,GPT-5.4的一系列升級(jí)標(biāo)志著AI模型正從“對(duì)話工具”走向自動(dòng)化執(zhí)行任務(wù)的數(shù)字代理系統(tǒng),進(jìn)一步滲透企業(yè)生產(chǎn)力軟件與專業(yè)知識(shí)工作。

      OpenAI本周四同時(shí)推出兩個(gè)版本,包括更擅長(zhǎng)復(fù)雜推理的GPT-5.4 Thinking以及高性能的GPT-5.4 Pro,分別面向付費(fèi)用戶和高端企業(yè)用戶。

      在計(jì)算機(jī)操控基準(zhǔn)測(cè)試OSWorld-Verified中,GPT-5.4以75.0%的成功率超越人類平均水平72.4%,較前代GPT-5.2的47.3%大幅躍升。同期發(fā)布的財(cái)務(wù)服務(wù)套件顯示,GPT-5.4在OpenAI內(nèi)部投行基準(zhǔn)測(cè)試中的得分從GPT-5的43.7%躍升至88.0%。


      早期測(cè)試機(jī)構(gòu)給出積極反饋。投資公司W(wǎng)alleye Capital的AI解決方案主管Daniel Swiecki表示,GPT-5.4在內(nèi)部財(cái)務(wù)和Excel評(píng)估中準(zhǔn)確率提升了30個(gè)百分點(diǎn)。AI人才平臺(tái)Mercor的CEO Brendan Foody稱其為該公司“迄今嘗試過(guò)的最佳模型”,并表示GPT-5.4已在Mercor面向?qū)I(yè)服務(wù)工作的APEX-Agents基準(zhǔn)測(cè)試中排名第一。

      通用模型中首次內(nèi)置原生電腦操控功能 突破單輪問(wèn)答邊界

      GPT-5.4最具突破性的能力在于其原生電腦操控功能,這也是OpenAI首次在通用模型中內(nèi)置該能力。通過(guò)API和Codex,該模型可像人類一樣操控計(jì)算機(jī),跨應(yīng)用完成多步驟工作流程。

      具體而言,GPT-5.4既可通過(guò)Playwright等庫(kù)編寫代碼來(lái)操控計(jì)算機(jī),也可直接響應(yīng)截圖發(fā)出鼠標(biāo)和鍵盤指令,開(kāi)發(fā)者還可配置自定義確認(rèn)策略以適配不同風(fēng)險(xiǎn)容忍度場(chǎng)景。

      基準(zhǔn)測(cè)試數(shù)據(jù)支撐了這一能力的實(shí)質(zhì)性進(jìn)步:在測(cè)試桌面導(dǎo)航能力的OSWorld-Verified中,GPT-5.4成功率達(dá)75.0%,不僅超過(guò)GPT-5.2的47.3%,也超越了人類基準(zhǔn)水平72.4%;在瀏覽器操控測(cè)試WebArena-Verified中,成功率為67.3%,高于GPT-5.2的65.4%;在Online-Mind2Web中,僅憑截圖即實(shí)現(xiàn)92.8%的成功率。

      在網(wǎng)絡(luò)搜索能力方面,BrowseComp測(cè)試顯示GPT-5.4較GPT-5.2提升17個(gè)百分點(diǎn),GPT-5.4 Pro更以89.3%的成績(jī)創(chuàng)下該基準(zhǔn)測(cè)試的最高評(píng)分紀(jì)錄。


      地產(chǎn)科技公司Mainstay的CEO Dod Fraser表示,在覆蓋約3萬(wàn)個(gè)房產(chǎn)稅門戶的測(cè)試中,GPT-5.4首次嘗試成功率達(dá)95%,三次內(nèi)成功率達(dá)100%,相比此前的計(jì)算機(jī)操控模型(成功率約73%至79%)大幅提升,同時(shí)完成速度加快約3倍,tokens消耗減少約70%。

      工具搜索機(jī)制重構(gòu) 大幅降低token消耗

      隨著工具生態(tài)規(guī)模擴(kuò)大,如何高效管理工具調(diào)用成為制約代理系統(tǒng)落地的瓶頸。GPT-5.4在API中引入"工具搜索"(Tool Search)機(jī)制,從根本上改變了工具定義的傳遞方式。

      此前,模型在每次請(qǐng)求時(shí)均需在提示詞中預(yù)加載全部工具定義,在工具數(shù)量龐大的系統(tǒng)中,這會(huì)在每次請(qǐng)求中額外消耗數(shù)千乃至數(shù)萬(wàn)tokens,推高成本、增加延遲并稀釋上下文。新機(jī)制下,模型僅接收工具的輕量化列表,僅在實(shí)際需要使用某工具時(shí)才按需檢索其完整定義。

      OpenAI以具體數(shù)據(jù)佐證效果:在使用Scale的MCP Atlas基準(zhǔn)測(cè)試的250項(xiàng)任務(wù)中,啟用全部36個(gè)MCP服務(wù)器的配置下,工具搜索模式相較將全部MCP功能直接暴露于上下文的模式,在保持相同準(zhǔn)確率的前提下,總token用量減少47%。


      Zapier的CEO Wade表示,GPT-5.4在該公司橫跨數(shù)百個(gè)高級(jí)真實(shí)工作流的工具使用基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,"是迄今為止最具持續(xù)性的模型"。

      金融與企業(yè)場(chǎng)景:Excel深度集成,投行任務(wù)成績(jī)翻倍

      與GPT-5.4同步發(fā)布的還有面向企業(yè)和金融機(jī)構(gòu)的“OpenAI金融服務(wù)”套件,核心產(chǎn)品是ChatGPT for Excel和Google Sheets(測(cè)試版)——ChatGPT將直接嵌入電子表格單元格,支持構(gòu)建、分析和更新復(fù)雜財(cái)務(wù)模型。

      該套件還整合了FactSet、MSCI、Third Bridge和Moody's等數(shù)據(jù)合作伙伴,并推出可復(fù)用的Skills功能,覆蓋盈利預(yù)覽、可比公司分析、DCF估值分析及投資備忘錄撰寫等高頻金融工作場(chǎng)景。

      在內(nèi)部投行基準(zhǔn)測(cè)試中,GPT-5.4 Thinking的得分從GPT-5的43.7%躍升至88.0%;在模擬初級(jí)投行分析師電子表格建模任務(wù)的測(cè)試中,GPT-5.4平均得分87.3%,遠(yuǎn)高于GPT-5.2的68.4%。


      法律AI平臺(tái)Harvey的應(yīng)用研究主管Niko Grupen表示,GPT-5.4在該公司BigLaw Bench評(píng)估中得分91%,"在結(jié)構(gòu)化復(fù)雜交易分析、跨長(zhǎng)篇合同保持準(zhǔn)確性以及提供法律從業(yè)者所需的高度細(xì)節(jié)方面,目前優(yōu)于其他模型"。

      知識(shí)工作與幻覺(jué)抑制:全面對(duì)標(biāo)專業(yè)人士

      OpenAI在多個(gè)衡量真實(shí)職場(chǎng)輸出的基準(zhǔn)測(cè)試上展示了GPT-5.4的能力邊界。在GDPval測(cè)試中——該測(cè)試涵蓋44個(gè)職業(yè)的知識(shí)工作任務(wù),包括銷售演示、會(huì)計(jì)表格、制造業(yè)圖表等真實(shí)工作產(chǎn)出——GPT-5.4在83.0%的比較中達(dá)到或超越行業(yè)專業(yè)人士水平,高于GPT-5.2的71.0%。


      在演示文稿質(zhì)量評(píng)估中,人類評(píng)審在68.0%的情況下更偏好GPT-5.4的輸出,原因包括更強(qiáng)的視覺(jué)美感、更豐富的視覺(jué)多樣性以及更有效的圖像生成應(yīng)用。

      在幻覺(jué)和事實(shí)錯(cuò)誤控制方面,OpenAI表示GPT-5.4是其"迄今最具事實(shí)準(zhǔn)確性的模型":在用戶此前標(biāo)記過(guò)事實(shí)錯(cuò)誤的去標(biāo)識(shí)化提示詞測(cè)試集上,GPT-5.4的單項(xiàng)陳述錯(cuò)誤率較GPT-5.2降低33%,完整回應(yīng)中出現(xiàn)任意錯(cuò)誤的概率降低18%。

      在編程能力方面,GPT-5.4在SWE-Bench Pro上的表現(xiàn)與GPT-5.3-Codex持平或更優(yōu),且在各推理強(qiáng)度設(shè)置下延遲更低。Codex的/fast模式可為GPT-5.4帶來(lái)最高1.5倍的token生成速度提升,該模式使用相同模型與相同智能,僅在速度層面進(jìn)行優(yōu)化。GitHub首席產(chǎn)品官M(fèi)ario Rodriguez表示,GPT-5.4在邏輯推理及執(zhí)行復(fù)雜多步驟工具依賴工作流方面表現(xiàn)突出,"是企業(yè)第一天就應(yīng)該采用的模型"。

      兩個(gè)版本分層覆蓋不同用戶需求 上下文窗口最高100萬(wàn)token

      GPT-5.4 Thinking面向需要深度推理的通用專業(yè)場(chǎng)景,GPT-5.4 Pro則專為最復(fù)雜任務(wù)設(shè)計(jì),追求性能上限。

      在ChatGPT端,GPT-5.4 Thinking從本周四起向Plus(月費(fèi)20美元)、Team及Pro用戶開(kāi)放,取代此前的GPT-5.2 Thinking,GPT-5.2 Thinking將在三個(gè)月后于2026年6月5日正式退役。

      GPT-5.4 Pro僅限Pro(月費(fèi)200美元)及Enterprise計(jì)劃用戶使用。免費(fèi)用戶亦可在系統(tǒng)自動(dòng)路由時(shí)有限接觸GPT-5.4。企業(yè)和教育計(jì)劃用戶可通過(guò)管理員設(shè)置提前開(kāi)啟訪問(wèn)權(quán)限。

      在API端,GPT-5.4以gpt-5.4標(biāo)識(shí)符提供,GPT-5.4 Pro以gpt-5.4-pro提供,兩者均可在Codex開(kāi)發(fā)平臺(tái)使用。API最大輸出為12.8萬(wàn)token,與此前模型保持一致。API及Codex同時(shí)支持最高100萬(wàn)token的上下文窗口,是OpenAI迄今提供的最大上下文容量,適合跨步驟長(zhǎng)鏈路任務(wù)的規(guī)劃、執(zhí)行與驗(yàn)證。

      定價(jià)高于前代,效率提升部分抵消成本增加

      在API定價(jià)上,GPT-5.4的價(jià)格相較GPT-5.2有所上調(diào)。具體如下:

      • GPT-5.4:輸入2.50美元/百萬(wàn)token,輸出15美元/百萬(wàn)token(GPT5.2的定價(jià)為輸入1.75美元/百萬(wàn)token、輸出14美元/百萬(wàn)token)
      • GPT-5.4 Pro:輸入30美元/百萬(wàn)token,輸出180美元/百萬(wàn)token(GPT5.2 Pro為輸入21美元/百萬(wàn)token、輸出168美元/百萬(wàn)token)
      • Batch及Flex定價(jià)享半價(jià)優(yōu)惠,Priority(優(yōu)先)處理則按標(biāo)準(zhǔn)價(jià)格的兩倍計(jì)費(fèi)


      值得注意的是,當(dāng)單次輸入超過(guò)27.2萬(wàn)token時(shí),超出部分將按兩倍標(biāo)準(zhǔn)費(fèi)率計(jì)費(fèi)。在Codex中,默認(rèn)壓縮上限為27.2萬(wàn)token,開(kāi)發(fā)者可手動(dòng)上調(diào)上限以處理更大提示詞,超出部分方觸發(fā)較高計(jì)費(fèi)。

      OpenAI對(duì)較高定價(jià)給出三點(diǎn)解釋:一是在編程、計(jì)算機(jī)操控、深度研究、高級(jí)文檔生成及工具調(diào)用等復(fù)雜任務(wù)上能力更強(qiáng);二是來(lái)自研究路線圖的重大技術(shù)進(jìn)步;三是更高效的推理機(jī)制在相同任務(wù)上消耗更少推理tokens,一定程度上抵消了單價(jià)上升的影響。OpenAI同時(shí)表示,即便提價(jià),GPT-5.4的定價(jià)仍低于同等能力的競(jìng)品前沿模型。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      現(xiàn)在廣州的大齡剩女,已經(jīng)慌到不行了

      現(xiàn)在廣州的大齡剩女,已經(jīng)慌到不行了

      匹夫來(lái)搞笑
      2026-03-06 03:35:25
      某音就是個(gè)很擦邊的平臺(tái)!呆妹兒被吐槽拉完了,直言沒(méi)人能一直火

      某音就是個(gè)很擦邊的平臺(tái)!呆妹兒被吐槽拉完了,直言沒(méi)人能一直火

      清衣渡a
      2026-03-04 14:21:18
      第二個(gè)李登輝出現(xiàn)?恐是民進(jìn)黨臥底,要繼承王金平衣缽害殘國(guó)民黨

      第二個(gè)李登輝出現(xiàn)?恐是民進(jìn)黨臥底,要繼承王金平衣缽害殘國(guó)民黨

      遁走的兩輪
      2026-02-19 14:27:38
      馬甲線女星從娛樂(lè)圈消失的瓜

      馬甲線女星從娛樂(lè)圈消失的瓜

      香港內(nèi)地文娛
      2026-03-03 20:56:25
      把鞏俐和她的替身周顯欣放一起,99%的人分不清

      把鞏俐和她的替身周顯欣放一起,99%的人分不清

      草莓解說(shuō)體育
      2026-03-05 17:33:33
      突變!黃金、白銀、原油,集體巨震!歐股直拉!中東,大消息!

      突變!黃金、白銀、原油,集體巨震!歐股直拉!中東,大消息!

      證券時(shí)報(bào)e公司
      2026-03-05 19:10:15
      蹭車同事懷孕后變本加厲,要求消毒送狗,我直接打開(kāi)車門請(qǐng)她下去

      蹭車同事懷孕后變本加厲,要求消毒送狗,我直接打開(kāi)車門請(qǐng)她下去

      曉艾故事匯
      2026-03-03 09:23:52
      特朗普:沒(méi)有必要對(duì)伊朗采取地面軍事行動(dòng)

      特朗普:沒(méi)有必要對(duì)伊朗采取地面軍事行動(dòng)

      財(cái)聯(lián)社
      2026-03-03 09:32:13
      兩會(huì)建言 ? 全國(guó)人大代表陳眾議:建議推行十二年義務(wù)教育,將“普職分流”推遲至高考階段

      兩會(huì)建言 ? 全國(guó)人大代表陳眾議:建議推行十二年義務(wù)教育,將“普職分流”推遲至高考階段

      中國(guó)經(jīng)營(yíng)報(bào)
      2026-03-05 11:23:51
      金融美女高管沉迷小鮮肉,威逼利誘讓他獻(xiàn)身,丈夫抓奸場(chǎng)面太炸裂

      金融美女高管沉迷小鮮肉,威逼利誘讓他獻(xiàn)身,丈夫抓奸場(chǎng)面太炸裂

      科學(xué)發(fā)掘
      2026-03-05 14:08:39
      日本綜藝有多變態(tài)?看完下面這些,保證你菊花一緊!

      日本綜藝有多變態(tài)?看完下面這些,保證你菊花一緊!

      日本窗
      2026-02-02 17:28:30
      《純真年代》結(jié)局大反轉(zhuǎn),本以為凌漪是驚喜,沒(méi)料到竟是副廠長(zhǎng)

      《純真年代》結(jié)局大反轉(zhuǎn),本以為凌漪是驚喜,沒(méi)料到竟是副廠長(zhǎng)

      手工制作阿殲
      2026-03-06 00:23:15
      當(dāng)今社會(huì)十大傻:

      當(dāng)今社會(huì)十大傻:

      超級(jí)數(shù)學(xué)建模
      2026-03-04 13:01:38
      為啥到了川西,要勤洗手,不玩狗?有啥科學(xué)解釋?

      為啥到了川西,要勤洗手,不玩狗?有啥科學(xué)解釋?

      向航說(shuō)
      2026-02-28 00:35:03
      央視火速曝光:全是假貨!別再往家里搬了,很多人天天在用!

      央視火速曝光:全是假貨!別再往家里搬了,很多人天天在用!

      悠悠說(shuō)世界
      2026-03-06 05:55:14
      這就是背叛中國(guó)的下場(chǎng),被美歐輪番“吸血”,沒(méi)有一國(guó)愿意幫助它

      這就是背叛中國(guó)的下場(chǎng),被美歐輪番“吸血”,沒(méi)有一國(guó)愿意幫助它

      古事尋蹤記
      2026-02-25 07:32:13
      老板竟然惡意給我降薪,第二天見(jiàn)我坐在對(duì)家公司辦公室,她急了

      老板竟然惡意給我降薪,第二天見(jiàn)我坐在對(duì)家公司辦公室,她急了

      奶茶麥子
      2026-03-06 00:07:16
      傳《馬拉松》制作成本高達(dá)2.5億美元 回本壓力巨大

      傳《馬拉松》制作成本高達(dá)2.5億美元 回本壓力巨大

      3DM游戲
      2026-03-04 21:14:04
      哈佛大學(xué):大腦只有三次變聰明時(shí)段,父母一定要把握好

      哈佛大學(xué):大腦只有三次變聰明時(shí)段,父母一定要把握好

      戶外阿毽
      2026-03-06 01:01:10
      全球首款2nm旗艦賣爆!三星Galaxy S26系列銷量突破150萬(wàn)臺(tái)

      全球首款2nm旗艦賣爆!三星Galaxy S26系列銷量突破150萬(wàn)臺(tái)

      快科技
      2026-03-04 20:37:10
      2026-03-06 06:39:00
      華爾街見(jiàn)聞官方 incentive-icons
      華爾街見(jiàn)聞官方
      中國(guó)領(lǐng)先的金融商業(yè)信息提供商
      142530文章數(shù) 2652757關(guān)注度
      往期回顧 全部

      科技要聞

      獨(dú)家|林俊旸辭職 我們和認(rèn)識(shí)他的人聊了聊

      頭條要聞

      伊朗:已作好準(zhǔn)備應(yīng)對(duì)美國(guó)地面行動(dòng)

      頭條要聞

      伊朗:已作好準(zhǔn)備應(yīng)對(duì)美國(guó)地面行動(dòng)

      體育要聞

      不開(kāi)玩笑,沒(méi)人想在季后賽碰上黃蜂

      娛樂(lè)要聞

      謝娜下場(chǎng)撕薛之謙,張杰前女友爆猛料

      財(cái)經(jīng)要聞

      “十五五”開(kāi)局之年,這么干!

      汽車要聞

      15.98萬(wàn)元起 第三代領(lǐng)克03大尾翼版上市

      態(tài)度原創(chuàng)

      藝術(shù)
      房產(chǎn)
      健康
      公開(kāi)課
      軍事航空

      藝術(shù)要聞

      世界上最幸福的照片

      房產(chǎn)要聞

      超猛!又有2800套房源砸出,2026海口安居房,徹底爆發(fā)!

      轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      2026年中國(guó)國(guó)防預(yù)算增長(zhǎng)7%

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版