<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      ChatGPT-5.4發(fā)布:和OpenClaw兼容,AI第一次比人類更會操作電腦

      0
      分享至

      自從各大模型廠商開始以 0.1 的小版本更新模型后,模型更新的頻率越來越快了,3 月 5 日,就在 GPT-5.3 Instant 剛更新完畢后兩天,GPT-5.4 也來了。

      這款模型被 OpenAI 定位為“面向?qū)I(yè)工作的最強(qiáng)前沿模型”。它以 GPT-5.4 Thinking 的形式進(jìn)入 ChatGPT,同時上線 API 和代碼開發(fā)平臺 Codex。此外還有一個 GPT-5.4 Pro 版本,面向需要極致復(fù)雜任務(wù)性能的用戶,僅對 ChatGPT Pro(月費(fèi) 200 美元)和 Enterprise 訂閱者開放。Plus 用戶可以使用 GPT-5.4 Thinking,免費(fèi)用戶則只能在系統(tǒng)自動路由時偶爾被分配到該模型。


      (來源:OpenAI)

      GPT-5.4 在 API 和 Codex 中支持最高 100 萬 token(標(biāo)記)的上下文窗口(Context Window,即模型單次處理文本的長度上限),這是目前 OpenAI 提供的最大上下文窗口。不過超過 272,000 token 的請求,輸入價格翻倍、輸出加收 50%。標(biāo)準(zhǔn)輸入單價從 GPT-5.2 時代的每百萬 token 1.75 美元漲到了 2.50 美元,漲幅 43%。

      OpenAI 給出的解釋是,模型能力更強(qiáng),研究投入更大,同時推理效率更高——用更少的 token 解決同樣的問題,所以總成本未必上升。作為參考,Anthropic 的 Claude Opus 4.6 輸入價格是每百萬 token 5 美元,輸出 25 美元,GPT-5.4 Pro 的定價實(shí)際上還要更貴。


      (來源:OpenAI)

      跑分方面,在 OSWorld-Verified 基準(zhǔn)測試中,GPT-5.4 的成功率達(dá)到 75.0%,遠(yuǎn)超 GPT-5.2 的 47.3%,也超過了該測試報(bào)告的人類表現(xiàn) 72.4%。在 OpenAI 的官方演示中,通過 Playwright Interactive(一種瀏覽器自動化工具)與圖像生成結(jié)合,僅憑單條提示詞就構(gòu)建出了一個主題樂園模擬游戲,涵蓋瓦片路徑布置、游樂設(shè)施建造、游客路徑尋路和實(shí)時公園指標(biāo)。

      在 BrowseComp(衡量 AI 代理在網(wǎng)頁上持續(xù)檢索難以定位信息的能力)上,GPT-5.4 比 GPT-5.2 提升了 17 個百分點(diǎn),Pro 版本達(dá)到 89.3%。OpenAI 自己的 GDPval 測試(覆蓋美國 GDP 貢獻(xiàn)最大的 9 個行業(yè)、44 種職業(yè)的知識工作任務(wù))給出了 83% 的得分,意味著在這些任務(wù)上模型的表現(xiàn)達(dá)到或超過了行業(yè)從業(yè)者水平。

      在電子表格建模任務(wù)中,得分從 GPT-5.2 的 68.4% 跳到了 87.3%;人類評審者在 68% 的情況下更偏好 GPT-5.4 生成的演示文稿。


      (來源:OpenAI)

      這些數(shù)字背后有一個關(guān)鍵能力:原生計(jì)算機(jī)使用(Native Computer Use)。GPT-5.4 是 OpenAI 發(fā)布的第一個內(nèi)置原生計(jì)算機(jī)操控能力的通用模型,可以通過編寫代碼(比如使用 Playwright 庫)來操控計(jì)算機(jī),也可以直接根據(jù)屏幕截圖發(fā)出鼠標(biāo)和鍵盤指令。這讓它能夠在軟件環(huán)境中執(zhí)行“構(gòu)建 - 運(yùn)行 - 驗(yàn)證 - 修復(fù)”的循環(huán),完成需要跨多個應(yīng)用的多步驟工作流。

      另一個對開發(fā)者影響較大的新特性是 Tool Search(工具搜索)。過去,在 API 中使用工具時,所有工具的定義需要一次性塞進(jìn)提示詞里,隨著工具越來越多,這造成了巨大的 token 開銷和上下文污染。GPT-5.4 引入了一個結(jié)構(gòu)性的優(yōu)化:模型只接收一個輕量級工具列表,需要用到某個工具時再動態(tài)檢索其完整定義。

      在 Scale 公司的 MCP Atlas 基準(zhǔn)測試中,使用 36 個 MCP 服務(wù)器執(zhí)行 250 項(xiàng)任務(wù),工具搜索將 token 消耗降低了 47%,同時保持了準(zhǔn)確率。對于構(gòu)建大型智能體(Agent)系統(tǒng)的開發(fā)者來說,這直接意味著更低的成本和更快的響應(yīng)。

      幻覺(Hallucination,即模型編造事實(shí))的改善也被重點(diǎn)提及。OpenAI 表示,GPT-5.4 在單條聲明中出錯的概率比 GPT-5.2 降低了 33%,整體回復(fù)包含錯誤的概率降低了 18%。

      不過需要注意的是,在 HealthBench 醫(yī)療健康評測中,GPT-5.4 的得分是 62.6%,反而略低于 GPT-5.2 的 63.3%。模型回復(fù)的平均長度也更長了,從 GPT-5.2 的 2,676 字符增加到 3,311 字符。更長的回復(fù)有時候意味著更全面,也有時候意味著更啰嗦,用戶體驗(yàn)如何還有待觀察。

      在抽象推理方面,進(jìn)步幅度較為顯著。ARC-AGI-2 從 52.9% 躍升至 73.3%,Pro 版本達(dá)到 83.3%。FrontierMath Tier 4(最高難度的數(shù)學(xué)推理測試)從 18.8% 提升至 27.1%,Pro 版本為 38.0%。

      一些拿到早期測試權(quán)限的用戶已經(jīng)在 X 上密集發(fā)布體驗(yàn)報(bào)告。AI 創(chuàng)業(yè)者 Matt Shumer 稱自己測試 GPT-5.4 長達(dá)一周,認(rèn)為其標(biāo)準(zhǔn)版配合深度思考模式的表現(xiàn)已經(jīng)超過了此前其他模型的 Pro 版本,以至于他幾乎不再需要切換到 Pro 模式。


      (來源:X)

      其編碼能力尤其突出,Shumer 稱在 Codex 中使用 GPT-5.4 的可靠性極高,編碼問題“基本上已經(jīng)被解決了”。Pro 版本則能攻克其他模型完全無法處理的難題,但對日常任務(wù)來說屬于“過剩火力”。而且的確和 OpenAI 官方宣稱的一樣,其標(biāo)準(zhǔn)思考版本使用的推理 token 比以前更少,響應(yīng)速度明顯加快。

      不過 Shumer 也指出了幾個短板:前端設(shè)計(jì)品味遠(yuǎn)不如 Claude Opus 4.6 和 Gemini 3.1 Pro;模型有時候會忽略顯而易見的現(xiàn)實(shí)世界語境,比如為他規(guī)劃旅行行程時選了一堆春假期間會被游客擠爆的地點(diǎn)。在 OpenClaw 中測試 GPT-5.4 時,模型經(jīng)常在任務(wù)完成之前就停下來。

      OpenAI 同時宣布了一套面向金融行業(yè)的企業(yè)產(chǎn)品,核心是 ChatGPT for Excel 和 Google Sheets(測試版)。OpenAI 將其描述為 ChatGPT 直接嵌入電子表格,用于構(gòu)建、分析和更新復(fù)雜的財(cái)務(wù)模型。

      配套的還有與 FactSet、MSCI、Moody's 等金融數(shù)據(jù)提供商的集成,以及可復(fù)用的“Skills”(技能模板),用于盈利預(yù)覽、可比公司分析、DCF(折現(xiàn)現(xiàn)金流)分析等標(biāo)準(zhǔn)化金融工作。

      在 OpenAI 內(nèi)部的投資銀行基準(zhǔn)測試中,GPT-5.4 Thinking 的表現(xiàn)從 GPT-5 時代的 43.7% 提升到了 88.0%。這組產(chǎn)品的對手毫無疑問是 Anthropic 剛推出的 Cowork 桌面工具和 Claude 的文件管理能力,以及 Google 在 Workspace 中持續(xù)深入的 AI 集成。

      綜合來看,GPT-5.4 稱得上是一種在多個維度上的整合性進(jìn)步。原生計(jì)算機(jī)操控、工具搜索、更大的上下文窗口、更強(qiáng)的推理能力,這些合在一起構(gòu)成了一個更完整的“AI 工作助手”,也為 OpenClaw 這類智能體框架提供了更強(qiáng)的底層引擎。

      日常聊天和寫郵件的改進(jìn)可能體現(xiàn)在細(xì)節(jié)上,真正能感受到跨代差異的,是那些用 AI 做 PPT、建財(cái)務(wù)模型、在 Codex 里跑自動化流程的重度用戶,以及正在把 OpenClaw 當(dāng)成個人數(shù)字助手的那批早期采納者。

      參考資料:

      1.https://openai.com/index/introducing-gpt-5-4/

      2.https://x.com/mattshumer_/status/2029620518249508950

      運(yùn)營/排版:何晨龍

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      俄媒:蘇萊曼尼繼任者是內(nèi)鬼,確認(rèn)哈梅內(nèi)伊位置,會沒開完就溜了

      俄媒:蘇萊曼尼繼任者是內(nèi)鬼,確認(rèn)哈梅內(nèi)伊位置,會沒開完就溜了

      慕名而來只為你
      2026-03-07 03:01:33
      5場4球1助攻,韓國國腳吳賢揆身價已經(jīng)漲至1500萬歐

      5場4球1助攻,韓國國腳吳賢揆身價已經(jīng)漲至1500萬歐

      懂球帝
      2026-03-06 18:36:38
      太慘了!34歲字節(jié)程序員被裁當(dāng)場崩潰痛哭,房貸2.6萬月支出近4萬

      太慘了!34歲字節(jié)程序員被裁當(dāng)場崩潰痛哭,房貸2.6萬月支出近4萬

      烏娛子醬
      2026-03-05 16:16:25
      麥當(dāng)勞CEO試吃大拱門翻車,網(wǎng)友:漢堡只受了點(diǎn)皮外傷。

      麥當(dāng)勞CEO試吃大拱門翻車,網(wǎng)友:漢堡只受了點(diǎn)皮外傷。

      LOGO研究所
      2026-03-06 11:24:57
      2026年全國高考迎來大地震!今年6月全部落實(shí)!家長考生提前了解

      2026年全國高考迎來大地震!今年6月全部落實(shí)!家長考生提前了解

      解說阿洎
      2026-03-06 20:17:50
      遭鞭打、被迫在尿騷味地道取暖?迪麗熱巴爆猛料,滯留僅冰山一角

      遭鞭打、被迫在尿騷味地道取暖?迪麗熱巴爆猛料,滯留僅冰山一角

      她時尚丫
      2026-03-04 20:28:41
      太慘了!燃油車再迎大降價,最大降幅50%,電車為何不敢接招?

      太慘了!燃油車再迎大降價,最大降幅50%,電車為何不敢接招?

      小李子體育
      2026-03-05 04:32:28
      做一個愛玩游戲的美少女不好嗎?

      做一個愛玩游戲的美少女不好嗎?

      疾跑的小蝸牛
      2026-03-06 21:09:00
      楚阿梅尼此前連續(xù)53場俱樂部+國家隊(duì)比賽0進(jìn)球,近3場打入2球

      楚阿梅尼此前連續(xù)53場俱樂部+國家隊(duì)比賽0進(jìn)球,近3場打入2球

      懂球帝
      2026-03-07 04:30:07
      她就是李谷一女兒,辭掉央視工作,專心照顧母親,如今46歲仍未婚

      她就是李谷一女兒,辭掉央視工作,專心照顧母親,如今46歲仍未婚

      白面書誏
      2026-03-06 14:20:11
      特朗普宣稱“與伊朗不會達(dá)成任何協(xié)議”

      特朗普宣稱“與伊朗不會達(dá)成任何協(xié)議”

      界面新聞
      2026-03-06 22:15:25
      伊朗宣示不會與美國談判,拉里賈尼:他們不可能打了伊朗就一走了之

      伊朗宣示不會與美國談判,拉里賈尼:他們不可能打了伊朗就一走了之

      環(huán)球網(wǎng)資訊
      2026-03-03 07:00:20
      出大事了,白宮發(fā)言人說漏嘴,以色列情報(bào)曝光,特朗普連遭噩耗

      出大事了,白宮發(fā)言人說漏嘴,以色列情報(bào)曝光,特朗普連遭噩耗

      策略述
      2026-03-06 18:28:15
      忠告!四種“垃圾食品”已公布,燕麥排第二,第一名很多人都喜歡

      忠告!四種“垃圾食品”已公布,燕麥排第二,第一名很多人都喜歡

      小舟談歷史
      2025-10-17 09:33:31
      近況曝光!經(jīng)歷兩段失敗婚姻,如今與漂亮女兒相依為命

      近況曝光!經(jīng)歷兩段失敗婚姻,如今與漂亮女兒相依為命

      章眽八卦
      2026-03-04 14:18:13
      美國公海動武被批評,印度一聲不吭遭質(zhì)疑,美軍在印度洋炸毀伊朗軍艦

      美國公海動武被批評,印度一聲不吭遭質(zhì)疑,美軍在印度洋炸毀伊朗軍艦

      環(huán)球網(wǎng)資訊
      2026-03-06 06:57:07
      諾貝爾文學(xué)獎最值得看的12本書,一生至少要讀一次

      諾貝爾文學(xué)獎最值得看的12本書,一生至少要讀一次

      洞見
      2026-03-05 15:17:24
      伊朗請中方,不到24小時上合組織重磅出手,特朗普遭內(nèi)外夾擊!

      伊朗請中方,不到24小時上合組織重磅出手,特朗普遭內(nèi)外夾擊!

      觀星賞月
      2026-03-07 00:48:10
      被爆換武僧心臟、喝小孩血! 李連杰笑噴:怎么不說我換「華為心、小米腎」?

      被爆換武僧心臟、喝小孩血! 李連杰笑噴:怎么不說我換「華為心、小米腎」?

      ETtoday星光云
      2026-03-04 16:42:06
      唏噓!國安功勛球員生活窘迫,做足球青訓(xùn)賠本,如今靠送外賣維生

      唏噓!國安功勛球員生活窘迫,做足球青訓(xùn)賠本,如今靠送外賣維生

      體壇鑒春秋
      2026-03-06 16:02:20
      2026-03-07 04:43:01
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨(dú)家合作
      16370文章數(shù) 514718關(guān)注度
      往期回顧 全部

      科技要聞

      獨(dú)家|除夕加班、毫無黑料!林俊旸無奈離場

      頭條要聞

      伊朗:大規(guī)模發(fā)射新一代導(dǎo)彈 打擊美軍多個基地

      頭條要聞

      伊朗:大規(guī)模發(fā)射新一代導(dǎo)彈 打擊美軍多個基地

      體育要聞

      跑了24年,他終于成為英超“最長的河”

      娛樂要聞

      周杰倫社交媒體曬昆凌,夫妻感情穩(wěn)定

      財(cái)經(jīng)要聞

      關(guān)于經(jīng)濟(jì)、股市等,五部門都說了啥?

      汽車要聞

      逃離ICU,上汽通用“止血”企穩(wěn)

      態(tài)度原創(chuàng)

      本地
      游戲
      旅游
      家居
      公開課

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      曝下代Xbox靠純算力制霸!性能“爆殺”PS6

      旅游要聞

      杭州CBD藏了片七彩油菜花海,草莓熊坐鎮(zhèn),成年人的治愈全在這兒

      家居要聞

      暖棕撞色 輕法奶油風(fēng)

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版