<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      ChatGPT-5.4發布:和OpenClaw兼容,AI第一次比人類更會操作電腦

      0
      分享至

      自從各大模型廠商開始以 0.1 的小版本更新模型后,模型更新的頻率越來越快了,3 月 5 日,就在 GPT-5.3 Instant 剛更新完畢后兩天,GPT-5.4 也來了。

      這款模型被 OpenAI 定位為“面向專業工作的最強前沿模型”。它以 GPT-5.4 Thinking 的形式進入 ChatGPT,同時上線 API 和代碼開發平臺 Codex。此外還有一個 GPT-5.4 Pro 版本,面向需要極致復雜任務性能的用戶,僅對 ChatGPT Pro(月費 200 美元)和 Enterprise 訂閱者開放。Plus 用戶可以使用 GPT-5.4 Thinking,免費用戶則只能在系統自動路由時偶爾被分配到該模型。


      (來源:OpenAI)

      GPT-5.4 在 API 和 Codex 中支持最高 100 萬 token(標記)的上下文窗口(Context Window,即模型單次處理文本的長度上限),這是目前 OpenAI 提供的最大上下文窗口。不過超過 272,000 token 的請求,輸入價格翻倍、輸出加收 50%。標準輸入單價從 GPT-5.2 時代的每百萬 token 1.75 美元漲到了 2.50 美元,漲幅 43%。

      OpenAI 給出的解釋是,模型能力更強,研究投入更大,同時推理效率更高——用更少的 token 解決同樣的問題,所以總成本未必上升。作為參考,Anthropic 的 Claude Opus 4.6 輸入價格是每百萬 token 5 美元,輸出 25 美元,GPT-5.4 Pro 的定價實際上還要更貴。


      (來源:OpenAI)

      跑分方面,在 OSWorld-Verified 基準測試中,GPT-5.4 的成功率達到 75.0%,遠超 GPT-5.2 的 47.3%,也超過了該測試報告的人類表現 72.4%。在 OpenAI 的官方演示中,通過 Playwright Interactive(一種瀏覽器自動化工具)與圖像生成結合,僅憑單條提示詞就構建出了一個主題樂園模擬游戲,涵蓋瓦片路徑布置、游樂設施建造、游客路徑尋路和實時公園指標。

      在 BrowseComp(衡量 AI 代理在網頁上持續檢索難以定位信息的能力)上,GPT-5.4 比 GPT-5.2 提升了 17 個百分點,Pro 版本達到 89.3%。OpenAI 自己的 GDPval 測試(覆蓋美國 GDP 貢獻最大的 9 個行業、44 種職業的知識工作任務)給出了 83% 的得分,意味著在這些任務上模型的表現達到或超過了行業從業者水平。

      在電子表格建模任務中,得分從 GPT-5.2 的 68.4% 跳到了 87.3%;人類評審者在 68% 的情況下更偏好 GPT-5.4 生成的演示文稿。


      (來源:OpenAI)

      這些數字背后有一個關鍵能力:原生計算機使用(Native Computer Use)。GPT-5.4 是 OpenAI 發布的第一個內置原生計算機操控能力的通用模型,可以通過編寫代碼(比如使用 Playwright 庫)來操控計算機,也可以直接根據屏幕截圖發出鼠標和鍵盤指令。這讓它能夠在軟件環境中執行“構建 - 運行 - 驗證 - 修復”的循環,完成需要跨多個應用的多步驟工作流。

      另一個對開發者影響較大的新特性是 Tool Search(工具搜索)。過去,在 API 中使用工具時,所有工具的定義需要一次性塞進提示詞里,隨著工具越來越多,這造成了巨大的 token 開銷和上下文污染。GPT-5.4 引入了一個結構性的優化:模型只接收一個輕量級工具列表,需要用到某個工具時再動態檢索其完整定義。

      在 Scale 公司的 MCP Atlas 基準測試中,使用 36 個 MCP 服務器執行 250 項任務,工具搜索將 token 消耗降低了 47%,同時保持了準確率。對于構建大型智能體(Agent)系統的開發者來說,這直接意味著更低的成本和更快的響應。

      幻覺(Hallucination,即模型編造事實)的改善也被重點提及。OpenAI 表示,GPT-5.4 在單條聲明中出錯的概率比 GPT-5.2 降低了 33%,整體回復包含錯誤的概率降低了 18%。

      不過需要注意的是,在 HealthBench 醫療健康評測中,GPT-5.4 的得分是 62.6%,反而略低于 GPT-5.2 的 63.3%。模型回復的平均長度也更長了,從 GPT-5.2 的 2,676 字符增加到 3,311 字符。更長的回復有時候意味著更全面,也有時候意味著更啰嗦,用戶體驗如何還有待觀察。

      在抽象推理方面,進步幅度較為顯著。ARC-AGI-2 從 52.9% 躍升至 73.3%,Pro 版本達到 83.3%。FrontierMath Tier 4(最高難度的數學推理測試)從 18.8% 提升至 27.1%,Pro 版本為 38.0%。

      一些拿到早期測試權限的用戶已經在 X 上密集發布體驗報告。AI 創業者 Matt Shumer 稱自己測試 GPT-5.4 長達一周,認為其標準版配合深度思考模式的表現已經超過了此前其他模型的 Pro 版本,以至于他幾乎不再需要切換到 Pro 模式。


      (來源:X)

      其編碼能力尤其突出,Shumer 稱在 Codex 中使用 GPT-5.4 的可靠性極高,編碼問題“基本上已經被解決了”。Pro 版本則能攻克其他模型完全無法處理的難題,但對日常任務來說屬于“過剩火力”。而且的確和 OpenAI 官方宣稱的一樣,其標準思考版本使用的推理 token 比以前更少,響應速度明顯加快。

      不過 Shumer 也指出了幾個短板:前端設計品味遠不如 Claude Opus 4.6 和 Gemini 3.1 Pro;模型有時候會忽略顯而易見的現實世界語境,比如為他規劃旅行行程時選了一堆春假期間會被游客擠爆的地點。在 OpenClaw 中測試 GPT-5.4 時,模型經常在任務完成之前就停下來。

      OpenAI 同時宣布了一套面向金融行業的企業產品,核心是 ChatGPT for Excel 和 Google Sheets(測試版)。OpenAI 將其描述為 ChatGPT 直接嵌入電子表格,用于構建、分析和更新復雜的財務模型。

      配套的還有與 FactSet、MSCI、Moody's 等金融數據提供商的集成,以及可復用的“Skills”(技能模板),用于盈利預覽、可比公司分析、DCF(折現現金流)分析等標準化金融工作。

      在 OpenAI 內部的投資銀行基準測試中,GPT-5.4 Thinking 的表現從 GPT-5 時代的 43.7% 提升到了 88.0%。這組產品的對手毫無疑問是 Anthropic 剛推出的 Cowork 桌面工具和 Claude 的文件管理能力,以及 Google 在 Workspace 中持續深入的 AI 集成。

      綜合來看,GPT-5.4 稱得上是一種在多個維度上的整合性進步。原生計算機操控、工具搜索、更大的上下文窗口、更強的推理能力,這些合在一起構成了一個更完整的“AI 工作助手”,也為 OpenClaw 這類智能體框架提供了更強的底層引擎。

      日常聊天和寫郵件的改進可能體現在細節上,真正能感受到跨代差異的,是那些用 AI 做 PPT、建財務模型、在 Codex 里跑自動化流程的重度用戶,以及正在把 OpenClaw 當成個人數字助手的那批早期采納者。

      參考資料:

      1.https://openai.com/index/introducing-gpt-5-4/

      2.https://x.com/mattshumer_/status/2029620518249508950

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      世界上最燒錢的十項運動,沒錢你真玩不起!

      世界上最燒錢的十項運動,沒錢你真玩不起!

      馬拉松跑步健身
      2026-02-28 11:37:18
      這么看侯佩岑挺慘,還在等周杰倫求復合呢,周杰倫跑去追田馥甄了

      這么看侯佩岑挺慘,還在等周杰倫求復合呢,周杰倫跑去追田馥甄了

      一盅情懷
      2026-03-06 16:27:03
      這家船廠宣布:史上最大幅度加薪協議達成

      這家船廠宣布:史上最大幅度加薪協議達成

      龍de船人
      2026-03-07 20:07:13
      隨著蘭帕德率隊2-0,萊斯特城1-1,赫爾城1-3,英冠最新積分榜出爐

      隨著蘭帕德率隊2-0,萊斯特城1-1,赫爾城1-3,英冠最新積分榜出爐

      側身凌空斬
      2026-03-08 07:03:56
      王曼昱退賽,太原賽8人名單公布,4男4女,陳熠無緣

      王曼昱退賽,太原賽8人名單公布,4男4女,陳熠無緣

      東球貓貓
      2026-03-08 10:01:42
      江西母女喝了3瓶牛奶,被老公數落2小時,眼神太嚇人,網友炸鍋

      江西母女喝了3瓶牛奶,被老公數落2小時,眼神太嚇人,網友炸鍋

      青梅侃史啊
      2026-03-08 07:18:01
      霍爾木茲海峽如果斷供,中國的石油能撐多久?我查完數據算了一遍

      霍爾木茲海峽如果斷供,中國的石油能撐多久?我查完數據算了一遍

      何毅商業財經
      2026-03-08 09:07:44
      蘋果在美升級地理封鎖:字節跳動中文應用遭全面限制,跨區下載已成歷史

      蘋果在美升級地理封鎖:字節跳動中文應用遭全面限制,跨區下載已成歷史

      驅動中國
      2026-03-06 11:12:05
      美軍或用對付伊拉克的方法,對付中國?一旦開戰,衛星必然不保!

      美軍或用對付伊拉克的方法,對付中國?一旦開戰,衛星必然不保!

      阿籫你好
      2026-03-08 10:28:25
      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      南權先生
      2026-01-26 15:41:26
      難辨真偽,但確實有可能,美媒:中國用殲16的舊雷達來升級殲11B

      難辨真偽,但確實有可能,美媒:中國用殲16的舊雷達來升級殲11B

      嘯鷹評
      2026-03-07 23:24:42
      葛薈婕的男友吳海峰,32歲,廣西農村初中學歷,曾是薇婭公司司機

      葛薈婕的男友吳海峰,32歲,廣西農村初中學歷,曾是薇婭公司司機

      靜若梨花
      2026-03-08 11:15:50
      政府工作報告:加強初婚初育家庭住房保障;落實職工帶薪錯峰休假制度

      政府工作報告:加強初婚初育家庭住房保障;落實職工帶薪錯峰休假制度

      每日經濟新聞
      2026-03-07 20:19:10
      全國人大代表、北京協和醫院院長張抒揚建議:年輕人,別錯過最佳生育年齡,為人父母的幸福感是無可替代的

      全國人大代表、北京協和醫院院長張抒揚建議:年輕人,別錯過最佳生育年齡,為人父母的幸福感是無可替代的

      觀威海
      2026-03-07 12:07:22
      地中海又傳來一聲巨響,俄6萬噸巨輪慘遭擊沉,普京:絕不輕饒!

      地中海又傳來一聲巨響,俄6萬噸巨輪慘遭擊沉,普京:絕不輕饒!

      甜檸聊史
      2026-03-08 01:56:33
      全新一代雷克薩斯ES美國售價揭曉:48795美元起,下月登陸國內

      全新一代雷克薩斯ES美國售價揭曉:48795美元起,下月登陸國內

      IT之家
      2026-03-06 18:19:38
      朝鮮戰爭期間:美軍原本已接近擊敗中國,卻碰上中國決死的指揮官

      朝鮮戰爭期間:美軍原本已接近擊敗中國,卻碰上中國決死的指揮官

      別人都叫我阿腈
      2026-02-13 21:25:33
      中央定調!15年最低繳費成歷史,2030年15年繳費還能正常退休嗎?

      中央定調!15年最低繳費成歷史,2030年15年繳費還能正常退休嗎?

      另子維愛讀史
      2026-03-03 21:58:41
      羅永浩怒懟算命大V!稱沒了膽也不慣著,網友:踢到鋼板了

      羅永浩怒懟算命大V!稱沒了膽也不慣著,網友:踢到鋼板了

      雷科技
      2026-03-07 23:58:00
      請12人吃飯結賬變四桌,我悄悄結賬走人,半小時飯店來電:人被扣了,我直接回答:和我沒關系

      請12人吃飯結賬變四桌,我悄悄結賬走人,半小時飯店來電:人被扣了,我直接回答:和我沒關系

      奶茶麥子
      2026-03-08 00:01:07
      2026-03-08 12:07:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16376文章數 514725關注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      伊朗公布行動細節 有導彈配備集束彈頭均命中目標

      頭條要聞

      伊朗公布行動細節 有導彈配備集束彈頭均命中目標

      體育要聞

      大傷后被交易,他說:22歲的我已經死了

      娛樂要聞

      周迅新戀情曝光,李亞鵬等人已成過去

      財經要聞

      油價要失控?

      汽車要聞

      9分鐘充飽 全新騰勢Z9GT首搭閃充技術26.98萬起

      態度原創

      家居
      本地
      旅游
      數碼
      軍事航空

      家居要聞

      暖棕撞色 輕法奶油風

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      旅游要聞

      有一億人?無錫這些地方擠爆了

      數碼要聞

      華為PC加速鴻蒙化 上半年或推出兩款鴻蒙PC新品!

      軍事要聞

      美第三個航母打擊群據稱準備部署至中東

      無障礙瀏覽 進入關懷版