<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<ruby id="frsuw"></ruby>

<style id="frsuw"></style>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

GPT-5.4發布：OpenAI首個大一統模型，簡直是龍蝦原生

2026-03-06 08:48:29　來源: 量子位

泰國,普吉府舉報

0

分享至

衡宇發自凹非寺
量子位 | 公眾號 QbitAI

GPT-5.4，它來了！

它更像是一個“模型能力大一統”成果：OpenAI首次在單一模型中，把推理（Reasoning）、編程（Coding）、計算機原生交互（Computer Use）、深度網頁搜索以及百萬級Token上下文全部揉碎、重組，焊死在了同一個模型里。

重點是，沒有因為N in one而犧牲掉任何一個單項的性能——

OpenAI特別強調，GPT-5.4在以上領域的多個關鍵基準測試中依然保持領先。

跳票許久的OpenAI，終于冷不丁給了AI大模型圈梆梆一拳。

其中最能吸引開發者目光的，莫過于它是OpenAI首個原生支持“計算機使用”能力的通用模型。

我耳邊都已經聽到GPT-5.4的聲音了：

玩兒龍蝦的朋友們，走過路過考慮一下我咯～

同時，官方博文顯示，GPT-5.4的效率也出現了明顯提升。

相比GPT-5.2，GPT-5.4在推理過程中使用的Token數量顯著減少。

Token消耗下降意味著響應速度更快，同時整體成本也更低。

是的，它變強了，但也變便宜、變快了。

這也是OpenAI這次發布反復強調的一點：能力提升和效率優化是同時發生的。

隨著GPT-5.4上線，ChatGPT中的模型體系也隨之調整。

GPT-5.4同步上線ChatGPT、API以及Codex。

在API價格體系中，GPT-5.4的單Token價格略高于GPT-5.2，但由于任務所需Token減少，總體成本可能并不會上升太多。

面向復雜任務的GPT-5.4 Pro版本也一起推出，在ChatGPT中則提供為GPT-5.4 Thinking。

值得小伙伴們注意的一點，GPT-5.4 Thinking將取代此前的GPT-5.2 Thinking，且GPT-5.2將在三個月后正式退役。

而GPT-5.1系列將在3月11日就要從ChatGPT里say bye bye了。

珍惜你們最后相處的甜蜜時光吧～

目前各個社交媒體已經炸開了鍋。

有網友感慨道擁有百萬token上下文窗口、還能原生使用電腦的GPT-5.4，和蘋果史上最便宜筆記本電腦MacBook Neo同周發布……

“天爺啊，我的筆記本電腦正在經歷一場存在主義危機！！”

三大能力提升，系OpenAI首個原生支持電腦操作的通用模型

在具體能力層面，GPT-5.4的升級可以概括為三個方向：

深度知識工作(Knowledge Work）
原生計算機使用(Computer Use）
高階編程與調試(Coding）

這三種能力基本覆蓋了當前大多數數字工作的核心流程，而GPT-5.4都做得挺出色。

我們一一來看。

深度知識工作 (Knowledge Work）

首先是知識工作能力。

在衡量AI處理44種職業知識工作能力的GDPval基準測試中，它平局+獲勝的綜合得分83.0%。

多說幾句嗷，GDPval評測主要是用來測試模型在真實職業場景中的表現，它評測涉及44種職業，覆蓋了美國GDP貢獻最高的9個行業。

具體任務上并不只是簡單問答，它要求模型完成真實工作產物，例如銷售演示文稿、會計表格、排班表、制造流程圖甚至短視頻。

所以在大量知識工作任務中，GPT-5.4的結果已經能夠與專業從業者持平，甚至超過他們。

此外，OpenAI特別強化了GPT-5.4在辦公文檔領域的能力。

例如在內部投資銀行建模測試中，GPT-5.4的平均得分達到87.3%，而GPT-5.2為68.4%。在人類評審的PPT生成測試中，評委有68%的時間更偏好GPT-5.4生成的結果，原因包括視覺效果更好、版式更豐富以及圖片使用更合理。

從應用角度來看，這些能力對應的場景非常直接。

包括寫報告、做財務模型、制作演示文稿、分析商業數據等工作，都是典型的知識型任務。

GPT-5.4正在朝著這類任務進行專門優化。

原生計算機使用 (Computer Use）

GPT-5.4最引人關注的一項能力是原生計算機操作，這是GPT-5.4區別于以往所有模型的核心標志。

模型可以通過截圖理解軟件界面，然后執行鼠標點擊和鍵盤輸入等操作。

包括發送郵件、創建日歷事件、填寫表單、操作網頁等……都可以通過這種方式完成。

在WebArena瀏覽器任務測試中，GPT-5.4取得67.3%的成功率，高于GPT-5.2的65.4%。

在Online-Mind2Web測試中，僅通過截圖觀察完成網頁操作時，GPT-5.4的成功率達到92.8%。

此外，在OSWorld-Verified基準測試中，GPT-5.4在桌面操作任務中的成功率達到75.0%，已經超過人類平均水平（72.4%）。

這些數據背后代表的是一種新的交互模式，也算是沒落下最近的龍蝦狂熱潮。

高階編程與調試

第三個關鍵能力來自編程。

而且強調的是“高階編程”。

GPT-5.4吸納了此前最強的編程模型GPT-5.3-Codex的能力。現在的它不僅支持Token輸出速度提升1.5倍的/fast模式，還加入了一個名為“Playwright (Interactive)”的實驗性技能。

它允許AI在幫你寫網頁或者應用時，開啟一個窗口進行視覺化調試。

比如你給它一個簡單的需求去做模擬游戲，它能一邊生成美術資產、一邊寫邏輯，甚至一邊運行自動測試來驗證游戲狀態是否正常。

在SWE-Bench Pro測試中，GPT-5.4取得57.7%的成績，略高于GPT-5.3-Codex的56.8%，同時延遲更低。

內部測試還顯示，GPT-5.4在復雜前端任務中的表現明顯優于此前模型。生成的界面設計更加美觀，功能結構也更完整。

為了展示這一能力，OpenAI演示了一個由GPT-5.4生成的瀏覽器主題公園模擬游戲。

模型從簡單提示詞出發，生成游戲資源、構建場景、編寫邏輯，并通過自動瀏覽器測試不斷迭代。

這種“邊造邊測”的能力，已經非常接近一個人類高級全棧工程師的工作流。

一種趨勢不言而喻：

UI交互正在取代繁瑣的API對接，成為AI操作世界的新主流路徑。

emmmm，這可能會讓很多中間件失去價值。

整體定位：AI數字員工

看完上述能力的整合，你就能讀懂OpenAI在官方博文里透露出的野心。

OpenAI在發布文章中多次提到：

GPT-5.4的目標是成為能夠完成真實工作的Agent系統。

如果說之前的GPT模型版本還是一個需要你盯著看的輔助工具，那么GPT-5.4已經開始嘗試成為一個能獨立負責整塊業務的數字員工。

這種“AI數字員工化”體現在三個維度的飛躍。

首先是電腦操作能力。

模型可以通過截圖理解軟件界面，并通過鼠標和鍵盤指令進行操作。

這使得AI能夠直接在電腦環境中執行任務。

其次是瀏覽器任務能力。

在BrowseComp測試中，GPT-5.4的成績達到82.7%，而GPT-5.4 Pro達到89.3%，比GPT-5.2提升17個百分點。

這意味著模型能夠持續搜索網頁、篩選信息并整合結果，尤其適合處理需要多輪檢索的問題。

第三是多工具調用能力。

在Toolathlon基準測試中，GPT-5.4取得54.6%的準確率，高于GPT-5.2的45.7%。

這個測試的任務通常需要多步驟操作，例如讀取郵件附件、上傳文件、評分作業并記錄到表格中。

這種按需檢索工具的能力是降低Agent運行成本的關鍵，它解決了過去模型在面對復雜指令時容易“迷路”或者Token爆炸的問題。

此外，對于對延遲要求較高的場景（在這種場景中，人們傾向于不進行推理操作），GPT-5.4 比其前輩版本有了進一步的改進。

細節之處的全面進化

除了上述支柱能力，GPT-5.4在辦公細節上也進行了大量打磨。

比如它在創建和編輯電子表格、PPT方面的表現，其表格建模準確率從68.4%躍升至87.3%。

在演示文稿生成測試中，人類評審也更偏好GPT-5.4的結果，認為其視覺多樣性和審美更強。

同時，視覺能力的提升也帶動了文檔解析的進步。

在MMMU-Pro視覺推理測試中，GPT-5.4取得81.2%的準確率，高于GPT-5.2的79.5%。

更重要的是，它現在支持高達1024萬像素的原圖輸入，對高密度、高分辨率的圖像理解更加精準。

視覺能力的提升也帶來了更強的文檔解析能力。

在OmniDocBench測試中，GPT-5.4的平均錯誤率從0.140下降到0.109。

最令人欣慰的是錯誤率的下降。

從官方介紹中能初步感覺到，GPT-5.4是個極其講求事實的模型，其事實錯誤概率比前代降低了33%，大大緩解了用戶對模型幻覺的焦慮。

在效率方面，GPT-5.4引入工具搜索機制。

過去模型在使用工具時，需要在Prompt中包含所有工具定義。如果工具數量很多，Prompt就會變得非常龐大。

現在模型可以先獲取工具列表，然后按需查詢具體工具定義。

在實現相同準確率的情況下，將總Token使用率降低了47%。

這種成本控制手段說明OpenAI正試圖讓大模型大規模商業化變得更加現實，畢竟對于企業來說，省錢和好用同等重要。

更好用了，但更省錢了嗎？

從OpenAI公布的API定價表來看，GPT-5.4的定價確實比5.2版本要高出一截。

GPT-5.2的每百萬Token輸入/輸出價格分別是1.75美元和14美元，而GPT-5.4則上漲到了2.5美元和15美元。

尤其是對于那些追求極限性能的用戶，GPT-5.4 Pro的價格更是飆升到了每百萬輸入30美元。

當然，原因肯定是5.4被定位為針對專業機構和高端生產力場景的溢價產品。

如果你只是寫寫簡單的閑聊文案，繼續用5.2其實更劃算。

不過雖然單價漲了，但GPT-5.4在Agent任務中的“省錢之道”主要藏在它的技術機制里。

最核心的一點是就是工具搜索（Tool Search）功能。

以往我們讓AI接入外部工具（比如接入幾十個公司的數據庫和內部接口）時，必須把所有工具的定義全部塞進提示詞里。

哪怕AI這次只用了一個工具，你也得為剩下的幾十個工具的定義支付Token費用。

但在GPT-5.4下，由于引入了類似“查字典”的搜索機制，模型可以先看一遍簡略的工具清單，等確定要用哪個時，再臨時去調取那個工具的詳細定義。

在針對MCP Atlas基準測試的實驗中，這項技術在保持同等準確率的情況下，把總Token使用量足足降低了47%。

One more Thing

大家沉浸在技術狂歡中時，也有網友分享了一些肉痛瞬間。

永遠在沖浪一線的Yuchen Jin只是對GPT 5.4 Pro說了一句“Hi，俺是Anthropic創始人”，就花掉了整整560元……

技術進步好快，但網友的心好痛。

這也引出一個問題，殺雞焉用牛刀？

如果GPT-5.4 Pro是最智能、最接近AGI的模型……那么，你有什么AGI級別的問題要問它呢？
（何況還這么貴，TAT）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

大風315 | 游客稱飛3000公里在西雙版納一景區游玩，因明星錄制綜藝節目被清場；景區：具體情況需由游客回應

大風新聞 2026-03-09 17:06:09
4900 跟貼 4900
日本部署遠程導彈射程在1000公里左右

參考消息 2026-03-09 14:33:40
21079 跟貼 21079

女子在杭州西湖景區把“西泠印社”認成“杜帥冷面”，網友：四個字認錯五個，當事人：沒有文化確實不行

揚子晚報 2026-03-06 17:44:56
997 跟貼 997

吉林煙草公司招聘78人

吉刻新聞 2026-03-09 15:12:18
134 跟貼 134
多地宣布停車費下調：降低起步價、延長免費時段，短時停放更劃算

齊魯壹點 2026-03-09 06:58:22
43 跟貼 43

7天大漲60%！國際油價史上第四次突破100美元！霍爾木茲海峽“事實上封鎖”，有替代方案嗎？

每日經濟新聞 2026-03-09 13:07:06
1004 跟貼 1004

女孩花50元買5枝玫瑰送媽媽，父親大鬧花店，“不退錢就讓店開不下去！” 網友：可能是孩子一生的陰影

大風新聞 2026-03-09 21:28:05
801 跟貼 801
43天寒假無休送外賣掙萬元，財務管理專業大三學生收獲人生“第一桶金”

封面新聞 2026-03-09 13:14:08
6288 跟貼 6288

美國、德國、英國、法國、意大利、加拿大和日本將召開緊急會議

澎湃新聞 2026-03-09 21:58:04
1 跟貼 1
在上海的河南水煎包店火了！隊伍從一家店排到另一家，隔壁胡辣湯老板格外開心，“希望做生意的河南老鄉都能火起來”

大象新聞 2026-03-08 10:47:14
216 跟貼 216
業主喊話尋找"殺雞兇手" 噪音持續擾民社區回應

看看新聞Knews 2026-03-09 19:26:03
157 跟貼 157
“龍蝦”上桌，上市公司搶著“養”！OpenClaw引爆科技圈

財聯社 2026-03-09 16:43:55
105 跟貼 105
政協委員：建議允許護士給患者開藥

中國新聞周刊 2026-03-09 18:02:02
3122 跟貼 3122
城鄉居民養老金進入加快提升階段

中國青年報 2026-03-09 08:57:19
127 跟貼 127
“永久”只有4年？用戶質疑哈啰電動車遠程功能遭停用，律師：哈啰應承擔升級費用

瀟湘晨報 2026-03-09 21:34:43
21 跟貼 21
魏牌V9X加入“9系大戰”！魏建軍親自代言：專門定做了三套中山裝

每日經濟新聞 2026-03-09 20:53:05
29 跟貼 29
以軍方：緊急狀態“還會持續很長時間”

界面新聞 2026-03-09 09:54:42
644 跟貼 644
保定市啟動春季排水管網清掏工作

保定日報 2026-03-09 09:19:03
2 跟貼 2
國家體育總局局長高志丹：奮力推進足球、籃球、排球“三大球”振興

北京青年報 2026-03-09 11:48:49
220 跟貼 220
今年修改教師法

新華社 2026-03-09 09:48:46
30 跟貼 30
逆轉取勝！中國女足亞洲杯三連勝以小組頭名出線

中國網 2026-03-09 19:59:15
78 跟貼 78
嫦娥七號領取新任務：去月球找水

央視新聞客戶端 2026-03-09 18:47:57
891 跟貼 891
周鴻祎談“龍蝦”爆火：很快就能“一鍵安裝”

大象新聞 2026-03-09 11:37:43
233 跟貼 233
騰訊視頻稱異常僅為頁面展示錯誤

北京日報 2026-03-09 18:23:43
310 跟貼 310
追夢：庫里會在我做錯事時提醒我這讓我想起我的祖父

北青網-北京青年報 2026-03-10 07:43:12
0 跟貼 0
女演員模仿網紅噴火蛋糕玩法被燒傷危險視頻仍在傳播涉事平臺客服回應

快科技 2026-03-10 07:58:11
0 跟貼 0
羊角君的手機信息，竟在網上刷到了“當事人”視角

廣州地鐵 2026-03-10 07:52:45
0 跟貼 0
一樓拒交電梯費被告上法庭，敗訴后，這張繳費單成了整棟樓的噩夢

世界圈 2026-03-10 07:47:05
0 跟貼 0
二十余載尋真路，這是一位女法醫的剛與柔

上海靜安 2026-03-10 07:36:06
0 跟貼 0
周最佳球員：西部維克托-文班亞馬東部泰勒-希羅

北青網-北京青年報 2026-03-10 07:43:16
0 跟貼 0

上海足壇功勛主帥，五次執教申花，卻被洋帥替代，65歲他扎根青訓

上海足壇功勛主帥，五次執教申花，卻被洋帥替代，65歲他扎根青訓

削桐作琴

2026-03-09 18:22:53

荷蘭總部遠程操作，直接把中國幾千名員工的賬號全部禁用，沒通知

荷蘭總部遠程操作，直接把中國幾千名員工的賬號全部禁用，沒通知

南權先生

2026-03-09 15:55:08

公安部網安局緊急提醒：這種“微信轉賬”不要點！不要收！

公安部網安局緊急提醒：這種“微信轉賬”不要點！不要收！

網絡辟謠

2026-03-09 13:45:31

大到兜不住！豐滿美女Cos《生化》系列角色

大到兜不住！豐滿美女Cos《生化》系列角色

游民星空

2026-03-09 16:05:32

1989年哈梅內伊在北京吃烤鴨時，一張罕見留影，此后再未踏出國門

1989年哈梅內伊在北京吃烤鴨時，一張罕見留影，此后再未踏出國門

動物奇奇怪怪

2026-03-07 01:52:57

田曦薇胸前的珍珠好大，屬實是被 “夾住” 了！

田曦薇胸前的珍珠好大，屬實是被 “夾住” 了！

飛娛日記

2026-03-08 08:53:03

74比95慘敗丟冠！女籃霸主狂輸21分被掀翻：1年連丟三冠太慘了

74比95慘敗丟冠！女籃霸主狂輸21分被掀翻：1年連丟三冠太慘了

籃球快餐車

2026-03-10 05:40:05

以色列國土防衛司令部：全國性限制措施仍然保持不變

以色列國土防衛司令部：全國性限制措施仍然保持不變

財聯社

2026-03-08 02:04:06

全國統一eSIM整機方案落地：手機告別實體卡，全運營商兼容

全國統一eSIM整機方案落地：手機告別實體卡，全運營商兼容

Thurman在昆明

2026-03-09 16:23:00

男籃3喜訊：徐杰打破新紀錄，郭士強看好3人，雙中鋒有望沖冠軍

男籃3喜訊：徐杰打破新紀錄，郭士強看好3人，雙中鋒有望沖冠軍

阿信點評

2026-03-10 00:06:14

日本罕見譴責伊朗！要求停止打擊中東國家！或在找借口出兵中東？

日本罕見譴責伊朗！要求停止打擊中東國家！或在找借口出兵中東？

說歷史的老牢

2026-03-10 06:18:57

小步快跑，恩佐身價9000萬歐為生涯最高，連續三次上漲500萬

小步快跑，恩佐身價9000萬歐為生涯最高，連續三次上漲500萬

懂球帝

2026-03-09 21:59:05

爆料！白宮討論派兵奪取伊朗“石油島”

爆料！白宮討論派兵奪取伊朗“石油島”

環球時報國際

2026-03-09 20:24:31

無指責、不處罰，護送2公里！浙江交警這波操作，全網點贊

無指責、不處罰，護送2公里！浙江交警這波操作，全網點贊

環球網資訊

2026-03-09 15:38:06

偶像宅男福利！IP社2026年最強新人辻美衣奈G燈暴擊

偶像宅男福利！IP社2026年最強新人辻美衣奈G燈暴擊

碧波萬覽

2026-03-10 00:55:46

特朗普現在最恨誰？不是哈梅內伊，不是佩澤希齊揚，而是一個女人

特朗普現在最恨誰？不是哈梅內伊，不是佩澤希齊揚，而是一個女人

南權先生

2026-03-09 15:45:16

美專家：美以計劃破產，對伊戰爭將長期化

美專家：美以計劃破產，對伊戰爭將長期化

大象新聞

2026-03-09 15:27:04

滿是心酸！42歲著名歌手江蘇走穴，賓客只顧吃席沒人搭理

滿是心酸！42歲著名歌手江蘇走穴，賓客只顧吃席沒人搭理

查爾菲的筆記

2026-01-04 13:13:57

北京電動車違法抓拍落地，處理需持行駛證

北京電動車違法抓拍落地，處理需持行駛證

我不叫阿哏

2026-03-09 16:25:33

德轉更新后英超最貴11人陣容：哈蘭德2億歐領銜，6人身價過億

德轉更新后英超最貴11人陣容：哈蘭德2億歐領銜，6人身價過億

懂球帝

2026-03-10 07:05:06

追蹤人工智能動態

12253文章數 176412關注度

往期回顧全部

科技要聞

OpenClaw更新，"養蝦"再也不會犯健忘癥了

頭條要聞

媒體：一次越界打擊揭開美以裂痕伊朗向美國傳遞信號

頭條要聞

媒體：一次越界打擊揭開美以裂痕伊朗向美國傳遞信號

體育要聞

36連勝終結！大魔王也是可以戰勝的

娛樂要聞

薛之謙老婆懷二胎，現身產檢心情愉快

財經要聞

油價破100美元年內漲80% 全球市場劇震

汽車要聞

對標奔馳小號G級路虎小型衛士最新消息曝光

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

旅游

時尚

公開課

軍事航空

本地新聞

食味印象｜一口入魂！康樂烤肉串起千年絲路香

津南好·四時總相宜
妝藝大游行2026：愿
春花齊放2026：《駿馬奔騰迎新歲》

旅游要聞

視界｜馬來西亞新山舉行古廟游神活動

今年最流行的5條半裙，怎么搭都好看！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

軍事要聞

伊媒發布小學被炸瞬間戰斧導彈從天而降

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<cite id="5fsln"><menu id="5fsln"></menu></cite>

<style id="5fsln"></style>