<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.4發布:OpenAI首個大一統模型,簡直是龍蝦原生

      0
      分享至

      衡宇 發自 凹非寺
      量子位 | 公眾號 QbitAI

      GPT-5.4,它來了!

      它更像是一個“模型能力大一統”成果:OpenAI首次在單一模型中,把推理(Reasoning)、編程(Coding)、計算機原生交互(Computer Use)、深度網頁搜索以及百萬級Token上下文全部揉碎、重組,焊死在了同一個模型里。

      重點是,沒有因為N in one而犧牲掉任何一個單項的性能——

      OpenAI特別強調,GPT-5.4在以上領域的多個關鍵基準測試中依然保持領先。

      跳票許久的OpenAI,終于冷不丁給了AI大模型圈梆梆一拳。



      其中最能吸引開發者目光的,莫過于它是OpenAI首個原生支持“計算機使用”能力的通用模型。

      我耳邊都已經聽到GPT-5.4的聲音了:

      • 玩兒龍蝦的朋友們,走過路過考慮一下我咯~



      同時,官方博文顯示,GPT-5.4的效率也出現了明顯提升。

      相比GPT-5.2,GPT-5.4在推理過程中使用的Token數量顯著減少。

      Token消耗下降意味著響應速度更快,同時整體成本也更低。

      是的,它變強了,但也變便宜、變快了。

      這也是OpenAI這次發布反復強調的一點:能力提升和效率優化是同時發生的。



      隨著GPT-5.4上線,ChatGPT中的模型體系也隨之調整。

      GPT-5.4同步上線ChatGPT、API以及Codex。

      在API價格體系中,GPT-5.4的單Token價格略高于GPT-5.2,但由于任務所需Token減少,總體成本可能并不會上升太多。

      面向復雜任務的GPT-5.4 Pro版本也一起推出,在ChatGPT中則提供為GPT-5.4 Thinking。

      值得小伙伴們注意的一點,GPT-5.4 Thinking將取代此前的GPT-5.2 Thinking,且GPT-5.2將在三個月后正式退役。

      而GPT-5.1系列將在3月11日就要從ChatGPT里say bye bye了。

      珍惜你們最后相處的甜蜜時光吧~



      目前各個社交媒體已經炸開了鍋。

      有網友感慨道擁有百萬token上下文窗口、還能原生使用電腦的GPT-5.4,和蘋果史上最便宜筆記本電腦MacBook Neo同周發布……

      “天爺啊,我的筆記本電腦正在經歷一場存在主義危機!!



      三大能力提升,系OpenAI首個原生支持電腦操作的通用模型

      在具體能力層面,GPT-5.4的升級可以概括為三個方向:

      • 深度知識工作(Knowledge Work)
      • 原生計算機使用(Computer Use)
      • 高階編程與調試(Coding)

      這三種能力基本覆蓋了當前大多數數字工作的核心流程,而GPT-5.4都做得挺出色。



      我們一一來看。

      深度知識工作 (Knowledge Work)

      首先是知識工作能力。

      在衡量AI處理44種職業知識工作能力的GDPval基準測試中,它平局+獲勝的綜合得分83.0%。



      多說幾句嗷,GDPval評測主要是用來測試模型在真實職業場景中的表現,它評測涉及44種職業,覆蓋了美國GDP貢獻最高的9個行業。

      具體任務上并不只是簡單問答,它要求模型完成真實工作產物,例如銷售演示文稿、會計表格、排班表、制造流程圖甚至短視頻。

      所以在大量知識工作任務中,GPT-5.4的結果已經能夠與專業從業者持平,甚至超過他們。

      此外,OpenAI特別強化了GPT-5.4在辦公文檔領域的能力。

      例如在內部投資銀行建模測試中,GPT-5.4的平均得分達到87.3%,而GPT-5.2為68.4%。在人類評審的PPT生成測試中,評委有68%的時間更偏好GPT-5.4生成的結果,原因包括視覺效果更好、版式更豐富以及圖片使用更合理。

      從應用角度來看,這些能力對應的場景非常直接。

      包括寫報告、做財務模型、制作演示文稿、分析商業數據等工作,都是典型的知識型任務。

      GPT-5.4正在朝著這類任務進行專門優化。



      原生計算機使用 (Computer Use)

      GPT-5.4最引人關注的一項能力是原生計算機操作,這是GPT-5.4區別于以往所有模型的核心標志。

      模型可以通過截圖理解軟件界面,然后執行鼠標點擊和鍵盤輸入等操作。

      包括發送郵件、創建日歷事件、填寫表單、操作網頁等……都可以通過這種方式完成。



      在WebArena瀏覽器任務測試中,GPT-5.4取得67.3%的成功率,高于GPT-5.2的65.4%。

      在Online-Mind2Web測試中,僅通過截圖觀察完成網頁操作時,GPT-5.4的成功率達到92.8%。

      此外,在OSWorld-Verified基準測試中,GPT-5.4在桌面操作任務中的成功率達到75.0%,已經超過人類平均水平(72.4%)。



      這些數據背后代表的是一種新的交互模式,也算是沒落下最近的龍蝦狂熱潮。

      高階編程與調試

      第三個關鍵能力來自編程。

      而且強調的是“高階編程”。

      GPT-5.4吸納了此前最強的編程模型GPT-5.3-Codex的能力。現在的它不僅支持Token輸出速度提升1.5倍的/fast模式,還加入了一個名為“Playwright (Interactive)”的實驗性技能。

      它允許AI在幫你寫網頁或者應用時,開啟一個窗口進行視覺化調試。

      比如你給它一個簡單的需求去做模擬游戲,它能一邊生成美術資產、一邊寫邏輯,甚至一邊運行自動測試來驗證游戲狀態是否正常。

      在SWE-Bench Pro測試中,GPT-5.4取得57.7%的成績,略高于GPT-5.3-Codex的56.8%,同時延遲更低。



      內部測試還顯示,GPT-5.4在復雜前端任務中的表現明顯優于此前模型。生成的界面設計更加美觀,功能結構也更完整。

      為了展示這一能力,OpenAI演示了一個由GPT-5.4生成的瀏覽器主題公園模擬游戲。

      模型從簡單提示詞出發,生成游戲資源、構建場景、編寫邏輯,并通過自動瀏覽器測試不斷迭代。



      這種“邊造邊測”的能力,已經非常接近一個人類高級全棧工程師的工作流。

      一種趨勢不言而喻:

      • UI交互正在取代繁瑣的API對接,成為AI操作世界的新主流路徑。

      emmmm,這可能會讓很多中間件失去價值。

      整體定位:AI數字員工

      看完上述能力的整合,你就能讀懂OpenAI在官方博文里透露出的野心。

      OpenAI在發布文章中多次提到:

      • GPT-5.4的目標是成為能夠完成真實工作的Agent系統。

      如果說之前的GPT模型版本還是一個需要你盯著看的輔助工具,那么GPT-5.4已經開始嘗試成為一個能獨立負責整塊業務的數字員工。

      這種“AI數字員工化”體現在三個維度的飛躍。

      首先是電腦操作能力。

      模型可以通過截圖理解軟件界面,并通過鼠標和鍵盤指令進行操作。

      這使得AI能夠直接在電腦環境中執行任務。

      其次是瀏覽器任務能力。

      在BrowseComp測試中,GPT-5.4的成績達到82.7%,而GPT-5.4 Pro達到89.3%,比GPT-5.2提升17個百分點。

      這意味著模型能夠持續搜索網頁、篩選信息并整合結果,尤其適合處理需要多輪檢索的問題。



      第三是多工具調用能力。

      在Toolathlon基準測試中,GPT-5.4取得54.6%的準確率,高于GPT-5.2的45.7%。

      這個測試的任務通常需要多步驟操作,例如讀取郵件附件、上傳文件、評分作業并記錄到表格中。



      這種按需檢索工具的能力是降低Agent運行成本的關鍵,它解決了過去模型在面對復雜指令時容易“迷路”或者Token爆炸的問題。

      此外,對于對延遲要求較高的場景(在這種場景中,人們傾向于不進行推理操作),GPT-5.4 比其前輩版本有了進一步的改進。



      細節之處的全面進化

      除了上述支柱能力,GPT-5.4在辦公細節上也進行了大量打磨。

      比如它在創建和編輯電子表格、PPT方面的表現,其表格建模準確率從68.4%躍升至87.3%。

      在演示文稿生成測試中,人類評審也更偏好GPT-5.4的結果,認為其視覺多樣性和審美更強。

      同時,視覺能力的提升也帶動了文檔解析的進步。

      在MMMU-Pro視覺推理測試中,GPT-5.4取得81.2%的準確率,高于GPT-5.2的79.5%。



      更重要的是,它現在支持高達1024萬像素的原圖輸入,對高密度、高分辨率的圖像理解更加精準。

      視覺能力的提升也帶來了更強的文檔解析能力。

      在OmniDocBench測試中,GPT-5.4的平均錯誤率從0.140下降到0.109。



      最令人欣慰的是錯誤率的下降。

      從官方介紹中能初步感覺到,GPT-5.4是個極其講求事實的模型,其事實錯誤概率比前代降低了33%,大大緩解了用戶對模型幻覺的焦慮。



      在效率方面,GPT-5.4引入工具搜索機制。

      過去模型在使用工具時,需要在Prompt中包含所有工具定義。如果工具數量很多,Prompt就會變得非常龐大。

      現在模型可以先獲取工具列表,然后按需查詢具體工具定義。

      在實現相同準確率的情況下,將總Token使用率降低了47%。

      這種成本控制手段說明OpenAI正試圖讓大模型大規模商業化變得更加現實,畢竟對于企業來說,省錢和好用同等重要。

      更好用了,但更省錢了嗎?

      從OpenAI公布的API定價表來看,GPT-5.4的定價確實比5.2版本要高出一截。

      GPT-5.2的每百萬Token輸入/輸出價格分別是1.75美元和14美元,而GPT-5.4則上漲到了2.5美元和15美元。

      尤其是對于那些追求極限性能的用戶,GPT-5.4 Pro的價格更是飆升到了每百萬輸入30美元。

      當然,原因肯定是5.4被定位為針對專業機構和高端生產力場景的溢價產品。

      如果你只是寫寫簡單的閑聊文案,繼續用5.2其實更劃算。



      不過雖然單價漲了,但GPT-5.4在Agent任務中的“省錢之道”主要藏在它的技術機制里。

      最核心的一點是就是工具搜索(Tool Search)功能。

      以往我們讓AI接入外部工具(比如接入幾十個公司的數據庫和內部接口)時,必須把所有工具的定義全部塞進提示詞里。

      哪怕AI這次只用了一個工具,你也得為剩下的幾十個工具的定義支付Token費用。

      但在GPT-5.4下,由于引入了類似“查字典”的搜索機制,模型可以先看一遍簡略的工具清單,等確定要用哪個時,再臨時去調取那個工具的詳細定義。

      在針對MCP Atlas基準測試的實驗中,這項技術在保持同等準確率的情況下,把總Token使用量足足降低了47%。



      One more Thing

      大家沉浸在技術狂歡中時,也有網友分享了一些肉痛瞬間。

      永遠在沖浪一線的Yuchen Jin只是對GPT 5.4 Pro說了一句“Hi,俺是Anthropic創始人”,就花掉了整整560元……



      技術進步好快,但網友的心好痛。

      這也引出一個問題,殺雞焉用牛刀?

      • 如果GPT-5.4 Pro是最智能、最接近AGI的模型……那么,你有什么AGI級別的問題要問它呢?
        (何況還這么貴,TAT)



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      上海足壇功勛主帥,五次執教申花,卻被洋帥替代,65歲他扎根青訓

      上海足壇功勛主帥,五次執教申花,卻被洋帥替代,65歲他扎根青訓

      削桐作琴
      2026-03-09 18:22:53
      荷蘭總部遠程操作,直接把中國幾千名員工的賬號全部禁用,沒通知

      荷蘭總部遠程操作,直接把中國幾千名員工的賬號全部禁用,沒通知

      南權先生
      2026-03-09 15:55:08
      公安部網安局緊急提醒:這種“微信轉賬”不要點!不要收!

      公安部網安局緊急提醒:這種“微信轉賬”不要點!不要收!

      網絡辟謠
      2026-03-09 13:45:31
      大到兜不住!豐滿美女Cos《生化》系列角色

      大到兜不住!豐滿美女Cos《生化》系列角色

      游民星空
      2026-03-09 16:05:32
      1989年哈梅內伊在北京吃烤鴨時,一張罕見留影,此后再未踏出國門

      1989年哈梅內伊在北京吃烤鴨時,一張罕見留影,此后再未踏出國門

      動物奇奇怪怪
      2026-03-07 01:52:57
      田曦薇胸前的珍珠好大,屬實是被 “夾住” 了!

      田曦薇胸前的珍珠好大,屬實是被 “夾住” 了!

      飛娛日記
      2026-03-08 08:53:03
      74比95慘敗丟冠!女籃霸主狂輸21分被掀翻:1年連丟三冠太慘了

      74比95慘敗丟冠!女籃霸主狂輸21分被掀翻:1年連丟三冠太慘了

      籃球快餐車
      2026-03-10 05:40:05
      以色列國土防衛司令部:全國性限制措施仍然保持不變

      以色列國土防衛司令部:全國性限制措施仍然保持不變

      財聯社
      2026-03-08 02:04:06
      全國統一eSIM整機方案落地:手機告別實體卡,全運營商兼容

      全國統一eSIM整機方案落地:手機告別實體卡,全運營商兼容

      Thurman在昆明
      2026-03-09 16:23:00
      男籃3喜訊:徐杰打破新紀錄,郭士強看好3人,雙中鋒有望沖冠軍

      男籃3喜訊:徐杰打破新紀錄,郭士強看好3人,雙中鋒有望沖冠軍

      阿信點評
      2026-03-10 00:06:14
      日本罕見譴責伊朗!要求停止打擊中東國家!或在找借口出兵中東?

      日本罕見譴責伊朗!要求停止打擊中東國家!或在找借口出兵中東?

      說歷史的老牢
      2026-03-10 06:18:57
      小步快跑,恩佐身價9000萬歐為生涯最高,連續三次上漲500萬

      小步快跑,恩佐身價9000萬歐為生涯最高,連續三次上漲500萬

      懂球帝
      2026-03-09 21:59:05
      爆料!白宮討論派兵奪取伊朗“石油島”

      爆料!白宮討論派兵奪取伊朗“石油島”

      環球時報國際
      2026-03-09 20:24:31
      無指責、不處罰,護送2公里!浙江交警這波操作,全網點贊

      無指責、不處罰,護送2公里!浙江交警這波操作,全網點贊

      環球網資訊
      2026-03-09 15:38:06
      偶像宅男福利!IP社2026年最強新人辻美衣奈G燈暴擊

      偶像宅男福利!IP社2026年最強新人辻美衣奈G燈暴擊

      碧波萬覽
      2026-03-10 00:55:46
      特朗普現在最恨誰?不是哈梅內伊,不是佩澤希齊揚,而是一個女人

      特朗普現在最恨誰?不是哈梅內伊,不是佩澤希齊揚,而是一個女人

      南權先生
      2026-03-09 15:45:16
      美專家:美以計劃破產,對伊戰爭將長期化

      美專家:美以計劃破產,對伊戰爭將長期化

      大象新聞
      2026-03-09 15:27:04
      滿是心酸!42歲著名歌手江蘇走穴,賓客只顧吃席沒人搭理

      滿是心酸!42歲著名歌手江蘇走穴,賓客只顧吃席沒人搭理

      查爾菲的筆記
      2026-01-04 13:13:57
      北京電動車違法抓拍落地,處理需持行駛證

      北京電動車違法抓拍落地,處理需持行駛證

      我不叫阿哏
      2026-03-09 16:25:33
      德轉更新后英超最貴11人陣容:哈蘭德2億歐領銜,6人身價過億

      德轉更新后英超最貴11人陣容:哈蘭德2億歐領銜,6人身價過億

      懂球帝
      2026-03-10 07:05:06
      2026-03-10 08:16:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12253文章數 176412關注度
      往期回顧 全部

      科技要聞

      OpenClaw更新,"養蝦"再也不會犯健忘癥了

      頭條要聞

      媒體:一次越界打擊揭開美以裂痕 伊朗向美國傳遞信號

      頭條要聞

      媒體:一次越界打擊揭開美以裂痕 伊朗向美國傳遞信號

      體育要聞

      36連勝終結!大魔王也是可以戰勝的

      娛樂要聞

      薛之謙老婆懷二胎,現身產檢心情愉快

      財經要聞

      油價破100美元年內漲80% 全球市場劇震

      汽車要聞

      對標奔馳小號G級 路虎小型衛士最新消息曝光

      態度原創

      本地
      旅游
      時尚
      公開課
      軍事航空

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      旅游要聞

      視界|馬來西亞新山舉行古廟游神活動

      今年最流行的5條半裙,怎么搭都好看!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊媒發布小學被炸瞬間 戰斧導彈從天而降

      無障礙瀏覽 進入關懷版