<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      GPT-5.4 發(fā)布,OpenClaw 要被替代?OpenAI 新模型會自己用電腦了,還順手把編程能力拉滿

      0
      分享至


      編譯 | Tina

      今天,GPT-5.4 發(fā)布,那個熟悉的 OpenAI 又回來了。

      GPT-5.4 是一款新的前沿模型,把 OpenAI 過去一段時間在推理能力(GPT-5.2)、頂級編程能力(GPT-5.3-Codex)以及原生計算機使用能力上的進展,整合到了同一個版本里。

      這次發(fā)布的分量很重,光是“原生電腦操作”這一點,就已經(jīng)足夠吸引眼球,而當它再疊加頂級的專業(yè)知識工作能力、100 萬 token 的上下文窗口,以及明顯提升的工具使用效率時,對所有希望用 AI 工作、與 AI 協(xié)作,或者基于 AI 搭建系統(tǒng)的人來說,這都意味著一次真正意義上的能力躍升。

      GPT-5.4 搶的是 OpenClaw 的入口?

      在這個新模型上,最大的變化就是原生電腦操作能力的到來。在之前的 OpenAI 模型中,只要涉及屏幕交互,就需要調(diào)用一個單獨的“Computer-Using Agent”模型。而 GPT-5.4 則把這項能力直接做成了原生功能。


      OSWorld Verified 的 computer use 基準測試上從 47.3% 提升到了 75%,而 BrowseComp 的準確率從 65.8% 提升至 82.7%。

      這不只是“跑幾個 shell 命令”那么簡單,真正的意義在于:它可以進入你的桌面、訪問網(wǎng)頁,基本上能夠在你的電腦上完成很多原本只有人來操作的事情,而這些事通常是我們平時通過網(wǎng)頁端 ChatGPT 做不到的。

      尤其是像 OpenClaw 這樣的產(chǎn)品,在最近幾個月,甚至可以說最近幾周,突然變得非?;穑诵脑蚓驮谟?,它已經(jīng)改變了我們使用 AI 模型的方式。過去,我們更多只是停留在網(wǎng)頁端,通過 web app 和模型對話,電腦本地幾乎沒有真正參與進來。但現(xiàn)在,這種局面已經(jīng)從根本上發(fā)生了變化。

      從 OpenAI 給出的示例中,我們可以看到 GPT-5.4 可以熟練使用計算機,包括查看瀏覽器用戶界面截圖、點擊界面、發(fā)送電子郵件以及安排日歷。

      另一個新的實驗功能 “Playwright (Interactive)”,允許 Codex 實時進行 Web 和 Electron 應用的可視化調(diào)試,甚至能在構(gòu)建應用的同時直接測試——這正是借助它的原生電腦操作能力實現(xiàn)的。

      OpenAI 研究員 SQ Mah 表示,這背后主要有兩項關(guān)鍵能力支撐:一是 CUA(computer use,計算機操作能力),二是通過圖像輸入生成高質(zhì)量網(wǎng)站的能力。

      與 GPT-5.3 Codex 相比,GPT-5.4 在使用 CUA 時,不再需要額外拉起一個全新的環(huán)境來執(zhí)行操作。在 3D 游戲中,CUA 會自己點擊游戲界面,移動象棋位置,甚至通過實際操作來驗證規(guī)則是否正確生效。

      在網(wǎng)站生成場景中,模型會調(diào)用 image gen 工具,生成圖片,然后通過 CUA 來檢查自己的工作:打開生成的圖片、檢查圖片內(nèi)容、打開網(wǎng)站頁面也看一遍,然后把它們并排對比,確保生成的網(wǎng)站盡可能接近輸入的那張圖。

      SQ Mah 還強調(diào)說,通過持久化的 CUA,他們發(fā)現(xiàn),在一些讓模型測試自己工作的場景中,token 使用量實際上下降了三分之二。

      其實,OpenAI 早在去年 1 月就推出了 CUA,但出于安全性和準確性的考量,這個項目并沒有真正被重視起來。



      甚至一度讓人懷疑,OpenAI 是否已經(jīng)放棄了這條路線。特別是在 GPT-4o 等項目吸引了幾乎全部關(guān)注的那段時間里,CUA 基本處于一種“銷聲匿跡”的狀態(tài)。


      他們是不是放棄這個項目了?現(xiàn)在一點消息都沒有了。我其實一直在用 Azure/OpenAI,它已經(jīng)預覽好幾個月了。雖然我申請了,但一直沒能獲得批準。


      與 GPT-4o 等項目鋪天蓋地的宣傳相比,CUA 基本上銷聲匿跡了。而且它目前仍處于預覽階段,這意味著訪問權(quán)限受到嚴格限制,許多人甚至都無法嘗試...... 不過我不認為這條路線已經(jīng)失敗。一旦“瀏覽器優(yōu)先”的方案在穩(wěn)定性、隱蔽性以及內(nèi)置安全機制上真正成熟,它很可能會成為 agent 工作流的一次重大躍遷。

      但從今天 GPT-5.4 的發(fā)布來看,情況顯然變了。OpenAI 不僅重新把這項能力帶回到臺前,還在 GitHub 上新發(fā)布了一些的 CUA sample app。


      CUA 讓 ChatGPT 5.4 可以直接使用我們的電腦,這一點和 OpenClaw 的思路非常接近:本質(zhì)上,大家都在爭奪同一個入口——讓 AI 直接使用電腦,而不再繼續(xù)受限于 API 和聊天窗口。只不過,相比 OpenClaw 這類建立在模型之外的 computer-use 框架,GPT-5.4 走得更直接:它把電腦操作能力原生整合進了模型。

      當這些模型開始“反超”像 OpenClaw 這樣的開源項目時,那些年營收千萬、上億甚至百億的公司,完全可以做出自己版本的 OpenClaw——更安全、更快、更可靠。所以在 agentic AI 能力方面,現(xiàn)在真的是令人興奮的階段。

      一邊降成本,一邊降幻覺

      這次升級明顯是在“照顧開發(fā)者和重度用戶”,其中一個關(guān)鍵原因是 GPT-5.4 帶來了工具搜索(tool search):模型不再把所有工具的完整定義一次性塞進上下文(這可能導致每次請求額外燒掉數(shù)萬 token),而是只拿到一個輕量列表,需要用哪個工具時再按需檢索具體定義。

      在 Scale 的 MCP Atlas 基準中,啟用 36 個 MCP 服務(wù)器、測試 250 個任務(wù)時,tool-search 配置在不降低準確率的情況下,把總 token 使用量減少了 47%。對構(gòu)建大型 agent 系統(tǒng)的開發(fā)者來說,這幾乎等同于:成本更低、響應更快。


      幻覺問題也顯著下降。按 OpenAI 的說法,GPT-5.4 的單條事實陳述比 GPT-5.2 更不容易出錯(錯誤概率降低 33%),整體回答包含錯誤的概率也降低了 18%——這對依賴準確輸出的專業(yè)用戶來說,是非常實用的一次升級。

      與此同時,在 Harvey 的 BigLaw Bench(法律文檔評測)中,GPT-5.4 的準確率達到了 91%。


      編程能力也更強了

      GPT-5.4 現(xiàn)在也成為 OpenAI 的主力編程模型——在大多數(shù)任務(wù)中,你不再需要在 ChatGPT 與 Codex 之間糾結(jié)選哪一個。


      它在 SWE-Bench Pro 上與 GPT-5.3-Codex 持平或更強,同時也更快,尤其是在較低推理強度設(shè)置下。在對話里,你可以直接開始寫代碼,無需額外選擇。


      Codex 還新增了 fast mode,在所有支持的模型上帶來最高 1.5 倍速度提升。OpenAI 還強調(diào) GPT-5.4 在復雜前端任務(wù)上明顯更強,輸出既更精致好看,也更符合功能正確性。這一點,也已經(jīng)從不少開發(fā)者的實際反饋中得到了印證。



      能力升級,價格也升級

      在 API 中,OpenAI 表示 GPT-5.4 Thinking 對應的模型名稱為 gpt-5.4,而 GPT-5.4 Pro 則對應 gpt-5.4-pro。價格如下:

      GPT-5.4:

      • 輸入:$2.50 / 每 100 萬 token

      • 輸出:$15 / 每 100 萬 token

      GPT-5.4 Pro:

      • 輸入:$30 / 每 100 萬 token

      • 輸出:$180 / 每 100 萬 token

      從整體來看,與目前市面上的模型相比,GPT-5.4 在 API 運行成本上屬于較高的一檔,如下表所示。


      還有一個重要變化:在 GPT-5.4 中,如果請求的 輸入 token 超過 272,000,費用將按正常價格的 2 倍計算,這反映了它支持比以往模型更大的提示上下文。

      在 Codex 中,默認的 compaction(壓縮)上限是 272k token。只有當輸入超過 272k 時,才會觸發(fā)更高的長上下文價格。這意味著開發(fā)者只要把提示控制在這個范圍內(nèi),就不會觸發(fā)額外費用;如果需要更長上下文,也可以通過提高 compaction 上限來實現(xiàn),但只有這些更大的請求才會按更高費率計費。

      OpenAI 發(fā)言人還表示,在 API 中 最大輸出長度為 128,000 token,與之前的模型保持一致。

      至于為什么 GPT-5.4 的基礎(chǔ)價格更高,OpenAI 的解釋主要有三個原因:

      1. 在復雜任務(wù)上的能力顯著提升,包括編程、計算機操作、深度研究、高級文檔生成和工具調(diào)用等;

      2. 來自 OpenAI 技術(shù)路線圖的一系列研究突破;

      3. 推理效率更高,在完成相同任務(wù)時需要更少的推理 token。

      同時他們也強調(diào),即使價格有所上調(diào),GPT-5.4 的定價仍然低于許多同級別的前沿模型。

      https://openai.com/zh-Hans-CN/index/computer-using-agent/

      https://www.reddit.com/r/OpenAI/comments/1mwc03q/openai_computer_user_agent_cua/

      https://venturebeat.com/technology/openai-launches-gpt-5-4-with-native-computer-use-mode-financial-plugins-for

      聲明:本文為 InfoQ 翻譯整理,不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載。

      會議推薦

      2026,AI 正在以更工程化的方式深度融入軟件生產(chǎn),Agentic AI 的探索也將從局部試點邁向體系化工程建設(shè)!

      QCon 北京 2026 已正式啟動,本屆大會以“Agentic AI 時代的軟件工程重塑”為核心主線,推動技術(shù)探索從「AI For What」真正落地到可持續(xù)的「Value From AI」。從前沿技術(shù)雷達、架構(gòu)設(shè)計與數(shù)據(jù)底座、效能與成本、產(chǎn)品與交互、可信落地、研發(fā)組織進化六大維度,系統(tǒng)性展開深度探索。開往 2026 的 Agentic AI 專列即將啟程!匯聚頂尖專家實戰(zhàn)分享,把 AI 能力一次夯到位!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      菲總統(tǒng)候選人莫雷諾:如果當選,我會讓菲律賓成為下一個新加坡!

      菲總統(tǒng)候選人莫雷諾:如果當選,我會讓菲律賓成為下一個新加坡!

      小丸說故事
      2026-03-17 14:23:29
      北京國安1:1戰(zhàn)平上海申花,外援前鋒再傷申花再受重創(chuàng)

      北京國安1:1戰(zhàn)平上海申花,外援前鋒再傷申花再受重創(chuàng)

      李廣專業(yè)體育評論
      2026-03-21 17:31:33
      浙江重磅通報!萬勇主動投案,手握千億資金,終究沒逃過良心審判

      浙江重磅通報!萬勇主動投案,手握千億資金,終究沒逃過良心審判

      記錄生活日常阿蜴
      2026-03-21 17:45:40
      82歲老人抽了52年煙,臨終前說了一句話,我在病房口站了十分鐘

      82歲老人抽了52年煙,臨終前說了一句話,我在病房口站了十分鐘

      千秋文化
      2026-03-18 20:35:26
      錢再多有啥用!“展昭”何家勁的現(xiàn)狀,給所有老年男性提了個醒

      錢再多有啥用!“展昭”何家勁的現(xiàn)狀,給所有老年男性提了個醒

      東方不敗然多多
      2026-03-21 15:55:17
      伊朗新任最高領(lǐng)袖傳出死訊:真沒了,還是一場更大的煙霧彈

      伊朗新任最高領(lǐng)袖傳出死訊:真沒了,還是一場更大的煙霧彈

      桂系007
      2026-03-20 23:50:32
      任性?廣東被絕殺僅1夜,杜鋒返粵出席活動,助教帶隊備戰(zhàn)滬粵戰(zhàn)

      任性?廣東被絕殺僅1夜,杜鋒返粵出席活動,助教帶隊備戰(zhàn)滬粵戰(zhàn)

      萌蘭聊個球
      2026-03-21 20:13:26
      開除隊內(nèi)頭號球星!伊朗隊公布35人大名單:召回2刺頭 備戰(zhàn)世界杯

      開除隊內(nèi)頭號球星!伊朗隊公布35人大名單:召回2刺頭 備戰(zhàn)世界杯

      風過鄉(xiāng)
      2026-03-21 17:51:02
      摩納哥主帥:在我看來塞內(nèi)加爾就是非洲杯冠軍,他們實打?qū)嵹A了比賽

      摩納哥主帥:在我看來塞內(nèi)加爾就是非洲杯冠軍,他們實打?qū)嵹A了比賽

      懂球帝
      2026-03-21 17:01:09
      上海德云社開業(yè)僅僅1天,惡心一幕出現(xiàn),楊議的“老毛病”又犯了

      上海德云社開業(yè)僅僅1天,惡心一幕出現(xiàn),楊議的“老毛病”又犯了

      奇思妙想草葉君
      2026-03-20 16:29:46
      突發(fā),中國電信王晶被查!什么級別?

      突發(fā),中國電信王晶被查!什么級別?

      環(huán)球通信
      2026-03-21 17:57:36
      楊妞花回應“梅姨”落網(wǎng):時間永遠磨滅不了罪惡,愿天下無拐

      楊妞花回應“梅姨”落網(wǎng):時間永遠磨滅不了罪惡,愿天下無拐

      南方都市報
      2026-03-21 18:02:07
      中國移動正式通知:4月30日起,這5項業(yè)務(wù)全部關(guān)停,老用戶速查

      中國移動正式通知:4月30日起,這5項業(yè)務(wù)全部關(guān)停,老用戶速查

      Thurman在昆明
      2026-03-21 03:58:54
      剛上映就爆了!《掃惡》上映拿下 9.1分,大尺度案件全程無尿點

      剛上映就爆了!《掃惡》上映拿下 9.1分,大尺度案件全程無尿點

      糊咖娛樂
      2026-03-20 14:56:27
      全球龍蝦批量黑化!Meta2小時災難擊穿硅谷心臟,OpenClaw反噬來襲

      全球龍蝦批量黑化!Meta2小時災難擊穿硅谷心臟,OpenClaw反噬來襲

      新智元
      2026-03-21 10:11:37
      15分大逆轉(zhuǎn)!北京男籃力克遼寧,趙睿34分大爆發(fā),趙繼偉26分!

      15分大逆轉(zhuǎn)!北京男籃力克遼寧,趙睿34分大爆發(fā),趙繼偉26分!

      中國籃壇快訊
      2026-03-21 21:36:20
      本科學歷進央國企越來越難了

      本科學歷進央國企越來越難了

      戶外阿毽
      2026-03-21 14:53:12
      僅差800萬美元,《鏢人》就是全球第一,我感慨:袁和平重回巔峰

      僅差800萬美元,《鏢人》就是全球第一,我感慨:袁和平重回巔峰

      白公子探劇
      2026-03-21 19:10:35
      人販子梅姨落網(wǎng):本人正面照首次曝出,抓捕全過程披露,警方回應

      人販子梅姨落網(wǎng):本人正面照首次曝出,抓捕全過程披露,警方回應

      博士觀察
      2026-03-21 13:39:21
      中國排協(xié)官宣!15人集訓名單公布,袁志接棒趙勇,江蘇女排大贏家

      中國排協(xié)官宣!15人集訓名單公布,袁志接棒趙勇,江蘇女排大贏家

      跑者排球視角
      2026-03-21 11:00:25
      2026-03-21 21:51:00
      InfoQ incentive-icons
      InfoQ
      有內(nèi)容的技術(shù)社區(qū)媒體
      12188文章數(shù) 51814關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      頭條要聞

      軍事專家推演美軍奪取哈爾克島的三種可能:步步驚心

      頭條要聞

      軍事專家推演美軍奪取哈爾克島的三種可能:步步驚心

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      田栩?qū)幗K于涼了?出軌風波影響惡劣

      財經(jīng)要聞

      通脹警報拉響,加息潮要來了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態(tài)度原創(chuàng)

      旅游
      健康
      親子
      教育
      家居

      旅游要聞

      現(xiàn)實版“千里江山圖”原來出自雅安名山

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      親子要聞

      懷二胎啦!家人們,猜一猜吧

      教育要聞

      重磅!育才蛇口更名“育才一中”,獨家分析“變”與“不變”

      家居要聞

      時空交織 空間綺夢

      無障礙瀏覽 進入關(guān)懷版