<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      OpenClaw絕配!GPT-5.4問世,AI能力開始大一統(tǒng),就是太貴

      0
      分享至

      機器之心編輯部

      周五凌晨,OpenAI 正式發(fā)布 GPT-5.4,引入了一種新模式:原生的計算機使用。



      有意思的是,這次 GPT-5.4 的上新,恰好發(fā)生在知名開發(fā)者 Peter Steinberger 加入 OpenAI 不久之后。這很難不讓人猜測,Peter 的加入會對 OpenAI 在計算機使用和開發(fā)者工具方向上的布局產(chǎn)生多少影響。Peter 本人也進行了宣傳:



      還有網(wǎng)友表示:GPT-5.4 的發(fā)布,到處都有 Peter Steinberger 的「爪印」!GPT-5.4 看起來就像是 OpenClaw 的架構(gòu)文檔被直接做成了一個前沿模型,而這一切發(fā)生在 Peter 加入 OpenAI 僅僅 3 周之后。該網(wǎng)友還進行了一些對比,比如以前所有工具定義都必須塞進 prompt 里,浪費成千上萬的 token,現(xiàn)在是 GPT-5.4 可以按需查找工具定義,token 使用量減少 47%。而 OpenClaw 從第一天起就通過描述匹配動態(tài)加載技能(skills)。

      又比如,過去,模型本身并沒有原生能力去直接操作軟件或執(zhí)行完整的開發(fā)流程。而在 GPT-5.4 中,智能體已經(jīng)可以在不同應(yīng)用之間自動運行「構(gòu)建 → 運行 → 驗證 → 修復(fù)」的循環(huán),實現(xiàn)較為完整的任務(wù)閉環(huán)。值得注意的是,這種工作模式與 OpenClaw 的設(shè)計非常相似。



      而這些變化,也正好引出了 GPT-5.4 最核心的一點:原生計算機使用能力(Computer Use)。

      新一代大模型在知識工作和網(wǎng)絡(luò)搜索方面表現(xiàn)更出色,具備原生的計算機使用能力。GPT-5.4 現(xiàn)在可以直接操作軟件、使用工具、瀏覽網(wǎng)頁、執(zhí)行工作流程,并規(guī)劃跨應(yīng)用程序的復(fù)雜任務(wù),最多可處理 100 萬個上下文 token。

      推理 + 編碼 + 智能體 + 計算機控制,全都融合在同一個前沿模型里。

      目前,GPT-5.4 已在 OpenAI 的 API 和 Codex 中提供,并正在 ChatGPT 中逐步推出(面向 ChatGPT Plus、Team 和 Pro 用戶開放),取代了 GPT-5.2 Thinking 模型。OpenAI 也在 ChatGPT 和 API 中推出了 GPT-5.4 Pro(面向 Pro 和企業(yè)版用戶開放),其專為那些希望在復(fù)雜任務(wù)中實現(xiàn)極致性能的用戶設(shè)計。

      在 API 中,GPT-5.4 的 token 價格高于 GPT-5.2,批量處理和靈活處理的價格為標(biāo)準(zhǔn) API 費率的一半,而優(yōu)先處理的價格為標(biāo)準(zhǔn) API 費率的兩倍。



      在評測基準(zhǔn)上,GPT 5.4 Pro 以 38% 的成績輕松擊敗了最難的數(shù)學(xué)基準(zhǔn)測試 FrontierMath Tier 4—— 該基準(zhǔn)包含 50 道研究級別的數(shù)學(xué)題,數(shù)學(xué)家可能需要幾周時間才能解決。僅僅在一年前,最佳成績?yōu)?2% (o3) ,目前最佳的開源模型分?jǐn)?shù)為 4.2% (Kimi K2.5)。





      作為通用模型,GPT-5.4 具備原生的計算機使用能力,這對于開發(fā)者和智能體而言是一次重大飛躍。

      OpenAI 表示,新模型能在各種計算機工作負載下保持高性能。它非常擅長編寫代碼來操作計算機(例如通過 Playwright 等庫),也能根據(jù)屏幕截圖發(fā)出鼠標(biāo)和鍵盤命令。它的行為可以通過開發(fā)者消息進行控制,這意味著開發(fā)者可以根據(jù)特定用例調(diào)整其行為。開發(fā)者甚至可以通過指定自定義確認(rèn)策略來配置模型的安全行為,以適應(yīng)不同的風(fēng)險承受能力。

      該模型的性能和靈活性體現(xiàn)在各項基準(zhǔn)測試中,在 OSWorld-Verified 測試中,該測試通過屏幕截圖和鍵盤 / 鼠標(biāo)操作來衡量模型在桌面環(huán)境中導(dǎo)航的能力,GPT-5.4 取得了 75.0% 的領(lǐng)先成功率,遠超 GPT-5.2 的 47.3%,也超越了人類的 72.4%。



      在 GDPval 測試中,GPT-5.4 在 83.0% 的比較中達到或超過了行業(yè)專業(yè)人士的水平,而 GPT-5.2 的這一比例為 70.9%。



      GPT-5.4 計算機性能的提升得益于其增強的通用視覺感知能力。在 MMMU-Pro 測試中,GPT-5.4 在不使用任何工具的情況下取得了 81.2% 的成功率,優(yōu)于 GPT-5.2 的 79.5%。

      視覺感知能力的提升也體現(xiàn)在其文檔解析能力的增強上。在 OmniDocBench 測試中,GPT-5.4 在不使用任何推理工具的情況下,平均誤差為 0.109,優(yōu)于 GPT-5.2 的 0.140。



      代碼生成方面,GPT-5.4 結(jié)合了 GPT-5.3-Codex 的編碼優(yōu)勢,并具備領(lǐng)先的知識處理和計算機使用能力,這在長時間運行的任務(wù)中尤為重要,因為模型可以利用工具、迭代并推進工作,從而減少人工干預(yù)。在 SWE-Bench Pro 測試中,GPT-5.4 的性能與 GPT-5.3-Codex 持平或更優(yōu),同時在推理過程中延遲更低。



      啟用 Codex 中的 /fast 模式后,GPT-5.4 的 token 處理速度最高可提升 1.5 倍。它采用的是相同的模型和智能,只是速度更快。這意味著用戶可以更流暢地完成編碼任務(wù)、迭代和調(diào)試,保持高效的工作流程。



      使用 GPT-5.4 生成的 RPG 游戲,經(jīng)過多回合迭代開發(fā)。



      根據(jù)一個簡單的提示,制作的金門大橋飛行體驗。

      在 API 中,GPT-5.4 引入了工具搜索功能。這使得模型能夠在擁有眾多工具的情況下高效運行。

      以前,當(dāng)給模型分配工具時,所有工具的定義都會預(yù)先包含在請求請求中。對于擁有大量工具的系統(tǒng),這可能會在每個請求中增加數(shù)千甚至數(shù)萬 token,從而增加成本、降低響應(yīng)速度,并使上下文信息過于擁擠,而這些信息模型可能永遠不會用到。

      通過工具搜索,GPT-5.4 會收到一個輕量級的可用工具列表以及相應(yīng)的工具搜索功能。當(dāng)模型需要使用某個工具時,它可以查找該工具的定義,并將其添加到當(dāng)前的對話中。

      這種方法顯著減少了工具密集型工作流程所需的 token 數(shù)量。它還使智能體能夠可靠地與規(guī)模更大的工具生態(tài)系統(tǒng)協(xié)同工作。對于可能包含數(shù)萬個工具定義令牌的 MCP 服務(wù)器而言,效率提升可能非常顯著。

      OpenAI 評估了 Scale 的 MCP Atlas 中的 250 項任務(wù),工具搜索配置在保持相同準(zhǔn)確率的同時,將總 token 使用量減少了 47%。



      GPT-5.4 改進了工具調(diào)用,使其在推理過程中(尤其是在 API 調(diào)用中)能夠更準(zhǔn)確、更高效地決定何時以及如何使用工具。與 GPT-5.2 相比,它在 Toolathlon 測試中以更少的回合數(shù)實現(xiàn)了更高的準(zhǔn)確率。





      GPT-5.4 在自主網(wǎng)絡(luò)搜索方面也表現(xiàn)更佳。在 BrowseComp 測試中,GPT-5.4 比 GPT-5.2 提升了 17% 而 GPT-5.4 Pro 則達到了 89.3%,創(chuàng)下了新的最高水平。

      這意味著 GPT-5.4 Thinking 更擅長回答需要整合網(wǎng)絡(luò)上多個信息源的問題。它可以更持久地進行多輪搜索,以識別最相關(guān)的信息源,尤其適用于「大海撈針」式的問題,并將它們綜合成清晰、論證充分的答案。



      在 ChatGPT 中,GPT-5.4 Thinking 現(xiàn)在可以預(yù)先提供其思考計劃,你可以在它運行過程中隨時調(diào)整方向,最終無需額外迭代即可獲得更符合需求的答案。GPT-5.4 Thinking 還改進了深度網(wǎng)絡(luò)搜索,尤其是在處理高度具體的查詢時,同時能夠更好地保留需要長時間思考的問題的上下文信息。這些改進共同作用,意味著能夠更快地獲得更高質(zhì)量、更貼合當(dāng)前任務(wù)的答案。

      在 Codex 和 API 中,GPT-5.4 是首個具備原生、最先進的計算機使用能力的通用模型,它使智能體能夠操作計算機并在各種應(yīng)用程序中執(zhí)行復(fù)雜的流程。GPT-5.4 還通過工具搜索功能改進了模型在大型工具和連接器生態(tài)系統(tǒng)中的運行方式,幫助智能體更高效地找到并使用合適的工具,同時又不犧牲智能水平。

      GPT-5.4 也是目前 OpenAI token 效率最高的推理模型,與 GPT-5.2 相比,它解決問題所需的 token 數(shù)量顯著減少,這意味著更少的費用和更快的速度。

      結(jié)合通用推理、編碼和專業(yè)知識工作的進步,GPT-5.4 能夠?qū)崿F(xiàn)更可靠的智能體、更快的開發(fā)者工作流程以及 ChatGPT、API 和 Codex 的更高質(zhì)量輸出。



      OpenAI 重點提升了 GPT-5.4 創(chuàng)建和編輯電子表格、演示文稿和文檔的能力。在一系列演示文稿評估提示中,由于 GPT-5.4 的演示文稿具有更強的美觀性、更豐富的視覺效果以及更高效的圖像生成功能,獲得了人類評分者的青睞。



      OpenAI 研究科學(xué)家,德?lián)?AI Libratus 的發(fā)明者 Noam Brown 表示,GPT-5.4 在計算機應(yīng)用和經(jīng)濟價值任務(wù)(例如 GDPval)上已取得了巨大進步。鑒于此,科學(xué)家們認(rèn)為人工智能的發(fā)展前景廣闊,預(yù)計今年內(nèi) AI 能力將繼續(xù)大幅提升。

      智力的指數(shù)增長還在繼續(xù)。有人表示,ChatGPT 很快就會比最好的咨詢公司、最好的投資銀行和最好的律師事務(wù)所都更出色。

      最后,很多人已經(jīng)在使用 GPT-5.4 嘗試各種任務(wù)了,不知道新一代模型具體表現(xiàn)如何。



      有人已經(jīng)認(rèn)為,GPT-5.4 Pro 達到了 AGI 級別的智能?,F(xiàn)在,你有什么 AGI 級別的問題要問嗎?

      參考內(nèi)容:

      https://openai.com/index/introducing-gpt-5-4/

      https://openai.com/index/gpt-5-4-thinking-system-card/

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      此人是中共叛徒,失去價值后被判槍決,臨終前喊:中國共產(chǎn)黨萬歲

      此人是中共叛徒,失去價值后被判槍決,臨終前喊:中國共產(chǎn)黨萬歲

      簡史檔案館
      2026-03-06 11:05:03
      德云社弟子人氣大洗牌!4人上桌,3人邊緣,2人換桌,岳云鵬退場

      德云社弟子人氣大洗牌!4人上桌,3人邊緣,2人換桌,岳云鵬退場

      好賢觀史記
      2026-03-07 09:50:01
      2026年最值得價值投資的十只個股

      2026年最值得價值投資的十只個股

      風(fēng)風(fēng)順
      2026-03-07 08:21:30
      特朗普夸梅西:你們隊沒一個丑的!話鋒突轉(zhuǎn)“下一個是古巴”,“梅球王”懵圈

      特朗普夸梅西:你們隊沒一個丑的!話鋒突轉(zhuǎn)“下一個是古巴”,“梅球王”懵圈

      紅星新聞
      2026-03-07 11:58:25
      華為,整了個新玩意

      華為,整了個新玩意

      放毒
      2026-03-06 13:33:27
      塔圖姆歸來:凱爾特人的春之綠

      塔圖姆歸來:凱爾特人的春之綠

      張佳瑋寫字的地方
      2026-03-07 11:04:16
      交強險又改了?費用不再是950元?車主不可思議:早就該這樣

      交強險又改了?費用不再是950元?車主不可思議:早就該這樣

      阿芒娛樂說
      2026-03-06 19:10:21
      電力緊缺!吃透【AI電力產(chǎn)業(yè)】3 大核心賽道(附龍頭公司)

      電力緊缺!吃透【AI電力產(chǎn)業(yè)】3 大核心賽道(附龍頭公司)

      飛跑的鹿
      2026-03-06 20:07:02
      長城汽車魏建軍承認(rèn)抄襲路虎海報:責(zé)任主要在我,愿承擔(dān)全部法律和經(jīng)濟責(zé)任

      長城汽車魏建軍承認(rèn)抄襲路虎海報:責(zé)任主要在我,愿承擔(dān)全部法律和經(jīng)濟責(zé)任

      新浪財經(jīng)
      2026-03-06 20:19:19
      商務(wù)部部長:我們主動開放超大規(guī)模的市場,歡迎更多外資企業(yè)來投資

      商務(wù)部部長:我們主動開放超大規(guī)模的市場,歡迎更多外資企業(yè)來投資

      紅星新聞
      2026-03-06 19:40:13
      越扒瓜越大!魯山舅舅與亡姐結(jié)婚再添猛料,遠不止吃絕戶這么簡單

      越扒瓜越大!魯山舅舅與亡姐結(jié)婚再添猛料,遠不止吃絕戶這么簡單

      夢史
      2026-03-07 09:26:14
      美以伊軍事沖突最大副作用,是斬斷了俄羅斯的“救命稻草”

      美以伊軍事沖突最大副作用,是斬斷了俄羅斯的“救命稻草”

      廖保平
      2026-03-05 12:08:52
      曝特斯拉已清空加拿大Model 3庫存,將待售美制車型全部運回美國

      曝特斯拉已清空加拿大Model 3庫存,將待售美制車型全部運回美國

      IT之家
      2026-03-06 23:18:29
      歐洲下達了 “逐客令”,C919下調(diào)15米標(biāo)準(zhǔn),不是妥協(xié)而是破局!

      歐洲下達了 “逐客令”,C919下調(diào)15米標(biāo)準(zhǔn),不是妥協(xié)而是破局!

      阿纂看事
      2026-03-05 11:54:48
      3月7日,多家上市公司發(fā)布重大利好利空消息

      3月7日,多家上市公司發(fā)布重大利好利空消息

      A股數(shù)據(jù)表
      2026-03-07 06:35:03
      科普:東正教與天主教的區(qū)別在哪?

      科普:東正教與天主教的區(qū)別在哪?

      海佑講史
      2026-03-02 10:45:08
      中俄外長緊急通話,特朗普突然喊停,改口愿與伊朗新領(lǐng)導(dǎo)層談判

      中俄外長緊急通話,特朗普突然喊停,改口愿與伊朗新領(lǐng)導(dǎo)層談判

      晨楓老苑
      2026-03-06 11:30:13
      炸裂! 46歲中國教授穿校服裝高中生, 飛澳洲混入名校偷拍男生, 當(dāng)場被捕! 澳媒頭條刷屏報道

      炸裂! 46歲中國教授穿校服裝高中生, 飛澳洲混入名校偷拍男生, 當(dāng)場被捕! 澳媒頭條刷屏報道

      澳洲紅領(lǐng)巾
      2026-03-06 12:58:48
      曾經(jīng)全球僅存1株!2016年北京又發(fā)現(xiàn)1株快死的,現(xiàn)在怎樣了?

      曾經(jīng)全球僅存1株!2016年北京又發(fā)現(xiàn)1株快死的,現(xiàn)在怎樣了?

      萬象硬核本尊
      2026-03-06 14:11:42
      伊朗生死一線

      伊朗生死一線

      哲空空
      2026-03-06 14:01:53
      2026-03-07 13:48:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12430文章數(shù) 142578關(guān)注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

      體育要聞

      塔圖姆歸來:凱爾特人的春之綠

      娛樂要聞

      周杰倫田馥甄的“JH戀” 被扒得底朝天

      財經(jīng)要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩(wěn)

      態(tài)度原創(chuàng)

      數(shù)碼
      游戲
      教育
      本地
      家居

      數(shù)碼要聞

      蘋果M5 Pro芯片GeekBench跑分曝光:多核破2.8萬

      鍵鼠不是萬能的神!外媒盤點近年適合用手柄玩的游戲

      教育要聞

      兩會速遞|教育部部長:將實施新一輪學(xué)生心理健康促進行動

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      家居要聞

      暖棕撞色 輕法奶油風(fēng)

      無障礙瀏覽 進入關(guān)懷版