<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      剛剛,奧特曼砸場發(fā)布 GPT-5.4!網(wǎng)友:一句 Hi 燒掉 80 美元

      0
      分享至

      每次打開 AI 工具,你大概都要先想一秒鐘:這個(gè)任務(wù),該用哪個(gè)模型?寫代碼是一個(gè),查資料是另一個(gè),讓 AI 幫你操作電腦,還得再開一個(gè)窗口。

      今天過后, 這種分裂感終于有了一個(gè)答案。

      就在剛剛,OpenAI 正式發(fā)布 GPT-5.4,把編程、推理、計(jì)算機(jī)操控、網(wǎng)頁搜索和百萬 Token 上下文全部整合進(jìn)同一個(gè)模型,且沒有為了整合而犧牲任何一項(xiàng)的能力。


      OpenAI CEO 山姆·奧特曼也在 X 平臺發(fā)了一條簡短推文,點(diǎn)出了五個(gè)方向:知識工作更強(qiáng)、網(wǎng)頁搜索更出色、原生計(jì)算機(jī)操控、支持百萬 Token 上下文、響應(yīng)過程中隨時(shí)可介入。


      寥寥數(shù)語,對應(yīng)的恰好是過去兩年 AI 應(yīng)用落地中最集中的五個(gè)痛點(diǎn)。


      知識工作:十次有八次,AI 贏了專業(yè)人士

      理解 GPT-5.4 在知識工作上的進(jìn)步,需要先了解 GDPval 這個(gè)基準(zhǔn)的設(shè)計(jì)邏輯。

      它橫跨美國 GDP 貢獻(xiàn)最大的 9 個(gè)行業(yè)、44 種職業(yè)。任務(wù)是那些職場里每天真實(shí)發(fā)生的工作:給投資銀行寫財(cái)務(wù)模型、給醫(yī)院排急診班次、給銷售團(tuán)隊(duì)做演示文稿。

      任務(wù)完成后,把輸出結(jié)果交給行業(yè)內(nèi)的真實(shí)從業(yè)者盲測打分,看 AI 的產(chǎn)出能贏過多少比例的人類同行。


      GPT-5.4 的答案是 83.0%,意味著十次對比中有八次以上,行業(yè)專業(yè)人士認(rèn)為 AI 的產(chǎn)出達(dá)到或超過了人類同行水準(zhǔn)。上代 GPT-5.2 是 70.9%,差距將近 13 個(gè)百分點(diǎn)。

      進(jìn)步在電子表格建模上表現(xiàn)得最為具體。GPT-5.4 模擬初級投行分析師完成建模任務(wù),平均得分 87.3%,GPT-5.2 是 68.4%,GPT-5.3-Codex 是 79.3%,差距將近 20 個(gè)百分點(diǎn)。


      法律平臺 Harvey 的 BigLaw Bench 測試結(jié)果同樣亮眼,GPT-5.4 得分 91%,專業(yè)服務(wù)評測平臺 Mercor 的 APEX-Agents 基準(zhǔn)中也拿下了第一。

      準(zhǔn)確性方面同樣值得關(guān)注。 幻覺問題一直是 AI 進(jìn)入專業(yè)場景最大的攔路虎,每降低一個(gè)百分點(diǎn),都意味著更多場景可以放心用它。

      數(shù)據(jù)顯示,與 GPT-5.2 相比,GPT-5.4 單條陳述出錯(cuò)的概率低了 33%,完整回復(fù)含有錯(cuò)誤的概率低了 18%。

      編程:一個(gè)模型,寫代碼測代碼全包了

      GPT-5.4 把 GPT-5.3-Codex 的編程能力整合進(jìn)主線,對開發(fā)者來說,這意味著你不再需要為了寫代碼單獨(dú)開一個(gè)模型,而且編程能力本身也沒有因此打任何折扣。

      SWE-Bench Pro 專門測試真實(shí)軟件工程任務(wù),GPT-5.4 得分 57.7%,GPT-5.3-Codex 是 56.8%,GPT-5.2 是 55.6%。整合之后,編程分?jǐn)?shù)不降反升,同時(shí)還順帶獲得了計(jì)算機(jī)操控等一整套通用能力,幾乎找不到明顯的弱點(diǎn)。


      知名 AI 評測博主 Dan Shipper 試用后寫道:「這是我們最近一段時(shí)間里見過 OpenAI 最出色的規(guī)劃能力,代碼審查也很強(qiáng),而且成本大約只有 Opus 的一半。」


      他點(diǎn)出了兩個(gè)具體維度。其一,規(guī)劃能力是長任務(wù)成敗的關(guān)鍵,GPT-5.4 在任務(wù)拆解和持續(xù)推進(jìn)上明顯更有條理。其二,與 Claude Opus 相比約一半的成本,對需要大規(guī)模 API 調(diào)用的開發(fā)者來說,這個(gè)差距在賬單上會非常直觀。

      開啟 Codex 中的 /fast 模式后,可使 GPT?5.4 的 token 生成速度提升最高 1.5 倍,使得用戶可以在編碼、迭代和調(diào)試過程中保持流暢的工作狀態(tài)。


      與此同時(shí),新推出的實(shí)驗(yàn)性功能 Playwright Interactive 把 GPT-5.4 的編程體驗(yàn)又推進(jìn)了一步。

      GPT-5.4 在構(gòu)建 Web 或 Electron 應(yīng)用時(shí),能夠通過可視化瀏覽器進(jìn)行實(shí)時(shí)調(diào)試,模型可以邊寫代碼、邊測試自己正在構(gòu)建的應(yīng)用,同時(shí)承擔(dān)開發(fā)者和測試員兩個(gè)角色。


      OpenAI 展示了一個(gè)典型案例:僅憑一條輕量提示詞,GPT-5.4 生成了一個(gè)完整的等距視角主題公園模擬游戲,涵蓋基于瓦片的路徑鋪設(shè)與景點(diǎn)建設(shè)系統(tǒng)、游客 AI 尋路與排隊(duì)行為,以及資金、游客數(shù)、滿意度、清潔度四項(xiàng)指標(biāo)全部實(shí)時(shí)動態(tài)更新的綜合評分。

      Playwright Interactive 在整個(gè)過程中承擔(dān)了多輪自動化測試,驗(yàn)證路徑鋪設(shè)、攝像機(jī)導(dǎo)航、游客響應(yīng)及 UI 指標(biāo)的正確性。從寫代碼到測試驗(yàn)收,模型全程自己完成。

      博主 Angel 同樣用 GPT-5.4 寫了一個(gè) Minecraft 克隆版,模型花了約 24 分鐘,運(yùn)行流暢,過程中沒有卡住。他在推文里寫道「Minecraft 基本上被攻克了,我現(xiàn)在得找個(gè)新測試了」。


      沃頓商學(xué)院教授 Ethan Mollick 同樣獲得了早期訪問權(quán)限。他用同一條提示詞,讓 GPT-5.4 Pro 生成了一個(gè)受《皮拉內(nèi)西》啟發(fā)的三維空間場景,全程沒有報(bào)錯(cuò),只額外追加了一句「把它做得更好」的指令。他隨后把結(jié)果和兩年前 GPT-4 生成的版本并排放在一起,差距一眼可見。


      操控電腦這件事,它現(xiàn)在比你做得好

      這是 GPT-5.4 這次發(fā)布里最值得單獨(dú)說一說的變化。此前 OpenAI 的計(jì)算機(jī)操控能力是一個(gè)獨(dú)立模塊,跟模型的語言理解、代碼生成之間有一道明顯的分隔。

      兩套系統(tǒng)各管各的,信息要來回傳遞,效率自然打折。現(xiàn)在這道分隔沒了,GPT-5.4 操控電腦時(shí),用的就是模型本身的推理能力,不需要再繞一圈。

      這也是 OpenAI 第一款將計(jì)算機(jī)使用(computer use)能力原生內(nèi)置進(jìn)通用模型的產(chǎn)品,以后談 AI Agent,相信這會是一個(gè)新的起點(diǎn)。

      基準(zhǔn)測試結(jié)果顯示,OSWorld-Verified 基準(zhǔn)測試桌面導(dǎo)航能力,用截圖加鼠標(biāo)鍵盤交互完成真實(shí)操作系統(tǒng)任務(wù)。GPT-5.4 達(dá)到 75.0% 的成功率,人類基線是 72.4%,GPT-5.2 是 47.3%。


      簡言之,它不僅追上了人類,還超過了人類。

      在只用截圖模式測試瀏覽器操控的 Online-Mind2Web 基準(zhǔn)中,GPT-5.4 達(dá)到 92.8%,對比對象 ChatGPT Atlas 的 Agent Mode 是 70.9%,

      真實(shí)部署案例更能說明問題。Mainstay 將 GPT-5.4 用于約三萬個(gè)物業(yè)稅務(wù)門戶網(wǎng)站的自動表單填寫,首次成功率達(dá) 95%,三次以內(nèi)成功率 100%,而此前同類模型僅在 73% 至 79% 之間。會話完成速度提升約三倍,Token 消耗降低約 70%。

      這背后繞不開視覺感知能力的改進(jìn)。操控電腦說到底是一件需要「看清楚」的事——看清楚界面上有什么、按鈕在哪里、點(diǎn)擊是否準(zhǔn)確。

      GPT-5.4 在這一層做了專項(xiàng)加強(qiáng),引入了原始圖像(original)輸入模式,支持最高 1024 萬像素或 6000 像素最大邊長的高保真圖像輸入;原有的高清(high)模式上限也從此前的標(biāo)準(zhǔn)提升至 256 萬像素或 2048 像素最大邊長。

      工具調(diào)用與網(wǎng)頁搜索:持續(xù)性是核心競爭力

      一個(gè)復(fù)雜的 AI Agent 系統(tǒng),背后可能掛著幾十個(gè) MCP 工具。過去的做法是每次對話開始前,把所有工具的說明一股腦塞進(jìn)去,不管這次用不用得上,Token 先花了再說。

      GPT-5.4 換了個(gè)思路:先給模型一份簡單的工具清單(即引入工具搜索機(jī)制),真正需要用哪個(gè),再去把那個(gè)工具的詳細(xì)說明取過來,用過一次的還能直接緩存,下次不用重新拿。

      在 250 項(xiàng)任務(wù)的測試中,啟用 36 個(gè) MCP 服務(wù)器的完整配置下,工具搜索模式在保持準(zhǔn)確率完全不變的前提下,將總 Token 消耗降低了 47%。將近一半的成本節(jié)省,精度一點(diǎn)沒少。


      網(wǎng)頁搜索方面,GPT-5.4 在 BrowseComp 基準(zhǔn)上得分 82.7%,比 GPT-5.2 的 65.8% 高出 17 個(gè)百分點(diǎn),Pro 版更達(dá)到 89.3%,創(chuàng)下業(yè)界最高分。Zapier CEO 評價(jià)說,GPT-5.4 會在其他模型放棄的地方繼續(xù)搜索下去,是他們測試過持續(xù)性最強(qiáng)的模型。


      百萬 Token 上下文:長長長長長長

      GPT-5.4 在 API 中支持最高 100 萬 Token 的上下文窗口,相當(dāng)于可以把一個(gè)完整項(xiàng)目的所有相關(guān)文檔一次性塞進(jìn)同一次對話。

      但從測試結(jié)果來看,128K 至 272K 是表現(xiàn)最穩(wěn)定的區(qū)間,適合日常使用。

      256K 以上準(zhǔn)確率開始下滑,需要針對具體任務(wù)驗(yàn)證后再用。512K 至 1M 區(qū)間的得分降至 36.6%,目前更接近實(shí)驗(yàn)性質(zhì),不適合直接用于對精度要求高的生產(chǎn)任務(wù)。


      還有一個(gè)實(shí)際的成本問題需要注意:超過 272K 的請求會按兩倍用量計(jì)入配額。也就是說,發(fā)一次超長上下文的請求,額度消耗等于兩次普通請求,用之前值得想清楚是否真的需要這么長。

      至于在視覺抽象推理基準(zhǔn) ARC-AGI-2 上,GPT-5.4 Pro 得分 83.3%,而上代 GPT-5.2 Pro 僅為 54.2%。


      再比如 FrontierMath Tier 4 是目前公認(rèn)最難的數(shù)學(xué)基準(zhǔn)之一,包含 50 道研究級別的數(shù)學(xué)題,人類數(shù)學(xué)家可能需要數(shù)周才能解出。GPT-5.4 Pro 在這個(gè)基準(zhǔn)上得分 38.0%,上代為 31.3%。


      這個(gè)數(shù)字的參照系是:一年前,最好的成績是 o3 的 2%,目前最好的開源模型是 4.2%。

      博主 Deedy 在推文中寫道,從 2% 到 38%,「簡直令人震驚」。Humanity's Last Exam 有工具輔助時(shí),GPT-5.4 Pro 得分 58.7%,GPT-5.2 Pro 是 50.0%,差距接近 9 個(gè)百分點(diǎn)。

      執(zhí)行中調(diào)整,不是完成后返工

      用過 AI 處理長任務(wù)的人大概都有過這種體驗(yàn):等模型跑完一大段,發(fā)現(xiàn)方向不對,只能從頭再來,時(shí)間全浪費(fèi)了。

      GPT-5.4 Thinking 在 ChatGPT 中新增了一項(xiàng)「中途打斷」功能:在處理復(fù)雜任務(wù)之前,模型會先呈現(xiàn)工作計(jì)劃概要,再開始執(zhí)行。用戶可以在執(zhí)行過程中隨時(shí)介入調(diào)整方向,不必等到結(jié)果出來再從頭重來。

      這個(gè)功能把糾偏這件事從「完成后」提前到了「執(zhí)行中」,對需要多輪協(xié)作的任務(wù)來說,體驗(yàn)差別會比較明顯。功能目前已在 chatgpt.com 和 Android 應(yīng)用上線,iOS 版本即將跟進(jìn)。

      即日起,GPT-5.4 向 ChatGPT Plus、Team 和 Pro 用戶開放,替代 GPT-5.2 Thinking 成為默認(rèn)思考模型。

      GPT-5.2 Thinking 將保留至今年 6 月 5 日后正式退役。Enterprise 和 Edu 用戶可由管理員在后臺開啟早期訪問,GPT-5.4 Pro 僅對 Pro 和 Enterprise 計(jì)劃開放。


      API 標(biāo)準(zhǔn)版定價(jià)為輸入 2.50 美元/百萬 Token,緩存輸入 0.25 美元/百萬 Token,輸出 15 美元/百萬 Token。Pro 版為輸入 30 美元/百萬 Token,輸出 180 美元/百萬 Token。Batch 和 Flex 處理享標(biāo)準(zhǔn)價(jià)格五折,Priority Processing 為兩倍標(biāo)準(zhǔn)價(jià)格。

      當(dāng)然,強(qiáng)大的推理能力也有它的另一面。Hyperbolic 聯(lián)合創(chuàng)始人金宇晨在 X 平臺吐槽,GPT-5.4 Pro 是他用過最愛「過度思考」的模型——僅僅發(fā)了一句簡單的「Hi」,模型就開始認(rèn)真推理,直接燒掉了 80 美元。


      這并非個(gè)例。推理模型的特性決定了它在處理任何輸入時(shí)都傾向于深度思考,哪怕問題本身根本不需要。對于日常輕量任務(wù),標(biāo)準(zhǔn)版或許是更合適的選擇;Pro 版的推理火力,還是留給真正值得的場合更劃算。

      過去兩年,AI 能力的討論主要集中在基準(zhǔn)測試成績上的「聰明」,但 GPT-5.4 的聰明指向的是能夠在真實(shí)工作流中,足夠可靠地承擔(dān)責(zé)任。

      過去 AI 只能輸出文字,人還需要親自操作才能讓事情發(fā)生。現(xiàn)在模型可以自己打開瀏覽器、填寫表單、點(diǎn)擊按鈕、記錄結(jié)果,獨(dú)立完成一個(gè)有頭有尾的任務(wù)閉環(huán)。

      AI 正在從一個(gè)擅長回答問題的系統(tǒng),變成一個(gè)擅長完成任務(wù)的系統(tǒng)。而這個(gè)轉(zhuǎn)變的速度,顯然比大多數(shù)人預(yù)期的更快。



      附上參考地址:

      https://openai.com/index/introducing-gpt-5-4/

      我們正在招募伙伴

      簡歷投遞郵箱hr@ifanr.com

      ?? 郵件標(biāo)題「姓名+崗位名稱」(請隨簡歷附上項(xiàng)目/作品或相關(guān)鏈接)


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      一夫一妻制逐漸難維持!社會學(xué)家分析:未來3種模式將成為主流?

      一夫一妻制逐漸難維持!社會學(xué)家分析:未來3種模式將成為主流?

      流云青史
      2025-11-24 19:15:05
      史詩級封殺!2000萬網(wǎng)紅“聽風(fēng)的蠶”徹底涼了

      史詩級封殺!2000萬網(wǎng)紅“聽風(fēng)的蠶”徹底涼了

      互聯(lián)網(wǎng)品牌官
      2026-02-12 01:17:23
      記者:加納喬給新女友一張沒消費(fèi)上限的信用卡,他們已經(jīng)同居

      記者:加納喬給新女友一張沒消費(fèi)上限的信用卡,他們已經(jīng)同居

      懂球帝
      2026-03-06 06:06:37
      加拿大總理:難道任由霸權(quán)主義說了算?

      加拿大總理:難道任由霸權(quán)主義說了算?

      新華社
      2026-03-05 18:02:14
      伊朗話事人拉里賈尼,給哈梅內(nèi)伊干臟活上位,他女兒住在美國14年

      伊朗話事人拉里賈尼,給哈梅內(nèi)伊干臟活上位,他女兒住在美國14年

      小小河
      2026-03-05 00:36:59
      大潰敗!中國網(wǎng)貸公司,在印度全軍覆沒

      大潰敗!中國網(wǎng)貸公司,在印度全軍覆沒

      首席品牌評論
      2026-01-07 18:20:00
      杜蘭特:沒有把今晚當(dāng)作宿敵對決,現(xiàn)在我不會操心季后賽問題

      杜蘭特:沒有把今晚當(dāng)作宿敵對決,現(xiàn)在我不會操心季后賽問題

      懂球帝
      2026-03-06 12:48:27
      重磅!“人間蒸發(fā)”的宜蘭議會秘書及家人已被證實(shí)分批前往大陸!

      重磅!“人間蒸發(fā)”的宜蘭議會秘書及家人已被證實(shí)分批前往大陸!

      孤單是寂寞的毒
      2026-03-05 22:20:23
      萬惡的勞務(wù)派遣

      萬惡的勞務(wù)派遣

      阿亮評論
      2026-03-05 09:59:08
      美論壇:沒有經(jīng)過韓國的允許,中國怎么敢擅自發(fā)射那么多衛(wèi)星?

      美論壇:沒有經(jīng)過韓國的允許,中國怎么敢擅自發(fā)射那么多衛(wèi)星?

      近史談
      2026-01-13 18:02:33
      中紀(jì)委再敲警鐘!干部的這些特定關(guān)系人,這些行為將被重點(diǎn)嚴(yán)查!

      中紀(jì)委再敲警鐘!干部的這些特定關(guān)系人,這些行為將被重點(diǎn)嚴(yán)查!

      細(xì)說職場
      2026-03-05 16:27:17
      惜敗勇士4人成罪魁禍?zhǔn)祝《盘m特關(guān)鍵球迷失,2鋒線狂鐵,申京起伏

      惜敗勇士4人成罪魁禍?zhǔn)祝《盘m特關(guān)鍵球迷失,2鋒線狂鐵,申京起伏

      籃球資訊達(dá)人
      2026-03-06 12:36:42
      52年,毛主席發(fā)現(xiàn)孫中山銅像上有多個(gè)彈孔,怒問道:這是誰干的?

      52年,毛主席發(fā)現(xiàn)孫中山銅像上有多個(gè)彈孔,怒問道:這是誰干的?

      南書房
      2026-01-31 07:45:06
      哈梅死了5天,內(nèi)賈德卻滿血復(fù)生,外媒發(fā)現(xiàn)不對勁:中國被騙了?

      哈梅死了5天,內(nèi)賈德卻滿血復(fù)生,外媒發(fā)現(xiàn)不對勁:中國被騙了?

      老塕是個(gè)手藝人
      2026-03-06 11:18:44
      特朗普稱必須參與伊朗最高領(lǐng)袖遴選 拒絕哈梅內(nèi)伊之子接班

      特朗普稱必須參與伊朗最高領(lǐng)袖遴選 拒絕哈梅內(nèi)伊之子接班

      林子說事
      2026-03-06 11:29:23
      美伊這仗打亂了全球算盤,賴清德突然想找大陸談,國臺辦回了倆詞

      美伊這仗打亂了全球算盤,賴清德突然想找大陸談,國臺辦回了倆詞

      吃貨的分享
      2026-03-06 08:31:51
      父母若是有以下7種疾病,子女基本都會遺傳,不少人并不清楚!

      父母若是有以下7種疾病,子女基本都會遺傳,不少人并不清楚!

      健康之光
      2026-03-03 17:35:03
      哈梅內(nèi)伊身亡現(xiàn)場照片曝光

      哈梅內(nèi)伊身亡現(xiàn)場照片曝光

      名人茍或
      2026-03-02 10:37:43
      戰(zhàn)火蔓延中東多國,專家:伊朗很無奈,阿聯(lián)酋最受傷,中東穩(wěn)定“壓艙石”承壓

      戰(zhàn)火蔓延中東多國,專家:伊朗很無奈,阿聯(lián)酋最受傷,中東穩(wěn)定“壓艙石”承壓

      紅星新聞
      2026-03-05 22:10:15
      我國著名主持人赴瑞士安樂死,兒子講述其死前慘狀:我非常后悔

      我國著名主持人赴瑞士安樂死,兒子講述其死前慘狀:我非常后悔

      阿訊說天下
      2026-02-21 12:35:11
      2026-03-06 13:08:49
      AppSo incentive-icons
      AppSo
      讓智能手機(jī)更好用的秘密
      6159文章數(shù) 26790關(guān)注度
      往期回顧 全部

      科技要聞

      獨(dú)家|除夕加班、毫無黑料!林俊旸無奈離場

      頭條要聞

      特朗普強(qiáng)勢要求赦免內(nèi)塔尼亞胡 曾公開貼心為其推椅子

      頭條要聞

      特朗普強(qiáng)勢要求赦免內(nèi)塔尼亞胡 曾公開貼心為其推椅子

      體育要聞

      跑了24年,他終于成為英超“最長的河”

      娛樂要聞

      周杰倫社交媒體曬昆凌,夫妻感情穩(wěn)定

      財(cái)經(jīng)要聞

      黃金,牛市沒了?!

      汽車要聞

      710km長續(xù)航+閃充 宋Ultra EV預(yù)售15.5萬起

      態(tài)度原創(chuàng)

      健康
      時(shí)尚
      旅游
      數(shù)碼
      公開課

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      看來看去還是這些穿搭最高級,不老套、不死板,舒適又顯氣質(zhì)

      旅游要聞

      崇明玉蘭花,上線!

      數(shù)碼要聞

      拿老U充當(dāng)新U!國產(chǎn)筆記本CPU欺詐被揭穿:官方回應(yīng)含糊其辭

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版