<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI深夜祭出GPT-5.4,暴擊Claude!原生操控電腦,打工人懸了

      0
      分享至


      新智元報道

      編輯:好困 桃子

      【新智元導讀】OpenAI深夜突襲,GPT-5.4新王炸場!一夜之間,直接粉碎了Gemini 3.1 Pro和Claude Opus 4.6的神話。這也是頭一次,ChatGPT擁有真正「原生電腦使用」能力,辦公效率直接拉滿。而真正恐怖的地方在于,每一個維度上它都沒有短板。

      被Gemini和Claude連續壓了一個月后,OpenAI終于動手了。

      就在剛剛,下一代旗艦GPT-5.4正式發布!

      • ChatGPT端:GPT-5.4 Thinking與GPT-5.4 Pro全面上線

      • 開發者端:GPT-5.4接入API與Codex,并附帶極速版GPT-5.4 fast



      之所以直接跳到5.4,是因為這是一次「推理+編程」的合流式跨越

      成績單,直接炸裂。

      • GDPval勝率83%,叫板頂尖人類專家;

      • SWE-Bench Pro編程第一,FrontierMath數學第一;

      • ARC-AGI-2抽象推理跑出83.3%新高,Gemini 3.1 Pro的77.1%、Opus 4.6的68.8%,全部踩在腳下。

      OpenAI這次,是真的翻身了。



      左右滑動查看


      更炸的是,GPT-5.4還是首個擁有「原生電腦使用」能力的通用模型。

      識別UI、操控鍵鼠、在軟件和網頁間穿梭自如,像人一樣操作電腦。

      在OSWorld-Verified上,它直接拿下75%成功率,刷爆SOTA

      上一代GPT-5.2(47.3%),人類(72.4%),一個月前剛登頂的Opus 4.6(72.7%),通通都被超了。

      沒錯,AI操作電腦,已經比人類更熟練了。


      能力融合上,GPT-5.4繼承了GPT-5.3-Codex的全部編程基因,并且新增了100萬token上下文和原生工具搜索,一個模型打通推理、編程、操控全鏈路。

      GPT-5.4 Thinking在思考時,你還能隨時介入調整方向,不打斷思路,一次對話直接交付結果。

      看來,OpenClaw之父加入后,立馬讓ChatGPT原生「電腦操控」能力變強了!


      定價方面,GPT-5.4再創新高,輸入價格2.5美元/百萬token,輸出價格15美元/百萬token。

      Pro版本就更夸張了,輸入30美元/百萬token,輸出180美元/百萬token。



      首個全能「計算機使用」通用模型

      先說最炸的部分。

      GPT-5.4是OpenAI首個具備原生計算機使用能力的通用模型。

      它能通過Playwright等庫,編寫代碼來控制計算機,也能直接「看」屏幕截圖動用鼠標和鍵盤。

      發郵件、排日程、填表格、跑流程,這些以前需要你點來點去的活兒,現在GPT-5.4自己都能干。

      在OSWorld-Verified中,GPT-5.4直接刷出了75.0%的成功率。

      要知道,就在一個月前剛登頂的Claude Opus 4.6,成績也不過72.7%。GPT-5.4一出手就把它甩開了2.3%。


      在WebArena-Verified上,同時使用DOM和截圖驅動交互時,GPT-5.4成功率達67.3%,領先GPT-5.2的65.4%。

      在另一項Online-Mind2Web測試中,GPT-5.4僅靠截圖觀察就拿下了92.8%,而ChatGPT Atlas智能體模式只有70.9%,斷崖級領先。

      不過,GPT-5.4一切強大的執行能力,都是建立在更強的「通用視覺感知」能力之上。

      在MMMU-Pro上,GPT-5.4(不使用工具)的成功率81.2%,大幅優于GPT-5.2(79.5%)。

      視覺感知的提升,也直接轉化為更強的文檔解析能力。

      在OmniDocBench上,GPT-5.4(未開啟推理強度)的平均誤差為0.109,而GPT-5.2為0.140。


      更重磅的是,GPT-5.4還首次引入「原始」(original)和「高」(high)圖像輸入細節級別

      前者支持最高1024萬總像素,或最大單邊6000像素(以較低者為準)的全保真度感知;后者支持最高256萬總像素或最大單邊2048像素。

      在API早期測試中,GPT-5.4在定位能力、圖像理解和點擊準確性均有大幅提升。

      精通辦公三件套,干翻華爾街分析師

      如果說計算機使用是「硬功夫」,那知識工作就是GPT-5.4的「軟實力」。


      在GDPval基準測試中,GPT-5.4以83.0%的成績,追平甚至超越了行業內的專業人士

      上一代GPT-5.2僅有70.9%,一個版本的差距,直接拉開了12個百分點。


      GDPval測試橫跨美國GDP貢獻最大的9個行業、44種職業,包括銷售演示文稿、會計電子表格、急診排班表、制造圖表、短視頻等,全部都是要求AI真刀真槍地交付工作產出。

      GPT-5.4已經能做PPT、做Excel、排班表了,而且做得比大多數專業人士還好。


      在一項模擬初級投資銀行分析師的內部電子表格建模測試中,GPT-5.4平均得分87.3%,GPT-5.2只有68.4%。


      不僅如此,人類在68.0%的情況下,更偏好GPT-5.4生成的PPT,因其美感更強、視覺更豐富、圖像使用更高效。


      幻覺率暴降33%

      為了讓GPT-5.4真正勝任實際工作,OpenAI在減少幻覺和事實錯誤上持續發力。

      這么說吧,GPT-5.4是OpenAI迄今為止,最講求事實的模型

      在一組去標識化的、包含用戶標記事實錯誤的提示詞集中,相對于GPT-5.2,GPT-5.4單獨聲明出錯的概率降低了33%,整個回復包含任何錯誤的概率降低了18%。

      推理+代碼合體,一個模型全搞定

      GPT-5.4的另一個大招,完整繼承了GPT-5.3-Codex的編程能力

      這意味著,不再需要在「聰明的模型」和「能寫代碼的模型」之間來回切換。一個模型,全部搞定。

      在SWE-Bench Pro測試中,GPT-5.4拿下了57.7%準確率,媲美甚至超越了GPT-5.3-Codex(56.8%)。


      但真正的殺手锏不是分數,而是效率

      GPT-5.4是OpenAI迄今Token效率最高的推理模型,解決相同問題所需的Token大幅減少,成本更低,速度更快。

      而且在各種推理強度設置下,GPT-5.4的延遲都低于GPT-5.3-Codex。

      在Codex的/fast模式下,其Token生成速度最高可提升1.5倍。同樣的智力,同樣的能力,只是快了50%。

      通過API,開發者也可以使用「優先處理」(Priority Processing)獲得同樣飛快的速度。

      內部測試中,OpenAI還發現,GPT-5.4在復雜的前端任務上表現卓越。

      生成的界面不僅美觀,而且功能完備程度,遠超此前任何模型。

      為此,他們甚至還搞了個花活,發布了實驗性的「Playwright Interactive」技能,讓Codex能一邊構建Web應用、一邊在瀏覽器中可視化調試測試。

      • 主題公園模擬游戲

      僅憑一段提示詞,GPT-5.4就徒手搓出一個完整的經營類游戲。

      這一個全自動運行的微觀世界,瓦片路網、設施建造、景觀美化一應俱全。

      而且,資金、客流、幸福感與評分系統環環相扣。

      其中,Playwright充當了最嚴苛的質檢員:從瘋狂擴建到設施拆除,從鏡頭導航到 UI 數據驗證,經過數輪自動化高壓測試才最終交付。

      傳送門:https://developers.openai.com/showcase/theme-park-builder

      • 戰棋RPG

      經過多輪迭代,GPT-5.4打造出一款回合制網格戰斗游戲,包含移動、行動、站位和遭遇戰等完整系統。

      圖像生成負責角色和美術風格,Playwright在每一輪迭代中驗證界面交互、檢查并微調UI行為和著色器效果,直到戰斗手感、視覺表現和整體體驗全部調優到位。

      傳送門:https://developers.openai.com/showcase/turn-based-rpg

      • 金門大橋飛行體驗

      同樣一段提示詞起步,GPT-5.4生成了一個可以自由飛行的超寫實3D場景——

      逼真的光照、水面、霧氣、懸索、橋上行駛的車流、周圍的海岸線和城市背景,支持近距離結構穿越和遠景風光俯瞰。

      這里,Playwright化身「王牌飛行員」,開啟多角度全自動巡航測試。

      它不僅驗證渲染視口的穩定性,還通過截圖反饋協助 AI 持續校準構圖與光影分布。 ,歷經一小時的高頻迭代。

      傳送門:https://developers.openai.com/showcase/golden-gate-flight-experience

      祭出「工具搜索」,Token狂砍47%

      在工具使用上,GPT-5.4的進化是多層次的。

      • 工具搜索

      GPT-5.4引入了「工具搜索」功能,徹底解決了MCP工具太多,上下文爆炸的問題。

      只需要一個輕量級的可用工具列表,真正需要某個工具時,它會自動查找定義并即時加載。

      在Scale的MCP Atlas基準測試(250個任務,開啟全部36個MCP服務器)中,工具搜索配置在保持相同準確率的同時,將總Token使用量減少了47%


      這對于工具定義動輒數萬Token的MCP服務器來說,效率提升堪稱恐怖。

      • 智能體工具調用

      在推理過程中,GPT-5.4決定「何時」以及「如何」使用工具時,更加精準。

      在Toolathlon上,GPT-5.4以54.6%準確率,大幅領先GPT-5.3-Codex(51.9%)、GPT-5.2(45.7%),而且用的輪次更少。

      智能體現在能順暢完成「全套流程」——

      閱讀電子郵件→提取作業附件→上傳附件→對作業評分→將結果記錄到電子表格


      Toolathlon:評估多步任務中現實世界工具和API使用能力

      對于延遲敏感的場景(推理強度設為None),GPT-5.4在τ2-bench電信客服任務上也大幅領先。

      而在開啟推理強度(xhigh)的情況下,GPT-5.4在τ2-bench上更是達到了98.9%,幾乎完美。


      搜索暴漲17%,Pro版刷新紀錄

      此外,GPT-5.4的智能體網絡搜索能力迎來了大幅升級。

      上一次,在BrowseComp測試中,Claude Opus 4.6憑借84.0%的成績一騎絕塵,遠超GPT-5.2 Pro(77.9%)。

      但GPT-5.4 Pro直接以89.3%實現了反超,標準版的82.7%也和Opus 4.6咬得很緊。


      在實際使用中,這意味著GPT-5.4 Thinking更擅長回答需要從網絡多源頭整合信息的問題。

      它能更持久地進行多輪搜索以篩選最相關的來源,尤其是「大海撈針」式的問題,并將信息綜合成條理清晰、推理嚴密的答案。

      GPT-5.4 Thinking同時還改進了深度網絡研究能力。

      特別是,針對極其具體的查詢,并且在處理需要長時間思考的問題時能更好地保持上下文。

      中途可調,告別推倒重來

      GPT-5.4 Thinking在思考時,還可以隨意介入,也不會打斷思路。


      此功能現已在網頁和Android應用上線,iOS版即將推出

      更關鍵的是,你可以在它運行中途直接調整方向、補充說明,而不需要等它全部做完再推翻重來。

      一次對話就能拿到想要的結果,省掉了來回拉扯的多輪溝通成本。

      同時,模型在處理困難任務時能進行更深入的思考,對對話的歷史步驟保持更強的記憶感知。

      OpenAI重回王座,AI格局再變天

      GPT-5.4的發布,是OpenAI對Gemini 3.1 Pro和Claude Opus 4.6的一次全面反擊。

      GPT-5.4的恐怖之處在于,它沒有短板。

      推理、編程、視覺、工具使用、計算機操作、網絡搜索、知識工作,每一條線都拉到了頂尖水平。

      這不是某個維度的突破,這是全維度的碾壓。

      OpenAI用GPT-5.4告訴所有人:在通往AGI的路上,它依然是最不能被忽視的那個玩家。

      詳細跑分:全維度碾壓

      最后,附上GPT-5.4最全面的成績單。


      參考資料:

      https://x.com/OpenAI/status/2029620619743219811?s=20

      https://developers.openai.com/api/docs/models/gpt-5.4

      https://openai.com/index/introducing-gpt-5-4/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      不回頭了?富士康決定轉移3000億產能,外媒:郭臺銘把飯碗端走了

      不回頭了?富士康決定轉移3000億產能,外媒:郭臺銘把飯碗端走了

      混沌錄
      2025-10-22 21:54:06
      前交叉韌帶斷了!郭艾倫深夜回應,職業生涯轉折,感人4字齊刷屏

      前交叉韌帶斷了!郭艾倫深夜回應,職業生涯轉折,感人4字齊刷屏

      話體壇
      2026-03-06 02:45:24
      美國一富豪被冷凍50年,原定2017年蘇醒,解凍時工作人員緊急叫停

      美國一富豪被冷凍50年,原定2017年蘇醒,解凍時工作人員緊急叫停

      蜉蝣說
      2025-12-01 11:20:58
      本世紀第一艘航母被擊沉!特朗普發狠復仇,中國緊急派人訪問中東

      本世紀第一艘航母被擊沉!特朗普發狠復仇,中國緊急派人訪問中東

      幾人盡棄
      2026-03-06 07:42:20
      大連船王獨子!王雷隱藏35年身份曝光,年入千萬騎共享單車拍戲

      大連船王獨子!王雷隱藏35年身份曝光,年入千萬騎共享單車拍戲

      動物奇奇怪怪
      2026-03-05 20:54:12
      青島街頭偶遇劉德華本人好年輕,64歲看起來像40歲大紅圍巾很喜慶

      青島街頭偶遇劉德華本人好年輕,64歲看起來像40歲大紅圍巾很喜慶

      動物奇奇怪怪
      2026-03-05 18:39:13
      美報告戳破西方謊言:中國領先,真正優勢是...

      美報告戳破西方謊言:中國領先,真正優勢是...

      觀察者網
      2026-03-06 12:05:15
      針對美國眾議員的挑釁,谷愛凌正面回擊!將中國與正面影響掛鉤

      針對美國眾議員的挑釁,谷愛凌正面回擊!將中國與正面影響掛鉤

      十點街球體育
      2026-03-05 16:33:15
      187次三雙里程碑!約基奇決勝連擊扎心LBJ 轟28+13+12+9失誤險4雙

      187次三雙里程碑!約基奇決勝連擊扎心LBJ 轟28+13+12+9失誤險4雙

      顏小白的籃球夢
      2026-03-06 13:40:29
      60歲到70歲這十年,一個人惜命最好的方式是:做好這三件事

      60歲到70歲這十年,一個人惜命最好的方式是:做好這三件事

      洞讀君
      2026-03-03 21:10:03
      連斬利物浦維拉!英超墊底狼隊殺瘋了,99.9%降級成笑話?

      連斬利物浦維拉!英超墊底狼隊殺瘋了,99.9%降級成笑話?

      仰臥撐FTUer
      2026-03-06 11:54:27
      萬惡的勞務派遣

      萬惡的勞務派遣

      阿亮評論
      2026-03-05 09:59:08
      4億成本,片方分賬3200萬,虧損超3.5億,2026年最慘電影誕生了

      4億成本,片方分賬3200萬,虧損超3.5億,2026年最慘電影誕生了

      電影票房預告片
      2026-03-05 23:47:12
      李連杰首次正面回應換心謠言:說我換人類心臟還是想象力太小,為什么不換一個華為心臟小米肝特斯拉腎?

      李連杰首次正面回應換心謠言:說我換人類心臟還是想象力太小,為什么不換一個華為心臟小米肝特斯拉腎?

      極目新聞
      2026-03-05 11:04:41
      全英賽8強誕生!國羽9勝1負,王祉怡打贏復仇戰,世界第1爆冷翻車

      全英賽8強誕生!國羽9勝1負,王祉怡打贏復仇戰,世界第1爆冷翻車

      劉姚堯的文字城堡
      2026-03-06 07:48:02
      巴方總統警告中國,中國要是敢反擊,巴拿馬就動手,后果自負!

      巴方總統警告中國,中國要是敢反擊,巴拿馬就動手,后果自負!

      愛情的滋味我也想嘗嘗
      2026-03-05 07:48:12
      震驚!副高教師被裁員,當事人哭訴終于從失業的悲傷中,緩過來了

      震驚!副高教師被裁員,當事人哭訴終于從失業的悲傷中,緩過來了

      火山詩話
      2026-03-06 07:03:21
      中美俄衛星定位精度差距太大!美0.1米,俄1.5米,中國北斗是多少

      中美俄衛星定位精度差距太大!美0.1米,俄1.5米,中國北斗是多少

      壹知眠羊
      2026-03-05 11:13:57
      昨晚跟閨蜜去洗澡,一脫衣服我才明白,女人和女人,真的不一樣

      昨晚跟閨蜜去洗澡,一脫衣服我才明白,女人和女人,真的不一樣

      i書與房
      2026-03-04 16:26:24
      巴黎這一夜!戴20斤大耳釘的宋佳,讓全世界看到了她的江湖地位

      巴黎這一夜!戴20斤大耳釘的宋佳,讓全世界看到了她的江湖地位

      青橘罐頭
      2026-03-06 14:49:02
      2026-03-06 15:20:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14652文章數 66659關注度
      往期回顧 全部

      科技要聞

      獨家|除夕加班、毫無黑料!林俊旸無奈離場

      頭條要聞

      伊軍指揮官:這幾天只是清庫存 會亮從未公開的大殺器

      頭條要聞

      伊軍指揮官:這幾天只是清庫存 會亮從未公開的大殺器

      體育要聞

      跑了24年,他終于成為英超“最長的河”

      娛樂要聞

      周杰倫社交媒體曬昆凌,夫妻感情穩定

      財經要聞

      黃金,牛市沒了?!

      汽車要聞

      710km長續航+閃充 宋Ultra EV預售15.5萬起

      態度原創

      數碼
      藝術
      家居
      健康
      公開課

      數碼要聞

      MacBook Neo基準測試成績接近iPhone 16 Pro 與M1表現相當

      藝術要聞

      敦煌壁畫里的“動物世界”,溫馨有愛!

      家居要聞

      暖棕撞色 輕法奶油風

      轉頭就暈的耳石癥,能開車上班嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版