「豆包 AI 手機」的電腦版,被 OpenAI 做出來了。
盡管在版本號上,GPT-5.4 只比去年年底發布的 GPT-5.2 多了0.2,但在功能上,GPT-5.4 的升級可以說「顛覆」了整個 PC AI 領域。簡單來說,GPT-5.4 打包了GPT-5.3-Codex、高級推理能力和 100 萬 Token 的上下文窗口大小,同時還支持原生電腦操作支持(Computer Use)。用更直白的話來說,全新的 GPT-5.4,把豆包 AI 手機那種全自動的 AI 操作,帶到了電腦上。
![]()
我們先來看看大家最關心的原生電腦操作支持。從技術路線上講,GPT-5.4 和手機領域的 GUI-Agent 類似,利用視覺識別來看懂屏幕畫面上的元素和組件,而非簡單讀取文字標簽。推理、確認操作路徑后,GPT-5.4 會基于屏幕顯示元素的坐標,生成快速、連續的光標指令,并通過 Windows 或 Linux 的系統端口執行。
由于這種 GUI-Agent 能真正理解屏幕內容,GPT-5.4 這套原生電腦操作可以兼容不同的應用和場景。對于并不熟悉 MCP 協議的小白用戶來說,GPT-5.4 這套方案的體驗顯然要友好得多。
![]()
在新聞稿中,OpenAI 也演示了 GPT-5.4 操作用戶電腦的流程。雖然GPT-5.4 理解屏幕內容時消耗了不少時間,但即便任務鏈特別長,GPT-5.4 也能準確執行。可以肯定的是,隨著 OpenAI 通用視覺感知能力的提升,這套流程將越來越順。
既然提到了長任務鏈,那就不得不提 GPT-5.4 的另一個重點:GPT-5.4 系列模型支持高達 100 萬 Tokens 的上下文窗口。上下文窗口越大,AI 的「長期記憶」能力就越強,不會出現「看了后面忘了前面」的情況。
![]()
而 100 萬 Token 的上下文窗口,意味著開發者現在可以把整個代碼倉庫打包丟給 GPT-5.4,顯著提升「Vibe-Coding」的效率;分析師也可以直接把企業好幾年的財務數據喂給 GPT-5.4,讓 AI 來找出其中的異常征兆。對中小企業來說,更大的窗口大小也意味著不再需要另外做 RAG,避免數據切片帶來的信息遺漏。
更大的窗口大小、更準確的推理能力,再加上原生電腦交互,這些底層能力的提升讓 GPT-5.4 的綜合能力全面進化。根據 OpenAI 給出的對比成績,GPT-5.4 的各項性能較 GPT-5.2 均有明顯提升;甚至在做投行金融報表時,GPT-5.4 也因「審美提升」獲得了更高的分數。
![]()
在 AI 領域,模型性能通常與價格掛鉤,GPT-5.4 自然也不例外。定價方面,GPT-5.4 的 Token 價格會高于 GPT-5.2。2026 年 3 月 6 日,GPT-5.4 Thinking 已向 ChatGPT 各級付費用戶開放。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.