網易首頁 > 網易號 > 正文申請入駐

100萬 Token + 接管鼠標：GPT-5.4 正把 AI 推向“數字員工”

2026-03-06 09:15:15　來源: 鈦媒體APP

北京舉報

分享至

如果一個 AI 能夠閱讀整套項目文檔，在復雜問題上進行長時間推理，并且自己操作電腦完成任務，它就不再只是一個聊天機器人。

它更像是一種新的軟件形態。

隨著 OpenAI 推出 GPT-5.4 Thinking 與 GPT-5.4 Pro，這種變化正在變得具體。100 萬 Token 上下文、推理時計算模式，以及原生計算機操作能力，第一次在同一代模型中同時出現。

當這些能力開始匯合，大模型的角色也在發生轉變——從回答問題，轉向直接完成工作。

GPT-5.4：一次圍繞“執行能力”的模型升級

2026 年 3 月初，硅谷再次進入密集的 AI 發布周期。

在多輪業內傳聞之后，OpenAI 推出了 GPT-5.4 系列模型。與過去幾次升級主要強化聊天體驗或推理能力不同，這一版本的能力組合明顯指向一個更實際的目標：讓 AI 更直接地參與真實工作流程。

公開信息顯示，模型的核心能力包括：最高 100 萬 Token 上下文窗口、GPT-5.4 Thinking 推理模式、Computer-Use 原生計算機操作能力，以及 Tool Search 工具檢索機制。這些能力并非單點突破，而是圍繞“執行能力”的系統性升級。

在桌面任務基準 OSWorld benchmark 的測試中，模型完成任務的成功率約為 75%，略高于該 benchmark 的人類測試基線約 72%。而在職業任務評估 GDPval benchmark 中，模型在 44 種知識型工作任務中約 83% 的評分進入專家區間。

這些指標本身或許仍需要更多實際驗證，但它們指向的趨勢非常明確：AI 正在從信息處理工具變成任務執行系統。

長上下文：模型第一次能“讀完整個項目”

企業在部署大模型時，一直面臨一個結構性限制——上下文窗口。早期模型只能處理有限的信息量，這迫使企業構建復雜的 Retrieval-Augmented Generation（RAG）系統：文檔被拆分、向量化、索引，再在查詢時重新拼接給模型。

這種架構在過去兩年成為 AI 工程的標準方案，但也帶來了新的復雜度。數據被切塊后，上下文關系容易丟失；檢索系統本身也增加了延遲與維護成本。

GPT-5.4 將上下文窗口擴展到 100 萬 Token。這意味著模型在單次任務中理論上可以處理完整代碼庫、長期財務記錄，甚至整個項目文檔集合。

RAG 并不會消失，因為權限控制、實時數據更新以及索引效率仍然是企業系統不可替代的一部分。但在很多分析型任務中，超長上下文確實降低了對復雜檢索架構的依賴。

更重要的是，模型開始具備一種過去難以實現的能力：理解完整項目，而不是零散信息片段。

Computer-Use：AI 開始直接操作軟件

如果說長上下文改變的是理解能力，那么 Computer-Use 改變的則是執行能力。

在這一模式下，模型可以通過視覺理解軟件界面，并模擬鼠標點擊、鍵盤輸入以及應用導航等操作。這意味著 AI 不再只通過 API 調用系統，而是可以像用戶一樣直接操作軟件界面。

這一變化對企業自動化領域尤其重要。過去二十年，大量企業流程自動化依賴 Robotic Process Automation（RPA）系統，其核心邏輯是通過腳本執行固定步驟，例如錄入數據或在系統之間復制信息。

而具備視覺理解與規劃能力的 AI，則可能承擔更復雜的任務，例如：

跨系統整理數據
執行多步驟后臺流程
在陌生界面中尋找操作路徑

RPA 并不會立即被取代，但 AI 代理已經開始進入它們長期占據的自動化領域。

推理時計算：AI 學會“慢思考”

GPT-5.4 的另一項關鍵變化，是 Thinking 模式。這一模式并不是簡單擴大模型規模，而是在推理階段投入更多計算資源，從而提高復雜任務的可靠性。

這代表著大模型發展的一條重要路線：推理時計算（compute-at-inference）。過去十年，模型能力主要依賴訓練階段的大規模數據與算力，但隨著預訓練收益逐漸遞減，越來越多公司開始把算力投入到推理階段。

類似趨勢也出現在其他 AI 公司，例如 Anthropic 的深度推理模式，以及 Google 在復雜任務中的推理系統。

這種模式的特點很明顯：響應時間更長、計算成本更高，但復雜任務的成功率明顯提高。在法律分析、財務建模或復雜決策任務中，這類“慢思考 AI”反而更接近真實的專業工作方式。

Tool Search：被低估的架構升級

相比百萬 Token 與 computer-use，Tool Search 可能是這次發布中最容易被忽視的一項升級。

過去，當模型需要調用工具時，開發者通常必須把所有工具說明都加載進提示詞中。這不僅占用上下文空間，也增加了 Token 成本。

Tool Search 改變了這一機制：模型可以在需要時檢索工具定義，而不是預加載全部工具。

在多工具系統中，這種方式可顯著減少工具相關的 Token 消耗。對于構建復雜 AI 系統的開發者而言，這類架構優化往往比單純提升模型能力更重要。

因為真正的大規模 AI 應用，通常由幾十甚至上百個工具共同組成。

AI 競爭的真正焦點正在改變

如果把這些變化放在一起觀察，就會發現 AI 競爭的重心正在發生變化。

過去幾年，大模型競爭主要集中在規模、參數與價格。但現在，競爭正在逐漸轉向另一件事情：誰能讓 AI 真正完成任務。

在這個維度上，不同公司的策略逐漸分化：

OpenAI：強調 AI 代理與執行能力
Anthropic：強調可靠推理與安全性
Google：強調工具生態與云基礎設施

這場競爭的終點，很可能不是更聰明的聊天機器人，而是一種新的軟件形態。

一種可以理解任務、規劃步驟并執行操作的 AI 工作代理。

軟件范式正在變化

從更長的上下文，到更強的推理，再到直接操作軟件界面，大模型正在同時獲得三種能力：理解信息、思考問題、執行操作。

當這三種能力結合在一起時，AI 就不再只是軟件的一個接口，而可能逐漸成為新的軟件平臺。

在這種結構下，大模型不僅會改變搜索、寫作或編程工具，還可能重新塑造企業軟件的基本形態。

問題已經不再是 AI 能否理解工作。而是 AI 何時開始真正接管工作流程。（本文首發鈦媒體App , 作者｜硅谷Tech news，編輯｜秦聰慧）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

豆包電腦來了？GPT-5.4發布，這個能力亮了

雷科技 2026-03-06 16:44:48
2 跟貼 2
OpenClaw絕配！GPT-5.4問世，AI能力開始大一統，就是太貴

機器之心Pro 2026-03-06 12:00:27
2 跟貼 2

ChatGPT-5.4發布：和OpenClaw兼容，AI第一次比人類更會操作電腦

DeepTech深科技 2026-03-06 10:47:43
35 跟貼 35

DPO「只看總分不看細節」？TI-DPO用Token重要性重塑大模型對齊

機器之心Pro 2026-02-11 13:45:57
0 跟貼 0
突然爆火！超多人搶著要，上門服務500元一次，有人稱賺了26萬，專家：先冷靜

浙江之聲 2026-03-07 14:01:40
455 跟貼 455

Gemini攻克宇宙弦難題，還自己想到了費曼技巧

DeepTech深科技 2026-03-07 23:14:50
0 跟貼 0

人社部：正研究措施發揮人工智能創造新崗位

新華社 2026-03-07 10:31:07
27 跟貼 27
微信聊天遭老板監視，主流殺毒軟件失明

每日經濟新聞 2025-12-25 19:02:17
9 跟貼 9

美國監控法律為何跟不上AI的發展？

DeepTech深科技 2026-03-07 23:34:16
0 跟貼 0
GPT-5.4「原生操控電腦」實測封神！OpenClaw天選模型來了

新智元 2026-03-06 10:35:47
39 跟貼 39
OpenAI深夜祭出GPT-5.4，暴擊Claude！原生操控電腦，打工人懸了

新智元 2026-03-06 07:00:20
446 跟貼 446
伊朗局勢匯總！周教授邏輯清晰，是我聽過最客觀的分析！

搞笑桔子 2026-03-07 00:12:22
0 跟貼 0
大鼠標強行加塞，沒想到遇到一位狠人，直接翻車了

瘋狂星期四笑料館 2026-03-07 16:01:14
1 跟貼 1
象棋大師三步棄馬飛刀進攻策略

隱龍天下o 2026-03-05 15:12:30
0 跟貼 0
星爺這貪污水平沒誰了，1380萬秒變38萬，真是邏輯鬼才

悅悅看劇 2026-03-05 10:33:40
1 跟貼 1
代碼Agent的苦澀教訓！首次拆解上下文檢索，直指自動化軟件瓶頸

新智元 2026-03-07 17:35:04
1 跟貼 1
全部代碼調好，一個勤演奏，一個欠挨揍！

卡卡愛生活 2026-03-03 13:54:41
11 跟貼 11
剛下飛機行李就沒了！杭州姑娘花10多萬去南極旅游卻崩潰：衣物全靠借

環球網資訊 2026-03-03 08:53:57
5563 跟貼 5563
太黑了！女子實名舉報某外賣軟件：不上大額優惠券就不讓我做生意

回旋鏢 2026-03-06 20:59:51
533 跟貼 533
鍵鼠不是萬能的神！外媒盤點近年適合用手柄玩的游戲

游民星空 2026-03-07 12:41:15
0 跟貼 0
《卡牌修仙傳》EA評測：我的壽元太長，鼠標壽命太短"/> 主站商城論壇自運營登錄注冊《卡牌修仙傳》EA評測：我的壽元太長，鼠標壽命太短泥頭

3DM游戲 2026-03-05 18:58:27
1 跟貼 1
今年高校畢業生預計1270萬

人民網-人民日報 2026-03-07 10:36:14
8948 跟貼 8948
曹巖磊VS賴理兄十番棋大戰第3局，全程軟件招，算無遺策！

象棋經典棋局 2026-03-08 05:45:00
0 跟貼 0
宋亞軒，鼠標引發熱議

小健搞笑 2026-03-07 13:45:33
0 跟貼 0
程序員離職，代碼亂成一團糟

笑出驢叫 2026-03-07 12:45:09
1 跟貼 1
女子在杭州西湖景區把“西泠印社”認成“杜帥冷面”，網友：四個字認錯五個，當事人：沒有文化確實不行

揚子晚報 2026-03-06 17:44:56
1502 跟貼 1502
人社部：將加大對外貿、建筑、住宿、餐飲等勞動密集型行業就業扶持

證券時報 2026-03-07 10:51:24
579 跟貼 579
羅永浩怒懟算命大V！稱沒了膽也不慣著，網友：踢到鋼板了

雷科技 2026-03-07 23:58:00
17 跟貼 17
印度P18要造144垂發巨艦？參數碾壓055背后藏致命缺陷！

安之若憟 2026-03-07 10:54:13
0 跟貼 0
被全網催開門的河南水煎包店老板準備明天營業，正在打掃衛生、備餐：煎包還是1元2個，胡辣湯3元1碗

大象新聞 2026-03-07 14:47:24
238 跟貼 238
證監會發布短線交易監管新規自2026年4月7日起施行

每日經濟新聞 2026-03-07 20:10:20
26 跟貼 26
林俊旸會去哪？

版面之外 2026-03-08 00:07:16
1 跟貼 1
14B規模竟也能單卡實時生成視頻？多虧這個強大的開源底座

機器之心Pro 2026-03-07 20:08:46
0 跟貼 0
魔獸時光服存活最久的刷金點，掉落從未減少，腳本從開服刷到現在

胖哥游戲說 2026-03-07 12:18:34
4 跟貼 4
媒體:美國打仗遇到人口3000萬以上國家就沒法全身而退

新民周刊 2026-03-07 09:17:30
0 跟貼 0
阿聯酋航空暫停所有進出迪拜航班

界面新聞 2026-03-07 15:24:47
801 跟貼 801
路虎攬勝回應長城汽車董事長魏建軍道歉：真誠和擔當是最好的代言，堅持原創，祝長城汽車越來越好

中國能源網 2026-03-07 15:29:05
87 跟貼 87
16.48萬起，豪華轎車新解法，是守舊還是嘗鮮？昊鉑A800參數拆解大揭秘

愛活網Evolife 2026-03-06 10:39:30
0 跟貼 0
消息稱Xbox Project Helix很難低于999美元，但不超1500美元

IT之家 2026-03-07 23:09:14
6 跟貼 6
挖機輕輕碰了一下石頭，石堆瞬間就坍塌了，網友：當代碼還能運行就不要去碰它

星沙時報 2026-03-06 12:32:33
0 跟貼 0

鈦媒體APP

獨立財經科技媒體

130356文章數 861903關注度

往期回顧全部

針對"不敢休、不讓休"怪圈國家出手了

汽車要聞

逃離ICU，上汽通用“止血”企穩

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

游戲

數碼

公開課

軍事航空

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

100萬 Token + 接管鼠標：GPT-5.4 正把 AI 推向“數字員工”

OpenClaw最大的推手是閑魚和小紅書

中國貨船通過霍爾木茲海峽后 美國宣布200億美元計劃

中國貨船通過霍爾木茲海峽后 美國宣布200億美元計劃

塔圖姆298天走完這段路 只用27分鐘征服這座城

汪小菲曝親媽猛料，張蘭公開財產分配

針對"不敢休、不讓休"怪圈 國家出手了

逃離ICU，上汽通用“止血”企穩

態度原創

暖棕撞色 輕法奶油風

外媒:Xbox新主機恐成微軟絕唱!失敗即退出硬件市場

蘋果MacBook Neo跑分出爐：A18 Pro少了一個核心 GPU被反殺

美第三個航母打擊群據稱準備部署至中東

中國貨船通過霍爾木茲海峽后美國宣布200億美元計劃

中國貨船通過霍爾木茲海峽后美國宣布200億美元計劃

塔圖姆298天走完這段路只用27分鐘征服這座城

針對"不敢休、不讓休"怪圈國家出手了

暖棕撞色輕法奶油風