![]()
這幾天 AI 圈是真的有點(diǎn)過年那味了,OpenAI 深夜直接官宣, GPT-5.5 正式發(fā)布。
![]()
緊接著,DeepSeek 這邊也沒閑著,轉(zhuǎn)手就把 V4 預(yù)覽版端出來,還順手開源。
![]()
一前一后,兩波操作幾乎無縫銜接,AI 圈這幾天的節(jié)奏。
基本就是:剛看完一個重磅,還沒來得及細(xì)想,下一個已經(jīng)拍臉上了。
![]()
先說 GPT-5.5。
這次 OpenAI 的說法很直接:for real work。
翻譯一下就是:別再只拿來聊天了,它是來干活的。
![]()
你給它一個目標(biāo),它不需要你一步步教,甚至?xí)约喊讶蝿?wù)拆開,理清步驟,規(guī)劃路徑,然后一邊調(diào)用工具一邊往下推進(jìn),最后把結(jié)果給你。
說白了,它開始有點(diǎn)“自己會推進(jìn)事情”的感覺了。
![]()
更明顯的是編程這塊,以前是你寫一點(diǎn),它幫你補(bǔ)一點(diǎn)。
現(xiàn)在更像是你丟一個需求,它直接幫你把整個工程往前推:結(jié)構(gòu)怎么搭、功能怎么做、哪里出錯、怎么修復(fù),它可以一路走完。
可以說,GPT-5.5 這次是真的全方位變強(qiáng)了。
![]()
最直觀的一點(diǎn):基準(zhǔn)測試直接全線第一。
不管是編程、推理、數(shù)學(xué),還是智能體任務(wù), GPT-5.5 基本把 Claude Opus 4.7、Gemini 3.1 Pro 這一檔都壓了下去。
![]()
在 AAI 測試?yán)铮谙嗤敵?token 的情況下,它的智能指數(shù)直接全球第一;在 ARC-AGI-2 上,也直接刷新 SOTA。
一句話總結(jié)就是:不是領(lǐng)先一點(diǎn),是直接拉開代差。
![]()
Open AI 創(chuàng)始人Sam Altman 也直接下場夸贊: GPT-5.5 既聰明,又快。
更關(guān)鍵的是,它不是靠“多算力堆出來的強(qiáng)”,而是效率也一起提升了。
![]()
它的 token 速度和上一代 GPT-5.4 基本一樣,但每個任務(wù)用的 token 明顯更少。
翻譯一下就是:更聰明,但還更省。
![]()
再往下看它的測試標(biāo)準(zhǔn) benchmark,會發(fā)現(xiàn)一個很明顯的變化:這次已經(jīng)不是“做題比賽”,而是比拼“真實(shí)干活”能力了。
![]()
先說幾個可以直接理解的指標(biāo)。
GDPval,你可以把它理解成“AI 的職場考試”。
不是考數(shù)學(xué)題,而是直接讓它模擬做辦公室工作,比如寫報(bào)告、做分析、處理文件,看它能不能像一個員工一樣把活干完。
結(jié)果是 GPT-5.5 拿了 84.9%,比 Claude Opus 4.7 和 Gemini 3.1 Pro 都高。
![]()
OSWorld,可以理解成“操作電腦能力測試”。
不是問它懂不懂,而是直接讓它去用電腦:點(diǎn)按鈕、切窗口、找信息、完成任務(wù),看它能不能真的把操作跑完。
GPT-5.5 在這項(xiàng)里基本和 Opus 4.7 打平,但執(zhí)行更穩(wěn)。
![]()
Tau2-bench,更接近“公司業(yè)務(wù)流程模擬”。
比如客服處理、查系統(tǒng)、一步步執(zhí)行操作,不是單一步驟,而是一整條工作鏈。GPT-5.5 在沒有特別優(yōu)化的情況下直接接近滿分。
![]()
這些結(jié)果拼起來,其實(shí)只說明一件事:它已經(jīng)開始具備“完整干活”的能力了。
據(jù) OpenAI 官方披露,現(xiàn)在內(nèi)部已經(jīng)有超過 85% 的員工在跨部門使用 Codex,而且已經(jīng)不是“輔助工具”,而是直接嵌進(jìn)工作流程。
![]()
比如在對外溝通和運(yùn)營類工作里,以前要人工整理大量歷史信息,再判斷優(yōu)先級和風(fēng)險(xiǎn)。
現(xiàn)在變成 AI 先做一輪結(jié)構(gòu)化歸納,把事情分層、分類,再自動標(biāo)出哪些可以進(jìn)入標(biāo)準(zhǔn)流程處理,哪些需要人工介入。
![]()
在偏重合規(guī)和財(cái)務(wù)的場景里,變化更明顯。
過去那種大量文檔核對,本質(zhì)是“人盯表格”,現(xiàn)在變成“模型先篩一遍”,它會先把異常、沖突點(diǎn)和不一致的地方挑出來。
人只需要做最后確認(rèn)和修正,工作重心直接從“處理數(shù)據(jù)”變成“審核結(jié)果”。
![]()
而在市場和運(yùn)營團(tuán)隊(duì)這類高頻工作里,它更多是把原來分散的步驟串起來。
比如數(shù)據(jù)整理、周報(bào)生成、匯報(bào)材料準(zhǔn)備,以前是三四個環(huán)節(jié),現(xiàn)在變成輸入目標(biāo)后直接生成初稿,人只做最后一輪調(diào)整。
![]()
![]()
這時候再看 DeepSeek V4,就更清楚了。
DeepSeek 的路線不是“更強(qiáng)一點(diǎn)”,而是“更便宜、更開放、更容易接入”。
![]()
1M 超長上下文直接標(biāo)配,Agent 能力強(qiáng)化,同時選擇開源。
![]()
把兩邊放在一起,其實(shí)會發(fā)現(xiàn)一個很明顯的變化。
AI 不再是比拼“誰更聰明”的階段,進(jìn)入“誰更能干活”的階段。
過去我們評價(jià)模型,看的是它能不能解題、能不能寫代碼、能不能刷 benchmark。
現(xiàn)在開始變成:它能不能接任務(wù)、跑流程、跨工具協(xié)作,并且穩(wěn)定交付結(jié)果。
在這個邏輯下,“天才模型”依然存在,但已經(jīng)不再是唯一答案。
因?yàn)槠髽I(yè)需要的不是偶爾驚艷的能力,而是長期穩(wěn)定的產(chǎn)能。
GPT-5.5 正是在往這個方向走:在保持能力基礎(chǔ)上,但重點(diǎn)開始變成“能用、好用、穩(wěn)定用”。
而 DeepSeek 則是在把這件事進(jìn)一步推向普及層。
![]()
一個在做標(biāo)準(zhǔn)化,一個在做基礎(chǔ)設(shè)施化。
路徑不同,但指向同一件事:AI 不再只是聊天工具,而是在慢慢變成如何更好服務(wù)人類工作。
參考資料:
OpenAI、X、Deepseek等網(wǎng)絡(luò)截圖
編輯:不吃麥芽糖
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.