![]()
新智元報(bào)道
編輯:Aeneas KingHZ
【新智元導(dǎo)讀】昨夜,GPT-5.5果然按期發(fā)布了,全網(wǎng)沒(méi)有白等。更炸裂的是,就在同一天,DeepSeek-V4緊隨其后發(fā)布了!實(shí)測(cè)后,結(jié)果出人意料。
2026年4月24日,這是屬于全球AI開(kāi)發(fā)者的「瘋狂星期五」,也是科技史上注定被銘記的一天。
凌晨時(shí)分,OpenAI的GPT-5.5如約空降,試圖以絕對(duì)的參數(shù)再次定義智能邊界。
然而,就在大洋彼岸的余震還未平息時(shí),那個(gè)曾經(jīng)數(shù)次單挑閉源巨頭的國(guó)產(chǎn)「價(jià)格屠夫」與「效率天才」——DeepSeek,帶著全新的V4系列來(lái)正面硬剛了!
當(dāng)GPT-5.5還在試圖用更昂貴的算力堆砌未來(lái)時(shí),DeepSeek-V4已經(jīng)用1M超長(zhǎng)上下文、比肩頂級(jí)閉源模型的Agent能力,以及僅為前代10%的KV緩存占用,直接把大模型推向了「平民化智能」的極境。
一邊是科技春晚般的華麗登場(chǎng),一邊是開(kāi)源領(lǐng)域近乎「掀桌子」的絕地反擊。我們見(jiàn)證了一場(chǎng)精彩的「暴力美學(xué)」與「算法巧思」的巔峰對(duì)決。
通往AGI的賽道,瞬間被這兩大巨頭縮短了不少。
接下來(lái),中國(guó)開(kāi)源之光DeepSeek-V4和GPT-5.5,要來(lái)一場(chǎng)真刀實(shí)槍的實(shí)測(cè)大PK了。
GPT-5.5和DeepSeek-V4巔峰對(duì)決
第一題,一道可以肉眼判斷模型差異的電梯謎題,測(cè)的是「真假話+身份推理」。
有四個(gè)人 A、B、C、D,其中只有一個(gè)人偷了寶石。
他們分別說(shuō)了下面四句話: A:不是我偷的。 B:是C偷的。 C:是D偷的。 D:B在說(shuō)謊。
已知: 1. 四句話中恰好有兩句是真的。 2. 小偷說(shuō)的話一定是假話。 3. 非小偷不一定說(shuō)真話,也可能說(shuō)假話。
請(qǐng)問(wèn):誰(shuí)偷了寶石?
這道題看似簡(jiǎn)單,但其實(shí),在給出的條件下,B和C都滿(mǎn)足。因此,這是一道故意設(shè)計(jì)的「陷阱題」:如果模型直接給出唯一答案C,說(shuō)明它沒(méi)有認(rèn)真驗(yàn)證唯一性。
真正想測(cè)的是,模型會(huì)不會(huì)發(fā)現(xiàn)題目本身不充分。
更強(qiáng)模型應(yīng)該回答:無(wú)法唯一確定,小偷可能是B或C。題目條件不足。
這道題給GPT-5.5后,它成功發(fā)現(xiàn)了陷阱。
![]()
把這道題給DeepSeek-V4后,一個(gè)直觀感受就是:它的思考過(guò)程,真的十分長(zhǎng)長(zhǎng)長(zhǎng)長(zhǎng)長(zhǎng)。
GPT-5.5十幾秒就出了答案,四分鐘了DeepSeek-V4還在跑。
不過(guò)好在,V4最終也給出了正確答案。結(jié)果是好的,就是過(guò)程比較慢。
![]()
第二題,我們用數(shù)字競(jìng)賽題,來(lái)測(cè)試CoT的思考上限。重點(diǎn)比拼兩個(gè)模型的數(shù)學(xué)邏輯推理和思考模式效能。
既然DeepSeek-V4宣稱(chēng)在STEM和競(jìng)賽型代碼上比肩頂級(jí)閉源模型,那我們就看看V4和GPT-5.5在面對(duì)人類(lèi)智力天花板題目時(shí),誰(shuí)的推導(dǎo)過(guò)程更嚴(yán)密,誰(shuí)會(huì)出現(xiàn)更多幻覺(jué)。
我們選了去年國(guó)際奧數(shù)決賽的一道真題:
Alice和Bob正在玩一個(gè)名為inekoalaty的雙人游戲,這個(gè)游戲的規(guī)則依賴(lài)于一個(gè)雙方都知道的正實(shí)數(shù)λ。
在游戲的第n輪(從n=1開(kāi)始),會(huì)發(fā)生以下情況:
? 如果n是奇數(shù),Alice選擇一個(gè)非負(fù)實(shí)數(shù)x?,使得x? + x? + ? + x?的總和不超過(guò)λn。
? 如果n是偶數(shù),Bob選擇一個(gè)非負(fù)實(shí)數(shù)x?,使得x?2 + x?2 + ? + x?2的總和不超過(guò)n。
如果一個(gè)玩家無(wú)法選擇一個(gè)合適的x?,游戲結(jié)束,另一個(gè)玩家獲勝。如果游戲無(wú)限進(jìn)行下去,沒(méi)有玩家獲勝。所有選定的數(shù)字對(duì)兩個(gè)玩家都是已知的。
需要確定的是,哪些λ的值能確保Alice有獲勝策略,以及哪些λ的值能確保Bob有獲勝策略。
![]()
原題和答案:https://web.evanchen.cc/exams/IMO-2025-notes.pdf
在進(jìn)階思考深度下,GPT-5.5得到了正確答案:
![]()
全程耗時(shí)2分鐘51秒,思路清晰,輸出格式也很漂亮。
![]()
在專(zhuān)家模式下,開(kāi)啟思考模式,同樣的題目輸入DeepSeek──
![]()
DeepSeek在思考過(guò)程結(jié)束前,沒(méi)有給出明確的輸出。
點(diǎn)擊繼續(xù)后,DeepSeek也發(fā)現(xiàn)了答案的線索:
![]()
最后,DeepSeek也成功證明了這道IMO決賽真題。
![]()
可以看出,DeepSeek推理能力、思考深度的確進(jìn)步明顯。
接下來(lái),我們考驗(yàn)一下兩個(gè)模型的可視化能力。
生成一個(gè)HTML網(wǎng)頁(yè)介紹人類(lèi)的起源和生物的進(jìn)化,要圖文并茂,好理解。
DeepSeek這次效果更佳,GPT-5.5生成格式有些問(wèn)題。
![]()
![]()
![]()
接下來(lái),要求兩個(gè)模型開(kāi)發(fā)一個(gè)游戲網(wǎng)站,測(cè)試它們?cè)趧?dòng)態(tài)圖形、3D空間交互、碰撞檢測(cè)和整體游戲架構(gòu)方面的能力。
通過(guò)最終呈現(xiàn),可以清晰對(duì)比兩個(gè)模型在2D細(xì)膩特效與3D場(chǎng)景構(gòu)建、光照與實(shí)時(shí)粒子系統(tǒng)方面的代碼生成能力、架構(gòu)合理性以及視覺(jué)審美水平。
跟上面一樣,GPT-5.5很快完成了這個(gè)任務(wù),在預(yù)覽中呈現(xiàn)了網(wǎng)站效果。
![]()
上下滾動(dòng)查看更多
![]()
DeepSeek-V4的思考時(shí)間不長(zhǎng),最終效果不如GPT-5.5,這一輪V4完敗。
![]()
![]()
GPT-5.5:更像個(gè)人了
接下來(lái),我們還搜羅了一波AI大V和開(kāi)發(fā)者們對(duì)GPT-5.5的實(shí)測(cè)。
在今天發(fā)布之前,多位早期測(cè)試者已經(jīng)用了兩周。他們的結(jié)論高度一致:在編程、推理、長(zhǎng)任務(wù)三個(gè)維度上,GPT-5.5全面登頂。
但真正讓人坐不住的不是它更聰明了,是它更「像個(gè)人」了。
更貴的單價(jià),反而更省錢(qián);更強(qiáng)的能力,反而更會(huì)聊天;更高的自主性,反而更聽(tīng)話。這一次,OpenAI拆掉了舊時(shí)代的發(fā)動(dòng)機(jī),直接給模型裝上了「靈魂」。
Codex,直接淘汰「AI輔助編程」!
可以說(shuō),GPT-5.5的Codex模式,直接把「AI輔助編程」這個(gè)詞淘汰了。
一位測(cè)試者扔給它一份完整的PRD文檔,只說(shuō)了一個(gè)詞:go。
幾個(gè)小時(shí)后,GPT-5.5就獨(dú)立完成了整個(gè)項(xiàng)目構(gòu)建。
更關(guān)鍵的,是GPT-5.5的工作方式。
它并不是寫(xiě)完代碼等人審,而是自己形成了閉環(huán)——構(gòu)建,視覺(jué)檢查,發(fā)現(xiàn)問(wèn)題,再迭代。
這種自主性,在其他模型上從未見(jiàn)過(guò)。
OpenAI研究員Noam Brown的反饋,相信大家都已經(jīng)看過(guò)了。
用他的話說(shuō),「有了GPT-5.5,我的IC效率比以往任何時(shí)候都高。我現(xiàn)在可以像專(zhuān)業(yè)人士一樣編寫(xiě)CUDA kernels,可以依靠它來(lái)運(yùn)行我的研究實(shí)驗(yàn)。」
![]()
后端開(kāi)發(fā)、復(fù)雜Bug定位、大型代碼庫(kù)理解,GPT-5.5在這些維度全面領(lǐng)先。
有測(cè)試者專(zhuān)門(mén)讓它用Svelte寫(xiě)了一個(gè)自定義虛擬滾動(dòng)實(shí)現(xiàn),完美調(diào)用了所有bind原語(yǔ)。
他的評(píng)價(jià)是:「我見(jiàn)過(guò)AI寫(xiě)出的最好的代碼,來(lái)自這個(gè)模型。」
在世界上最難的電子表格任務(wù)上,GPT-5.5實(shí)現(xiàn)全新SOTA:速度最快、效率最高。
![]()
![]()
更狠的是,GPT-5.5的持續(xù)研究能力,已有跡象表明AI已經(jīng)能勝任研究合作者——
人類(lèi)研究人員只需要提出構(gòu)想,全程無(wú)需寫(xiě)一行代碼,GPT-5.5全部自主完成。
![]()
甚至可以自主運(yùn)行31個(gè)小時(shí)!
![]()
這意味著,AI正從「助理」變?yōu)椤腹蛡虮埂D悴恍枰嬖V它怎么走,你只需要給它一個(gè)終點(diǎn)。
不過(guò)短板同樣存在。
前端設(shè)計(jì)仍然不如Opus,響應(yīng)速度不如Opus 4.6 Fast。
![]()
復(fù)雜布局有時(shí)候直接甩一張img了事,SVG硬編碼把自己繞暈。
而且變得過(guò)度謹(jǐn)慎——?jiǎng)硬粍?dòng)就問(wèn)你問(wèn)題,prompt稍有不慎就會(huì)觸發(fā)「瘋狂寫(xiě)單元測(cè)試」模式。
總結(jié)就是:能力很強(qiáng),但需要馴服。
沃頓商學(xué)院的教授Ethan Mollick測(cè)試了GPT-5.5好幾周,得出結(jié)論:目前,GPT-5.5 Pro就是解決復(fù)雜問(wèn)題的最佳模型。
![]()
更貴的模型,怎么反而更便宜
GPT-5.5的定價(jià)比5.4更高。
![]()
紙面上看不是好消息。
但一位深度測(cè)試兩周的開(kāi)發(fā)者給出了關(guān)鍵數(shù)據(jù):達(dá)到GPT-5.4同等智能水平,GPT-5.5消耗的Token顯著更少。綜合算下來(lái),整體運(yùn)行成本反而更低。
「這可能比大多數(shù)人意識(shí)到的更重要。」
![]()
在Artificial Analysis指數(shù)的成本性能前沿上,GPT-5.5模型系列占據(jù)絕對(duì)主導(dǎo)地位。
![]()
速度端的提升,就更加直觀了。
早期測(cè)試者的實(shí)測(cè)數(shù)據(jù)擺在這里——
GPT-5.5 Thinking Heavy模式,2分鐘出的答案,比GPT-5.4 Thinking Heavy花10分鐘出的更好。
GPT-5.5 Pro,8分鐘的輸出質(zhì)量,超過(guò)GPT-5.4 Pro花30分鐘的結(jié)果。
同樣的活,時(shí)間砍了80%,質(zhì)量還漲了。
Token效率這件事為什么重要?因?yàn)樗苯記Q定了AI Agent的經(jīng)濟(jì)可行性。
一個(gè)每跑一次任務(wù)就燒掉幾美元Token的模型,沒(méi)法大規(guī)模部署到真實(shí)工作流里。現(xiàn)在,GPT-5.5把這個(gè)門(mén)檻往下壓了一大截。
![]()
為什么GPT-5.5感覺(jué)不一樣?
GPT-5.5建立在一次新的預(yù)訓(xùn)練(pre-train)之上。
所謂預(yù)訓(xùn)練,就是那種規(guī)模龐大、成本高昂的基礎(chǔ)訓(xùn)練過(guò)程:在指令微調(diào)、工具使用和推理腳手架等后訓(xùn)練步驟加入之前,它先教會(huì)基礎(chǔ)模型底層模式。
后訓(xùn)練可以讓模型更聽(tīng)話、更安全,或者更具智能體能力;但一次新的預(yù)訓(xùn)練,則可能改變模型本身的「重心」。
其實(shí),OpenAI已經(jīng)通過(guò)GPT-5.4證明,自己重新具備了強(qiáng)競(jìng)爭(zhēng)力。
GPT-5.4使用的仍然是早期GPT-5.x模型的同一套預(yù)訓(xùn)練。
而現(xiàn)在發(fā)布一個(gè)新的預(yù)訓(xùn)練。
![]()
此外,有國(guó)外科技媒體報(bào)道,GPT-5.5也就是Spud「將是更智能的預(yù)訓(xùn)練模型」。
![]()
現(xiàn)在,GPT-5.5的正式發(fā)布,更貴反而更便宜,編程效果又好得出奇,推測(cè)GPT-5.5可能只是新預(yù)訓(xùn)練模型的初始強(qiáng)化學(xué)習(xí)Checkpoint。
![]()
奧特曼直接攤牌了:GPT-5.5還會(huì)快速迭代。
![]()
這說(shuō)明OpenAI想繼續(xù)向Anthropic施壓:它押注的是,回應(yīng)Claude的下一步,不只是圍繞同一個(gè)底座做更好的腳手架,而是換一個(gè)不同的基礎(chǔ)模型。
GPT-5.5就是GPT-5.5,但無(wú)人關(guān)心了
整個(gè)GPT-5.5發(fā)布中,最重要的成果可能是前所未有的網(wǎng)絡(luò)安全能力:
在一次網(wǎng)絡(luò)攻防評(píng)估中,GPT-5.5在10次試驗(yàn)中有1次成功接管了模擬的企業(yè)網(wǎng)絡(luò),預(yù)算為1億個(gè)token。
![]()
此前,唯一能夠完成此任務(wù)的模型Claude Mythos,它在10次嘗試中成功了3次。
Opus 4.6和Opus 4.7都做不到,GPT-5.4、GPT-5.3-Codex也做不到。
在衡量AI長(zhǎng)時(shí)間跨度內(nèi)經(jīng)營(yíng)業(yè)務(wù)能力的Vending-Bench Arena中,GPT-5.5再次擊敗Opus 4.7。
![]()
而Opus 4.7依舊延續(xù)Opus 4.6的策略:撒謊賴(lài)賬,拒不退貨;GPT-5.5贏得堂堂正正。
這說(shuō)明GPT的對(duì)齊和能力同步提升,堪稱(chēng)「德才兼?zhèn)洹⑽奈潆p全」。
![]()
GPT終于通關(guān)《寶可夢(mèng)》!
![]()
GPT-5.4曾在一個(gè)循環(huán)迷宮里反復(fù)讀檔,像個(gè)陷入算法死循環(huán)的孤魂。
而GPT-5.5不僅第一次嘗試就輕松打贏了勁敵,甚至展現(xiàn)出真正的「人類(lèi)邏輯」——它會(huì)主動(dòng)拿取道具、購(gòu)物、規(guī)劃路徑,而不是暴力試錯(cuò)。
在網(wǎng)友定制的超級(jí)難度的《寶可夢(mèng) 水晶》中,GPT-5.5依舊輕松通關(guān)。
![]()
別被版本號(hào)里的「+0.1」騙了,GPT-5.5是一次重大更新。
詭異的是,對(duì)于99%的用戶(hù)而言,這些都不重要。
最重要的亮點(diǎn)在于能力范圍。GPT-5.5彌補(bǔ)了GPT系列在某些方面的不足:
基于現(xiàn)有上下文進(jìn)行設(shè)計(jì)、iOS/原生Mac應(yīng)用、安全等方面。
![]()
這次發(fā)布有一種心理上很奇怪的地方。
GPT-5感覺(jué)像一次相變,因?yàn)樗Ц吡恕缚赡苄浴沟奶旎ò濉?/p>
GPT-5.3-Codex感覺(jué)像一次相變,因?yàn)樗岄L(zhǎng)時(shí)間運(yùn)行的自主工程在操作層面變得真實(shí)可用。
GPT-5.5并非如此。
它更像把粗糙邊緣磨平,讓薄弱類(lèi)別不再那么弱,讓模型在更多真實(shí)世界的混亂工作中變得更有用。
它并不完美,它沒(méi)有突然變成最好的設(shè)計(jì)模型,它不是魔法。
如果你想認(rèn)真完成重要工作,你仍然需要給它明確目標(biāo)、真實(shí)上下文和驗(yàn)證方式。
對(duì)大多數(shù)人、在大多數(shù)任務(wù)上,GPT-5.5與其說(shuō)是一種全新能力,不如說(shuō)是讓現(xiàn)有能力變得更寬、更安全、更可靠。它把這個(gè)模型補(bǔ)圓了。
參考資料:
https://x.com/nicochristie/status/2047476237464211721
https://x.com/MatthewBerman/status/2047375703516361174
https://www.oneusefulthing.org/p/sign-of-the-future-gpt-55
https://www.reddit.com/r/singularity/comments/1sttcbf/is_the_ai_subscription_bubble_starting_to_crack/
https://x.com/ArtificialAnlys/status/2047378419282034920
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.