![]()
「奧特曼最大的產品不是 GPT-5,而是期待本身」
01
GPT-5發布會前夜,網上已經掀起爆肝看GPT-5發布會直播的熱潮,試圖重回兩年多以前GPT4發布時帶來的轟動。
熱鬧的另一面,是DeepSeek的冷清。
深夜9點,DeepSeek所在的杭州拱墅區匯金國際寫字樓已經沒什么人,各個樓層的燈光都已熄滅,一層大廳空空蕩蕩。DeepSeek位于A座12層,只有一扇窗戶透著燈光,里面有個別加班的人。
夜色漸濃,等了半小時,我們在樓下遇到一位剛下班的DeepSeek的員工。問及他對今晚OpenAI發布GPT5怎么看,團隊會不會聚在一起熬夜看直播研究競品。他說:“我們會關注北美那邊AI的發展,向他們學習,但不會一起看直播。”
對海外大模型巨頭的關切,是AI競賽下的常態。發布會過后,“氛圍”變了。我們并不知道研究員內部會如何看待這場發布會,他們還在測試體驗中。但在公開可見的大眾情緒里,人們似乎松了一口氣。
有博主直言,人們意識到“至少到 2030 年,飯碗還在”——AGI 的降臨似乎遠沒有宣傳中那么迫在眉睫。這對于擔憂工作被取代的普通人來說,無疑是個“好消息”。
要知道,早在兩個月前,Altman就開始高調為GPT-5宣傳了。6月,他發布個人播客《溫和的奇點》稱,“人類即將打造數字超級智能”——這表明他看到了GPT-5中令人難以置信的新功能。這篇文章閱讀高達45萬。
7月,Altman在接受采訪中更是流露出GPT-5的不可思議,甚至暗示測試 GPT-5讓他感到緊張,將其開發比作“曼哈頓計劃”,不知道會將人類社會導向何處。
這些言辭都暗示,GPT-5將會掀起巨大的社會變革。當Altman把大眾預期拉到很高,發布會無疑成為最后決定成敗的關鍵。
但很顯然,這場發布會沒有太多驚喜,GPT-5并未成為人工智能史上的一個新路標,人們反而會覺得槽點多過亮點。
網友們一邊看直播一邊驚呼,“哦,AGI來了,你可以用GPT-5改變聊天的顏色”,有人直白地說,沒有感受到AGI的腳步聲,倒是覺得越來越像蘋果了。
OpenAI對于前端交互頁面的美觀版面,也花費了數分鐘來講述。看多了這種交互設計頁面的人對此感到震驚,這也值得渲染?
![]()
大家津津樂道的還是,GPT-5被奧特曼描述成比任何人類都聰明,卻在發布會上出現了數學柱形圖的低級錯誤。GPT-5在沒有推理時的得分是52.8,竟沒有O3的69.1的柱形圖高,而且69.1和30.8的柱形圖一樣高。
![]()
有網友調侃道,莫非使用GPT-5做的?
博彩市場將GPT-5視為一個巨大的失敗。發布會前后,人們對OpenAI的好感從73%下降到13%。大家通過與 OpenAI 下注,可以獲得6倍的收益。這一對比還在下降。
![]()
和4年前GPT-3引發的行業變革相比,GPT-5顯然沒能刷新自己。
奧特曼最大的產品不是GPT-5,而是期待本身。他擅長在公眾和資本市場的想象力中,讓大家等待,然后上癮。這種手法的副作用也顯而易見:當現實沒能達到故事里的高度,落差會變得格外刺眼。Siri曾經歷過,谷歌 Glass 也經歷過,如今輪到 GPT-5 站在這條鋼索上。
在當天接受媒體的采訪中,Sam Altman終于戳破提前數月在各個場合對GPT-5預期管理的泡沫,承認GPT-5尚未破解AGI。
02
過去五年里,OpenAI 確實一次次站在舞臺中央,把全世界拉進了一場人工智能競賽。這些“GPT時刻”,作為人工智能史上的方向標,創造了一次次的人工智能的狂歡。
2020 年,GPT-3第一次讓世界意識實現AGI不再是個笑話。深度學習教父辛頓看見未來的可怖,不惜放棄此前引以為傲50年的深度學習研究,轉做一名人工智能風險的宣傳大使,頻繁活躍在輿論中。
他提醒人們,人工智能會在智能上超越人類,我們人類應該盡快努力,想好應對策略。
GPT-3帶來的沖擊還在于1750億參數,相比之前的大模型研究幾乎是百倍的提升,這個規模在當時是一個難以想象的數字。開發者用它寫詩、編故事、生成代碼,讓人第一次感受到“機器也能像人一樣創作”。
GPT-3還掀起國內大模型創業浪潮。百川智能、面壁智能等公司于2022–2023年迅速入局,而智譜AI等企業雖更早成立,也在GPT-3的催化下加速大模型布局。
2023年3月 GPT-4 發布時,引起的轟動效應用“核彈級”來形容并不夸張。GPT-4將AI帶入多模態世界,不僅能“看懂文字”,還能解讀圖片——用戶上傳一道奧數題的圖片,它能一步步解答,上傳網頁截圖,它能直接生成對 應 HTML代碼。
彼時OpenAI的官網一度被擠到502報錯,ChatGPT Plus 的支付系統直接宕機,候補名單幾小時內涌入數萬開發者。相關話題在微博熱搜掛了三天,馬斯克甚至在推特轉發“AI可能毀滅人類”的聯名信,呼吁暫停訓練更強大的模型。
這在北美還掀起智能體應用熱潮。“AI 助手”概念加速落地,企業開始將其融入客服、內容審核、編程輔助等環節。
等了兩年半才更新的GPT-5,轟動效果明顯不如前兩個版本。但是和以往的模型相比,全方位的功能升級和跑分成績確實大幅提升了。一位觀看發布會直播的六小虎研究員說,看各項指標都還行,不過具體什么樣,還是得測試后才知道。
最值得講述的似乎是編程能力,發布會上花費在編程能力上的時間,占據了整場發布會的1/3。
在衡量Python編碼能力的Swe-Bench上,GPT-5最高版本可執行真實世界軟件開發任務的74.9%,高于O3的69.1%。在基準測試AP上,復合編程語言,gpt-5最高版本可達到88%,相較于O3分有了顯著提高。
![]()
發布會現場,OpenAI還引用電信行業案例。工作人員介紹,兩個月前,OpenAI發布新T2基準測試,是對模型調用工具并與用戶協同解決具有挑戰性問題的能力的測試。電信行業沒有一個模型的得分超過49%,GPT-5得分是97%。
醫療模型領域表現也有進步。HealthBench 的測試得分是46.2%,發布會現場甚至還邀請到一位癌癥患者,講述自己使用GPT-5了解病情的細節,獲得知識,減少看病時的無助感。
GPT?5另一個升級是,將原來分散的模型統一到一個系統,包含多數情況適用的智能快速模型(gpt-5-main)和一個復雜問題的深度推理模型(gpt-5-thinking)。C端用戶不用再擔心在多個模型里橫跳,系統會根據任務、用戶意愿等自行研判,然后調用不同的模型完成。
盡管如此,GPT?5也遠未得到人們的預期。
OpenAI的首席科學家帕喬基,是發布會現場最后一位出席嘉賓。他幾乎是肉眼可見的緊張,一度多次卡殼停頓,然后倉促結束。早前接受媒體采訪時他說,真正的智能在于創造力,在于提出新穎的想法,以及將來自不同來源的想法聯系起來。
不難看出,這次他對GPT?5并沒那么自信。
03
8月的這周,國外AI巨頭推出的新品令人眩暈。
除了這次GPT-5的更新,8月6日,OpenAI、Google DeepMind、Anthropic在同一天發布新品,OpenAI 開源 GPT-OSS,性能達到o4-mini水平,且能在高端筆記本上運行,Anthropic 推出 Claude Opus 4.1,重點強化了Agent 任務執行、編碼和推理能力,Google DeepMind 發布世界模型 Genie 3,一句話就能實時生成可交互世界。
這些產品都有各自的可圈可點之處,但都達不到年初“DeepSeek時刻”引起的轟動,人們迷戀那樣的時刻,以至于在日后的無數瞬間都渴望它能再現。
這當中就包含對R2的期待。
早在2月份,路透社就曾爆料,DeepSeek內部正在加速推出R2模型,該模型原計劃在5月初發布。實際上今年上半年,DeepSeek只對V3模型和R1進行了小版本升級,又發布了以V3為基座的DeepSeek-R1-0528。
截至目前,沒有更多關于DeepSeek-R2的可靠消息。
GPT-5不及預期,似乎又讓人想到了梁文鋒。在過去的兩個月,市場對DeepSeek的聲音越來越復雜。這里面有國外模型迭代升級加速的集體焦慮,也有對DeepSeek超高的期待。
正如一上海一位人工智能專家所說,國內就是太過于關注這些了,一直做一些incremental(漸進式)的事情,第一個實現AGI的公司,會實現Intelligence explosion(智能爆炸),其他的公司永遠不可能追上。
從始至終梁文鋒都是一個專注實現AGI的人,對外界不那么在乎很符合他的風格,更不會如奧特曼一樣高調營銷。
面對 GPT-5 不如預期的表現,人們容易把落空的期待投射到DeepSeek-R2上。但DeepSeek有自己的產品迭代節奏,不打擾或許是最好的方式。
自今年1月DeepSeek爆火以來,位于拱墅區匯金國際A座12層的深度求索,也成了人們的打卡點,以至于不得不嚴加管制。外來人員無法進入電梯,即使混進電梯,DeepSeek所在的12層還設有一道門禁,只有員工刷卡或按指紋才可以進入,而其他樓層則沒有增設這道門禁。
大廳里的保安說,經常有人過來問DeepSeek的事,沒有人帶,樓層是不讓外來人進的,很多人會在樓外打卡。
樓外全家超市的老板說:“幾乎每天都有人來問我DeepSeek,問我的都是想上樓又上不去的,有一次一個姑娘說她是全家的會員,特別喜歡全家的東西,讓我帶她去十二樓,可我哪有什么辦法啊。”
晚上十點多,匯金國際寫字樓已經很少有人出來,周圍變得更加安靜,唯獨門口的環城北路依舊車流如織。抬頭望望12樓,那扇透著燈光的窗戶毅然嵌在那里。
![]()
作者|柳嘉
編輯|培培
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.