網易首頁 > 網易號 > 正文申請入駐

GPT5不及預期，梁文鋒仍有機會

2025-08-08 14:22:46　來源: 白鯨實驗室one

北京舉報

分享至

「奧特曼最大的產品不是 GPT-5，而是期待本身」

GPT-5發布會前夜，網上已經掀起爆肝看GPT-5發布會直播的熱潮，試圖重回兩年多以前GPT4發布時帶來的轟動。

熱鬧的另一面，是DeepSeek的冷清。

深夜9點，DeepSeek所在的杭州拱墅區匯金國際寫字樓已經沒什么人，各個樓層的燈光都已熄滅，一層大廳空空蕩蕩。DeepSeek位于A座12層，只有一扇窗戶透著燈光，里面有個別加班的人。

夜色漸濃，等了半小時，我們在樓下遇到一位剛下班的DeepSeek的員工。問及他對今晚OpenAI發布GPT5怎么看，團隊會不會聚在一起熬夜看直播研究競品。他說：“我們會關注北美那邊AI的發展，向他們學習，但不會一起看直播。”

對海外大模型巨頭的關切，是AI競賽下的常態。發布會過后，“氛圍”變了。我們并不知道研究員內部會如何看待這場發布會，他們還在測試體驗中。但在公開可見的大眾情緒里，人們似乎松了一口氣。

有博主直言，人們意識到“至少到 2030 年，飯碗還在”——AGI 的降臨似乎遠沒有宣傳中那么迫在眉睫。這對于擔憂工作被取代的普通人來說，無疑是個“好消息”。

要知道，早在兩個月前，Altman就開始高調為GPT-5宣傳了。6月，他發布個人播客《溫和的奇點》稱，“人類即將打造數字超級智能”——這表明他看到了GPT-5中令人難以置信的新功能。這篇文章閱讀高達45萬。

7月，Altman在接受采訪中更是流露出GPT-5的不可思議，甚至暗示測試 GPT-5讓他感到緊張，將其開發比作“曼哈頓計劃”，不知道會將人類社會導向何處。

這些言辭都暗示，GPT-5將會掀起巨大的社會變革。當Altman把大眾預期拉到很高，發布會無疑成為最后決定成敗的關鍵。

但很顯然，這場發布會沒有太多驚喜，GPT-5并未成為人工智能史上的一個新路標，人們反而會覺得槽點多過亮點。

網友們一邊看直播一邊驚呼，“哦，AGI來了，你可以用GPT-5改變聊天的顏色”，有人直白地說，沒有感受到AGI的腳步聲，倒是覺得越來越像蘋果了。

OpenAI對于前端交互頁面的美觀版面，也花費了數分鐘來講述。看多了這種交互設計頁面的人對此感到震驚，這也值得渲染？

大家津津樂道的還是，GPT-5被奧特曼描述成比任何人類都聰明，卻在發布會上出現了數學柱形圖的低級錯誤。GPT-5在沒有推理時的得分是52.8，竟沒有O3的69.1的柱形圖高，而且69.1和30.8的柱形圖一樣高。

有網友調侃道，莫非使用GPT-5做的？

博彩市場將GPT-5視為一個巨大的失敗。發布會前后，人們對OpenAI的好感從73%下降到13%。大家通過與 OpenAI 下注，可以獲得6倍的收益。這一對比還在下降。

和4年前GPT-3引發的行業變革相比，GPT-5顯然沒能刷新自己。

奧特曼最大的產品不是GPT-5，而是期待本身。他擅長在公眾和資本市場的想象力中，讓大家等待，然后上癮。這種手法的副作用也顯而易見：當現實沒能達到故事里的高度，落差會變得格外刺眼。Siri曾經歷過，谷歌 Glass 也經歷過，如今輪到 GPT-5 站在這條鋼索上。

在當天接受媒體的采訪中，Sam Altman終于戳破提前數月在各個場合對GPT-5預期管理的泡沫，承認GPT-5尚未破解AGI。

過去五年里，OpenAI 確實一次次站在舞臺中央，把全世界拉進了一場人工智能競賽。這些“GPT時刻”，作為人工智能史上的方向標，創造了一次次的人工智能的狂歡。

2020 年，GPT-3第一次讓世界意識實現AGI不再是個笑話。深度學習教父辛頓看見未來的可怖，不惜放棄此前引以為傲50年的深度學習研究，轉做一名人工智能風險的宣傳大使，頻繁活躍在輿論中。

他提醒人們，人工智能會在智能上超越人類，我們人類應該盡快努力，想好應對策略。

GPT-3帶來的沖擊還在于1750億參數，相比之前的大模型研究幾乎是百倍的提升，這個規模在當時是一個難以想象的數字。開發者用它寫詩、編故事、生成代碼，讓人第一次感受到“機器也能像人一樣創作”。

GPT-3還掀起國內大模型創業浪潮。百川智能、面壁智能等公司于2022–2023年迅速入局，而智譜AI等企業雖更早成立，也在GPT-3的催化下加速大模型布局。

2023年3月 GPT-4 發布時，引起的轟動效應用“核彈級”來形容并不夸張。GPT-4將AI帶入多模態世界，不僅能“看懂文字”，還能解讀圖片——用戶上傳一道奧數題的圖片，它能一步步解答，上傳網頁截圖，它能直接生成對應 HTML代碼。

彼時OpenAI的官網一度被擠到502報錯，ChatGPT Plus 的支付系統直接宕機，候補名單幾小時內涌入數萬開發者。相關話題在微博熱搜掛了三天，馬斯克甚至在推特轉發“AI可能毀滅人類”的聯名信，呼吁暫停訓練更強大的模型。

這在北美還掀起智能體應用熱潮。“AI 助手”概念加速落地，企業開始將其融入客服、內容審核、編程輔助等環節。

等了兩年半才更新的GPT-5，轟動效果明顯不如前兩個版本。但是和以往的模型相比，全方位的功能升級和跑分成績確實大幅提升了。一位觀看發布會直播的六小虎研究員說，看各項指標都還行，不過具體什么樣，還是得測試后才知道。

最值得講述的似乎是編程能力，發布會上花費在編程能力上的時間，占據了整場發布會的1/3。

在衡量Python編碼能力的Swe-Bench上，GPT-5最高版本可執行真實世界軟件開發任務的74.9%，高于O3的69.1%。在基準測試AP上，復合編程語言，gpt-5最高版本可達到88%，相較于O3分有了顯著提高。

發布會現場，OpenAI還引用電信行業案例。工作人員介紹，兩個月前，OpenAI發布新T2基準測試，是對模型調用工具并與用戶協同解決具有挑戰性問題的能力的測試。電信行業沒有一個模型的得分超過49%，GPT-5得分是97%。

醫療模型領域表現也有進步。HealthBench 的測試得分是46.2%，發布會現場甚至還邀請到一位癌癥患者，講述自己使用GPT-5了解病情的細節，獲得知識，減少看病時的無助感。

GPT?5另一個升級是，將原來分散的模型統一到一個系統，包含多數情況適用的智能快速模型（gpt-5-main）和一個復雜問題的深度推理模型（gpt-5-thinking）。C端用戶不用再擔心在多個模型里橫跳，系統會根據任務、用戶意愿等自行研判，然后調用不同的模型完成。

盡管如此，GPT?5也遠未得到人們的預期。

OpenAI的首席科學家帕喬基，是發布會現場最后一位出席嘉賓。他幾乎是肉眼可見的緊張，一度多次卡殼停頓，然后倉促結束。早前接受媒體采訪時他說，真正的智能在于創造力，在于提出新穎的想法，以及將來自不同來源的想法聯系起來。

不難看出，這次他對GPT?5并沒那么自信。

8月的這周，國外AI巨頭推出的新品令人眩暈。

除了這次GPT-5的更新，8月6日，OpenAI、Google DeepMind、Anthropic在同一天發布新品，OpenAI 開源 GPT-OSS，性能達到o4-mini水平，且能在高端筆記本上運行，Anthropic 推出 Claude Opus 4.1，重點強化了Agent 任務執行、編碼和推理能力，Google DeepMind 發布世界模型 Genie 3，一句話就能實時生成可交互世界。

這些產品都有各自的可圈可點之處，但都達不到年初“DeepSeek時刻”引起的轟動，人們迷戀那樣的時刻，以至于在日后的無數瞬間都渴望它能再現。

這當中就包含對R2的期待。

早在2月份，路透社就曾爆料，DeepSeek內部正在加速推出R2模型，該模型原計劃在5月初發布。實際上今年上半年，DeepSeek只對V3模型和R1進行了小版本升級，又發布了以V3為基座的DeepSeek-R1-0528。

截至目前，沒有更多關于DeepSeek-R2的可靠消息。

GPT-5不及預期，似乎又讓人想到了梁文鋒。在過去的兩個月，市場對DeepSeek的聲音越來越復雜。這里面有國外模型迭代升級加速的集體焦慮，也有對DeepSeek超高的期待。

正如一上海一位人工智能專家所說，國內就是太過于關注這些了，一直做一些incremental（漸進式）的事情，第一個實現AGI的公司，會實現Intelligence explosion（智能爆炸），其他的公司永遠不可能追上。

從始至終梁文鋒都是一個專注實現AGI的人，對外界不那么在乎很符合他的風格，更不會如奧特曼一樣高調營銷。

面對 GPT-5 不如預期的表現，人們容易把落空的期待投射到DeepSeek-R2上。但DeepSeek有自己的產品迭代節奏，不打擾或許是最好的方式。

自今年1月DeepSeek爆火以來，位于拱墅區匯金國際A座12層的深度求索，也成了人們的打卡點，以至于不得不嚴加管制。外來人員無法進入電梯，即使混進電梯，DeepSeek所在的12層還設有一道門禁，只有員工刷卡或按指紋才可以進入，而其他樓層則沒有增設這道門禁。

大廳里的保安說，經常有人過來問DeepSeek的事，沒有人帶，樓層是不讓外來人進的，很多人會在樓外打卡。

樓外全家超市的老板說：“幾乎每天都有人來問我DeepSeek，問我的都是想上樓又上不去的，有一次一個姑娘說她是全家的會員，特別喜歡全家的東西，讓我帶她去十二樓，可我哪有什么辦法啊。”

晚上十點多，匯金國際寫字樓已經很少有人出來，周圍變得更加安靜，唯獨門口的環城北路依舊車流如織。抬頭望望12樓，那扇透著燈光的窗戶毅然嵌在那里。

作者｜柳嘉

編輯｜培培

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.