凌晨1點,OpenAI 終于發布了萬眾期待的 GPT-5。
距離 GPT-4 發布,已經過去整整兩年半了。我還清晰記得那是2023年的3月14號,距離我從大廠離開還不到一周時間。那個時刻,對AI的興奮和熱情完全掩蓋了面對未知前路的恐懼。
在這兩年多里,OpenAI其實已經發布了十多個不同的模型(包括什么4o、4.1、4.5、o1、o3、o4……模型名字快趕上顯卡廠商了)。
但這次,他們終于喊出了GPT-5的名號。
所以,它到底有什么新變化?值不值得你切換?Claude 4.1 是不是要下崗了?
在展開介紹之前,我們先來看看一個小烏龍:
世界頂級AI公司也能做出這種PPT?
在發布會的圖表里,OpenAI展示了一個模型評估的對比:
你看這個數字,52.8 比 69.1 還高,你信嗎?
而且,這個錯誤還不止一次
我服了這個草臺班子的世界。
我合理懷疑,這PPT要是讓GPT-5自己來做,可能反而更靠譜。
GPT-5 三個版本,立刻上線?
OpenAI這次一口氣發布了三個版本的GPT-5 API:GPT-5、GPT-5 Mini、GPT-5 Nano
官網內提供的版本估計也就用這幾個大小不一的模型做些小改造。OpenAI官方說是所有用戶今天都能用上GPT5。
但截至我寫文章時,ChatGPT官網還是老樣子,沒更新。
反倒是我在Cursor里已經能用上 GPT-5 了,OpenAI:你是不是舔Cursor舔猛了?
這里插播個有趣的小故事,其實OpenAI是Cursor最早的投資者之一,但是隨著Claude模型能力的增強,Cursor逐漸和Anthropic變得眉來眼去,經常有深度交流和聯合發布了。
但隨著現在Anthropic出了個和Cursor正面競爭的Claude Code,這三者的關系又迎來了有趣的變數,敵人的敵人,再次成了朋友。
“自適應思考”:抄了Claude的作業?
這次GPT-5最大的變化之一,是加入了自適應思考能力:
也就是說,模型會根據你的問題,動態決定要不要深度思考、思考多久。
這聽起來很先進,你不需要糾結選GPT-4o還是o3還是o4-mini之類的模型了,但實際上……
早在 Claude 的 CEO 就提出過類似的理念 —— 讓模型既能快速直覺(系統一),又能深度推理(系統二),而不是二選一。Claude模型從3.7開始也就是這么設計的。
所以OpenAI這波,多少有點跟隨者的味道。
發布會最大重點:全力壓注編程能力
發布會超過一半時間都在講「編程能力」和「Agent執行」。
請來了 Cursor 的 CEO 現場演示
實測代碼修改、網頁生成、Agent 多步驟推理
你從這個重點方向也能看出:
OpenAI很清楚,現在Anthropic靠 Claude 在API市場上搶走了大量寫代碼的用戶和收入。
一組數據告訴你,現在OpenAI真有點急
OpenAI 總年收入:約 125 億美元
Anthropic 總年收入:約 50 億美元(其中API收入已反超OpenAI)
而且 Anthropic 的 API 收入中,顯然主要來自寫代碼的用戶(Cursor、Github Copilot等)。
這也是 OpenAI 為什么在 GPT-5 上要主打「編程」,它是真想在API市場和Anthropic剛一剛。
GPT-5 vs Claude 4.1,代碼實測結果來了
我也挑了發布會里兩個 GPT-5 展示案例,復制了 Prompt,用 Claude 4.1 在 Cursor 中重跑了一遍。
? 案例1:學習法語的卡牌游戲網站
Create a beautiful, highly interactive web app for my partner, an English speaker, to learn French.
Track her daily progress.
Use a highly engaging theme.
Include a variety of activities (e.g., flashcards, quizzes, etc.).
One activity should be a snake-style game in which the snake is replaced by a mouse and the apples are replaced by cheese. Each time the mouse eats a piece of cheese, play a voice-over that introduces a new French word so she can practice pronunciation while playing.
Make it controllable with the arrow keys.
Think before answering. Render everything in canvas.GPT-5 演示的效果很不錯,多個卡牌、頁面抽卡邏輯也在線。
但我用 Claude 4.1 復現時,發現頁面結構也基本一致,只是交互有點小bug。
結論:表現接近,GPT-5略強,但不是質變。
? 案例2:生成創業公司財務看板
Please create a finance dashboard for my Series D startup, which makes digital fidget spinners for Al agents.
The target audience is the CFO and c-suite, to check every day and quickly understand how things are going. It should be beautifully and tastefully designed, with some interactivity, and have clear hierarchy for easy focus on what matters. Use fake names for any companies and generate sample data.
Make it colorful!
Use Next.js and tailwind CSS.GPT-5 的可視化儀表盤做得很精致。
但 Claude 4.1 給出的交互式圖表也幾乎一樣,甚至細節上更有設計感。
結論:不分上下,我個人更偏愛 Claude 的審美。
那GPT-5到底強在哪?值不值得用?
OpenAI官方當然是放了一堆Benchmark,什么AIME數學 100%,SWE-Bench 74.9%……
但我想說句實話:
這些Benchmark的價值越來越低了。
高強度數理邏輯對普通人來說沒意義;從98.4%提升到99%,對真實使用體驗沒多少幫助;用戶更關心的是它是否能幫我寫得更好、寫得更自然。
最后
GPT-5說實話是有點令人失望了,更像是一次 GPT-4.6 式的升級。
或者,也許,我們再也不應該以2022年11月的ChatGPT、2023年3月的GPT-4那種發布的震撼級別來要求OpenAI了。
OpenAI在那刻時刻就已經完成了他們石破天驚的歷史使命,把大語言模型和訓練方法帶給了全世界。現在模型能力的升級已經進入了深水區,也許我們后面真的只能一次次看到擠牙膏式的性能提升,或者成本降低。
可惜,AGI還沒來
幸好,AGI還沒來
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.