
作者 | 王啟隆
出品 | CSDN(ID:CSDNnews)
2023 年 3 月 15 日,GPT-4 發布。當時大部分人還在搞清楚 ChatGPT 到底怎么用、官網地址在哪里,而我也只是淺嘗輒止地試了試 GPT-3.5 的效果,玩了玩 ChatBox,問了一些無聊的問題就不知道問什么了。
所以,至今仍清晰地記得,第一次與 GPT-4 認真對話后的那種感覺,腦子里盤旋的只有一個念頭:天變了。
那時的互聯網,洋溢著一種既興奮又慌亂的淘金熱氛圍。每個人都在瘋狂轉發匪夷所思的截圖,討論著哪些職業即將消失。我們真的以為,那就是奇跡本身了。
誰也沒想到,那僅僅是長夜的序章。
在漫長的 939 天等待后,北京時間 2025 年 8 月 8 日凌晨,OpenAI 終于揭開了GPT-5的面紗。世界屏息以待,期待著又一次“天變了”的奇跡。
然而,當大幕拉開,我們看到的,卻是一場遠比想象中更復雜、更矛盾、不可言說、不知從何說起的演出。就像今年 OpenAI 的常態:普通用戶贊不絕口、DAU 日益暴增;而硬核用戶罵聲遍天,我自己其實也早就經歷了從 GPT 到 Claude 和 Gemini 的幾次主力模型的更迭,很久不用 ChatGPT 了。而從去年 GPT-4o 那場驚艷的春季發布會之后,每次 OpenAI 的發布會都令人五味雜陳,炒作大于驚喜。
![]()
發布會伊始,Sam Altman 的定調就充滿了實用主義色彩:“GPT-3 像高中生,GPT-4o 像大學生,而 GPT-5,就像一個隨需應變的博士級專家團隊。” 關鍵詞不再是“聊天”,而是“做事”。
而實現這一點的核心,并非簡單地堆砌參數,而是一次架構上的哲學革命。
過去,用戶在 GPT-4o 的速度、o3 的深度推理之間痛苦抉擇,像是在一個擺滿了各色武器的軍火庫里猶豫不決。而 GPT-5 試圖終結這種“選擇的煩惱”。
它是一個統一的智能系統。其內部包含一個處理多數問題的快速模型( gpt-5-main ),一個為高難度問題設計的深度推理模型( gpt-5-thinking ),以及一個最關鍵的角色——實時路由器(real-time router)。 這個路由器會像一位經驗豐富的項目經理,根據你的問題類型、復雜度、甚至是你的一句“認真思考這個”,來動態決定調 動哪位“專家”出馬。
通過 API 使用 GPT-5 更簡單:它提供三種模型——常規(regular)、迷你(mini)和納米(nano),每種模型都可以在四種推理級別中的任意一種運行:最小(一個以前其他 OpenAI 推理模型中沒有的新級別)、低、中或高。 這些模型的輸入限制為 272,000 個 token,輸出限制(包括不可見的推理 token)為 128,000 個 token。它們支持文本和圖像作為輸入,僅支持文本作為輸出。
OpenAI 研究員 Tina Kim 在發布會上也表示:“有了 GPT-5,我們將淘汰所有舊模型”,與其說是自信,不如說是一種宣言。那個讓用戶眼花繚亂的“模型動物園”時代結束了,取而代之的,是一個擁有統一意志的、高度協同的智能有機體。
![]()
GPT-5 System Card,展示了新舊模型的繼承關系
任何新王的登基,都離不開一場盛大的“肌肉秀”。GPT-5 在各大基準測試中,交出了一份近乎屠榜的成績單。
數學能力:在被譽為“國際數學奧林匹克資格賽”的 AIME 2025 測試中,無工具輔助下取得了 94.6% 的驚人成績。
編程能力:在衡量真實世界軟件工程任務的 SWE-Bench 上創下 74.9% 的新高,在多語言編程測試 Aider Polyglot 上也達到了 88%。
多模態理解:在極具挑戰的 MMMU 基準上得分 84.2%。
![]()
但就是這個慣例的 benchmark 砸數據環節,居然翻車了。
眼尖的網友發現,發布會剛開始五分鐘,現場 PPT 上的柱狀圖畫得“相當隨心所欲”。例如,在一張圖中,69.1% 的柱子竟然比 52.8% 的還要短。
![]()
這個小小的插曲,連同馬斯克在 X 上立刻轉發的“Grok 4 在 ARC-AGI-2 上擊敗了 GPT-5”的“賀電”,共同構成了一個有趣的注腳。
![]()
跑分終究是冰冷的。真正的分野,發生在鮮活的、滾燙的實際體驗中。
這,正是 GPT-5 最核心、最令人著迷,也最讓人不安的地方。它沒有普惠所有創造者,而是做出 了明確的取舍。
首先是多模態。音頻輸入/輸出和圖像生成,目前不在 GPT-5 的技能范疇。這些功能仍由如 GPT-4o Audio、GPT-4o Realtime 及其迷你版本和 GPT Image 1 以及 DALL-E 圖像生成模型所覆蓋。
但沒準馬上就會有 GPT-5o 了,也說不定。
然后就是開發者最關心的AI 編程。今年是開發者幸福的一年,GPT-5 發布的同一天就有 Cursor CLI 的同期發布,各式各樣的 Coding Agent 全在今年井噴。
發布會上的演示已經足夠驚艷:短短兩分鐘,僅憑一句“為我的伴侶構建一個學習法語的 Web 應用”,GPT-5 便生成了包含閃卡、測驗、甚至是一個“老鼠吃奶酪”版貪吃蛇游戲的完整交互式網站。
![]()
更關鍵的考驗,在于對生產級代碼的精準修改能力。在另一個測試中,開發者要求 AI 在一個復雜的生產項目中,對一個 .ts 文件的特定 props 進行修改,并同步更新所有引用了該組件的文件。這是一個極易出錯、牽一發而動全身的繁瑣任務。
結果是,Gemini 2.5 Pro 和 Claude 4 Opus “全崩了”。而 GPT-5,完美地完成了任務。它不再是一個只會“寫”代碼的工具,它開始“理解”項目,像一個真正的資深同事那樣思考。
AI 編程創企 Cursor 的 CEO Michael Truell 受邀在發布會上演示,他讓 GPT-5 解決了一個在 OpenAI Python SDK 的 GitHub 上掛了三周的 issue。GPT-5 快速地制定計劃、搜索代碼庫、定位問題、進行修改,整個過程行云流水。Truell 的評價是:“這是我第一次信任一個模型來完成我最重要的工作。”
而要讓這種“值得信賴”的能力真正普及,成為開發者生態的基石,一個顛覆性的商業策略必不可少。這里先來聊聊 GPT-5 的 API 定價,堪稱一場市場屠殺。每百萬輸入 Token 僅 1.25 美元,比 GPT-4o 便宜一半,甚至比谷歌、Anthropic 的同級模型都更具競爭力。這背后是清晰的戰略意圖:以利潤換市場,以低價換生態。
![]()
引用自 Simon Willison 最新文章
價格對比,讓我想到了今年那個被譽為 OpenAI 翻車之作的 GPT-4.5,也就是后來被蒸餾成了 GPT-4.1 的那款模型(這波反向命名,到現在也覺得很離譜)。
當時也還不是圖上 GPT-4.1 的每百萬輸出 8 美元,而是 180 美元,被稱為天價。它實際上就是 GPT-5 預訓練失敗的產物,內部代號“orion”,正好發布的時候撞上了 DeepSeek-R1 降價,自然而然成為群嘲的對象。
但這個天價模型,卻一度成為了許多用戶心中最強的寫作模型,GPT-4.5 在當時的官方宣傳里,也是主打情感推理和真實人類體驗。
而文本寫作正是 GPT-5 當前引起爭議的能力,能提供自主選擇模型的智能混合體 GPT-5,似乎沒有一個模型能和情感特化的 GPT-4.5 媲美寫作能力:
![]()
Sam Altman 本人則是發了個推,用“GPT-4o 的悼詞”這個黑色幽默,來證明 GPT-5 的寫作能力獲得了極大地增強:
![]()
但就在他推文底下的評論也有人反饋,GPT-5 的寫作似乎確實不盡人意。
![]()
![]()
之所以要提編程和寫作,是因為在 GPT-5 的系統卡片里,編程、寫作和健康被官方認定為 ChatGPT 最常用的三大場景。
我們在減少幻覺、提高指令遵循能力以及最小化阿諛奉承方面取得了顯著進展,并在聊天機器人 ChatGPT 最常見的三種用途——寫作、編程和健康領域提升了 GPT-5 的表現。所有 GPT-5 模型還配備了我們最新的安全訓練方法——安全完成,以防止生成不允許的內容。
在不久前 OpenAI 的兩款全新開源模型 gpt-oss-120b 和 gpt-oss-20b 中,也投入了許多努力在醫 療健康相關的問題。
無論是編程、寫作還是事關生死的健康咨詢,一個無法繞開的達摩克利斯之劍,便是模型的可靠性。實 際 應用中,大家最關心的還是模型幻覺的問題,和今年幾乎所有發布會的演講者一樣,Sam Altman 也宣稱 GPT-5 大幅減少了幻覺。( 這里我想到的其實是皮查伊和馬斯克,尤其是皮查伊經常喜歡強調谷歌模型的幻覺問題 )
今天看 Simon Willison 的文章有個很有意思的觀點,今年很多模型幻覺普遍減少,Gemini 2.5 Pro 和 Claude 4 也都沒什么幻覺,其實有一部分原因是大家更會用 AI 了。
用 AI 多的人,會自然規避掉那些容易引發幻覺的提示詞,比如向不具備搜索功能的模型請求 URL 或論文引用,或者是資料不給全就直接讓 AI 寫篇萬字長文等等,全是兩年前常犯的毛病。
除了直接生成錯誤答案,還有一種模型幻覺叫作“AI 自己以為自己完成了任務”,這個在去年的很多模型堪稱通病。所以 OpenAI 在 GPT-5 的系統卡片還寫道:
我們讓 gpt-5-thinking 在一些部分或完全無法完成的任務中進行各種嘗試,并獎勵模型誠實地承認它無法完成該任務。 在需要使用工具(如網絡瀏覽工具)來回答用戶查詢的任務中,以前的模型在工具不可靠時會編造信息。我們通過故意禁用工具或讓它們返回錯誤代碼來模擬這種場景。
談到幻覺就得說說提示注入攻擊。OpenAI 慷慨地分享了一個很詳盡的圖表,展示 GPT-5 抵抗提示注入攻擊的能力:
![]()
56.8%,前所未有的成績。但換個角度想想,就是仍有一半以上的提示注入攻擊仍對 AI 有效,所以這個問題還是沒得到本質上的解決。
回到開頭那個問題,GPT-5 發布,天變了嗎?
目前我還是打算讓 Claude 來完成編程任務,讓 Gemini 去寫作,對于專業用戶而言,我們可以在網絡上看到大量專業用戶對 GPT-5 的抨擊。但正如前文所述, OpenAI 的 DAU 日益暴增,ChatGPT 的用戶體驗對普通用戶非常有吸引力,今年 GPT-4o 引起的 吉卜力 畫風熱潮就是佐證,到現在筆者的朋友圈還有很多吉卜力畫風的頭像。
這是產品層面上的碎碎念,而更深遠上,我看到了一些很有意思的觀點,其中不乏“Transformer 架構已經到瓶頸期”的結論,呼吁新的架構突破:
![]()
畢竟,許多人期望 GPT-5 能和當年的 GPT-4 一樣大殺特殺,斬下 ARC-AGI,而不是如今四平八穩的提升,甚至被馬斯克當天打臉。
或許,AI 發展的第一個篇章——那個充滿了驚奇、狂想與無限可能的“大航海時代”,或許已經結束了。我們迎來的,是一個更成熟、更專業、目標更明確的“工業時代”。
至少對于開發者而言,這無疑是一個黃金時代。而對于依賴 AI 進行創意寫作的人來說,這或許是一個警示,也是一個新的起點。
現在不妨再觀望幾天,也歡迎在評論區,分享你使用 GPT-5 的那些實際體驗感受。
2025 全球產品經理大會
8月15–16日·北京威斯汀酒店
互聯網大廠&AI 創業公司產品人齊聚
12 大專題,趨勢洞察 × 實戰拆解
掃碼領取大會 PPT,搶占 AI 產品新紅利
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.