網易首頁 > 網易號 > 正文申請入駐

GPT-5 之后，我們離 AGI 更近了，還是更遠了？

2025-08-08 14:04:10　來源: AI科技大本營

北京舉報

分享至

作者 | 王啟隆

出品 | CSDN（ID：CSDNnews）

2023 年 3 月 15 日，GPT-4 發布。當時大部分人還在搞清楚 ChatGPT 到底怎么用、官網地址在哪里，而我也只是淺嘗輒止地試了試 GPT-3.5 的效果，玩了玩 ChatBox，問了一些無聊的問題就不知道問什么了。

所以，至今仍清晰地記得，第一次與 GPT-4 認真對話后的那種感覺，腦子里盤旋的只有一個念頭：天變了。

那時的互聯網，洋溢著一種既興奮又慌亂的淘金熱氛圍。每個人都在瘋狂轉發匪夷所思的截圖，討論著哪些職業即將消失。我們真的以為，那就是奇跡本身了。

誰也沒想到，那僅僅是長夜的序章。

在漫長的 939 天等待后，北京時間 2025 年 8 月 8 日凌晨，OpenAI 終于揭開了GPT-5的面紗。世界屏息以待，期待著又一次“天變了”的奇跡。

然而，當大幕拉開，我們看到的，卻是一場遠比想象中更復雜、更矛盾、不可言說、不知從何說起的演出。就像今年 OpenAI 的常態：普通用戶贊不絕口、DAU 日益暴增；而硬核用戶罵聲遍天，我自己其實也早就經歷了從 GPT 到 Claude 和 Gemini 的幾次主力模型的更迭，很久不用 ChatGPT 了。而從去年 GPT-4o 那場驚艷的春季發布會之后，每次 OpenAI 的發布會都令人五味雜陳，炒作大于驚喜。

發布會伊始，Sam Altman 的定調就充滿了實用主義色彩：“GPT-3 像高中生，GPT-4o 像大學生，而 GPT-5，就像一個隨需應變的博士級專家團隊。” 關鍵詞不再是“聊天”，而是“做事”。

而實現這一點的核心，并非簡單地堆砌參數，而是一次架構上的哲學革命。

過去，用戶在 GPT-4o 的速度、o3 的深度推理之間痛苦抉擇，像是在一個擺滿了各色武器的軍火庫里猶豫不決。而 GPT-5 試圖終結這種“選擇的煩惱”。

它是一個統一的智能系統。其內部包含一個處理多數問題的快速模型（ gpt-5-main ），一個為高難度問題設計的深度推理模型（ gpt-5-thinking ），以及一個最關鍵的角色——實時路由器（real-time router）。這個路由器會像一位經驗豐富的項目經理，根據你的問題類型、復雜度、甚至是你的一句“認真思考這個”，來動態決定調動哪位“專家”出馬。

通過 API 使用 GPT-5 更簡單：它提供三種模型——常規（regular）、迷你（mini）和納米（nano），每種模型都可以在四種推理級別中的任意一種運行：最小（一個以前其他 OpenAI 推理模型中沒有的新級別）、低、中或高。這些模型的輸入限制為 272,000 個 token，輸出限制（包括不可見的推理 token）為 128,000 個 token。它們支持文本和圖像作為輸入，僅支持文本作為輸出。

OpenAI 研究員 Tina Kim 在發布會上也表示：“有了 GPT-5，我們將淘汰所有舊模型”，與其說是自信，不如說是一種宣言。那個讓用戶眼花繚亂的“模型動物園”時代結束了，取而代之的，是一個擁有統一意志的、高度協同的智能有機體。

GPT-5 System Card，展示了新舊模型的繼承關系

任何新王的登基，都離不開一場盛大的“肌肉秀”。GPT-5 在各大基準測試中，交出了一份近乎屠榜的成績單。

數學能力：在被譽為“國際數學奧林匹克資格賽”的 AIME 2025 測試中，無工具輔助下取得了 94.6% 的驚人成績。
編程能力：在衡量真實世界軟件工程任務的 SWE-Bench 上創下 74.9% 的新高，在多語言編程測試 Aider Polyglot 上也達到了 88%。
多模態理解：在極具挑戰的 MMMU 基準上得分 84.2%。

但就是這個慣例的 benchmark 砸數據環節，居然翻車了。

眼尖的網友發現，發布會剛開始五分鐘，現場 PPT 上的柱狀圖畫得“相當隨心所欲”。例如，在一張圖中，69.1% 的柱子竟然比 52.8% 的還要短。

這個小小的插曲，連同馬斯克在 X 上立刻轉發的“Grok 4 在 ARC-AGI-2 上擊敗了 GPT-5”的“賀電”，共同構成了一個有趣的注腳。

跑分終究是冰冷的。真正的分野，發生在鮮活的、滾燙的實際體驗中。

這，正是 GPT-5 最核心、最令人著迷，也最讓人不安的地方。它沒有普惠所有創造者，而是做出了明確的取舍。

首先是多模態。音頻輸入/輸出和圖像生成，目前不在 GPT-5 的技能范疇。這些功能仍由如 GPT-4o Audio、GPT-4o Realtime 及其迷你版本和 GPT Image 1 以及 DALL-E 圖像生成模型所覆蓋。

但沒準馬上就會有 GPT-5o 了，也說不定。

然后就是開發者最關心的AI 編程。今年是開發者幸福的一年，GPT-5 發布的同一天就有 Cursor CLI 的同期發布，各式各樣的 Coding Agent 全在今年井噴。

發布會上的演示已經足夠驚艷：短短兩分鐘，僅憑一句“為我的伴侶構建一個學習法語的 Web 應用”，GPT-5 便生成了包含閃卡、測驗、甚至是一個“老鼠吃奶酪”版貪吃蛇游戲的完整交互式網站。

更關鍵的考驗，在于對生產級代碼的精準修改能力。在另一個測試中，開發者要求 AI 在一個復雜的生產項目中，對一個 .ts 文件的特定 props 進行修改，并同步更新所有引用了該組件的文件。這是一個極易出錯、牽一發而動全身的繁瑣任務。

結果是，Gemini 2.5 Pro 和 Claude 4 Opus “全崩了”。而 GPT-5，完美地完成了任務。它不再是一個只會“寫”代碼的工具，它開始“理解”項目，像一個真正的資深同事那樣思考。

AI 編程創企 Cursor 的 CEO Michael Truell 受邀在發布會上演示，他讓 GPT-5 解決了一個在 OpenAI Python SDK 的 GitHub 上掛了三周的 issue。GPT-5 快速地制定計劃、搜索代碼庫、定位問題、進行修改，整個過程行云流水。Truell 的評價是：“這是我第一次信任一個模型來完成我最重要的工作。”

而要讓這種“值得信賴”的能力真正普及，成為開發者生態的基石，一個顛覆性的商業策略必不可少。這里先來聊聊 GPT-5 的 API 定價，堪稱一場市場屠殺。每百萬輸入 Token 僅 1.25 美元，比 GPT-4o 便宜一半，甚至比谷歌、Anthropic 的同級模型都更具競爭力。這背后是清晰的戰略意圖：以利潤換市場，以低價換生態。

引用自 Simon Willison 最新文章

價格對比，讓我想到了今年那個被譽為 OpenAI 翻車之作的 GPT-4.5，也就是后來被蒸餾成了 GPT-4.1 的那款模型（這波反向命名，到現在也覺得很離譜）。

當時也還不是圖上 GPT-4.1 的每百萬輸出 8 美元，而是 180 美元，被稱為天價。它實際上就是 GPT-5 預訓練失敗的產物，內部代號“orion”，正好發布的時候撞上了 DeepSeek-R1 降價，自然而然成為群嘲的對象。

但這個天價模型，卻一度成為了許多用戶心中最強的寫作模型，GPT-4.5 在當時的官方宣傳里，也是主打情感推理和真實人類體驗。

而文本寫作正是 GPT-5 當前引起爭議的能力，能提供自主選擇模型的智能混合體 GPT-5，似乎沒有一個模型能和情感特化的 GPT-4.5 媲美寫作能力：

Sam Altman 本人則是發了個推，用“GPT-4o 的悼詞”這個黑色幽默，來證明 GPT-5 的寫作能力獲得了極大地增強：

但就在他推文底下的評論也有人反饋，GPT-5 的寫作似乎確實不盡人意。

之所以要提編程和寫作，是因為在 GPT-5 的系統卡片里，編程、寫作和健康被官方認定為 ChatGPT 最常用的三大場景。

我們在減少幻覺、提高指令遵循能力以及最小化阿諛奉承方面取得了顯著進展，并在聊天機器人 ChatGPT 最常見的三種用途——寫作、編程和健康領域提升了 GPT-5 的表現。所有 GPT-5 模型還配備了我們最新的安全訓練方法——安全完成，以防止生成不允許的內容。

在不久前 OpenAI 的兩款全新開源模型 gpt-oss-120b 和 gpt-oss-20b 中，也投入了許多努力在醫療健康相關的問題。

無論是編程、寫作還是事關生死的健康咨詢，一個無法繞開的達摩克利斯之劍，便是模型的可靠性。實際應用中，大家最關心的還是模型幻覺的問題，和今年幾乎所有發布會的演講者一樣，Sam Altman 也宣稱 GPT-5 大幅減少了幻覺。（這里我想到的其實是皮查伊和馬斯克，尤其是皮查伊經常喜歡強調谷歌模型的幻覺問題）

今天看 Simon Willison 的文章有個很有意思的觀點，今年很多模型幻覺普遍減少，Gemini 2.5 Pro 和 Claude 4 也都沒什么幻覺，其實有一部分原因是大家更會用 AI 了。

用 AI 多的人，會自然規避掉那些容易引發幻覺的提示詞，比如向不具備搜索功能的模型請求 URL 或論文引用，或者是資料不給全就直接讓 AI 寫篇萬字長文等等，全是兩年前常犯的毛病。

除了直接生成錯誤答案，還有一種模型幻覺叫作“AI 自己以為自己完成了任務”，這個在去年的很多模型堪稱通病。所以 OpenAI 在 GPT-5 的系統卡片還寫道：

我們讓 gpt-5-thinking 在一些部分或完全無法完成的任務中進行各種嘗試，并獎勵模型誠實地承認它無法完成該任務。在需要使用工具（如網絡瀏覽工具）來回答用戶查詢的任務中，以前的模型在工具不可靠時會編造信息。我們通過故意禁用工具或讓它們返回錯誤代碼來模擬這種場景。

談到幻覺就得說說提示注入攻擊。OpenAI 慷慨地分享了一個很詳盡的圖表，展示 GPT-5 抵抗提示注入攻擊的能力：

56.8%，前所未有的成績。但換個角度想想，就是仍有一半以上的提示注入攻擊仍對 AI 有效，所以這個問題還是沒得到本質上的解決。

回到開頭那個問題，GPT-5 發布，天變了嗎？

目前我還是打算讓 Claude 來完成編程任務，讓 Gemini 去寫作，對于專業用戶而言，我們可以在網絡上看到大量專業用戶對 GPT-5 的抨擊。但正如前文所述， OpenAI 的 DAU 日益暴增，ChatGPT 的用戶體驗對普通用戶非常有吸引力，今年 GPT-4o 引起的吉卜力畫風熱潮就是佐證，到現在筆者的朋友圈還有很多吉卜力畫風的頭像。

這是產品層面上的碎碎念，而更深遠上，我看到了一些很有意思的觀點，其中不乏“Transformer 架構已經到瓶頸期”的結論，呼吁新的架構突破：

畢竟，許多人期望 GPT-5 能和當年的 GPT-4 一樣大殺特殺，斬下 ARC-AGI，而不是如今四平八穩的提升，甚至被馬斯克當天打臉。

或許，AI 發展的第一個篇章——那個充滿了驚奇、狂想與無限可能的“大航海時代”，或許已經結束了。我們迎來的，是一個更成熟、更專業、目標更明確的“工業時代”。

至少對于開發者而言，這無疑是一個黃金時代。而對于依賴 AI 進行創意寫作的人來說，這或許是一個警示，也是一個新的起點。

現在不妨再觀望幾天，也歡迎在評論區，分享你使用 GPT-5 的那些實際體驗感受。

2025 全球產品經理大會

8月15–16日·北京威斯汀酒店

互聯網大廠&AI 創業公司產品人齊聚

12 大專題，趨勢洞察 × 實戰拆解

掃碼領取大會 PPT，搶占 AI 產品新紅利

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.