<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5 之后,我們離 AGI 更近了,還是更遠了?

      0
      分享至


      作者 | 王啟隆

      出品 | CSDN(ID:CSDNnews)

      2023 年 3 月 15 日,GPT-4 發布。當時大部分人還在搞清楚 ChatGPT 到底怎么用、官網地址在哪里,而我也只是淺嘗輒止地試了試 GPT-3.5 的效果,玩了玩 ChatBox,問了一些無聊的問題就不知道問什么了。

      所以,至今仍清晰地記得,第一次與 GPT-4 認真對話后的那種感覺,腦子里盤旋的只有一個念頭:天變了。

      那時的互聯網,洋溢著一種既興奮又慌亂的淘金熱氛圍。每個人都在瘋狂轉發匪夷所思的截圖,討論著哪些職業即將消失。我們真的以為,那就是奇跡本身了。

      誰也沒想到,那僅僅是長夜的序章。

      在漫長的 939 天等待后,北京時間 2025 年 8 月 8 日凌晨,OpenAI 終于揭開了GPT-5的面紗。世界屏息以待,期待著又一次“天變了”的奇跡。

      然而,當大幕拉開,我們看到的,卻是一場遠比想象中更復雜、更矛盾、不可言說、不知從何說起的演出。就像今年 OpenAI 的常態:普通用戶贊不絕口、DAU 日益暴增;而硬核用戶罵聲遍天,我自己其實也早就經歷了從 GPT 到 Claude 和 Gemini 的幾次主力模型的更迭,很久不用 ChatGPT 了。而從去年 GPT-4o 那場驚艷的春季發布會之后,每次 OpenAI 的發布會都令人五味雜陳,炒作大于驚喜。


      發布會伊始,Sam Altman 的定調就充滿了實用主義色彩:“GPT-3 像高中生,GPT-4o 像大學生,而 GPT-5,就像一個隨需應變的博士級專家團隊。” 關鍵詞不再是“聊天”,而是“做事”。

      而實現這一點的核心,并非簡單地堆砌參數,而是一次架構上的哲學革命。

      過去,用戶在 GPT-4o 的速度、o3 的深度推理之間痛苦抉擇,像是在一個擺滿了各色武器的軍火庫里猶豫不決。而 GPT-5 試圖終結這種“選擇的煩惱”。

      它是一個統一的智能系統。其內部包含一個處理多數問題的快速模型( gpt-5-main ),一個為高難度問題設計的深度推理模型( gpt-5-thinking ),以及一個最關鍵的角色——實時路由器(real-time router)。 這個路由器會像一位經驗豐富的項目經理,根據你的問題類型、復雜度、甚至是你的一句“認真思考這個”,來動態決定調 動哪位“專家”出馬。

      通過 API 使用 GPT-5 更簡單:它提供三種模型——常規(regular)、迷你(mini)和納米(nano),每種模型都可以在四種推理級別中的任意一種運行:最小(一個以前其他 OpenAI 推理模型中沒有的新級別)、低、中或高。 這些模型的輸入限制為 272,000 個 token,輸出限制(包括不可見的推理 token)為 128,000 個 token。它們支持文本和圖像作為輸入,僅支持文本作為輸出。

      OpenAI 研究員 Tina Kim 在發布會上也表示:“有了 GPT-5,我們將淘汰所有舊模型”,與其說是自信,不如說是一種宣言。那個讓用戶眼花繚亂的“模型動物園”時代結束了,取而代之的,是一個擁有統一意志的、高度協同的智能有機體。


      GPT-5 System Card,展示了新舊模型的繼承關系

      任何新王的登基,都離不開一場盛大的“肌肉秀”。GPT-5 在各大基準測試中,交出了一份近乎屠榜的成績單。

      • 數學能力:在被譽為“國際數學奧林匹克資格賽”的 AIME 2025 測試中,無工具輔助下取得了 94.6% 的驚人成績。

      • 編程能力:在衡量真實世界軟件工程任務的 SWE-Bench 上創下 74.9% 的新高,在多語言編程測試 Aider Polyglot 上也達到了 88%。

      • 多模態理解:在極具挑戰的 MMMU 基準上得分 84.2%。


      但就是這個慣例的 benchmark 砸數據環節,居然翻車了。

      眼尖的網友發現,發布會剛開始五分鐘,現場 PPT 上的柱狀圖畫得“相當隨心所欲”。例如,在一張圖中,69.1% 的柱子竟然比 52.8% 的還要短。


      這個小小的插曲,連同馬斯克在 X 上立刻轉發的“Grok 4 在 ARC-AGI-2 上擊敗了 GPT-5”的“賀電”,共同構成了一個有趣的注腳。


      跑分終究是冰冷的。真正的分野,發生在鮮活的、滾燙的實際體驗中。

      這,正是 GPT-5 最核心、最令人著迷,也最讓人不安的地方。它沒有普惠所有創造者,而是做出 了明確的取舍。

      首先是多模態。音頻輸入/輸出和圖像生成,目前不在 GPT-5 的技能范疇。這些功能仍由如 GPT-4o Audio、GPT-4o Realtime 及其迷你版本和 GPT Image 1 以及 DALL-E 圖像生成模型所覆蓋。

      但沒準馬上就會有 GPT-5o 了,也說不定。

      然后就是開發者最關心的AI 編程。今年是開發者幸福的一年,GPT-5 發布的同一天就有 Cursor CLI 的同期發布,各式各樣的 Coding Agent 全在今年井噴。

      發布會上的演示已經足夠驚艷:短短兩分鐘,僅憑一句“為我的伴侶構建一個學習法語的 Web 應用”,GPT-5 便生成了包含閃卡、測驗、甚至是一個“老鼠吃奶酪”版貪吃蛇游戲的完整交互式網站。


      更關鍵的考驗,在于對生產級代碼的精準修改能力。在另一個測試中,開發者要求 AI 在一個復雜的生產項目中,對一個 .ts 文件的特定 props 進行修改,并同步更新所有引用了該組件的文件。這是一個極易出錯、牽一發而動全身的繁瑣任務。

      結果是,Gemini 2.5 Pro 和 Claude 4 Opus “全崩了”。而 GPT-5,完美地完成了任務。它不再是一個只會“寫”代碼的工具,它開始“理解”項目,像一個真正的資深同事那樣思考。

      AI 編程創企 Cursor 的 CEO Michael Truell 受邀在發布會上演示,他讓 GPT-5 解決了一個在 OpenAI Python SDK 的 GitHub 上掛了三周的 issue。GPT-5 快速地制定計劃、搜索代碼庫、定位問題、進行修改,整個過程行云流水。Truell 的評價是:“這是我第一次信任一個模型來完成我最重要的工作。”

      而要讓這種“值得信賴”的能力真正普及,成為開發者生態的基石,一個顛覆性的商業策略必不可少。這里先來聊聊 GPT-5 的 API 定價,堪稱一場市場屠殺。每百萬輸入 Token 僅 1.25 美元,比 GPT-4o 便宜一半,甚至比谷歌、Anthropic 的同級模型都更具競爭力。這背后是清晰的戰略意圖:以利潤換市場,以低價換生態。


      引用自 Simon Willison 最新文章

      價格對比,讓我想到了今年那個被譽為 OpenAI 翻車之作的 GPT-4.5,也就是后來被蒸餾成了 GPT-4.1 的那款模型(這波反向命名,到現在也覺得很離譜)。

      當時也還不是圖上 GPT-4.1 的每百萬輸出 8 美元,而是 180 美元,被稱為天價。它實際上就是 GPT-5 預訓練失敗的產物,內部代號“orion”,正好發布的時候撞上了 DeepSeek-R1 降價,自然而然成為群嘲的對象。

      但這個天價模型,卻一度成為了許多用戶心中最強的寫作模型,GPT-4.5 在當時的官方宣傳里,也是主打情感推理和真實人類體驗。

      而文本寫作正是 GPT-5 當前引起爭議的能力,能提供自主選擇模型的智能混合體 GPT-5,似乎沒有一個模型能和情感特化的 GPT-4.5 媲美寫作能力:


      Sam Altman 本人則是發了個推,用“GPT-4o 的悼詞”這個黑色幽默,來證明 GPT-5 的寫作能力獲得了極大地增強:


      但就在他推文底下的評論也有人反饋,GPT-5 的寫作似乎確實不盡人意。



      之所以要提編程和寫作,是因為在 GPT-5 的系統卡片里,編程、寫作和健康被官方認定為 ChatGPT 最常用的三大場景。

      我們在減少幻覺、提高指令遵循能力以及最小化阿諛奉承方面取得了顯著進展,并在聊天機器人 ChatGPT 最常見的三種用途——寫作、編程和健康領域提升了 GPT-5 的表現。所有 GPT-5 模型還配備了我們最新的安全訓練方法——安全完成,以防止生成不允許的內容。

      在不久前 OpenAI 的兩款全新開源模型 gpt-oss-120b 和 gpt-oss-20b 中,也投入了許多努力在醫 療健康相關的問題。

      無論是編程、寫作還是事關生死的健康咨詢,一個無法繞開的達摩克利斯之劍,便是模型的可靠性。實 際 應用中,大家最關心的還是模型幻覺的問題,和今年幾乎所有發布會的演講者一樣,Sam Altman 也宣稱 GPT-5 大幅減少了幻覺。( 這里我想到的其實是皮查伊和馬斯克,尤其是皮查伊經常喜歡強調谷歌模型的幻覺問題 )

      今天看 Simon Willison 的文章有個很有意思的觀點,今年很多模型幻覺普遍減少,Gemini 2.5 Pro 和 Claude 4 也都沒什么幻覺,其實有一部分原因是大家更會用 AI 了。

      用 AI 多的人,會自然規避掉那些容易引發幻覺的提示詞,比如向不具備搜索功能的模型請求 URL 或論文引用,或者是資料不給全就直接讓 AI 寫篇萬字長文等等,全是兩年前常犯的毛病。

      除了直接生成錯誤答案,還有一種模型幻覺叫作“AI 自己以為自己完成了任務”,這個在去年的很多模型堪稱通病。所以 OpenAI 在 GPT-5 的系統卡片還寫道:

      我們讓 gpt-5-thinking 在一些部分或完全無法完成的任務中進行各種嘗試,并獎勵模型誠實地承認它無法完成該任務。 在需要使用工具(如網絡瀏覽工具)來回答用戶查詢的任務中,以前的模型在工具不可靠時會編造信息。我們通過故意禁用工具或讓它們返回錯誤代碼來模擬這種場景。

      談到幻覺就得說說提示注入攻擊。OpenAI 慷慨地分享了一個很詳盡的圖表,展示 GPT-5 抵抗提示注入攻擊的能力:


      56.8%,前所未有的成績。但換個角度想想,就是仍有一半以上的提示注入攻擊仍對 AI 有效,所以這個問題還是沒得到本質上的解決。

      回到開頭那個問題,GPT-5 發布,天變了嗎?

      目前我還是打算讓 Claude 來完成編程任務,讓 Gemini 去寫作,對于專業用戶而言,我們可以在網絡上看到大量專業用戶對 GPT-5 的抨擊。但正如前文所述, OpenAI 的 DAU 日益暴增,ChatGPT 的用戶體驗對普通用戶非常有吸引力,今年 GPT-4o 引起的 吉卜力 畫風熱潮就是佐證,到現在筆者的朋友圈還有很多吉卜力畫風的頭像。

      這是產品層面上的碎碎念,而更深遠上,我看到了一些很有意思的觀點,其中不乏“Transformer 架構已經到瓶頸期”的結論,呼吁新的架構突破:


      畢竟,許多人期望 GPT-5 能和當年的 GPT-4 一樣大殺特殺,斬下 ARC-AGI,而不是如今四平八穩的提升,甚至被馬斯克當天打臉。

      或許,AI 發展的第一個篇章——那個充滿了驚奇、狂想與無限可能的“大航海時代”,或許已經結束了。我們迎來的,是一個更成熟、更專業、目標更明確的“工業時代”。

      至少對于開發者而言,這無疑是一個黃金時代。而對于依賴 AI 進行創意寫作的人來說,這或許是一個警示,也是一個新的起點。

      現在不妨再觀望幾天,也歡迎在評論區,分享你使用 GPT-5 的那些實際體驗感受。

      2025 全球產品經理大會

      8月15–16日·北京威斯汀酒店

      互聯網大廠&AI 創業公司產品人齊聚

      12 大專題,趨勢洞察 × 實戰拆解

      掃碼領取大會 PPT,搶占 AI 產品新紅利

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      炸裂!巴薩18歲新星重傷歸來5場狂轟4球,拉瑪西亞再出中場真核!

      炸裂!巴薩18歲新星重傷歸來5場狂轟4球,拉瑪西亞再出中場真核!

      田先生籃球
      2026-03-06 11:05:50
      黃蜂瘋了!首發五人組勝率90%,還順手碎了項67年的NBA紀錄

      黃蜂瘋了!首發五人組勝率90%,還順手碎了項67年的NBA紀錄

      仰臥撐FTUer
      2026-03-06 13:59:05
      伊朗外長最新表態

      伊朗外長最新表態

      環球時報國際
      2026-03-07 00:15:51
      中國女籃72-66雙殺巴西!數據一清二楚:不是張子宇, 最大功臣是她

      中國女籃72-66雙殺巴西!數據一清二楚:不是張子宇, 最大功臣是她

      林子說事
      2026-03-07 06:26:56
      父母若是有以下7種疾病,子女基本都會遺傳,不少人并不清楚!

      父母若是有以下7種疾病,子女基本都會遺傳,不少人并不清楚!

      健康之光
      2026-03-03 17:35:03
      愛因斯坦去世后大腦被偷走研究數十年,到底發現了什么?

      愛因斯坦去世后大腦被偷走研究數十年,到底發現了什么?

      宇宙時空
      2026-03-06 07:00:09
      1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

      1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

      比利
      2026-02-16 01:34:21
      湖南衛視元宵晚會直播發生意外,一名表演嘉賓在完成舞臺動作時意外失誤撞向何炅,何炅:這是要給我拜個晚年嗎

      湖南衛視元宵晚會直播發生意外,一名表演嘉賓在完成舞臺動作時意外失誤撞向何炅,何炅:這是要給我拜個晚年嗎

      極目新聞
      2026-03-04 09:59:45
      訂單大漲118%!光通信四大龍頭比拼,誰才是真增長王?

      訂單大漲118%!光通信四大龍頭比拼,誰才是真增長王?

      小陸搞笑日常
      2026-03-06 13:11:37
      當年舉報畢福劍的那位告密者竟然變成這樣了!誰能想到啊?

      當年舉報畢福劍的那位告密者竟然變成這樣了!誰能想到啊?

      霹靂炮
      2026-02-06 13:48:54
      文班亞馬:去年前往少林寺是完美時機,我學了一系列新動作

      文班亞馬:去年前往少林寺是完美時機,我學了一系列新動作

      懂球帝
      2026-03-06 22:30:08
      海報被指抄襲路虎,長城汽車魏建軍道歉:愿承擔全部法律和經濟責任

      海報被指抄襲路虎,長城汽車魏建軍道歉:愿承擔全部法律和經濟責任

      澎湃新聞
      2026-03-06 21:22:29
      2017年,84歲的南大教授找到失聯23年的學霸兒子,兒子卻拒絕相見

      2017年,84歲的南大教授找到失聯23年的學霸兒子,兒子卻拒絕相見

      北有南梔
      2026-03-05 17:55:03
      豬油再次被關注!醫生發現:高血壓患者常吃豬油,或出現幾種變化

      豬油再次被關注!醫生發現:高血壓患者常吃豬油,或出現幾種變化

      蜉蝣說
      2026-02-23 21:23:05
      男子稱在上海一銀行門口被三名彪形大漢挾持上車,搶走20萬!民警調查揪出“黑吃黑”真相

      男子稱在上海一銀行門口被三名彪形大漢挾持上車,搶走20萬!民警調查揪出“黑吃黑”真相

      大象新聞
      2026-03-06 14:43:03
      1.2億農村老人,每月只領200元養老金,買兩袋米就沒了。

      1.2億農村老人,每月只領200元養老金,買兩袋米就沒了。

      流蘇晚晴
      2026-02-26 18:18:15
      “中美罕見協調一致,敦促加納”

      “中美罕見協調一致,敦促加納”

      觀察者網
      2026-03-06 18:25:06
      隊報:盡管格子不想在賽季中期離開馬競,但奧蘭多城仍未放棄

      隊報:盡管格子不想在賽季中期離開馬競,但奧蘭多城仍未放棄

      懂球帝
      2026-03-07 08:14:42
      人類去世之后靈魂仍舊存在?科學家們曾做過相關實驗!

      人類去世之后靈魂仍舊存在?科學家們曾做過相關實驗!

      宇宙時空
      2026-03-05 21:40:03
      18-21,12-21!梁王組合連丟兩局遺憾出局,無緣全英公開賽四強

      18-21,12-21!梁王組合連丟兩局遺憾出局,無緣全英公開賽四強

      全景體育V
      2026-03-07 06:20:32
      2026-03-07 08:36:49
      AI科技大本營 incentive-icons
      AI科技大本營
      連接AI技術的創造者和使用者
      2639文章數 7659關注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養蝦人"自述與AI共生

      頭條要聞

      伊朗大規模發射新一代導彈 摧毀美軍大量設施、裝備

      頭條要聞

      伊朗大規模發射新一代導彈 摧毀美軍大量設施、裝備

      體育要聞

      跑了24年,他終于成為英超“最長的河”

      娛樂要聞

      周杰倫社交媒體曬昆凌,夫妻感情穩定

      財經要聞

      關于經濟、股市等,五部門都說了啥?

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      手機
      旅游
      親子
      本地
      公開課

      手機要聞

      OPPO回應realme真我暫停新機研發,稱相關工作均正常進行中

      旅游要聞

      鄭州海昌海洋公園:以“友好”為筆,繪就春日共融畫卷

      親子要聞

      兒童鼻出血的常見問題,兒科醫生解答

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版