網易首頁 > 網易號 > 正文申請入駐

深聊GPT-5發布：過度營銷的反噬與AI技術困局

2025-08-12 09:42:10　來源: 硅谷101

上海舉報

分享至

撰稿｜陳茜

GPT-5上線次日，OpenAl在一片用戶的批評聲中宣布向付費用戶恢復 GPT-4o。

與GPT-3到GPT-4的驚艷跨越相比，GPT-5的發布略顯匆忙：翻車的數據圖表、帶bug的代碼演示、誤導的“博士級”科學原理解釋，以及作為核心技術更新的“Router”（路由器）也被硅谷AI從業者指出是已經存在好幾年的技術。

從內部代號Q-Star到Orion項目的接連受挫，從數據匱乏到模型崩潰的技術困境，OpenAI正面臨前所未有的挑戰。

但不可否認的是，作為一款產品，GPT-5有著明顯進步以及對用戶交互的進一步優化。ChatGPT正打入更多垂類領域，朝著“AI超級應用”產品進發。而一場搶占市場份額、爭奪企業訂單的價格戰，也在頭部大模型公司之間正式開打。

本期文章，我們將深入聊聊GPT-5發布背后的技術困境、商業焦慮與未來趨勢。

OpenAI為什么引發外界這么多的吐槽？GPT-5的開發過程遇到了哪些技術瓶頸，最終選擇了什么架構來攻克？作為產品的ChatGPT，為什么選擇進軍教育、健康醫療和編程市場？

而更令人擔憂的是，AI scaling law已經碰壁，強化學習、多模態能力和新架構范式能否為AI發展指明新的方向？

（本文為視頻改寫，歡迎大家收看以下視頻）

GPT-5發布會漏洞百出，突破放緩

說實話，外界對GPT-5的發布非常期待。原因很簡單：GPT-4發布已經是兩年半之前的事情了，而外界已經等新一代模型很久了。

但總結來說，GPT-3到GPT-4的能力跨越太過驚艷——所謂的“ChatGPT Moment”。

這樣的“Wow moment”（驚艷時刻）是這一輪生成式AI技術革命的基礎，但GPT-4到GPT-5的能力跨越，卻遠沒有達到外界的期待。

朱哲清前Meta AI應用強化學習負責人 Pokee AI創始人兼CEO：你要橫向對比，就是GPT4和當年GPT3的對比，這個的是天和地的區別，對吧？GPT4跟GP5如果你是以同樣的標準來做對比的話，其實差距是沒有那么大的。就是它可能是一個在我看來是個改進，而不是一個階段性變化。

GPT-5發布了什么呢？

Chapter 1.1業內推測GPT-5技術路線

首先，此前新聞爆料，GPT-5會成為一個“統一大模型”（unifying system），能強大地將推理、編碼、語音、研究等能力整合進單一模型，實現“既要”和“又要”的用戶需求，將GPT系列和o系列的模型融合，這個單一模態架構能自動調取相應的模型和能力，而不需要用戶之后自己選擇模型了。

雖然OpenAI目前還沒有正式發布詳細的GPT-5技術報告，但業內的技術專家們猜測，這其實不是一個端到端的超級大模型，而是由一個實時的“路由器”（Real-time Model Router）來“拼接”下面的不同子模型。

其實這個技術路線，不是創新也不是突破，早在硅谷初創技術圈里就存在很久了。

Aiden He TensorOpera AI聯合創始人： GPT-5就是一個典型的聯合的系統，它是把已有的GPT-4，o3等推理和非推理的模型串聯到一起。它可能是因為商業化比較著急吧，我覺得更應該把它叫做GPT 4.99，因為它是在所有的歷史上的一個聚合方案。這個路由器，其實并不是一個很新的東西。

這種路由器的方案主要是一些初創公司在使用，大概有三個使用場景和原因：

第一，是在手機這樣的設備端上，有端上的小模型，也有云端的大模型，簡單的問題用本地模型，復雜的問題用云端模型，就需要有個路由器去幫你做選擇。

第二，是初創公司們做模型層之上的開發和應用的時候，把所有開源和閉源模型聚合起來，把不同的任務給不同的模型來調用。

第三，是要去平衡系統的成本，比如說用戶的一些高頻又簡單的提問，像“hello”和“thank you”這種query（查詢）量非常大，光是這種簡單的問題每天都在消耗OpenAI上百萬美元的費用，所以這些典型問題都可以直接分發給非常小的模型去解決。

所以，這些是之前初創企業們因為要平衡系統成本，開發和應用時的主要三大使用場景，但如今被GPT-5作為主打技術突破，讓外界不少人懷疑，一個端到端訓練的超級大模型路線已經觸頂。

而OpenAI不得不開始用這些“取巧”的技術來解決“產品層面”的問題，而不是AI大模型“智能飛躍”的問題，這是和外界的期待非常相悖的。

當然，實時路由器也沒有那么好做，整合各種多模態也有很多技術上的挑戰，這也可能是發布推遲的原因之一。

Aiden He TensorOpera AI聯合創始人：有的模型擅長于數學，有的模型擅長于寫作，有的模型擅長于編碼，所以你要根據用戶的意圖、語言類型、各種各樣的地域位置，包括它的語言偏好去分發模型，這是一個非常復雜的問題。

Jenny Xiao 前OpenAI研究員 Leonis Capital合伙人：不同的模態會有非常不同的計算需求，以及許多不同的推理需求。例如，如果是語音模塊，它就會需要非常低的延時。因為如果延遲太大，你和AI進行對話時就會變得很尷尬。而其他模塊，比如深度推理或研究，可能會有兩三分鐘的延時，甚至更長，有時候我覺得都有30分鐘。所以把所有這些模態整合在一起，還要確保產品不卡頓，這是一個相當大的技術挑戰。

拋開這不是一個多么酷炫的技術不談，說實話，單從用戶角度來看，我本來覺得這點改進還挺好的。

因為之前的ChatGPT確實像個大雜燴：4o，o3，o4-mini，o4-mini-high，GPT-4.5，GPT-4.1，GPT-4.1-mini，旁邊還有Codex，視頻模型Sora，已經agent生態的GPTs……簡直太亂了。

所以，如果GPT-5能自動為我挑選最適合的模型，其實在用戶交互上是挺重要的。

但這里的關鍵詞是：你得能選對，且效果得比之前好。

然而，當OpenAI取消此前自選模式，在社交媒體上用戶們卻開始集體抗議，很多人認為GPT-5沒有4o的親切感，效果甚至不如4o，并且用戶有種被剝奪了選擇權的感受，所以在X上，非常多用戶集體呼吁“讓4o回來，不然就注銷ChatGPT賬號。”

這也讓OpenAI CEO Sam Altman不得不在周末之前回應，保證將上線更多定制化的功能和內容，并持續對GPT-5進行改進。

OpenAI在這次發布會中，一直在強調要給用戶的不是“more information”“越多的信息不一定是越好的”，而是要給“just right”的信息，“剛剛好的、適合”的信息。

這個出發點看起來沒有什么問題，但在技術上，怎么去定義“just right”，什么是“剛剛好”，還蠻有爭議的。關于GPT-5的優化，我們也會繼續關注。

接下來，我們再聊聊這次發布會上，OpenAI展示的三個應用場景：教育，健康醫療以及編程。

毫無疑問，這將是OpenAI進軍商業化的主要三個戰場。

Chapter 1.2 三大垂直應用場景

在發布會上，OpenAI展示了用多模態學習韓語的場景，效果確實看上去挺絲滑的：語音模型進一步升級，可以實時加快放慢，感覺會是非常好的教育交互場景。

GPT-5的玩法更加升級。你還可以讓ChatGPT直接給你做個學法語的網頁，或者小游戲應用，幾分鐘時間，記憶閃卡、單詞測驗、進度追蹤等等功能應有盡有。

所以我們看到語言學習公司多鄰國股價在GPT-5發布會期間就開始大幅度震蕩，本來因為財報非常好出現盤中大漲，但OpenAI發布會之后開始一路狂跌，也是市場在質疑，ChatGPT在之后會搶奪多少教育市場的份額。

Jenny Xiao 前OpenAI研究員 Leonis Capital合伙人：我認為教育是OpenAI非常明確的一個垂直領域。ChatGPT剛推出時，基本上把Chegg給“干掉”了。Chegg是一家教育公司，學生主要用它從同伴那里抄作業。ChatGPT推出后，學生們就覺得，我們好像不再需要Chegg了。如果你看OpenAI模型在2023年初的早期用戶，你會發現很多都是學生，而且在暑假期間，OpenAI的使用量會大幅下降。接著，OpenAI最近推出了“學習”功能，我覺得這個功能更多是針對那些想隨便學學或者是探索某個主題的人。

就語言學習而言，我一直在用ChatGPT練習粵語，我感覺它效果非常好。我以前是用多鄰國，但我覺得OpenAI比多鄰國自由度高得多，因為你可以用OpenAI探索任何話題。我認為OpenAI肯定會去切入這些（語言學習）公司的營收領域，因為在ChatGPT的原生環境下，復刻它們的模式實在太容易了。

另外，OpenAI強調的市場蛋糕還有健康醫療領域。因為GPT-5號稱有著博士級別的能力，所以在醫療健康領域，也能夠對專業的癌癥診斷報告做通俗易懂的解讀。

在發布會中，OpenAI請到一名女性癌癥患者，她分享到說，去年被診斷出癌癥病情，收到的報告有許多醫學術語，她讓ChatGPT先幫助她厘清資訊，并與醫生的評估進行比對，再做出關鍵決策。

而她也形容說，GPT-5更快速、更完整，在整個治療過程中，讓她覺得有了一個“伙伴”。

這一點我也感觸蠻深的。醫療領域是一個醫生和患者知識差距巨大的行業，因為這樣的知識差距，導致了兩者關系的不平衡，患者通常沒有選擇。

我最近身邊有個好朋友進了重癥監護室，陷入昏迷整整五天，她家人剛開始除了每天去醫院求醫生，感覺什么都做不了，但很快用上了AI，開始對病情和治療方案各種學習和討論，之后感覺和醫生交流的時候障礙變小了很多，在做出一些關鍵決策的時候也心里更有底了。

我覺得這就是技術的光明面：賦予人們自主權。

而健康醫療行業占據美國GDP的18%左右，是巨大的市場，OpenAI不會放過這個市場。

同時，我們看到全球AI醫療市場也在井噴式發展。市場預測，全球AI醫療領域規模會從2024年的26.69億美元飆升至2030年的188.38億美元，年復合增長率高達38.62%。

包括OpenAI參與投資的、專注于利用AI減輕醫療專業人員行政負擔的初創公司Ambience Healthcare最近C輪融資2.43億美元，邁進獨角獸行列。所以我們接下來會看到OpenAI在醫療健康領域的進一步動作。

另外一個GPT-5要打的核心商業戰爭，就是編程市場了。

無論是低提示詞的非專業用戶場景，還是專業編程場景，都展現出代碼能力的強勢升級。

同時，OpenAI來請到了最炙手可熱的AI編程初創公司Cursor CEO到現場分享如何用GPT-5打造出最高效的編程體驗。

這里能看出，自從Anthropic開啟了Claude Code產品之后，AI coding初創公司就開始紛紛站隊了。

之前OpenAI本來想買Windsurf沒買成，我們之前也出了視頻跟大家講了這個狗血的收購大瓜，現在Cursor明顯站隊OpenAI一起來打Claude，這是一輪新的編程市場爭奪戰。

Aiden He TensorOpera AI聯合創始人： Anthropic其實做了很多很多事情，它在開發者社區的影響力，我覺得會大于GPT-5；GPT-5可能大家會做應用，各種東西PoC（Proof of Concept,概念驗證）快速起步，但是一些專業的開發者可能還是比較喜歡Anthropic，所以它一定是各有所長。但就算是OpenAI主打及自夸“世界最強”的編程場景，其實也讓很多人失望。

朱哲清前Meta AI應用強化學習負責人 Pokee AI創始人兼CEO：我可能本來的預期可能在于，比如說在代碼領域，它單一模型可以直接端到端，從架構到寫每一個前端、后端代碼，到它知道選擇什么工具，到我怎么把這些東西都串聯起來，然后自行測試。完成測試以后，可能回過頭來再去改自己的代碼，類似于有這樣的一個端到端的能力。從OpenAI的定義上面，能超越它第三階段agentic experience（智能體體驗，模型以智能體身份主動行動）定義，再往上走一點那種感覺。但目前看起來完全沒有。總體在我看來，是跟Anthropic的Claude Opus差不多的能力范圍。

Chapter 1.3 錯誤百出的發布會

同時，這場發布會不得不吐槽的，就是現場出的各種bug了，讓這場萬眾期待的發布會顯得特別“草臺班子”。

這個時候，OpenAI得感謝自己還沒有上市，如果是谷歌的發布會出現這么多錯誤，可能股價早就蒸發上千億美元了。

首先在發布會直播中，一張展示GPT-5在編程基準測試（SWE-bench）上性能的圖表出現了嚴重錯誤，圖上，代表GPT-5（52.8%準確率）的柱狀圖，其高度竟明顯超過了代表舊模型o3（69.1%準確率）的柱狀圖。

另一款模型4o的柱狀圖與o3的水平位置一模一樣，標注的數字卻是30.8%。這個錯誤低級到不敢讓人相信是OpenAI的發布會。

盡管OpenAI事后在官網上修正了圖，Sam Altman也發文自嘲了，但這個圖的火爆和出圈程度直接秒殺Sam Altman之前鋪墊的任何營銷努力。

而更嚴重的是，這顯示出的不僅僅是匆忙和粗心，更是OpenAI團隊試圖在數據呈現上營造出的“巨大進步”的假象。

同時，Benchmark“分數打榜”這件事，也正變得更越來越不重要。

朱哲清前Meta AI應用強化學習負責人 Pokee AI創始人兼CEO：前兩天（OpenAI）剛release（發布）的open-source model（開源模型），它在Benchmark（基準測試）上面的performance（表現）也還可以，但是它真正使用起來，它的代碼能力其實挺拉胯的，它出現了很多的bug，很多代碼都跑不通。

Jenny Xiao 前OpenAI研究員 Leonis Capital合伙人：基準測試“已死”，但新形態的“基準測試”又會死灰復燃，對吧？所有這些實驗室都非常注重在基準測試表現上的提升。他們會為了在某個特定基準上提升3%或5%而相互競爭，而且很多研究人員也以模型在這些基準上的表現為傲。但作為用戶，我的感受是，基準測試對用戶來說毫無意義。所以我認為，下一個競爭前沿會主要轉向用戶體驗。我覺得現在，很難靠原始性能來區分模型的優劣。

另外還有一個尷尬的細節：在演示過程中，GPT-5在解釋“伯努利效應”時，錯誤地采用被主流物理學教材已經證偽的“等時通過理論”。

前一秒Sam Altman還在說，GPT-5是屬于“博士級別”的AI，后一秒就直接自己打臉，還挺尷尬的。

這顯示出，GPT-5完全沒能識別過時的錯誤解釋理論，讓外界對這個新模型的理解和推理能力有了更多的質疑。

不過有一說一，在解釋這個理論時自動產出高質量SVG動畫與可交互代碼還真的挺酷炫的（感覺對我們的視頻后期之后會非常有用），也說明OpenAI的多模態生成能力確實還是很強的。

朱哲清前Meta AI應用強化學習負責人 Pokee AI創始人兼CEO：我的總體感覺是，OpenAI在嘗試在那么多個模型發布之后，想要在這個階段上站住腳跟，把自己這個領先地位占住，所以它必須要去做這么一個發布。

大概總結一下GPT-5發布的重點：GPT-5解決的都是產品層面的問題，并沒有技術顛覆性的創新，這說明接下來一線大模型的技術差距也會進一步縮小，大家都用著差不多的方式在把模型能力艱難地往前推，不過就是：堆算力+堆數據+高質量數據篩選+后訓練+推理時長+工具使用。

因此，我也看到一句話說OpenAI從“The One”變成了“One”，從“引領者”變成了前沿模型“之一”。

為什么GPT-5會這么拉胯？是不是LLM的發展路徑真的已經碰壁了？

失敗的“GPT-5們”Transformer架構的發展瓶頸

GPT-5的訓練從很早就開始了，但非常有意思的是，沒有一個模型在OpenAI從第一天就被命名為GPT-5的。

Jenny Xiao 前OpenAI研究員 Leonis Capital合伙人：我們都清楚，OpenAI一直在訓練下一代模型，但肯定只有在達到一個重要的里程碑后，他們才會給模型正式命名。GPT-5自2024年以來一直在訓練，但只有到達一個重大節點之后，OpenAI才會將這個模型命名為GPT-5。

OpenAI在推出GPT-4的時候，所謂的“下一代大模型”就已經在訓練當中了，但如果這個模型不夠好，不夠“wow”到大家，那它就注定不能被叫做“GPT-5”。

比如說，在2023年年底就被曝出OpenAI內部代號為“Q Star”或者“Project Q”的項目，但這個模型后來被稱為“o1”。

Jenny Xiao 前OpenAI研究員 Leonis Capital合伙人： OpenAI在另外一個叫Project Q的項目上投入了很多精力，很多人也叫它Q star。這個項目在2023年11月左右，也就是Sam Altman那場風波期間被泄露了出來，最終成為了o1系列，也就是o系列。這個項目非常重視思維鏈推理，想要打造推理模型。這個就是所謂的Q項目。

其實“O”系列模型還算成功，后來又更新了o3和o4-mini，但依然不能被稱為GPT-5。為什么呢？

The Information在GPT-5發布之前出了一篇非常重磅的文章，爆料了OpenAI內部的這幾次關鍵的GPT-5研發挫敗。

其中在談到o系列的時候說，這樣的推理模型似乎幫助OpenAI克服了預訓練階段性能增長放緩的問題，而且2024年年底的o3母模型（也稱為教師模型）在理解各種科學領域及其他領域方面，相比o1的母模型取得了顯著的進步，當然這個進步也是因為OpenAI用上了更強的英偉達芯片服務器。

但奇怪的事情發生了，當OpenAI將o3母模型轉換為能讓人們提問的ChatGPT版本（也稱為學生模型）時，效果出現了顯著下降，甚至比o1表現好不了多少，同樣的效果下降也出現在了API的模型版本中。

業界有猜測是因為基于人類自然語言的聊天產品形態拉低了模型的能力水平，限制了AI的發揮。

Nathan Wang 硅谷101特約研究員資深AI Agent開發者：可以理解說大模型是理解高維度復雜內容的，但是最終它要跟我們人類交流，或者是要把它轉換成人類理解的文字的時候，它需要通過這樣降維的方式。就相當于一個高等的生物需要降維，才能跟我們人類進行交流。在這個降維這個過程中，其實它會損失很多高維度的信息。

包括我們自己其實也有一些各式各樣的潛意識層面或者高維度的思考。最終我們要個人表達的時候，是要通過語言，但是語言其實并不一定真正能夠把我們大腦中的所思所想，全部都很清晰地表達出來，或者甚至說，有些東西是沒有辦法去表達的。所以從這一點上來看，當你去需要這個模型通過語言來跟人交流的時候，在一定程度上拉低了模型自身智能的表現。

除此之外，在o3之后，OpenAI內部有一個代號為“Orion”的項目，在今年2月份推出，但也沒有掀起什么水花，估計OpenAI對它的信心也不大，所以也沒有把GPT-5的名字給它，而是叫了“GPT-4.5”。

Jenny Xiao 前OpenAI研究員 Leonis Capital合伙人：我個人認為最大的挑戰仍然在于預訓練，因為早在去年年底，甚至更早的時候，scaling law就已經碰壁，因為我們正在耗盡高質量且多樣化的人類生成的數據。缺乏數據是OpenAI的Orion項目延期的最大因素。有些人會稱這個項目失敗了，有些人則會說是延期。但本質上，在OpenAI訓練Orion系列模型時，他們就已經遇到了缺乏高質量、多樣化數據的問題。他們最終是用由OpenAI的o1模型生成的合成數據來訓練Orion系列，但結果仍然沒有達到人們的預期。

我覺得OpenAI 4.5（也就是Orion模型）會沒那么成功，是因為它真的沒有帶來讓人眼前一亮的突破。就好比幾乎沒有人特別關注4.5版本。

同時，The Information的報道中說，2024年下半年，Orion沒能成功的部分原因在于其預訓練階段的局限性。

同時，OpenAI還發現對Orion模型做的優化在模型較小的時候有效，但當模型規模增大時，這些優化就不再有效了——模型訓練的不確定性仍然非常大，有很多的因素會導致模型訓練的失敗。

之前在硅谷101的播客錄制中，我們的嘉賓Bill Zhu也跟我們分享了訓練模型中會出現很多模型崩潰的情況，甚至可能會在強化學習過程中出現所謂的“災難性遺忘”。

朱哲清前Meta AI應用強化學習負責人 Pokee AI創始人兼CEO：你是不可以無限制訓練模型本身的，就是你訓練到某一個程度它就會fall apart（崩潰）。其實在RL領域之前很經常看到叫catastrophic forgetting（災難性遺忘）——在你訓練很久很久以后，它開始忘記所有過往學到的知識，然后整個模型像瘋了一樣，所有原來的policy（決策策略）都消失。

這是為什么你一開始模型要變得足夠大，其實就像海綿一樣，然后你往里面不停地注水，然后你注水注到一定程度它滿了，那你再往里面注水，就會流出來一些，但流出來的不一定是注入的水，很有可能是原來已經有的一部分水，甚至是很重要的水。

就像你大腦里面不停地灌輸知識，然后最后過載了，把加減乘除忘了，那剩下的所有知識體系就直接fall apart（崩潰）。這個問題本身叫model plasticity（模型可塑性），就是說它的可塑性到了某種程度就直接崩潰了，然后你要怎么去解決這個問題？叫Continual Learning（持續學習），現在可能你有一天會人類生成一個terabyte of data（1TB的數據），那10天是10 個terabyte（TB），那未來可能生成數據還會越來越多，那你怎么能夠用一個模型無限地去訓練它，讓它仍然能夠對未來的知識進行獲取？這是不可能的。

這樣看來，以Transformer架構為基礎的LLM模型發展，如今確實可能到了一個關鍵的時刻，或者需要一個完全不同的新架構來突破技術壁壘。

未來AI進化路徑

強化學習、多模態、JEPA

接下來前沿的大模型該如何繼續優化呢？我們跟身邊的技術大牛聊了一圈，總結了三種方式：第一是強化學習，第二押注多模態能力提升帶來的突破，而第三，是尋找其它的框架范式。

首先是強化學習路線（Reinforcement learning），簡稱RL，包括RL在預訓練階段的嘗試。

朱哲清前Meta AI應用強化學習負責人 Pokee AI創始人兼CEO：我先講講以RL為核心的訓練機制為了解決什么問題。很多的任務是以目標驅動的，比如說寫代碼，比如說數學、物理、金融機構的一些東西，再比如城市規劃，你做Operations research（運籌學）、供應鏈這些東西它都是有明確目標的，世界機制也很完整。如果A發生了會出現B。在這種情況下，Pre-training（預訓練）就變得不是很有必要。

這種專業型的目標為驅動的場景，大多數都是沒有任何的數據的。數學跟代碼是僅有的兩個可能數據點相對多的場景。除此以外，我剛剛說的剩下的那些點基本上都沒什么數據，你很難在互聯網上得到大量的數據去完成訓練。

本質上它要解決的問題是非常泛化的，而市面上已經出現的數據，大多數都聚焦在一些經常會發生的代碼問題和數學問題。而那些非常高深難測的數學問題，它是從來沒有出現過的，它必須要通過一個反事實的形式，就是我要生成一些市面上從來沒有出現過的代碼、數學、物理規劃等等的輸出。然后靠一個ground truth（真實標簽）的validator（驗證器）來告訴我做得對不對，然后去self-train（自我訓練）。這種訓練方式是非常適合于這種有真實標簽、能夠做出精確判斷的這種用例，然后去進行優化。

這是RL最閃光的時候了，其實有很多研究在網上都說過，其實現在最大的問題是驗證，我如果能夠找到一個好的verifier（驗證器），我可以認為問題解決了。因為可以通過RL去完成對于這個驗證器的優化就可以了。

（如果大家對強化學習感興趣，我們在播客里有更詳細的對談）

Bill說的“驗證”是RL中非常重要的關鍵，也是The Information爆料中，GPT-5在RL上的殺手锏。

報道說，OpenAI一直在開發一個被稱為“universal verifier”（通用驗證器）的技術：讓一個大語言模型使用各種來源的研究，來檢查和評估另一個模型的答案。它可以自動執行，確保模型在強化學習過程中生成高質量答案。

朱哲清前Meta AI應用強化學習負責人 Pokee AI創始人兼CEO：這個方向就像我們當年看到Alpha Zero打敗人類一樣，它所能夠走出的一些路子是人類正常想象不到的。通過這個機制，甚至可以發現新的物理定理，它可能可以真正去發現人類所不擁有的知識，這可能是下一步我覺得真正邁向super intelligence（超級智能）的一個關鍵點，但目前還沒有很好的一個突破。

而接下來，需要各大模型公司去探索的第二條路，就是多模態。

就像前面我們說到的，大語言模型的維度是非常有限的，而多模態，以及世界模型將對接下來AI的發展至關重要。

Aiden He TensorOpera AI聯合創始人：我們要注意多模態，因為多模態一旦引入，它就有非常復雜的工作流，比如說你要用瀏覽器，你要用數學，你要用代碼，你要使用各種復雜的工具。然后包括多模態的使用，比如說，你看GAIA（Generalized AI Agent benchmark，一種面向生成式AI的基準測試）提出來的框架，它其實是非常復雜的任務，人類去完成都可能要6-15分鐘，如果AI不斷地把時間降到6分鐘以下，我覺得這也是學術界、創業公司一直在追求的。比如說我們在金融領域去做很復雜的自動交易策略，包括給網紅們去做發帖，其實這里面有非常復雜的步驟。

你怎么把它的boundary（能力上限）提高。我覺得兩個層面，一個是在應用這樣的multi-agent（多智能體）系統，不斷去推高需求；另外一個是在某些能力層面，大家不斷地去螺旋式上升，自己訓更大的model（模型），當模型因為算力和能源限制的時候，它就會去做multi-model（多模型）的組合。所以上面是多智能體，下面是多模型，我覺得這個是接下來我比較看好的兩到三年的一個發展路線圖。

朱哲清前Meta AI應用強化學習負責人 Pokee AI創始人兼CEO：對于大方向的突破，我感覺應該肯定會發力在多模態上面，特別是在視頻跟world model（世界模型）上面。因為人類的語言本身是一個非常大的compression（壓縮包），它的信息搭載量和視頻的信息是一個數量級的差異，這件事情我同意Yann LeCun的說法，人類從視覺、聽覺、觸覺各方面的多維度信息采取、吸收量，是要比純文字要高出大幾個數量級的。

文字訓練的一個假設是：我如果能夠通過一些簡單規則，比如reinforcement（強化學習），fine tuning（微調）或者reward model（獎勵模型），通過一個簡單規則或者簡單的判斷方式，或者訓練出來、或者寫出來的判斷方式，能夠去判斷一個模型的好壞、告訴你怎么去提升這個模型。它就相當于一個文字領域的world model（世界模型）。比較復雜的點是，當出現了多模態視頻，可以navigate environment（導航環境）之后，它的評估難度就會高很多。從純pixel（像素）的方式去做評估，這個是目前機器人技術領域肯定沒有解決的問題。

如果world model（世界模型）能有大幅度提升的話，我們有一個很大的機會能夠去訓練，比如說視頻理解的模型、機器人技術的基礎模型、游戲的基礎模型，這些基礎模型的誕生再給到一個機會，讓我們去后面再去做post-training（后訓練），它可以在整個多模態的世界里面創造text-based model（基于文字的模型）的一個同樣的可以復制的成就。

然而在那些領域當中，它所代表的市場份額，或者整個市場的空間，其實比純文字的市場空間要更大。它可以把一個純文字交流式的非常壓縮信息的系統拓展成一個，或者是線上的非常豐富的信息，或者說視覺、聽覺、觸覺的一部分，或者直接線下的機器人技術的東西，它們的能夠部署的這個領域有一個非常大的延展，所以我覺得我剛剛說的像世界模型這個方向，視覺的方向，一定是下一步最重要發力的方向。

而多模態之戰確實在最近變得非常激烈，谷歌最近發布世界模型Genie 3，這在一些業內人士看來，重要性是要超過GPT-5的，我們《硅谷101》也在操作這個選題了，很快會放出來，所以大家記得關注我們的賬號，不要錯過更新哦。

此外，Bill提到的圖靈獎得主Yann LeCun近年來提出的核心研究方向叫做Joint Embedding Predictive Architecture，簡稱JEPA，翻譯過來是“聯合嵌入預測架構”，旨在克服大語言模型的局限，推動AI理解物理世界。

Nathan Wang 硅谷101特約研究員資深AI Agent開發者： JEPA本身它是把所有模型的訓練放到Latent（潛層）空間中去完成。它在潛層空間的話，對于你的輸入是有一個抽象的表達，對于你的輸出也是一個抽象表達，這樣你就可以再把輸入、輸出都同時放到這樣的一個維度空間中訓練。然后再給到它不同狀態的量，讓它可以在潛層空間中去預測“我下一個動作應該是怎么樣的”或者“我下一個應該預測的，是怎樣的一個狀態？”它在這個過程中就不是一幀或一個一個像素去預測的，而是把你遮擋了的某一塊可以整體地給預測出來。

JEPA本身其實也分I-JEPA（image圖像JEPA）和V-JEPA（video視頻JEPA）。最新發表這個文章其實也表現出，在預測整個視頻中的事物變化時，也取得了非常好的表現。所以，我個人比較看好一些非transformer的架構，是否在未來可以給我們一個真正的智能，更加接近或模擬我們人腦思考的一個方式。

我覺得transformer的局限性是存在的，但我們也有其他架構作為替代方案，也有不同的團隊在進行探索。所以大家可能也需要去關注一些非transformer方面的模型究竟是怎么樣去模擬人類的智能。

GPT-5被過度營銷反噬

但AI進化不會停止

最后還想說，這次GPT-5的翻車與Sam Altman之前過于浮夸的營銷分不開。

在發布會之前，他在X上的各種預熱還有用詞，一會兒在他弟弟的播客上感嘆自己“相對于AI毫無用處”，一會兒又在X上曬出與GPT-5的聊天截圖，各種“暗示”，但又保持神秘，吊足了公眾的胃口，把期待值拉得太高。

結果發布會出來，大家都愣了。所以，這次發布會的失利也是被視為“營銷鬼才”的Sam Altman太過度營銷的一次反噬。

總結一下，長期來看，到達AGI之前，我們可能還有很多工作要做，還有很多技術壁壘需要突破，而這些突破需要腳踏實地的研發和創新。

但很遺憾的是，在人類的技術進一步被推進之際，OpenAI等大模型公司卻開始在商業化上變得非常激進，包括發布GPT-5之際正式開始打價格戰，來圈地、圈市場份額。

這讓不少人擔心，會不會這次的GPT-5發布會意味著AI泡沫破滅的開始？AI大模型的進展是否會就此停止呢？

Nathan Wang 硅谷101特約研究員資深AI Agent開發者：所以我個人也是比較期待類似像JEPA這樣的一些新的構架能夠出現，有更多人能進行探索，而不是因為transformer現在可以給我們帶來很多經濟利益、經濟價值，就只是停留在這個階段，然后一直所有人都寄希望于scaling law能夠繼續持續下去。

從GPT 5的發布來講，我覺得大家也可以更好地去清醒地認識到transformer本身的局限，可能也有更多人可以去關注其他的一些替代方案，能夠幫助整個AI行業得到更深遠的發展。

最后，雖然我們這個視頻說了OpenAI和GPT-5這么多“壞話”，我個人其實還是非常喜歡這款產品，以及我是一個忠實用戶，基本上工作、生活都離不開ChatGPT了。

這場發布會讓我看到了ChatGPT朝著一個更好的AI全能super app的邁進。很多功能，在我看來，都將讓我的生活和工作更加高效。

而看上去OpenAI還會繼續優化GPT-5的各種性能，到時候我們也會為大家跟進AI發展，并進一步分析。所以不要忘了關注我們的賬號哦~

視頻有視覺和音樂的加持，更能呈現出這些精彩的故事細節。請跳轉至硅谷101【視頻號】收看完整版

注：部分圖片來源于網絡

【本期節目不構成任何投資建議】

【視頻播放渠道】

國內：B站｜騰訊｜視頻號｜西瓜｜頭條｜百家號｜36kr｜微博｜虎嗅

海外：Youtube

聯系我們：video@sv101.net

【創作團隊】

監制｜泓君陳茜

撰稿 / 主持｜陳茜

剪輯｜Jacob

剪輯助理｜陳思揚 Jessica

運營｜王梓沁陳思揚何源清

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.