網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

報道了幾年 AI，我越來越覺得自己是個騙子……

2026-04-25 10:31:28　來源: AppSo

廣東舉報

分享至

寫在前面：

太瘋狂了，這大概是 APPSO 報道 AI 以來經(jīng)歷過更新最為密集的一個月。

在給大家介紹完一眾新模型后，今天這篇文章，想和你聊聊對AI 行業(yè)的發(fā)布周期所產(chǎn)生的「超現(xiàn)實」現(xiàn)象。

在車輪滾滾的周期中，AI 媒體們，包括 APPSO 自己，也成為了「共謀」。歸根結(jié)底，在其位謀其事，潮水的方向難以抵抗。但我們發(fā)現(xiàn)越來越多人都有類似的感受，所以本文也算是一種自省。

事情要從 Opus 4.7 說起。

只看大部分單項基準(zhǔn)測試分?jǐn)?shù)的話，你會以為 Anthropic 再次抬高了大模型的上限。但是在發(fā)布之后，真正用上的用戶感覺并非如此。Token 耗費變得比前代更加夸張，上下文能力和編碼場景下的工具調(diào)用能力都有所倒退。

在使用了一段時間后，一些開發(fā)者切回了 Opus 4.6。Pragmatic Engineer 作者 Gergely Orosz 表示這個新模型「像是在跟我作對」。「Opus 4.7 是一次嚴(yán)重的倒退，而非升級。」很多開發(fā)者都表示了類似的觀點。Business Insider 報道，吐槽 Opus 4.7 的推文獲得了數(shù)萬次點贊。

基準(zhǔn)測試的結(jié)果，是對 Opus 4.7 的描述；用戶實感，同樣是對 Opus 4.7 的描述。然而兩者之間，有著天壤之別。

這種區(qū)別，指向了一個籠罩在整個 AI 行業(yè)的文化現(xiàn)象，也即：

AI行業(yè)，特別是以 Anthropic、OpenAI 為代表的公司，它們盡力維持著一種模型/AI 產(chǎn)品發(fā)布周期 (launch cycles)，每隔幾個月甚至幾周就有大版本發(fā)布，每天都有新功能推出。

然而，這種車輪滾滾的發(fā)布周期，有如左腳踩右腳一般，已然形成了一種自我維系的新經(jīng)濟模式。「發(fā)布」這件事本身，以及圍繞這些發(fā)布所撰寫的營銷物料和媒體報道，足以塑造、固化人們對于AI進步的認(rèn)知，并且引發(fā)真實的財務(wù)后果（關(guān)聯(lián)公司的股價漲跌）。

也就是說，AI在認(rèn)知意義上的進步，已經(jīng)先于真實體驗上的進步，甚至在很大程度上完全替代了后者。

發(fā)布取代了體驗，炒作成為了現(xiàn)實。

鮑德里亞與 AI 行業(yè)的超現(xiàn)實

在《黑客帝國》的主要角色進組開拍之前，主創(chuàng)沃卓斯基姐妹曾經(jīng)強制要求他們閱讀法國哲學(xué)家讓·鮑德里亞的《擬象與模擬》(Simulacres et Simulation) 一書。

文化評論界普遍認(rèn)為，《黑客帝國》是流行文化作品對鮑德里亞的思維框架的絕佳演繹：大部分人接受了虛構(gòu)的幻象，只有少數(shù)人「人間清醒」。在 Cypher 這個角色的身上，你會看到有人更偏好美好的幻象，而非艱難的現(xiàn)實。

而《黑客帝國》三部曲的主角們，選擇的是紅藥丸，是無論戰(zhàn)勝母體的可能性有多么的渺茫，都要回到并且重新掌握自己的現(xiàn)實，掌控自己的主體性。

諷刺的是，在 2003 年，法國雜志《新觀察家》采訪了鮑德里亞本人對《黑客帝國》的看法，他是這么說的：

《黑客帝國》絕對是「母體」本身會制作出來的那種關(guān)于「母體」的電影。

翻譯一下鮑德里亞的這句話，他其實是在吐槽《黑客帝國》流于「戰(zhàn)勝強敵，重掌自我」的流行文化俗套。他并不認(rèn)為《黑客帝國》領(lǐng)悟了自己提出的理念的精髓。

正相反，鮑德里亞認(rèn)為，「現(xiàn)象」的扭曲力場已經(jīng)如此之強，以至于現(xiàn)象與現(xiàn)實已經(jīng)不存在實質(zhì)性的區(qū)別——現(xiàn)象早已取代了現(xiàn)實。

一家飯館的菜單，成為了飯館的具象代表，然而你僅從菜單上是品嘗不出這家餐館的口味的；人們從一張平面的世界地圖中形成對于不同國家疆域大小的認(rèn)知，但當(dāng)二維的比例尺切換到真實世界中卻并不精確，甚至差之千里。

現(xiàn)實當(dāng)然是存在的，只是在現(xiàn)象先行的時代，它逐漸變得無足輕重了。

回到本文的主題：AI模型和產(chǎn)品的發(fā)布周期，你會發(fā)現(xiàn)一切正是按照鮑德里亞所預(yù)言的「超現(xiàn)實」(hyperreality) 那樣，正在發(fā)生。

環(huán)繞在最新的 AI 模型周圍的配套體系，已然發(fā)展地如此迅猛，變得無比龐大和厚重，具備了強大而難以撼動的自我維持能力，以至于新聞稿、基準(zhǔn)測試分?jǐn)?shù)、媒體報道……等等的「外圍」，已經(jīng)變成了 AI 本身，足以塑造人們對于 AI 的認(rèn)知；用戶對于模型/產(chǎn)品的真實體驗，反而變成了無足輕重的次要因素。

今時今日，AI 新品的發(fā)布，并沒有真的揭曉產(chǎn)品。而是發(fā)布的行為本身塑造了某種敘事，造成了某種現(xiàn)象。而這些敘事、現(xiàn)象，取代了真實體驗 (lived experience)。

發(fā)布本身，就是「產(chǎn)品」。

Opus 4.7、Gemini、Sora

在 Opus 4.7 發(fā)布的同一周，F(xiàn)igma 的股價一共暴跌了三次。

按照時間倒序：最后一次是 Claude Design 發(fā)布；中間是 Opus 4.7 發(fā)布；而第一次，是在 4 月 14 日，Opus 4.7 發(fā)布的兩天前。

當(dāng)天，The Information 獨家報道了 Anthropic 準(zhǔn)備在當(dāng)周發(fā)布 Opus 4.7 模型以及設(shè)計工具的消息。

在 4 月 14 日哪一天，股價下跌的不止 Figma：Adobe、Wix、GoDaddy 等一眾公司都有損傷——數(shù)十億美元的市值蒸發(fā)，僅因為一家權(quán)威媒體報道了一個對于外界并不真正存在的、無法被切實感知到的產(chǎn)品。

如果說當(dāng)今的 AI 行業(yè)已經(jīng)完全淪為一個現(xiàn)象領(lǐng)先于現(xiàn)實的「超現(xiàn)實」，The Information 這篇報道所引發(fā)的股票拋售恐慌就是絕佳的例證。

隨后，Opus 4.7 正式發(fā)布。Anthropic 宣稱它是有史以來最強大的 Opus 模型，并提供了一系列基準(zhǔn)測試分?jǐn)?shù)來作證：SWE-bench Verified 從 80.8% 提升到 87.6%，CursorBench 從 58% 到 70%。

在發(fā)布的那一瞬間，人們無比興奮，因為這個有史以來最強大的 Opus 模型，不僅看起來是毫無爭議的進步，而且居然加量不加價，仍然是 $5/25 每百萬輸入/輸出 token。

過了一段時間，真實用戶體驗如潮水般涌來，一切都變了。

用戶們發(fā)現(xiàn)，Opus 4.7 在很多特定任務(wù)上「降智」情況顯著。比如開發(fā)者和博主 Theo Browne 發(fā)現(xiàn)，即便在 Anthropic 官方推出的 Claude 桌面端中，使用 Anthropic 官方的 harness 來編排 Opus 4.7 執(zhí)行代碼類任務(wù)，它仍然會表現(xiàn)地很蠢，例如找不到 Node.js 的最新版、無視官方的系統(tǒng)提示詞等等。

再比如，Opus 4.7 在多輪上下文尋回基準(zhǔn)測試 (MCMR) 中的分?jǐn)?shù)，連前代 Opus 4.6 的一半水平都達不到。這個基準(zhǔn)測試所對應(yīng)的上下文尋回能力，對于 Anthropic 主打的核心行業(yè)用戶，包括法律、金融等等行業(yè)來說可能會有顯著影響，他們真的需要在百萬級的超長上下文窗口下工作。

Claude Code 主創(chuàng) Boris Cherny 親自下場，宣稱 MCMR 是一個糟糕、過氣的基準(zhǔn)測試，以后都會用 GraphWalk 來作為上下文測試的基準(zhǔn)。

Cherny 的解釋并沒多少說服力。他說 MCMR 沒有現(xiàn)實意義，但人們同樣可以說 GraphWalk，一個通過十六進制哈希值來評價圖遍歷性能的測試，跟 MCMR 沒有區(qū)別，都沒什么現(xiàn)實意義，都是「海底撈針」式的測試任務(wù)。

Opus 4.7 采用的新分詞器也帶來了新的負(fù)提升，可能導(dǎo)致輸入、輸出前的思考過程的額外消耗，提升最高 35%。在新模型發(fā)布后的一天內(nèi)，有企業(yè)用戶反映在此前相同的任務(wù)上使用 Opus 4.7 在 Claude 上運行任務(wù)，比 4.6 提前 30%-80% 達到 5 小時限額。

開發(fā)者 Abhishek Ray 對 Opus 4.7 的新分詞器做了深入測試，發(fā)現(xiàn)在閱讀文檔（比如 CLAUDE.md）的消耗能夠達到 4.6 的 1.45-1.47 倍。

而 Anthropic 官方說的 0 到35% token 增加，會讓你以為真實場景會在這個區(qū)間內(nèi)浮動——然而實際上，在真實場景里，額外的耗費比 Anthropic 的「上限」還要高。

Anthropic 的應(yīng)對策略是什么呢？還是派出了 Boris Cherney，去 X 上口頭宣布：我們?yōu)樗杏脩籼岣吡讼揞~！

當(dāng)事實跟敘事對不上的時候，Anthropic 會忽略事實、改變敘事。這就好比一個封建領(lǐng)主打仗失了地，他不想著爭回來，反而把地圖給改了，然后告訴你「我的王國從來都是這么大」。

在 Opus 4.7 的官方基準(zhǔn)跑分表上，還有另一行數(shù)字屬于 Mythos 模型：SWE-Bench Verified 高達 93.9%，GPQA Diamond 高達 94.6，CyberGYM 高達 83.1%——幾乎全方位超越 Opus 4.7。

Mythos 是在 Opus 4.7 之前「發(fā)布」的，然而這次「發(fā)布」遠(yuǎn)比 Anthropic 做過的任何一次發(fā)布都更加匪夷所思：

普通用戶是沒有辦法在發(fā)布的同一天用上 Mythos 的，A 社只是宣布了有這個史無前例版強大的模型的存在，只有不超過 50 個公司認(rèn)可的合作伙伴可以第一時間用上。A 社還說，沒有在近期將 Mythos 公開放出的計劃。

Mythos 存在嗎？存在，也不存在，它只存在于 Anthropic 官方的服務(wù)器上，存在于這些被 A 社官方認(rèn)證的「合作伙伴」的體驗當(dāng)中。

但是這并不妨礙網(wǎng)紅博主和 AI 媒體們對其發(fā)表各種溢美之詞：一個將會徹底革命千行百業(yè)的大模型，一個秒殺一切其它模型的「最后的大模型」……

Mythos 是那個號稱強大到以至于世界上 99.999% 的人都不配使用的模型。

然而對于普通人來說，它迄今為止唯一的真實意義，就是塑造 Anthropic 乃至于整個AI行業(yè)將會徹底重塑這個世界的認(rèn)知。

但 Anthropic 并不是第一家這么做的公司。

2023 年底，Google 發(fā)布了一條展示 Gemini 多模態(tài)的宣傳視頻。在這條視頻里，Gemini 能夠?qū)z像頭拍到的畫面進行實時的視覺理解，它能看懂用戶手繪涂鴉的內(nèi)容，能在用戶玩游戲的時候進行實時解說，甚至能猜中用戶在玩的「空殼游戲」（幾個杯子一個球，猜球藏在哪個杯子里）。它的語音效果溫暖而富有人味——在 2023 年的時候驚為天人。

Google CEO Sundar Pichai 也轉(zhuǎn)發(fā)了這條視頻，在 YouTube 上的播放量一天內(nèi)破了百萬。科技媒體紛紛撰寫了報道，盛贊 AI 的進步已然突破了文本對話本身，在獲得多模態(tài)能力后真正進入真實世界并帶來深遠(yuǎn)影響。

這個被營造出來的認(rèn)知，在僅僅 2 天后就轟然塌房。

在彭博社和 TechCrunch 的記者逼問下，Google 交代了實情：視頻中 Gemini 所謂的實時對話，其實是靜態(tài)圖片和提示詞一條一條喂進去后生成的回應(yīng)。不僅 Gemini 產(chǎn)品在當(dāng)時做不到實時對話，就連 Google DeepMind 團隊自己都無法在內(nèi)部實現(xiàn)。這個 demo 本身就是假的。

真相曝光后，Google 仍在嘴硬。一位公司公關(guān)表示，這條視頻是「Gemini 可能性的演繹」。但我們都明白潛臺詞是什么意思，就像《盜夢空間》里的「植夢」那樣，科技行業(yè)通過這樣的營銷行為，在用戶的心智中種下種子，讓它生根發(fā)芽，枝繁葉茂，開花結(jié)果。

當(dāng)然，在今天，低延遲的對話功能和多模態(tài)識別能力早已被 Gemini 們實現(xiàn)。但事件發(fā)生的順序仍然重要：Google 先結(jié)了果，才去種的因。

這條視頻后來被 Google 刪除了。但在被證偽之前，已經(jīng)有上百萬人看過了視頻，參與了這場倒果為因的表演——有多少人今天還記得當(dāng)時 Gemini 團隊做了這件事？真相是什么，已經(jīng)不重要了。

類似的事情也發(fā)生在早期的 Sora 身上。

2024 年 2 月，OpenAI 展示了這個當(dāng)時還在訓(xùn)練中的視頻生成模型，賽博朋克都市里的迷醉霓虹，以假亂真的猛犸象穿越雪原，紙鳶如鳥群一般翱翔在天空。

直到 24 年底，帶著彼此「穿模」的物體、滿是六根手指的手、走樣到無法辨認(rèn)的人臉，Sora 模型真的來了。用戶期待著能像年初的預(yù)告視頻里那樣隨意生成絢麗而真實的畫面，得到的卻是需要大量抽卡才勉強能用一個抽象短視頻生成器。

有一說一，OpenAI 的確在 24 年這視頻的一開頭就明確表示，當(dāng)時的 Sora 還只是一個研究項目。但這條視頻所營造出的「現(xiàn)象」，所塑造的認(rèn)知，直到去年 Sora 2 正式上線才算勉強兌現(xiàn)。

后來的事情大家都知道了：如今 Sora 項目已經(jīng)徹底關(guān)閉，標(biāo)志著 OpenAI 暫時退出了視頻生成模型的賽道。

Sora 走完了屬于它的生命周期。但它所驗證的「現(xiàn)象領(lǐng)先現(xiàn)實」這一頑疾，卻仍然肆虐著整個 AI 行業(yè)。

沒有一片雪花是無辜的

當(dāng)下這種情況，并不是憑空出現(xiàn)的，不同角度的行業(yè)人士參與到其中，而每個參與者都有自己的目的——最終形成共謀。

AI 公司的產(chǎn)品經(jīng)理、市場營銷與公關(guān)撰寫新聞稿，在種種基準(zhǔn)測試中找到最有說服力的數(shù)字。這些公司的創(chuàng)始人和高管，更是極為擅長通過演講、播客、推文去營造 FOMO（錯失焦慮），讓失業(yè)的恐慌（無論是否真實）籠罩在輿論的頭頂。

然后，媒體和自媒體網(wǎng)紅們，通過一條又一條的文章、推文、視頻、播客，將上述所有信息進行咀嚼、吞咽、反芻、排出。

行業(yè)常說模型即產(chǎn)品。但在更高的維度上，你會發(fā)現(xiàn)產(chǎn)品早已不是模型本身，而是環(huán)繞在模型周邊的「外圍系統(tǒng)」。

是一代更比一代高的基準(zhǔn)測試分?jǐn)?shù)，更是一篇又一篇以「地震」「海嘯」「雪崩」為標(biāo)題，宣告著「AGI 奇點到來」，令人「頭皮發(fā)麻」「大出血」「冷汗直流」「嚇出癲癇」的 AI 網(wǎng)紅帖文和媒體報道文章。

模型不再是產(chǎn)品，現(xiàn)象才是產(chǎn)品。現(xiàn)實不再構(gòu)成現(xiàn)象的要件，現(xiàn)象變成了新的現(xiàn)實。

延伸閱讀： by 葬 AI

作為一個 AI 媒體的典型作者，我會在使用一個模型不到短短一天（大部分時候可能幾個小時就夠了）后給它打上「最強模型」的標(biāo)簽；當(dāng) GPT 的版本號從 4 進化到 5 的時候，我敢于不假思索就宣稱新模型比 GPT-4 實現(xiàn)了這樣或那樣的進步。「碾壓」「顛覆」「炸裂」在我的詞匯表里，早已通貨膨脹到不值一文。

合上電腦的時候，我經(jīng)常陷入自我懷疑：今天寫的文章在多大程度上經(jīng)得住回頭的事實考驗？我有沒有真正準(zhǔn)確、負(fù)責(zé)任地描述這個 AI 模型或產(chǎn)品的創(chuàng)新性和實用意義？

究其根本，我們每天報道這個新模型，那個新產(chǎn)品，這樣或那樣的新技術(shù)變革，早已不再單純因為它們有多少，甚至壓根有沒有創(chuàng)新性和實用意義了。

實際上，我們每天做這些報道，往往單純是因為產(chǎn)品發(fā)布即將發(fā)生，而 AI 科技媒體如果不報道這些產(chǎn)品發(fā)布，如果不用這些詞匯去寫報道，報道就無法被推薦、點擊、閱讀、分享，就將落后于他人。

在今天，在這個 AI 營銷模式下，沒有哪個從業(yè)者可以不用隨波逐流。是的，即便是 APPSO 也無法幸免。每一家媒體，每一個 AI 網(wǎng)紅博主，都在為這個「無限進步」的循環(huán)貢獻著自己或大或小的推力。

我們寫了 Opus 4.7 是最強模型；轉(zhuǎn)頭我們又寫了Opus 4.7 降智。這些觀點看似相互矛盾，可它們都來自于事實——但它們又絕非全部和唯一的事實。時間長了你就習(xí)慣這種左右腦互搏了。

在每一個時間點上，這些觀點都擊中了輿論的某種偏好或?qū)徝溃袭?dāng)下的「時代精神」，所以自然會有前仆后繼的媒體和博主去不斷發(fā)表、增幅這些觀點，引發(fā)爭議，獲取流量。

作為讀者，你不應(yīng)該期待今天看完這篇文章之后，明天不再看到它所批評的那種文章發(fā)表在 APPSO 上。甚至這篇諷刺的文章，本身也成了它所諷刺的對象。如果不是因為 Opus 4.7 的發(fā)布，和看到了后續(xù)的爭議，我不會寫這篇文章。

我們能最終逃離這個循環(huán)嗎？

也不是完全沒有希望。

Claude、GPT 這樣的模型，關(guān)注度足夠高，用戶足夠多。在發(fā)布之后的第一時間里（通常在一兩個小時內(nèi)），我們能夠看到一些真實用戶的評測體驗，特別是那些站在營銷話術(shù)的對立面的真實報告。可以說，情況還是有轉(zhuǎn)機的。

令我印象最深的其實是 GPT-4o 下線和 GPT-5 的發(fā)布。

人們對新的 GPT 大版本期待已久，山姆·奧特曼本人對模型做出「專家級別的智能」這一評價，以及那條經(jīng)典的「死星」推文居功甚偉。

緊接著，GPT-5 真的來了，卻在 X、Reddit 等平臺上引發(fā)了排山倒海的反向輿論。「降智」「不如 4o」「還我 4o」的聲音此起彼伏。預(yù)測市場 Polymarket 上當(dāng)時有一個預(yù)測標(biāo)題是「哪家公司到 8 月底能拿出最強模型」，OpenAI 在里面的比例在 GPT-5 發(fā)布后的短短一個小時內(nèi)從百分之七十多降低到了十幾。

頂不住壓力的 OpenAI，不得不把下線的 4o 又給搬回來。

然而這個循環(huán)還是沒能破滅：GPT-5 的小版本接二連三地推出，發(fā)布和更新的周期從年逐漸加速到以月為計。 4o 限時返場后最終還是下線，成為了滾滾向前的車輪壓過的一粒石子。

考慮到 Opus 4.7 賺足了眼球，而 OpenAI 已經(jīng)好長時間（在今天的周期里簡直是度日如年）沒有上線新模型了，傳聞中的「Spud」，以及即將在今年內(nèi)發(fā)布的 GPT-6，都將在它們各自專屬的時段內(nèi)成為「最強模型」，這件事已成定局。

上輪反省還沒結(jié)束，新的周期已然開始。

當(dāng)你讀完這篇文章，關(guān)掉頁面，刷新了一下朋友圈、公眾號列表或者 X，會看到又一篇講述新模型的文章發(fā)表了，可能是、、或者，甚至可能是真正到來的 Mythos。

這些文章的標(biāo)題，會有同樣的炸裂詞匯。你在正文里，將看到「最強模型」的各種分?jǐn)?shù)一而再、再而三地被刷新。

你以為這個新模型將會是絕殺，成為 the last model to end all models……

但那又怎樣？在北京的知春路，在杭州的匯金國際，在舊金山的 Mission Bay 和 Market St.，比最新的周期還要更新的一輪，早已轉(zhuǎn)動起來。

文｜杜晨

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標(biāo)題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關(guān)鏈接）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.