寫在前面:
太瘋狂了,這大概是 APPSO 報道 AI 以來經(jīng)歷過更新最為密集的一個月。
在給大家介紹完一眾新模型后,今天這篇文章,想和你聊聊對AI 行業(yè)的發(fā)布周期所產(chǎn)生的「超現(xiàn)實」現(xiàn)象。
在車輪滾滾的周期中,AI 媒體們,包括 APPSO 自己,也成為了「共謀」。歸根結(jié)底,在其位謀其事,潮水的方向難以抵抗。但我們發(fā)現(xiàn)越來越多人都有類似的感受,所以本文也算是一種自省。
事情要從 Opus 4.7 說起。
只看大部分單項基準(zhǔn)測試分?jǐn)?shù)的話,你會以為 Anthropic 再次抬高了大模型的上限。但是在發(fā)布之后,真正用上 的用戶感覺并非如此。Token 耗費變得比前代更加夸張,上下文能力和編碼場景下的工具調(diào)用能力都有所倒退。
在使用了一段時間后,一些開發(fā)者切回了 Opus 4.6。Pragmatic Engineer 作者 Gergely Orosz 表示這個新模型「像是在跟我作對」。「Opus 4.7 是一次嚴(yán)重的倒退,而非升級。」很多開發(fā)者都表示了類似的觀點。Business Insider 報道,吐槽 Opus 4.7 的推文獲得了數(shù)萬次點贊。
![]()
基準(zhǔn)測試的結(jié)果,是對 Opus 4.7 的描述;用戶實感,同樣是對 Opus 4.7 的描述。然而兩者之間,有著天壤之別。
這種區(qū)別,指向了一個籠罩在整個 AI 行業(yè)的文化現(xiàn)象,也即:
AI行業(yè),特別是以 Anthropic、OpenAI 為代表的公司,它們盡力維持著一種模型/AI 產(chǎn)品發(fā)布周期 (launch cycles),每隔幾個月甚至幾周就有大版本發(fā)布,每天都有新功能推出。
然而,這種車輪滾滾的發(fā)布周期,有如左腳踩右腳一般,已然形成了一種自我維系的新經(jīng)濟模式。「發(fā)布」這件事本身,以及圍繞這些發(fā)布所撰寫的營銷物料和媒體報道,足以塑造、固化人們對于AI進步的認(rèn)知,并且引發(fā)真實的財務(wù)后果(關(guān)聯(lián)公司的股價漲跌)。
也就是說,AI在認(rèn)知意義上的進步,已經(jīng)先于真實體驗上的進步,甚至在很大程度上完全替代了后者。
發(fā)布取代了體驗,炒作成為了現(xiàn)實。
![]()
鮑德里亞與 AI 行業(yè)的超現(xiàn)實
在《黑客帝國》的主要角色進組開拍之前,主創(chuàng)沃卓斯基姐妹曾經(jīng)強制要求他們閱讀法國哲學(xué)家讓·鮑德里亞的《擬象與模擬》(Simulacres et Simulation) 一書。
文化評論界普遍認(rèn)為,《黑客帝國》是流行文化作品對鮑德里亞的思維框架的絕佳演繹:大部分人接受了虛構(gòu)的幻象,只有少數(shù)人「人間清醒」。在 Cypher 這個角色的身上,你會看到有人更偏好美好的幻象,而非艱難的現(xiàn)實。
而《黑客帝國》三部曲的主角們,選擇的是紅藥丸,是無論戰(zhàn)勝母體的可能性有多么的渺茫,都要回到并且重新掌握自己的現(xiàn)實,掌控自己的主體性。
諷刺的是,在 2003 年,法國雜志《新觀察家》采訪了鮑德里亞本人對《黑客帝國》的看法,他是這么說的:
《黑客帝國》絕對是「母體」本身會制作出來的那種關(guān)于「母體」的電影。
翻譯一下鮑德里亞的這句話,他其實是在吐槽《黑客帝國》流于「戰(zhàn)勝強敵,重掌自我」的流行文化俗套。他并不認(rèn)為《黑客帝國》領(lǐng)悟了自己提出的理念的精髓。
正相反,鮑德里亞認(rèn)為,「現(xiàn)象」的扭曲力場已經(jīng)如此之強,以至于現(xiàn)象與現(xiàn)實已經(jīng)不存在實質(zhì)性的區(qū)別——現(xiàn)象早已取代了現(xiàn)實。
![]()
一家飯館的菜單,成為了飯館的具象代表,然而你僅從菜單上是品嘗不出這家餐館的口味的;人們從一張平面的世界地圖中形成對于不同國家疆域大小的認(rèn)知,但當(dāng)二維的比例尺切換到真實世界中卻并不精確,甚至差之千里。
現(xiàn)實當(dāng)然是存在的,只是在現(xiàn)象先行的時代,它逐漸變得無足輕重了。
回到本文的主題:AI模型和產(chǎn)品的發(fā)布周期,你會發(fā)現(xiàn)一切正是按照鮑德里亞所預(yù)言的「超現(xiàn)實」(hyperreality) 那樣,正在發(fā)生。
環(huán)繞在最新的 AI 模型周圍的配套體系,已然發(fā)展地如此迅猛,變得無比龐大和厚重,具備了強大而難以撼動的自我維持能力,以至于新聞稿、基準(zhǔn)測試分?jǐn)?shù)、媒體報道……等等的「外圍」,已經(jīng)變成了 AI 本身,足以塑造人們對于 AI 的認(rèn)知;用戶對于模型/產(chǎn)品的真實體驗,反而變成了無足輕重的次要因素。
今時今日,AI 新品的發(fā)布,并沒有真的揭曉產(chǎn)品。而是發(fā)布的行為本身塑造了某種敘事,造成了某種現(xiàn)象。而這些敘事、現(xiàn)象,取代了真實體驗 (lived experience)。
發(fā)布本身,就是「產(chǎn)品」。
![]()
Opus 4.7、Gemini、Sora
在 Opus 4.7 發(fā)布的同一周,F(xiàn)igma 的股價一共暴跌了三次。
按照時間倒序:最后一次是 Claude Design 發(fā)布;中間是 Opus 4.7 發(fā)布;而第一次,是在 4 月 14 日,Opus 4.7 發(fā)布的兩天前。
當(dāng)天,The Information 獨家報道了 Anthropic 準(zhǔn)備在當(dāng)周發(fā)布 Opus 4.7 模型以及設(shè)計工具的消息。
![]()
在 4 月 14 日哪一天,股價下跌的不止 Figma:Adobe、Wix、GoDaddy 等一眾公司都有損傷——數(shù)十億美元的市值蒸發(fā),僅因為一家權(quán)威媒體報道了一個對于外界并不真正存在的、無法被切實感知到的產(chǎn)品。
如果說當(dāng)今的 AI 行業(yè)已經(jīng)完全淪為一個現(xiàn)象領(lǐng)先于現(xiàn)實的「超現(xiàn)實」,The Information 這篇報道所引發(fā)的股票拋售恐慌就是絕佳的例證。
![]()
隨后,Opus 4.7 正式發(fā)布。Anthropic 宣稱它是有史以來最強大的 Opus 模型,并提供了一系列基準(zhǔn)測試分?jǐn)?shù)來作證:SWE-bench Verified 從 80.8% 提升到 87.6%,CursorBench 從 58% 到 70%。
在發(fā)布的那一瞬間,人們無比興奮,因為這個有史以來最強大的 Opus 模型,不僅看起來是毫無爭議的進步,而且居然加量不加價,仍然是 $5/25 每百萬輸入/輸出 token。
過了一段時間,真實用戶體驗如潮水般涌來,一切都變了。
用戶們發(fā)現(xiàn),Opus 4.7 在很多特定任務(wù)上「降智」情況顯著。比如開發(fā)者和博主 Theo Browne 發(fā)現(xiàn),即便在 Anthropic 官方推出的 Claude 桌面端中,使用 Anthropic 官方的 harness 來編排 Opus 4.7 執(zhí)行代碼類任務(wù),它仍然會表現(xiàn)地很蠢,例如找不到 Node.js 的最新版、無視官方的系統(tǒng)提示詞等等。
再比如,Opus 4.7 在多輪上下文尋回基準(zhǔn)測試 (MCMR) 中的分?jǐn)?shù),連前代 Opus 4.6 的一半水平都達不到。這個基準(zhǔn)測試所對應(yīng)的上下文尋回能力,對于 Anthropic 主打的核心行業(yè)用戶,包括法律、金融等等行業(yè)來說可能會有顯著影響,他們真的需要在百萬級的超長上下文窗口下工作。
![]()
Claude Code 主創(chuàng) Boris Cherny 親自下場,宣稱 MCMR 是一個糟糕、過氣的基準(zhǔn)測試,以后都會用 GraphWalk 來作為上下文測試的基準(zhǔn)。
Cherny 的解釋并沒多少說服力。他說 MCMR 沒有現(xiàn)實意義,但人們同樣可以說 GraphWalk,一個通過十六進制哈希值來評價圖遍歷性能的測試,跟 MCMR 沒有區(qū)別,都沒什么現(xiàn)實意義,都是「海底撈針」式的測試任務(wù)。
![]()
Opus 4.7 采用的新分詞器也帶來了新的負(fù)提升,可能導(dǎo)致輸入、輸出前的思考過程的額外消耗,提升最高 35%。在新模型發(fā)布后的一天內(nèi),有企業(yè)用戶反映在此前相同的任務(wù)上使用 Opus 4.7 在 Claude 上運行任務(wù),比 4.6 提前 30%-80% 達到 5 小時限額。
開發(fā)者 Abhishek Ray 對 Opus 4.7 的新分詞器做了深入測試,發(fā)現(xiàn)在閱讀文檔(比如 CLAUDE.md)的消耗能夠達到 4.6 的 1.45-1.47 倍。
而 Anthropic 官方說的 0 到35% token 增加,會讓你以為真實場景會在這個區(qū)間內(nèi)浮動——然而實際上,在真實場景里,額外的耗費比 Anthropic 的「上限」還要高。
![]()
Anthropic 的應(yīng)對策略是什么呢?還是派出了 Boris Cherney,去 X 上口頭宣布:我們?yōu)樗杏脩籼岣吡讼揞~!
當(dāng)事實跟敘事對不上的時候,Anthropic 會忽略事實、改變敘事。這就好比一個封建領(lǐng)主打仗失了地,他不想著爭回來,反而把地圖給改了,然后告訴你「我的王國從來都是這么大」。
在 Opus 4.7 的官方基準(zhǔn)跑分表上,還有另一行數(shù)字屬于 Mythos 模型:SWE-Bench Verified 高達 93.9%,GPQA Diamond 高達 94.6,CyberGYM 高達 83.1%——幾乎全方位超越 Opus 4.7。
Mythos 是在 Opus 4.7 之前「發(fā)布」的,然而這次「發(fā)布」遠(yuǎn)比 Anthropic 做過的任何一次發(fā)布都更加匪夷所思:
普通用戶是沒有辦法在發(fā)布的同一天用上 Mythos 的,A 社只是宣布了有這個史無前例版強大的模型的存在,只有不超過 50 個公司認(rèn)可的合作伙伴可以第一時間用上。A 社還說,沒有在近期將 Mythos 公開放出的計劃。
![]()
Mythos 存在嗎?存在,也不存在,它只存在于 Anthropic 官方的服務(wù)器上,存在于這些被 A 社官方認(rèn)證的「合作伙伴」的體驗當(dāng)中。
但是這并不妨礙網(wǎng)紅博主和 AI 媒體們對其發(fā)表各種溢美之詞:一個將會徹底革命千行百業(yè)的大模型,一個秒殺一切其它模型的「最后的大模型」……
Mythos 是那個號稱強大到以至于世界上 99.999% 的人都不配使用的模型。
然而對于普通人來說,它迄今為止唯一的真實意義,就是塑造 Anthropic 乃至于整個AI行業(yè)將會徹底重塑這個世界的認(rèn)知。
但 Anthropic 并不是第一家這么做的公司。
2023 年底,Google 發(fā)布了一條展示 Gemini 多模態(tài)的宣傳視頻。在這條視頻里,Gemini 能夠?qū)z像頭拍到的畫面進行實時的視覺理解,它能看懂用戶手繪涂鴉的內(nèi)容,能在用戶玩游戲的時候進行實時解說,甚至能猜中用戶在玩的「空殼游戲」(幾個杯子一個球,猜球藏在哪個杯子里)。它的語音效果溫暖而富有人味——在 2023 年的時候驚為天人。
Google CEO Sundar Pichai 也轉(zhuǎn)發(fā)了這條視頻,在 YouTube 上的播放量一天內(nèi)破了百萬。科技媒體紛紛撰寫了報道,盛贊 AI 的進步已然突破了文本對話本身,在獲得多模態(tài)能力后真正進入真實世界并帶來深遠(yuǎn)影響。
![]()
這個被營造出來的認(rèn)知,在僅僅 2 天后就轟然塌房。
在彭博社和 TechCrunch 的記者逼問下,Google 交代了實情:視頻中 Gemini 所謂的實時對話,其實是靜態(tài)圖片和提示詞一條一條喂進去后生成的回應(yīng)。不僅 Gemini 產(chǎn)品在當(dāng)時做不到實時對話,就連 Google DeepMind 團隊自己都無法在內(nèi)部實現(xiàn)。這個 demo 本身就是假的。
真相曝光后,Google 仍在嘴硬。一位公司公關(guān)表示,這條視頻是「Gemini 可能性的演繹」。但我們都明白潛臺詞是什么意思,就像《盜夢空間》里的「植夢」那樣,科技行業(yè)通過這樣的營銷行為,在用戶的心智中種下種子,讓它生根發(fā)芽,枝繁葉茂,開花結(jié)果。
當(dāng)然,在今天,低延遲的對話功能和多模態(tài)識別能力早已被 Gemini 們實現(xiàn)。但事件發(fā)生的順序仍然重要:Google 先結(jié)了果,才去種的因。
這條視頻后來被 Google 刪除了。但在被證偽之前,已經(jīng)有上百萬人看過了視頻,參與了這場倒果為因的表演——有多少人今天還記得當(dāng)時 Gemini 團隊做了這件事?真相是什么,已經(jīng)不重要了。
類似的事情也發(fā)生在早期的 Sora 身上。
2024 年 2 月,OpenAI 展示了這個當(dāng)時還在訓(xùn)練中的視頻生成模型,賽博朋克都市里的迷醉霓虹,以假亂真的猛犸象穿越雪原,紙鳶如鳥群一般翱翔在天空。
直到 24 年底,帶著彼此「穿模」的物體、滿是六根手指的手、走樣到無法辨認(rèn)的人臉,Sora 模型真的來了。用戶期待著能像年初的預(yù)告視頻里那樣隨意生成絢麗而真實的畫面,得到的卻是需要大量抽卡才勉強能用一個抽象短視頻生成器。
有一說一,OpenAI 的確在 24 年這視頻的一開頭就明確表示,當(dāng)時的 Sora 還只是一個研究項目。但這條視頻所營造出的「現(xiàn)象」,所塑造的認(rèn)知,直到去年 Sora 2 正式上線才算勉強兌現(xiàn)。
后來的事情大家都知道了:如今 Sora 項目已經(jīng)徹底關(guān)閉,標(biāo)志著 OpenAI 暫時退出了視頻生成模型的賽道。
![]()
Sora 走完了屬于它的生命周期。但它所驗證的「現(xiàn)象領(lǐng)先現(xiàn)實」這一頑疾,卻仍然肆虐著整個 AI 行業(yè)。
沒有一片雪花是無辜的
當(dāng)下這種情況,并不是憑空出現(xiàn)的,不同角度的行業(yè)人士參與到其中,而每個參與者都有自己的目的——最終形成共謀。
AI 公司的產(chǎn)品經(jīng)理、市場營銷與公關(guān)撰寫新聞稿,在種種基準(zhǔn)測試中找到最有說服力的數(shù)字。這些公司的創(chuàng)始人和高管,更是極為擅長通過演講、播客、推文去營造 FOMO(錯失焦慮),讓失業(yè)的恐慌(無論是否真實)籠罩在輿論的頭頂。
然后,媒體和自媒體網(wǎng)紅們,通過一條又一條的文章、推文、視頻、播客,將上述所有信息進行咀嚼、吞咽、反芻、排出。
行業(yè)常說模型即產(chǎn)品。但在更高的維度上,你會發(fā)現(xiàn)產(chǎn)品早已不是模型本身,而是環(huán)繞在模型周邊的「外圍系統(tǒng)」。
是一代更比一代高的基準(zhǔn)測試分?jǐn)?shù),更是一篇又一篇以「地震」「海嘯」「雪崩」為標(biāo)題,宣告著「AGI 奇點到來」,令人「頭皮發(fā)麻」「大出血」「冷汗直流」「嚇出癲癇」的 AI 網(wǎng)紅帖文和媒體報道文章。
模型不再是產(chǎn)品,現(xiàn)象才是產(chǎn)品。現(xiàn)實不再構(gòu)成現(xiàn)象的要件,現(xiàn)象變成了新的現(xiàn)實。
![]()
延伸閱讀: by 葬 AI
作為一個 AI 媒體的典型作者,我會在使用一個模型不到短短一天(大部分時候可能幾個小時就夠了)后給它打上「最強模型」的標(biāo)簽;當(dāng) GPT 的版本號從 4 進化到 5 的時候,我敢于不假思索就宣稱新模型比 GPT-4 實現(xiàn)了這樣或那樣的進步。「碾壓」「顛覆」「炸裂」在我的詞匯表里,早已通貨膨脹到不值一文。
合上電腦的時候,我經(jīng)常陷入自我懷疑:今天寫的文章在多大程度上經(jīng)得住回頭的事實考驗?我有沒有真正準(zhǔn)確、負(fù)責(zé)任地描述這個 AI 模型或產(chǎn)品的創(chuàng)新性和實用意義?
究其根本,我們每天報道這個新模型,那個新產(chǎn)品,這樣或那樣的新技術(shù)變革,早已不再單純因為它們有多少,甚至壓根有沒有創(chuàng)新性和實用意義了。
實際上,我們每天做這些報道,往往單純是因為產(chǎn)品發(fā)布即將發(fā)生,而 AI 科技媒體如果不報道這些產(chǎn)品發(fā)布,如果不用這些詞匯去寫報道,報道就無法被推薦、點擊、閱讀、分享,就將落后于他人。
在今天,在這個 AI 營銷模式下,沒有哪個從業(yè)者可以不用隨波逐流。是的,即便是 APPSO 也無法幸免。每一家媒體,每一個 AI 網(wǎng)紅博主,都在為這個「無限進步」的循環(huán)貢獻著自己或大或小的推力。
我們寫了 Opus 4.7 是最強模型;轉(zhuǎn)頭我們又寫了Opus 4.7 降智。這些觀點看似相互矛盾,可它們都來自于事實——但它們又絕非全部和唯一的事實。時間長了你就習(xí)慣這種左右腦互搏了。
在每一個時間點上,這些觀點都擊中了輿論的某種偏好或?qū)徝溃袭?dāng)下的「時代精神」,所以自然會有前仆后繼的媒體和博主去不斷發(fā)表、增幅這些觀點,引發(fā)爭議,獲取流量。
作為讀者,你不應(yīng)該期待今天看完這篇文章之后,明天不再看到它所批評的那種文章發(fā)表在 APPSO 上。甚至這篇諷刺的文章,本身也成了它所諷刺的對象。如果不是因為 Opus 4.7 的發(fā)布,和看到了后續(xù)的爭議,我不會寫這篇文章。
我們能最終逃離這個循環(huán)嗎?
也不是完全沒有希望。
Claude、GPT 這樣的模型,關(guān)注度足夠高,用戶足夠多。在發(fā)布之后的第一時間里(通常在一兩個小時內(nèi)), 我們能夠看到一些真實用戶的評測體驗,特別是那些站在營銷話術(shù)的對立面的真實報告。可以說,情況還是有轉(zhuǎn)機的。
令我印象最深的其實是 GPT-4o 下線和 GPT-5 的發(fā)布。
人們對新的 GPT 大版本期待已久,山姆·奧特曼本人對模型做出「專家級別的智能」這一評價,以及那條經(jīng)典的「死星」推文居功甚偉。
![]()
緊接著,GPT-5 真的來了,卻在 X、Reddit 等平臺上引發(fā)了排山倒海的反向輿論。「降智」「不如 4o」「還我 4o」的聲音此起彼伏。預(yù)測市場 Polymarket 上當(dāng)時有一個預(yù)測標(biāo)題是「哪家公司到 8 月底能拿出最強模型」,OpenAI 在里面的比例在 GPT-5 發(fā)布后的短短一個小時內(nèi)從百分之七十多降低到了十幾。
頂不住壓力的 OpenAI,不得不把下線的 4o 又給搬回來。
然而這個循環(huán)還是沒能破滅:GPT-5 的小版本接二連三地推出,發(fā)布和更新的周期從年逐漸加速到以月為計。 4o 限時返場后最終還是下線,成為了滾滾向前的車輪壓過的一粒石子。
![]()
考慮到 Opus 4.7 賺足了眼球,而 OpenAI 已經(jīng)好長時間(在今天的周期里簡直是度日如年)沒有上線新模型了,傳聞中的「Spud」,以及即將在今年內(nèi)發(fā)布的 GPT-6,都將在它們各自專屬的時段內(nèi)成為「最強模型」,這件事已成定局。
上輪反省還沒結(jié)束,新的周期已然開始。
當(dāng)你讀完這篇文章,關(guān)掉頁面,刷新了一下朋友圈、公眾號列表或者 X,會看到又一篇講述新模型的文章發(fā)表了,可能是 、、 或者 ,甚至可能是真正到來的 Mythos。
這些文章的標(biāo)題,會有同樣的炸裂詞匯。你在正文里,將看到「最強模型」的各種分?jǐn)?shù)一而再、再而三地被刷新。
你以為這個新模型將會是絕殺,成為 the last model to end all models……
但那又怎樣?在北京的知春路,在杭州的匯金國際,在舊金山的 Mission Bay 和 Market St.,比最新的周期還要更新的一輪,早已轉(zhuǎn)動起來。
文|杜晨
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標(biāo)題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關(guān)鏈接)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.