
作者 | Talk君
大家好,我是talk君
“當動畫剛出現(xiàn)時,人們曾激烈反抗……現(xiàn)在AI也正發(fā)生極其相似的事情,但技術(shù)無法阻擋。”
夢工廠前CEO Jeffrey Katzenberg的這段話,如今在紅衫資本最新播客中再次被Fal.ai創(chuàng)始團隊引用。
作為OpenAI Sora、Google Veo及可靈等600多個模型背后的算力基建提供商,F(xiàn)al.ai站在一個獨特的位置觀察著整個行業(yè)變遷。
在他們看來,視頻生成領(lǐng)域正經(jīng)歷著極端的速度與殘酷——頂級模型的領(lǐng)先優(yōu)勢只能維持短短30天,生成一段5秒視頻的算力消耗甚至是處理一次ChatGPT對話的10000倍。
算力黑洞:視頻生成的物理極限
大語言模型和視頻模型在底層架構(gòu)上是兩個完全不同的物種。LLM(大語言模型)的核心瓶頸是“內(nèi)存帶寬”,如同搬運工的苦惱,預測每一個字都需要在龐大參數(shù)庫中“搬運”一遍。
視頻擴散模型則面臨“計算能力”的瓶頸,它需要同時對數(shù)萬個Token進行復雜的去噪和注意力計算,瞬間榨干GPU的每一個計算單元。
生成一張圖片相當于處理100個LLM Token,而生成一個5秒視頻相當于生成100張圖片。
如果換算下來,生成一段短視頻的算力消耗是處理一次文本對話的10000倍以上。若追求4K畫質(zhì),這個數(shù)字還要再翻10倍。 這意味著視頻生成是目前所有AI模態(tài)中對算力消耗最恐怖的領(lǐng)域,沒有之一。
30天生死線:模型競爭的殘酷節(jié)奏
在這個重工業(yè)賽道上,競爭的殘酷性以另一種形式呈現(xiàn)。如果說大語言模型領(lǐng)域已逐漸演變?yōu)樯贁?shù)巨頭盤踞的“帝國之戰(zhàn)”,那么視頻生成領(lǐng)域,則更像一片“黑暗森林”。
在這里,沒有永恒的王者。一個模型可能因為其驚人的物理模擬能力或獨特的藝術(shù)質(zhì)感,在社區(qū)中引發(fā)狂歡,登上排行榜首位。
但它的王座極不穩(wěn)定。新的挑戰(zhàn)者可能在幾周后,就從另一個維度實現(xiàn)突破——或許是更精準的人體動力學,或許是更豐富的風格化表現(xiàn)。
Fal.ai觀察到的“前五名模型平均霸榜期僅30天”的現(xiàn)象,描繪的正是這種令人窒息的迭代速度。
這形成了視頻生成領(lǐng)域獨特的“30天生死線”。你的技術(shù)優(yōu)勢窗口期短暫得可怕。開發(fā)者與創(chuàng)作者是務實而“貪婪”的,他們不為任何單一品牌的“信仰”買單,他們只追隨當下最能解決實際問題的工具。
于是,我們看到一個有趣的現(xiàn)象:一個成熟的工作流,往往由十多個各司其職的專門化模型串聯(lián)而成。從構(gòu)圖、生成、到修復、超分,創(chuàng)作者像樂隊指揮,調(diào)配著不同的“樂器”(模型)。
這種生態(tài),使得單一模型試圖建立壟斷的難度大大增加。因為視覺的“好壞”與“風格”有強烈的主觀性,開源社區(qū)得以蓬勃生長,不斷從底部孕育挑戰(zhàn)者。
競爭,不再是爭奪一個終極的“通用智能”,而是爭奪在某個細分需求上、某個特定時間段內(nèi)的“最佳工具”地位。這是一場沒有終點、也無法停歇的極限越野。
好萊塢的反擊:從恐慌到掌控
半年前,AI生成視頻的早期演示,確實讓 好萊塢 引發(fā)了一陣真實的焦慮。但焦慮的本質(zhì),并非恐懼被取代,而是恐懼在理解新工具的速度上落后。
如今,風向已然轉(zhuǎn)變。那些擁有百年敘事積淀、頂級人才庫和龐大知識產(chǎn)權(quán)寶庫的娛樂巨頭,正迅速完成從“恐慌”到“掌控”的心態(tài)切換。
它們開始意識到,AI生成技術(shù),更像數(shù)字時代給予的又一枚強大的“畫筆”或“攝像機”,而不是一個會自主編寫劇本、顛覆行業(yè)的“天網(wǎng)”。
它的核心價值,在于將那些曾經(jīng)因成本過高而無法實現(xiàn)的視覺想象(如宏大的奇幻場景、復雜的生物角色)變得觸手可及,從而解放而非替代創(chuàng)作者的敘事野心。
杰弗瑞·卡森伯格的洞察在此刻尤為深刻:技術(shù)降低了制作“畫面”的門檻,但從未降低創(chuàng)作“好故事”的門檻。
情感共鳴、人物弧光、主題深度——這些構(gòu)成作品靈魂的元素,依然是人類創(chuàng)作者無可替代的領(lǐng)域。AI的到來,可能不會立刻催生出顛覆《教父》的電影,但它一定會催化出一批全新的、在真人電影經(jīng)濟模型下根本不可能存在的視覺內(nèi)容物種。
教育:生成式視頻的第一個主戰(zhàn)場
出乎意料的是,生成式視頻最先可能徹底改變的領(lǐng)域不是娛樂,而是教育。 教育是一個長期被內(nèi)容生產(chǎn)成本鎖死的行業(yè)。
教育的核心問題從來不是“有沒有需求”,而是能否以足夠低的成本持續(xù)生產(chǎn)高質(zhì)量、適配個體的內(nèi)容。
今天的大多數(shù)教育內(nèi)容本質(zhì)上仍是文本和靜態(tài)圖像的組合,不是因為它們最好,而是因為這是目前唯一負擔得起的規(guī)模化方式。
生成式視頻讓另一種可能性變得現(xiàn)實:同一個概念可以用不同風格、不同節(jié)奏、不同隱喻去呈現(xiàn)。 當“講解方式”本身變成可生成、可調(diào)節(jié)的變量,學習將不再是對抗,而是協(xié)作。
未來圖景:新物種的誕生
Fal.ai團隊對未來12個月的預測充滿了想象力:一年內(nèi),我們將看到完全由AI生成的、長達20分鐘且劇情連貫的短片。由于無需拍攝真人,非寫實風格將率先爆發(fā)。
視覺化教育也將成為可能。未來的維基百科可能不再是文字,而是實時生成的解說視頻。更進一步的設(shè)想是“一次性游戲”——從“文生視頻”進化到“文生游戲”。
用戶輸入一個想法,AI生成一個玩完即扔的專屬小游戲,這將徹底改變互動娛樂的定義。
Fal.ai的70人團隊支撐著45億美元的估值,服務著從Adobe到Shopify的200多萬開發(fā)者。 但比這些數(shù)字更震撼的是他們揭示的行業(yè)真相:模型層面的競爭已變得如此激烈,以至于真正的價值正在從模型本身向運行層轉(zhuǎn)移。
在硬件架構(gòu)出現(xiàn)革命性突破之前,算力瓶頸將死死卡住視頻AI大規(guī)模普及的咽喉。 而最終留下來的,不是技術(shù)最先進的一方,而是最懂得如何與觀眾建立關(guān)系的一方。
你對此有什么看法?歡迎評論區(qū)留言討論~
趕緊關(guān)注視頻號@一刻talks吧!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.