![]()
12個月前,Sora的演示視頻讓全網沸騰。12個月后,OpenAI悄悄關閉了這個項目,迪士尼提前終止了合作。一位從業5年的視頻編輯花了整整一年測試市面上所有AI視頻工具,他的結論很直白:那些看起來最酷的功能,恰恰是專業用戶最用不上的。
這不是事后諸葛亮。2024年2月Sora首次亮相時,4K分辨率的東京街頭、光影流轉的咖啡杯、人物自然的微表情——這些Demo確實驚艷。但Demo和交付物之間的距離,比很多人想象的要遠得多。
今年1月,這位編輯接了一個產品演示片的活兒。客戶要求10秒鏡頭,主角是同一個人,場景連貫。他用Sora生成了40遍。40遍。沒有兩次結果能讓主角的臉保持一致,燈光在畫面中間突然變冷又變熱。最后他放棄了,改用傳統拍攝。
40次生成換不來一張能用的臉
這個問題不止Sora有。Runway Gen-3、快手的可靈3.0、Pika,全都在同一個坑里摔過。文本生成視頻(text-to-video)的概念聽起來像魔法——輸入一句話,輸出一段影像。但專業編輯的工作流程恰恰相反:他們手里已經有素材了,需要的是處理這些素材的工具,而不是憑空造一段新畫面。
更隱蔽的成本在算力端。Sora每次生成都在消耗GPU資源,而OpenAI的核心業務是語言模型。當一項副業每天燒掉數百萬美元的推理成本,卻沒人愿意為它付費時,財務報表會說話。一位接近OpenAI的知情人士透露,Sora的日均推理開銷在高峰期接近ChatGPT的15%,但付費轉化率不到后者的1/50。
護城河的問題同樣致命。Google的Veo 2、Runway的迭代版本、可靈的快速跟進——這個賽道擁擠得驚人。Sora有先發熱度,卻沒有先發優勢。等它真正對外開放時,市面上已經有價格更低、效果相當的替代品。迪士尼的退出決定 reportedly 發生在2024年第四季度,比公開消息早了至少兩個月。
「我們測試了Sora的API集成,但無法保證角色一致性。對于需要跨季度出現的IP角色,這是致命缺陷。」
一位參與迪士尼評估流程的技術負責人這樣解釋。IP角色的視覺一致性是影視工業的基礎要求,而生成式AI在這個維度上至今沒有可靠解決方案。
真正省時間的,是那些「無聊」功能
有趣的是,當所有人盯著生成式AI的炫技Demo時,另一類工具已經悄悄重構了視頻編輯的工作流。它們不生成畫面,只處理現有素材——但省下的時間卻是真實的。
自動轉錄和字幕。這位編輯以前花45分鐘手動敲完10分鐘采訪的字幕,現在30秒出稿,準確率95%以上。僅此一項,比他試用過的所有生成工具加起來都管用。
![]()
腳本標記粗剪。采訪類內容的典型場景:3小時原始素材,按腳本找對應片段。以前一個下午的工作量,現在輸入腳本就能自動匹配。不是完美匹配,但足夠把篩選時間壓縮到20分鐘。
多機位色彩匹配。兩臺相機色溫偏差是現場拍攝的常態,以前每場景調20分鐘,現在AI秒出基準,85%的情況直接可用。剩下15%手動微調,但這個比例意味著真正的效率提升。
智能音頻清理。這位編輯提了一個具體案例:客戶在施工場地旁邊錄采訪,兩年前這種素材只能作廢。現在過一遍降噪,聽感接近演播室。背景里的電鉆聲被識別為「非人聲頻率」并壓制,而人聲的齒音和呼吸感保留了下來。
這些功能沒有Sora Demo的視覺沖擊力,但它們解決的是真實存在的痛點。更重要的是,它們建立在確定性輸出上——編輯知道工具能做什么、不能做什么,可以據此規劃工作流。而生成式AI的不可預測性,讓它在專業場景中難以被信任。
NemoVideo們為什么選了一條「笨」路
一些工具開始明確轉向這個方向。NemoVideo(原稱Nemo)的產品迭代軌跡很有代表性:早期嘗試過文生視頻功能,2024年下半年全面轉向「AI輔助編輯」定位。他們的最新版本砍掉了文本生成模塊,強化了多機位同步、語音分離、自動標記等傳統環節的自動化。
這個決策的代價是失去「AI視頻」賽道的媒體熱度,但換來了實際的用戶留存。據第三方數據平臺Sensor Tower統計,NemoVideo的專業訂閱用戶月均使用時長在2024年Q4同比增長210%,而同期Runway的該指標下降17%。
另一個信號來自Adobe。Premiere Pro的AI功能更新集中在三個領域:語音轉文本、場景編輯檢測、色彩自動匹配。全是「無聊」應用,沒有一個涉及畫面生成。Adobe的年度創意大會Max 2024上,生成式AI被明確區分為「Firefly產品線」,與核心編輯工具保持物理隔離。
這種產品架構傳遞了一個判斷:生成式AI更適合作為創意探索的 sandbox(沙盒),而非生產流程的 embedded(嵌入)組件。當編輯需要確定性輸出時,傳統算法的可控性反而更有價值。
「我花了6個月說服團隊放棄在正片里用AI生成鏡頭。不是因為效果差,是因為我們無法向客戶解釋為什么第3版和最終版的主角長得不一樣。」
一位廣告公司的后期總監這樣說。他的團隊現在只在概念預演階段使用生成工具,正式制作環節全部回歸實拍或3D渲染。
算力重估與商業模型的坍塌
![]()
Sora的關閉還有一個技術經濟層面的背景:視頻生成模型的推理成本被系統性低估了。OpenAI內部曾有一個樂觀預期,認為隨著模型優化,單次生成的成本可以在12個月內下降90%。但實際進展遠慢于預期,核心瓶頸在于視頻數據的時序一致性——要讓連續幀保持物理合理,需要的計算量遠超靜態圖像。
一位前OpenAI研究人員的說法是,Sora的架構選擇(基于Transformer的時空聯合建模)在學術上優雅,但工程上昂貴。「每一幀都在重新計算全局注意力,這對于10秒視頻意味著300次全量推理。」相比之下,Runway采用的擴散模型+光流補償方案雖然理論上限較低,但單位成本可控得多。
這種成本結構直接決定了商業模式的可行性。Sora的定價曾試探性地定在每10秒視頻0.5-2美元(按分辨率浮動),但實際運營成本是這個數字的3-4倍。OpenAI嘗試過限制免費用戶的生成時長、降低輸出分辨率、排隊機制等節流手段,但都沒能扭轉虧損。
更深層的問題是需求驗證的失敗。Sora團隊原本假設存在大量「非專業用戶需要專業級視頻」的場景——小企業主做產品展示、教師制作課件、自媒體快速出片。但調研顯示,這些用戶要么對質量要求低到手機剪輯就能滿足,要么對質量要求高到必須找專業團隊。中間地帶的市場規模,比預期小了一個數量級。
迪士尼的退出是最后一根稻草。這家娛樂巨頭原本計劃將Sora用于部分劇集的背景生成和概念驗證,但試點項目的反饋是:美術部門需要的時間沒有減少,反而增加了「生成-篩選-修正」的新環節。一位參與試點的視覺特效制片人描述:「以前我們畫概念圖,現在我們要生成40張概念圖然后挑一張。總工作量沒變,只是分配方式變了。」
2025年的視頻編輯工具,該長什么樣
Sora的教訓正在被重新解讀。一種流行的觀點是「生成式AI在視頻領域超前了」,但這可能搞錯了重點。真正的問題是應用場景的錯配——把需要精確控制的工業流程,套用到了概率輸出的技術范式上。
更準確的描述或許是:視頻編輯的AI化正在發生,但發生在生產流程的「接縫處」而非「核心處」。轉錄、標記、色彩、音頻這些環節,本質上是信息提取和格式轉換,AI的模糊性可以被容忍甚至利用。而畫面生成涉及創作意圖的精確表達,目前的概率模型還無法可靠承載。
這位5年從業經驗的編輯現在的工具鏈是:Descript做轉錄和粗剪,DaVinci Resolve的AI色彩匹配,Adobe Podcast的音頻清理,Topaz Video AI做分辨率提升。沒有一個是「AI視頻生成」工具,但每一個都確實省下了時間。
他的預測是,未來12個月會看到更多「混合架構」產品——傳統算法負責確定性輸出,生成式AI作為可選的創意層。就像Photoshop的生成填充功能:你可以用它,但也可以完全不用,不影響核心工作流。
OpenAI已經轉向。2025年3月的更新中,他們的視頻相關研究重點從「生成」轉向了「理解」——用多模態模型分析視頻內容,而非創造新視頻。這個方向的商業路徑更清晰:內容審核、版權檢測、智能推薦,都是已經被驗證過的需求。
至于那些還在堅持文生視頻路線的公司,考驗在于能否找到Sora沒發現的應用場景。一位投資人的判斷是:「要么證明存在我們沒看到的B端需求,要么接受這是一個昂貴的玩具品類。」
那位編輯最后提到一個細節:他的團隊最近接了一個項目,客戶明確要求「不得使用AI生成畫面」。合同里的這條款,半年前還很少見,現在變成了標準條款的一部分。工具的價值終究由使用它的人定義——而當使用者開始警惕時,技術敘事就需要重新校準了。
下一個被砍掉的項目會是誰?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.