網易首頁 > 網易號 > 正文申請入駐

OpenAI砍掉Sora：5個月燒掉千萬GPU，迪士尼先跑了

2026-03-26 06:02:50　來源: 爬蟲飼養員

北京舉報

分享至

12個月前，Sora的演示視頻讓全網沸騰。12個月后，OpenAI悄悄關閉了這個項目，迪士尼提前終止了合作。一位從業5年的視頻編輯花了整整一年測試市面上所有AI視頻工具，他的結論很直白：那些看起來最酷的功能，恰恰是專業用戶最用不上的。

這不是事后諸葛亮。2024年2月Sora首次亮相時，4K分辨率的東京街頭、光影流轉的咖啡杯、人物自然的微表情——這些Demo確實驚艷。但Demo和交付物之間的距離，比很多人想象的要遠得多。

今年1月，這位編輯接了一個產品演示片的活兒。客戶要求10秒鏡頭，主角是同一個人，場景連貫。他用Sora生成了40遍。40遍。沒有兩次結果能讓主角的臉保持一致，燈光在畫面中間突然變冷又變熱。最后他放棄了，改用傳統拍攝。

40次生成換不來一張能用的臉

這個問題不止Sora有。Runway Gen-3、快手的可靈3.0、Pika，全都在同一個坑里摔過。文本生成視頻（text-to-video）的概念聽起來像魔法——輸入一句話，輸出一段影像。但專業編輯的工作流程恰恰相反：他們手里已經有素材了，需要的是處理這些素材的工具，而不是憑空造一段新畫面。

更隱蔽的成本在算力端。Sora每次生成都在消耗GPU資源，而OpenAI的核心業務是語言模型。當一項副業每天燒掉數百萬美元的推理成本，卻沒人愿意為它付費時，財務報表會說話。一位接近OpenAI的知情人士透露，Sora的日均推理開銷在高峰期接近ChatGPT的15%，但付費轉化率不到后者的1/50。

護城河的問題同樣致命。Google的Veo 2、Runway的迭代版本、可靈的快速跟進——這個賽道擁擠得驚人。Sora有先發熱度，卻沒有先發優勢。等它真正對外開放時，市面上已經有價格更低、效果相當的替代品。迪士尼的退出決定 reportedly 發生在2024年第四季度，比公開消息早了至少兩個月。

「我們測試了Sora的API集成，但無法保證角色一致性。對于需要跨季度出現的IP角色，這是致命缺陷。」

一位參與迪士尼評估流程的技術負責人這樣解釋。IP角色的視覺一致性是影視工業的基礎要求，而生成式AI在這個維度上至今沒有可靠解決方案。

真正省時間的，是那些「無聊」功能

有趣的是，當所有人盯著生成式AI的炫技Demo時，另一類工具已經悄悄重構了視頻編輯的工作流。它們不生成畫面，只處理現有素材——但省下的時間卻是真實的。

自動轉錄和字幕。這位編輯以前花45分鐘手動敲完10分鐘采訪的字幕，現在30秒出稿，準確率95%以上。僅此一項，比他試用過的所有生成工具加起來都管用。

腳本標記粗剪。采訪類內容的典型場景：3小時原始素材，按腳本找對應片段。以前一個下午的工作量，現在輸入腳本就能自動匹配。不是完美匹配，但足夠把篩選時間壓縮到20分鐘。

多機位色彩匹配。兩臺相機色溫偏差是現場拍攝的常態，以前每場景調20分鐘，現在AI秒出基準，85%的情況直接可用。剩下15%手動微調，但這個比例意味著真正的效率提升。

智能音頻清理。這位編輯提了一個具體案例：客戶在施工場地旁邊錄采訪，兩年前這種素材只能作廢。現在過一遍降噪，聽感接近演播室。背景里的電鉆聲被識別為「非人聲頻率」并壓制，而人聲的齒音和呼吸感保留了下來。

這些功能沒有Sora Demo的視覺沖擊力，但它們解決的是真實存在的痛點。更重要的是，它們建立在確定性輸出上——編輯知道工具能做什么、不能做什么，可以據此規劃工作流。而生成式AI的不可預測性，讓它在專業場景中難以被信任。

NemoVideo們為什么選了一條「笨」路

一些工具開始明確轉向這個方向。NemoVideo（原稱Nemo）的產品迭代軌跡很有代表性：早期嘗試過文生視頻功能，2024年下半年全面轉向「AI輔助編輯」定位。他們的最新版本砍掉了文本生成模塊，強化了多機位同步、語音分離、自動標記等傳統環節的自動化。

這個決策的代價是失去「AI視頻」賽道的媒體熱度，但換來了實際的用戶留存。據第三方數據平臺Sensor Tower統計，NemoVideo的專業訂閱用戶月均使用時長在2024年Q4同比增長210%，而同期Runway的該指標下降17%。

另一個信號來自Adobe。Premiere Pro的AI功能更新集中在三個領域：語音轉文本、場景編輯檢測、色彩自動匹配。全是「無聊」應用，沒有一個涉及畫面生成。Adobe的年度創意大會Max 2024上，生成式AI被明確區分為「Firefly產品線」，與核心編輯工具保持物理隔離。

這種產品架構傳遞了一個判斷：生成式AI更適合作為創意探索的 sandbox（沙盒），而非生產流程的 embedded（嵌入）組件。當編輯需要確定性輸出時，傳統算法的可控性反而更有價值。

「我花了6個月說服團隊放棄在正片里用AI生成鏡頭。不是因為效果差，是因為我們無法向客戶解釋為什么第3版和最終版的主角長得不一樣。」

一位廣告公司的后期總監這樣說。他的團隊現在只在概念預演階段使用生成工具，正式制作環節全部回歸實拍或3D渲染。

算力重估與商業模型的坍塌

Sora的關閉還有一個技術經濟層面的背景：視頻生成模型的推理成本被系統性低估了。OpenAI內部曾有一個樂觀預期，認為隨著模型優化，單次生成的成本可以在12個月內下降90%。但實際進展遠慢于預期，核心瓶頸在于視頻數據的時序一致性——要讓連續幀保持物理合理，需要的計算量遠超靜態圖像。

一位前OpenAI研究人員的說法是，Sora的架構選擇（基于Transformer的時空聯合建模）在學術上優雅，但工程上昂貴。「每一幀都在重新計算全局注意力，這對于10秒視頻意味著300次全量推理。」相比之下，Runway采用的擴散模型+光流補償方案雖然理論上限較低，但單位成本可控得多。

這種成本結構直接決定了商業模式的可行性。Sora的定價曾試探性地定在每10秒視頻0.5-2美元（按分辨率浮動），但實際運營成本是這個數字的3-4倍。OpenAI嘗試過限制免費用戶的生成時長、降低輸出分辨率、排隊機制等節流手段，但都沒能扭轉虧損。

更深層的問題是需求驗證的失敗。Sora團隊原本假設存在大量「非專業用戶需要專業級視頻」的場景——小企業主做產品展示、教師制作課件、自媒體快速出片。但調研顯示，這些用戶要么對質量要求低到手機剪輯就能滿足，要么對質量要求高到必須找專業團隊。中間地帶的市場規模，比預期小了一個數量級。

迪士尼的退出是最后一根稻草。這家娛樂巨頭原本計劃將Sora用于部分劇集的背景生成和概念驗證，但試點項目的反饋是：美術部門需要的時間沒有減少，反而增加了「生成-篩選-修正」的新環節。一位參與試點的視覺特效制片人描述：「以前我們畫概念圖，現在我們要生成40張概念圖然后挑一張。總工作量沒變，只是分配方式變了。」

2025年的視頻編輯工具，該長什么樣

Sora的教訓正在被重新解讀。一種流行的觀點是「生成式AI在視頻領域超前了」，但這可能搞錯了重點。真正的問題是應用場景的錯配——把需要精確控制的工業流程，套用到了概率輸出的技術范式上。

更準確的描述或許是：視頻編輯的AI化正在發生，但發生在生產流程的「接縫處」而非「核心處」。轉錄、標記、色彩、音頻這些環節，本質上是信息提取和格式轉換，AI的模糊性可以被容忍甚至利用。而畫面生成涉及創作意圖的精確表達，目前的概率模型還無法可靠承載。

這位5年從業經驗的編輯現在的工具鏈是：Descript做轉錄和粗剪，DaVinci Resolve的AI色彩匹配，Adobe Podcast的音頻清理，Topaz Video AI做分辨率提升。沒有一個是「AI視頻生成」工具，但每一個都確實省下了時間。

他的預測是，未來12個月會看到更多「混合架構」產品——傳統算法負責確定性輸出，生成式AI作為可選的創意層。就像Photoshop的生成填充功能：你可以用它，但也可以完全不用，不影響核心工作流。

OpenAI已經轉向。2025年3月的更新中，他們的視頻相關研究重點從「生成」轉向了「理解」——用多模態模型分析視頻內容，而非創造新視頻。這個方向的商業路徑更清晰：內容審核、版權檢測、智能推薦，都是已經被驗證過的需求。

至于那些還在堅持文生視頻路線的公司，考驗在于能否找到Sora沒發現的應用場景。一位投資人的判斷是：「要么證明存在我們沒看到的B端需求，要么接受這是一個昂貴的玩具品類。」

那位編輯最后提到一個細節：他的團隊最近接了一個項目，客戶明確要求「不得使用AI生成畫面」。合同里的這條款，半年前還很少見，現在變成了標準條款的一部分。工具的價值終究由使用它的人定義——而當使用者開始警惕時，技術敘事就需要重新校準了。

下一個被砍掉的項目會是誰？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.