網易首頁 > 網易號 > 正文申請入駐

是“Seedance 時刻”，但字節的野心可以更大些

2026-02-13 19:52:32　來源: 最話Funtalk

北京舉報

分享至

物理派終將降臨

文/林書

編輯/劉宇翔

最近我影視圈的朋友們有點焦慮，雖然這個圈也不是焦慮一兩天了，這些年票房下滑、募資難，即使咖位不低的出品人的日子也不好過，但這次不一樣，他們擔心的是：會被AI 搶了飯碗嗎？

2 月 7 日那天，字節跳動旗下即夢平臺悄然上線了 Seedance 2.0。沒有發布會，沒有鋪天蓋地的預熱，只是在飛書上放了一份產品文檔，標題簡潔到近乎囂張——“Kill the game”。

緊接著的幾天里，《黑神話：悟空》制作人馮驥發布數百字長評，稱其為“當前地表最強的視頻生成模型”，斷言“AIGC的童年時代結束了”；科技博主影視颶風Tim也連呼六次“恐怖”。

這一切看起來都是一部“中國 AI 的勝利敘事”——六十秒多鏡頭、分鏡腳本控制、原生音畫同步、電影感拉滿，它給大家帶來了“人人都能當導演的”想象。

過去國內影視行業苦心學習好萊塢的“電影工業”模式，還沒學會，現在又要被“Seedance 時刻”重新解構。

然而，在這片歡呼聲中，卻很少有人追問一個更根本的問題——這種技術路線的天花板在哪里？它是真的代表了AI視頻的未來方向，還是僅僅是一次成功的工程化優化？

要回答這個問題，我們就不得不回到那場持續了兩年多的路線之爭。

早在 2024 年，當 OpenAI 的 Sora 首次向世人展示其驚艷的能力時，圖靈獎得主、Meta 首席 AI 科學家楊立昆就潑下了一盆冷水。他直言不諱地表示，Sora 及其同類產品不過是 “像素幻覺”。

楊立昆的核心論點是：如果一個模型不懂真正的物理規律，不理解物體之間的因果關系和空間關系，那么所有視頻生成模型都走不長遠，最終都會在更復雜的場景中“露餡”。

這就是此刻橫亙在 AI 視頻賽道面前的根本分歧。

一派我姑且稱之為”世俗派”，以字節、快手為代表，追求電影感與敘事流暢，技術路線是數據驅動的風格模仿。

另一派是“物理派”，以楊立昆的 AMI Labs、英偉達的 Cosmos 平臺、DeepMind 的 Genie 3 為代表，認為視頻只是世界模型的副產品，真正的目標是讓 AI 理解質量、動量、因果和空間。

兩派的分歧不是技術細節之爭，而是對“視頻到底是什么”的根本性分歧——它是給人看的像素序列，還是物理世界運行規律的一個投影？

這個問題的答案，將決定Seedance 乃至字節在這場競賽中的終局位置。

兩派的天花板

要理解這兩條路線之間的本質差異，我們要跳出從技術細節，從商業生態和長期天花板的角度來思考。

從目前來看，Seedance 2.0 優化的是“導演意圖→像素”的轉化率。它做得極好——你寫一段提示詞，它自動規劃分鏡和運鏡，同時吞吐文字、圖片、視頻、音頻四種模態的參考信息，一次性吐出帶完整音軌的多鏡頭視頻。

這是一種極其聰明的工程優化，一段原本需要專業團隊花費數天時間拍攝和剪輯的視頻，現在只需要放素材、輸入幾個提示詞就能在幾分鐘內生成。

但它有一個結構性的局限：每一次生成都是一次性成果，即刻被消費。

你用 Seedance 2.0 做出了一段精美的賽博朋克追車戲，但這段視頻里的城市、飛行汽車、反派角色，全部無法被提取出來復用。它們不是“資產”，只是“像素”。你不能調整視頻中的某個物體的物理屬性，你不能與這段視頻進行任何形式的交互。它就是一個一次性消費品，用完即棄。

這意味著世俗派的天花板被鎖死在“內容消費”這一層。電影、短劇、廣告、電商視頻是市場巨大，但底層邏輯是“生成一次，消費一次”。

而物理派打開的是另一扇門：可復用的三維世界。一旦 AI 真正理解了物理規律，它生成的不是像素序列，而是一個有質量、有碰撞、有光照、有因果律的虛擬環境——這個環境可以被游戲引擎調用，可以被機器人在其中訓練，也可以被自動駕駛系統用來模擬邊緣案例。這些是萬億級的市場。

最具說服力的案例是 Unreal Engine 5 向影視行業的滲透。

迪士尼的《曼達洛人》是這場滲透的里程碑。該劇的視效團隊工業光魔（ILM）為此專門研發了名為StageCraft的虛擬制片系統。其核心是一面270度環繞的巨型LED幕墻，高度超過六米，由上千塊LED面板拼接而成。幕墻背后運行的正是虛幻引擎——四臺PC同步驅動幕墻上的每一個像素，實時渲染出塔圖因的沙漠、涅瓦羅的熔巖平原、以及外太空的星際場景。

更關鍵的是，StageCraft 中的虛擬場景資產——3D 建筑、地形、光照預設——全部可復用，可以在下一部劇集中被調用、修改、組合，甚至授權給游戲開發團隊做成可交互的虛擬世界。一次建模，無限復用。這正是“資產思維”與“像素思維”的本質差異。

這項技術的意義遠不止于提高效率。它標志著游戲引擎這個原本屬于游戲產業的技術，正在滲透進影視制作的核心環節。Unreal Engine 不再只是一個游戲開發工具，它正在成為影視工業的基礎設施。

物理派的降維打擊

更具跨界說服力的案例來自英偉達與工業光魔的合作探索。

在《侏羅紀世界：統治》中，工業光魔（ILM）就使用了Omniverse連接Maya、Houdini、Unreal等工具，實現跨軟件的實時物理協作。恐龍皮膚的肌肉變形、植被的風力擺動、水花的流體模擬，在不同軟件間實時同步物理狀態，Omniverse讓物理仿真成為實時共享的基礎設施。

當物理世界模型能夠理解重力、慣性、碰撞、材質變化等底層規律時，它生成的將不僅是“看起來像”的視頻，而是一個可以實時交互的虛擬片場。

導演可以在這個數字孿生環境中預先演練鏡頭運動、光照變化、甚至演員走位——這意味著拍電影不再是“拍一次，看一次”的線性流程，而是可以反復推敲、動態調整的沉浸式創作。

更進一步，這個虛擬片場的環境參數可以無縫對接工業機器人訓練場景：同樣的光照模型可以用于訓練機器人在真實工廠中的視覺識別系統，同樣的空間邏輯可以用于自動駕駛的仿真測試。物理派正在成為橫跨娛樂與工業的基礎設施，而不是某個垂直賽道的工具——這才是它最恐怖的地方。

由此便能看清兩派的生態位差異：物理派一旦成熟，可以向下兼容世俗派的全部需求——你想要電影級視頻？從物理世界模型中提取一個虛擬攝影機的視角輸出即可。

但世俗派永遠無法向上兼容物理派——你不能把 Seedance 2.0 生成的像素序列塞進機器人訓練框架，因為里面沒有碰撞體積、沒有質量參數、沒有可交互的物理實體。這是單向度的降維打擊。

從成本上來看，短期內世俗派更便宜，但這只是相對而言的“便宜”。

按照字節極即夢的定價標準，69元/月的會員，每月可獲得1080積分，用Seedance 2.0生成一段15秒的視頻，則需要消耗90積分，換算下來，每秒生成費用約為0.77元，一分鐘大約需要46元——對于專業創作者來說，這已經比傳統拍攝制作成本低了幾個數量級，但仍不足以讓普通消費者無限制地“生成著玩”。

更關鍵的是，2026年的視頻生成戰場已經白熱化。

快手可靈AI到2025年底已在全球擁有6000萬創作者，累計生成超6億個視頻，累計合作超3萬家企業用戶，2026年1月MAU已突破1200萬。字節Seedance 2.0上線即遭遇可靈3.0的正面狙擊，兩家在電影感生成、多鏡頭敘事、2K實時生成等能力上貼身肉搏，價格戰與品質戰同步打響。

與此同時，Runway、Veo 3.1等海外玩家在控制力與物理模擬上也持續迭代。

當世俗派還在與同行卷生卷死時，物理派資產復用性的優勢，卻會在長遠時期逐步顯現——一個虛擬城市環境建模一次，可供影視、游戲、仿真、訓練四個行業反復調用，不僅市場更加廣闊，且邊際成本會愈發趨近于零。

長期來看，分層架構必然成為主流：底層是物理世界模型，上層疊加不同行業的表現力需求。

換言之，當物理派完成了對真實物理世界的數字化建模后，世俗派多年積累的“提示詞工程經驗”將被徹底降維打擊：你引以為傲的專業技能，不過是調用幾個API參數的工作，這使得世俗派最終很可能會成為“打工仔”：它們不是被技術淘汰，而是被技術架構釘死在了價值鏈的最低端，只能做物理世界模型的“渲染層”，而非“定義層”。

如何跳出內容紅海

話又說回來，我寫這篇文章的目的不是為了否定 Seedance 2.0 的價值，恰恰相反，我是真心認為這是一項了不起的技術突破。

但正因如此，我更關切的問題是：這種領先能夠持續多久？字節跳動應該如何定位自己，才能繼續有更大突破？

Seedance 2.0 技術領先是事實，但技術領先不等于商業閉環。它目前的核心價值停留在“內容消費層”。全球短視頻市場2026年規模預計達593億美元，到2035年將突破6400億美元，復合年增長率高達30.3%；其中字節跳動憑借抖音和TikTok合計占據全球短視頻市場約40%的份額，在國內市場更是占據絕對統治地位。

然而問題在于，這個市場的增長邏輯本質上是流量變現——所謂的“天花板”并非來自競爭，用戶規模見頂、時長增速放緩，這些困境實際上是來自整個商業模式的內在局限。

因為視頻行業本質上是一個注意力經濟”的賽道，而人類時間、精力的有限性，決定了這必將是一個“零和博弈”，且越來越卷的紅海。

馮驥在長評中擔憂“內容領域必將迎來史無前例的通貨膨脹”，但短期來看，這種通脹短期內不太可能真正發生。原因很樸素：當下Seedance 2.0 的生成成本并不便宜。據即夢平臺定價，每天贈送的免費積分僅夠生成十五秒內容；據極客公園估算，制作一部九十分鐘片子的總成本也在兩千多元。

面對此等局面，字節的可能的姿勢是什么？答案或許是：先在B端找準“甜蜜點”，對物理派路線采取“占坑”而不All in的態度。

字節這次出牌，本質上是在說：AI視頻不能只靠“抽卡”，專業創作者需要確定性。這個定位抓得很準——Sora 2雖然物理模擬強，但輸入受限；Veo 3.1雖然質感好，但太貴；Seedance 2.0在控制力和成本之間找到了一個專業市場的甜蜜點。

說白了，Seedance 2.0 最具商業價值的能力不是“生成好看的視頻”，而是多模態精準控制——同時輸入九張圖片、三段視頻、三段音頻共十二個參考文件，精確復現導演意圖。這種確定性輸出恰恰是廣告和電商行業最剛性的需求。

在用 B 端利潤養活自己的同時，字節可能會在物理派方向保持存在，保持發聲，保持與學術界（斯坦福、清華）的聯系。但不會大規模擴張——如果2027年世界模型還沒突破（比如Google Genie-3還是Demo），按字節的務實節奏，很可能立刻轉做“具身智能for 工廠”，而不止在消費級。

然而，從更宏觀的視角看，字節面臨的真正考驗不是“能不能做出好看的視頻”，這一關已經過了，而是“能不能掌握分發權”。

在 AI 視頻時代，分發權的底層支撐不再是推薦算法，而是世界模型的能力。

因為未來 10 年，計算的入口從 “屏幕” 轉向 “空間”（世界模型/VR/機器人），而空間交互的底層是 “物理可信的虛擬世界”——沒有這些，就只能永遠是內容分發商，不是平臺規則制定者。

但此刻，字節的技術路線仍然是“數據驅動的風格模仿”，距離真正的物理理解還有本質性距離。

例如在我測試的一個案例中，一個燒紅的鐵球砸到冰塊上，冰塊本應熔化、凹陷，但視頻中的冰塊，卻像硬邦邦的固體那樣，沒有絲毫變化，這說明現在的 Seedance 2.0，在物理理解方面，仍然有進步的空間。

科技行業有一個規律：真正改變游戲規則的技術，從來不是那個當下最時髦的，而是那個定義了下一層基礎設施的。

字節今天需要的，不是糾結于 Seedance 3.0 能否在“電影感”的戰場上多贏幾分，而是在這場格局已定的勝利之后，能否有續攀高峰的勇氣，向物理派的深水區進發。

這，才是真正跳出內容紅海的正道——不是換個姿勢繼續卷，而是換一個維度去定義未來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.