![]()
物理派終將降臨
文/林書
編輯/劉宇翔
最近我影視圈的朋友們有點焦慮,雖然這個圈也不是焦慮一兩天了,這些年票房下滑、募資難,即使咖位不低的出品人的日子也不好過,但這次不一樣,他們擔心的是:會被AI 搶了飯碗嗎?
2 月 7 日那天,字節跳動旗下即夢平臺悄然上線了 Seedance 2.0。沒有發布會,沒有鋪天蓋地的預熱,只是在飛書上放了一份產品文檔,標題簡潔到近乎囂張——“Kill the game”。
緊接著的幾天里,《黑神話:悟空》制作人馮驥發布數百字長評,稱其為“當前地表最強的視頻生成模型”,斷言“AIGC的童年時代結束了”;科技博主影視颶風Tim也連呼六次“恐怖”。
這一切看起來都是一部“中國 AI 的勝利敘事”——六十秒多鏡頭、分鏡腳本控制、原生音畫同步、電影感拉滿,它給大家帶來了“人人都能當導演的”想象。
過去國內影視行業苦心學習好萊塢的“電影工業”模式,還沒學會,現在又要被“Seedance 時刻”重新解構。
然而,在這片歡呼聲中,卻很少有人追問一個更根本的問題——這種技術路線的天花板在哪里?它是真的代表了AI視頻的未來方向,還是僅僅是一次成功的工程化優化?
要回答這個問題,我們就不得不回到那場持續了兩年多的路線之爭。
早在 2024 年,當 OpenAI 的 Sora 首次向世人展示其驚艷的能力時,圖靈獎得主、Meta 首席 AI 科學家楊立昆就潑下了一盆冷水。他直言不諱地表示,Sora 及其同類產品不過是 “像素幻覺”。
楊立昆的核心論點是:如果一個模型不懂真正的物理規律,不理解物體之間的因果關系和空間關系,那么所有視頻生成模型都走不長遠,最終都會在更復雜的場景中“露餡”。
這就是此刻橫亙在 AI 視頻賽道面前的根本分歧。
一派我姑且稱之為”世俗派”,以字節、快手為代表,追求電影感與敘事流暢,技術路線是數據驅動的風格模仿。
另一派是“物理派”,以楊立昆的 AMI Labs、英偉達的 Cosmos 平臺、DeepMind 的 Genie 3 為代表,認為視頻只是世界模型的副產品,真正的目標是讓 AI 理解質量、動量、因果和空間。
兩派的分歧不是技術細節之爭,而是對“視頻到底是什么”的根本性分歧——它是給人看的像素序列,還是物理世界運行規律的一個投影?
這個問題的答案,將決定Seedance 乃至字節在這場競賽中的終局位置。
01
兩派的天花板
要理解這兩條路線之間的本質差異,我們要跳出從技術細節,從商業生態和長期天花板的角度來思考。
從目前來看,Seedance 2.0 優化的是“導演意圖→像素”的轉化率。它做得極好——你寫一段提示詞,它自動規劃分鏡和運鏡,同時吞吐文字、圖片、視頻、音頻四種模態的參考信息,一次性吐出帶完整音軌的多鏡頭視頻。
這是一種極其聰明的工程優化,一段原本需要專業團隊花費數天時間拍攝和剪輯的視頻,現在只需要放素材、輸入幾個提示詞就能在幾分鐘內生成。
但它有一個結構性的局限:每一次生成都是一次性成果,即刻被消費。
你用 Seedance 2.0 做出了一段精美的賽博朋克追車戲,但這段視頻里的城市、飛行汽車、反派角色,全部無法被提取出來復用。它們不是“資產”,只是“像素”。你不能調整視頻中的某個物體的物理屬性,你不能與這段視頻進行任何形式的交互。它就是一個一次性消費品,用完即棄。
這意味著世俗派的天花板被鎖死在“內容消費”這一層。電影、短劇、廣告、電商視頻是市場巨大,但底層邏輯是“生成一次,消費一次”。
而物理派打開的是另一扇門:可復用的三維世界。一旦 AI 真正理解了物理規律,它生成的不是像素序列,而是一個有質量、有碰撞、有光照、有因果律的虛擬環境——這個環境可以被游戲引擎調用,可以被機器人在其中訓練,也可以被自動駕駛系統用來模擬邊緣案例。這些是萬億級的市場。
最具說服力的案例是 Unreal Engine 5 向影視行業的滲透。
迪士尼的《曼達洛人》是這場滲透的里程碑。該劇的視效團隊工業光魔(ILM)為此專門研發了名為StageCraft的虛擬制片系統。其核心是一面270度環繞的巨型LED幕墻,高度超過六米,由上千塊LED面板拼接而成。幕墻背后運行的正是虛幻引擎——四臺PC同步驅動幕墻上的每一個像素,實時渲染出塔圖因的沙漠、涅瓦羅的熔巖平原、以及外太空的星際場景。
![]()
更關鍵的是,StageCraft 中的虛擬場景資產——3D 建筑、地形、光照預設——全部可復用,可以在下一部劇集中被調用、修改、組合,甚至授權給游戲開發團隊做成可交互的虛擬世界。一次建模,無限復用。這正是“資產思維”與“像素思維”的本質差異。
這項技術的意義遠不止于提高效率。它標志著游戲引擎這個原本屬于游戲產業的技術,正在滲透進影視制作的核心環節。Unreal Engine 不再只是一個游戲開發工具,它正在成為影視工業的基礎設施。
02
物理派的降維打擊
更具跨界說服力的案例來自英偉達與工業光魔的合作探索。
在《侏羅紀世界:統治》中,工業光魔(ILM)就使用了Omniverse連接Maya、Houdini、Unreal等工具,實現跨軟件的實時物理協作。恐龍皮膚的肌肉變形、植被的風力擺動、水花的流體模擬,在不同軟件間實時同步物理狀態,Omniverse讓物理仿真成為實時共享的基礎設施。
當物理世界模型能夠理解重力、慣性、碰撞、材質變化等底層規律時,它生成的將不僅是“看起來像”的視頻,而是一個可以實時交互的虛擬片場。
導演可以在這個數字孿生環境中預先演練鏡頭運動、光照變化、甚至演員走位——這意味著拍電影不再是“拍一次,看一次”的線性流程,而是可以反復推敲、動態調整的沉浸式創作。
更進一步,這個虛擬片場的環境參數可以無縫對接工業機器人訓練場景:同樣的光照模型可以用于訓練機器人在真實工廠中的視覺識別系統,同樣的空間邏輯可以用于自動駕駛的仿真測試。物理派正在成為橫跨娛樂與工業的基礎設施,而不是某個垂直賽道的工具——這才是它最恐怖的地方。
由此便能看清兩派的生態位差異:物理派一旦成熟,可以向下兼容世俗派的全部需求——你想要電影級視頻?從物理世界模型中提取一個虛擬攝影機的視角輸出即可。
但世俗派永遠無法向上兼容物理派——你不能把 Seedance 2.0 生成的像素序列塞進機器人訓練框架,因為里面沒有碰撞體積、沒有質量參數、沒有可交互的物理實體。這是單向度的降維打擊。
從成本上來看,短期內世俗派更便宜,但這只是相對而言的“便宜”。
按照字節極即夢的定價標準,69元/月的會員,每月可獲得1080積分,用Seedance 2.0生成一段15秒的視頻,則需要消耗90積分,換算下來,每秒生成費用約為0.77元,一分鐘大約需要46元——對于專業創作者來說,這已經比傳統拍攝制作成本低了幾個數量級,但仍不足以讓普通消費者無限制地“生成著玩”。
![]()
更關鍵的是,2026年的視頻生成戰場已經白熱化。
快手可靈AI到2025年底已在全球擁有6000萬創作者,累計生成超6億個視頻,累計合作超3萬家企業用戶,2026年1月MAU已突破1200萬。字節Seedance 2.0上線即遭遇可靈3.0的正面狙擊,兩家在電影感生成、多鏡頭敘事、2K實時生成等能力上貼身肉搏,價格戰與品質戰同步打響。
與此同時,Runway、Veo 3.1等海外玩家在控制力與物理模擬上也持續迭代。
當世俗派還在與同行卷生卷死時,物理派資產復用性的優勢,卻會在長遠時期逐步顯現——一個虛擬城市環境建模一次,可供影視、游戲、仿真、訓練四個行業反復調用,不僅市場更加廣闊,且邊際成本會愈發趨近于零。
長期來看,分層架構必然成為主流:底層是物理世界模型,上層疊加不同行業的表現力需求。
換言之,當物理派完成了對真實物理世界的數字化建模后,世俗派多年積累的“提示詞工程經驗”將被徹底降維打擊:你引以為傲的專業技能,不過是調用幾個API參數的工作,這使得世俗派最終很可能會成為“打工仔”:它們不是被技術淘汰,而是被技術架構釘死在了價值鏈的最低端,只能做物理世界模型的“渲染層”,而非“定義層”。
03
如何跳出內容紅海
話又說回來,我寫這篇文章的目的不是為了否定 Seedance 2.0 的價值,恰恰相反,我是真心認為這是一項了不起的技術突破。
但正因如此,我更關切的問題是:這種領先能夠持續多久?字節跳動應該如何定位自己,才能繼續有更大突破?
Seedance 2.0 技術領先是事實,但技術領先不等于商業閉環。它目前的核心價值停留在“內容消費層”。全球短視頻市場2026年規模預計達593億美元,到2035年將突破6400億美元,復合年增長率高達30.3%;其中字節跳動憑借抖音和TikTok合計占據全球短視頻市場約40%的份額,在國內市場更是占據絕對統治地位。
然而問題在于,這個市場的增長邏輯本質上是流量變現——所謂的“天花板”并非來自競爭,用戶規模見頂、時長增速放緩,這些困境實際上是來自整個商業模式的內在局限。
因為視頻行業本質上是一個注意力經濟”的賽道,而人類時間、精力的有限性,決定了這必將是一個“零和博弈”,且越來越卷的紅海。
馮驥在長評中擔憂“內容領域必將迎來史無前例的通貨膨脹”,但短期來看,這種通脹短期內不太可能真正發生。原因很樸素:當下Seedance 2.0 的生成成本并不便宜。據即夢平臺定價,每天贈送的免費積分僅夠生成十五秒內容;據極客公園估算,制作一部九十分鐘片子的總成本也在兩千多元。
面對此等局面,字節的可能的姿勢是什么?答案或許是:先在B端找準“甜蜜點”,對物理派路線采取“占坑”而不All in的態度。
字節這次出牌,本質上是在說:AI視頻不能只靠“抽卡”,專業創作者需要確定性。這個定位抓得很準——Sora 2雖然物理模擬強,但輸入受限;Veo 3.1雖然質感好,但太貴;Seedance 2.0在控制力和成本之間找到了一個專業市場的甜蜜點。
說白了,Seedance 2.0 最具商業價值的能力不是“生成好看的視頻”,而是多模態精準控制——同時輸入九張圖片、三段視頻、三段音頻共十二個參考文件,精確復現導演意圖。這種確定性輸出恰恰是廣告和電商行業最剛性的需求。
在用 B 端利潤養活自己的同時,字節可能會在物理派方向保持存在,保持發聲,保持與學術界(斯坦福、清華)的聯系。但不會大規模擴張——如果2027年世界模型還沒突破(比如Google Genie-3還是Demo),按字節的務實節奏,很可能立刻轉做“具身智能for 工廠”,而不止在消費級。
![]()
然而,從更宏觀的視角看,字節面臨的真正考驗不是“能不能做出好看的視頻”,這一關已經過了,而是“能不能掌握分發權”。
在 AI 視頻時代,分發權的底層支撐不再是推薦算法,而是世界模型的能力。
因為未來 10 年,計算的入口從 “屏幕” 轉向 “空間”(世界模型/VR/機器人),而空間交互的底層是 “物理可信的虛擬世界”——沒有這些,就只能永遠是內容分發商,不是平臺規則制定者。
但此刻,字節的技術路線仍然是“數據驅動的風格模仿”,距離真正的物理理解還有本質性距離。
例如在我測試的一個案例中,一個燒紅的鐵球砸到冰塊上,冰塊本應熔化、凹陷,但視頻中的冰塊,卻像硬邦邦的固體那樣,沒有絲毫變化,這說明現在的 Seedance 2.0,在物理理解方面,仍然有進步的空間。
![]()
科技行業有一個規律:真正改變游戲規則的技術,從來不是那個當下最時髦的,而是那個定義了下一層基礎設施的。
字節今天需要的,不是糾結于 Seedance 3.0 能否在“電影感”的戰場上多贏幾分,而是在這場格局已定的勝利之后,能否有續攀高峰的勇氣,向物理派的深水區進發。
這,才是真正跳出內容紅海的正道——不是換個姿勢繼續卷,而是換一個維度去定義未來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.