文|富充、周鑫雨
編輯|蘇建勛
“如果2026年還只盯著視頻生成本身做迭代,是不夠的。”Luma AI的首席科學家宋佳銘,對《智能涌現》作出了這一預判。
成立于2021年的Luma AI,是美國視頻生成領域的明星創業公司。《智能涌現》獲悉,近期Luma AI已按照40億美元估值,完成9億美元C輪融資。本輪由沙特公共投資基金(PIF)旗下機構HUMAIN領投,AMD Ventures、Andreessen Horowitz、Amplify Partners、Matrix Partners等老股東均大額加注。
在視頻生成類AI公司更多還在卷更長的時長和更好的畫質時,宋佳銘具體解釋了他的“異見”:下一階段真正要提升的,不是畫面本身,而是模型對現實世界的理解與推理能力。
他用一個影視制作現場的場景做解釋:在影視制作中,若導演需要補拍一個遺漏的俯視鏡頭,傳統的視頻生成模型只是根據提示詞生成一段相關內容,卻容易存在與前后畫面不相符的細節。
但推理模型則能夠理解已有片段的場景空間、角色位置與鏡頭邏輯,這樣才能制作出在物理上更合理、銜接更絲滑的視頻。
正因如此,推理視頻生成模型可以被應用在專業的影視與廣告等,這成為其變現的基礎。
“Sora 2掀起的大眾玩梗熱潮,并不意味著視頻模型的To C時代已經到來。普通用戶在新鮮感過后,便難以持續買單。”宋佳銘解釋起視頻生成模型現階段的商業情況。
而實現視頻生產模型更強推理能力的關鍵,就是采用語言、圖像與視頻數據,訓練“多模態大一統”模型。因為,多模態融合將為模型提供更豐富、多元的數據量,這將推動模型能力從“生成”升級到“理解”。
這條路徑今年已經在圖像生成領域驗證一遍:2024年,業內還對多模態架構存在分歧,而進入2025年后,圖片生成模型已基本將文生圖、圖編輯等任務整合進統一模型。競爭焦點也已從架構設計轉向高質量的數據收集。
他認為,視頻生成模型明年也將復現同樣的收斂過程。
不斷預測下一步的技術和商業化方向,并突破自己,是Luma AI一直以來做的事。
這家2021年成立的公司最初從3D生成起步,于2023年底轉向市場空間更大的視頻生成模型。
2024年6月,Luma AI推出面向AI與設計“小白”的視頻生成模型Dream Machine,開啟C端市場探索。Dream Machine以"零推廣費"在4天內吸納百萬用戶,憑借電影級運鏡和生成效果,被業內稱為“能與Sora叫板的視頻生成模型”。
不過,Luma并未停留在C端的熱度中。今年以來,Luma AI逐步把重心轉向付費意愿更強、需求更剛性的B端專業用戶——影視、廣告、內容制作機構等。
今年9月,Luma AI推出全球首個視頻推理大模型Ray 3。
但在近期的專訪上,宋佳銘向《智能涌現》給出了新的判斷:Ray 3很可能會是Luma最后一代傳統視頻生成模型。公司已經把“多模態大一統模型”確立為下一階段的核心方向。
這一目標也需要更大的算力和資金支持。
Luma AI本輪投資方之一的HUMAIN正在沙特建設名為“Project Halo”的2GW人工智能超算集群,這是全球最大的算力基礎設施建設項目之一。Luma AI將作為核心客戶采用該算力,用于訓練下一代多模態世界模型,進一步提升視頻推理與大一統模型的能力。
從3D生成起家,到憑借Dream Machine在C端引起關注,再到如今通過布局推理、多模態大一統模型更好地服務B端專業客戶。Luma AI的每次關鍵抉擇都在自己原本業務基礎上,向外再擴展一步。
關于對當前視頻生成模型的行業觀察及未來預測,宋佳銘在專訪中詳細展示了他的觀點。以下內容來自對話,經作者整理:
![]()
△宋佳銘,圖片:采訪人提供
視頻生成模型的未來:推理能力、多模態大一統
智能涌現:你自己說過“Ray 3可能是Luma AI最后一代傳統的文生視頻模型”,這句話如何理解?
宋佳銘:我的判斷是,未來的大模型不會再把圖片、視頻、音頻、文本當成彼此孤立的模態,而是放在一個統一的框架下去處理,這就是我們說的“多模態大一統”模型。
多模態大一統帶來的數據量增長,會給視頻生成模型帶來更好的推理能力,這有助于模型做出更合理的視頻處理,并幫助用戶自動甄別視頻上的問題。
語言模型之所以有用,是因為它有很強的上下文學習、Zero-shot(零樣本學習)等能力,也具備很強的推理能力。我覺得這些遲早要在視覺和視頻模態里出現,而不只是在卷更長的時間、更好看的畫質。
智能涌現:能不能用一個具體的例子解釋一下,視頻推理模型和傳統視頻模型的差別?
宋佳銘:舉一個來自拍戲的例子。現實拍攝中,劇組會同時架好幾個機位,分別拍多個演員的不同角度。假如收工以后導演突然發現,忘了拍一個俯視下來的總覽鏡頭,需要AI“補拍”一個。
這時候,如果你只用傳統的視頻生成模型,它大概率會“發揮想象力”生成一個看起來還行的俯視鏡頭,但細看會發現:人物位置、背景物體的布局和之前的機位可能對不上。
而在我們定義的視頻推理任務里,模型需要先做的不是“生成”,而是“理解和推理”:它要從不同機位的素材中,找到同一個背景物體在不同視角中的對應關系,推理出每個演員、每件道具在統一三維空間里的位置,然后再從一個全新的俯視視角,生成一段物理上合理、鏡頭運動自然、和前面鏡頭無縫銜接的視頻。
智能涌現:今年很多視頻生成模型公司的業績都不錯,大家的技術路徑也百花齊放,但你似乎認為“這是最后一個視頻模型百花齊放的年份”,并且明年視頻生成會收斂到大一統模型,這是為什么?
宋佳銘:如果我們從圖像生成模型的歷史規律去看,去年可能大家還不確定是否要做圖像模型的大一統。或者說,去年的情況是大家傾向于面向不同任務做不同的工具流,然后根據不同任務做對應的調整,或者模型微調,但今年大家的路線是把任務都放進同一個多模態模型里。
到了現在,很少有人說會做一個和GPT 4o或者Nano Banana完全不一樣的架構。當架構統一后,競爭的核心便從模型設計轉向了數據驅動,真正的重點在于能否收集到足夠量的優質數據。
我覺得圖像在今年發生的情況,視頻領域明年也會發生。
智能涌現:在大一統模型的技術路徑上,Ray 3對于Luma來說,正在扮演一個什么角色?
宋佳銘:Ray 3算是一個階段性成果。
這其中比較重要的積累是基礎設施,不論是訓練基礎設施,推理基礎設施,還是數據的基本的基礎設施,其實可能都比算法積累本身的重要性大。
因為算法大家做了這么多年,其實也沒有太多核心的變化。基本上都是在沿用五年前的自回歸路線(GPT 3)和擴散模型路線(DDPM),這五年來有一些小的改動,但是不多。所以我覺得在此期間,最重大的一些進步,其實都來源于Scaling,就是說把模型和數據的規模擴大。
智能涌現:多模態大一統、視頻推理模型,這些方向和你心目中的AGI有怎樣的關系?
宋佳銘:我對AGI的標準會比較苛刻一點。
現在很多人會說“某些代碼模型已經超過大部分程序員”,我同意在這個維度上它可以叫“超人”,但如果只是這樣,那計算器早就超越人類心算了,我們也不會叫計算器是AGI。對我來說,如果人類能在某個任務上做到,而AI完全做不到,那就還談不上AGI。
目前在很多維度上,AI距離人都還有很大差距,比如自動駕駛、機器人、具身智能,以及對真實物理世界的長期規劃和執行。
多模態大一統視頻模型對于AGI的意義,就在于最終能把對現實世界的理解和操作能力,從純語言空間擴展到視覺、動作、時間這幾個維度。

△Luma AI的模型可以僅憑提示詞,就生成畫面高清、且充滿想象力的HDR視頻片段,圖片:采訪人提供
To C時代還沒到來
智能涌現:從產品角度看,之前Sora 2、Nano Banana的出圈給模型公司什么啟示?
宋佳銘:我覺得有一個很重要的提示是:要從產品的角度去設計一些使用場景,以及找到驅動用戶使用的點,讓技術特點本身能長成傳播爆點。
智能涌現:之前Luma AI的Dream Machine推出時,我們在采訪中聊到它在很大程度上可以服務于沒有太多設計、AI積累的C端人群。但后來公司的重心逐漸轉向了B端專業用戶,這是為什么?
宋佳銘:我更愿意把那看成一個漸變過程,而不是某一天突然掉頭。
可以先類比語言模型:Chatbot的C端熱度在去年已經很高了,但今年大家談得更多的是寫代碼、智能體這些明確的To B、To Pro場景。
因為對普通用戶來說,哪家的Chatbot差別沒有那么大,大家也不愿意為此付很高的訂閱費;但對程序員來說,如果一個工具能讓他的產出翻一倍,公司愿意替他為這個工具買單。
視頻模型也是類似邏輯。C端用戶玩視頻生成,很容易膩,也不一定有穩定的付費意愿;而B端客戶——比如影視公司、廣告公司、內容制作方——一旦發現某個AI能在他們的主流程里節省大量人力、時間和硬件投入,他們的付費意愿和粘性會遠高于C端。
智能涌現:之前Open AI的Sora 2在社交平臺上被大家玩梗玩得很開心。你覺得,這代表著視頻生成模型開始走向C端了嗎?
宋佳銘:我覺得Open AI做To C和視頻生成模型做To C不是一個概念。Open AI做To C更多是因為他的這個估值已經是5000億美元了,所以它如果去做to B的話,好像也沒有什么這個B端能接住它的盤。
Open AI自己就是個Business,并且需要尋找更大的增長點。這和Meta、字節跳動的原理是一樣的,就是說當規模大到一定程度的時候,企業肯定會去做To C的努力,探索規模的最大化。但這不代表整個視頻生成模型領域也要、或者也能做To C。
美國著名投資機構A16z的合伙人Olivia Moore曾在她的社交媒體上發過一組數據,顯示Sora 2在30天的留存僅為1%,60天的留存就低于1%了。相比之下,TikTok視頻的留存率可以維持在30%左右。這也側面說明,Sora 2的玩梗效應不能代表視頻生成模型已經跑通了C端。
智能涌現:視頻生成模型走向C端還面臨哪些現實難點?
宋佳銘:從純技術角度看,短視頻平臺上已經有不少AI視頻內容,To C并不是做不到。難點是要想清楚商業模式能不能跑得通。
從商業模式上,我還沒看清視頻生成to C應用作為社交產品的價值在哪。
今天的抖音、YouTube、Instagram,本質上是“社交+分發”平臺,大部分人看的還是那1%最熱門的視頻,圍繞這些內容形成了公共話題。如果未來每個人100%都在看AI為自己定制的視頻,你和別人之間的共鳴反而會下降,大家缺少“看同一件東西”的交流基礎,這不符合社交的基礎邏輯。
智能涌現:現在視頻生成做得不錯的公司不少,在To B側你覺得競爭壓力大嗎?
宋佳銘:如果單看輿論場,會覺得競爭非常激烈,但在美國To B市場,實際壓力沒有表面看上去那么大。
原因其實很現實:第一是政治和合規因素,經過篩選之后,真正能進入嚴肅美國企業名單的幾乎都是美國本土供應商。這個名單其實很短,比如Google、我們,以及少數幾家美國創業公司。
第二是美國To B市場本身更成熟,對軟件訂閱、API收費、企業服務的接受度,要高很多。To B生意“好做”不是說輕松,而是商業模式更清晰。
智能涌現:Dream Machine在今年6月上線之后,外界看到的一些商業化成績似乎還不錯。不過Luma起步時是做3D視頻生成業務,當時的商業化情況如何?差異主要產生在哪里?
宋佳銘:之前我們就在3D方面有商業化嘗試,但我不認為那是可擴散或者很成功的。
當時的3D生成技術,無論從質量還是應用場景都比視頻弱一些。
目前使用3D生成模型最多的應用場景還是集中在游戲、數字人這些領域,這種有深度科技能力的游戲公司也不是特別多,就是說潛在客戶量可能會比較少。而且,像騰訊這種既有強3D能力、又有游戲業務的大廠,理論上更傾向于自己做基礎能力,不太會長期依賴外部模型。
從技術上來說,3D數據本身遠少于視頻數據,AR/VR生態整體也還沒成熟到“內容極度缺乏、必須靠生成式AI填充”的階段。所以從結果上看,3D在我們這里更像是前期探索,真正被驗證有商業潛力、市場接受度的,還是視頻這個條線。
視頻生成模型沒有絕對技術護城河
智能涌現:從你的視角看,現在的視頻生成領域有沒有所謂的“絕對護城河”?
宋佳銘:目前我不覺得有哪一種模型結構或者哪一套方案能構成絕對護城河。
過去幾年能看到的更多是,大家在同一個大方向上不斷試各種組合,算法層面過去一兩年其實沒有出現顛覆級的新結構,差異主要體現在迭代速度和工程實現上。
真正拉開差距的是誰能在大規模上把這套東西“跑通又跑穩”,而不是“誰先想到了這個點子”。
語言模型的總量基本在幾十T或者基本上是不會超過100T的量級,視頻模型很容易達到幾PB或幾十PB的數據量,這是文字的幾百上千倍。
所以在視頻這里,更大的挑戰反而是:獲取數據的能力,以及有沒有能力在工程上托住這么大的數據規模,把它們清洗好、對齊好,讓模型真正從中學到東西。
智能涌現:視頻生成模型現在似乎也沒有一個統一的評判標準,“最強模型”怎么判斷?
宋佳銘:確實沒有統一標準,這背后有幾個原因。第一是技術路線還在摸索,相對語言模型已經有高度收斂的架構,視頻這邊在架構和訓練方式上還有很多可以探索的方案。
所以我不太愿意簡單說“誰是世界最強的視頻模型”。而且,打榜成績只反映一部分特性,我認為更關鍵的是客戶在實際工作流里到底要什么功能,比如有沒有HDR,這更符合專業視頻生產的需求。
如果從有HDR這個維度來講的話,我們獨此一家,但是看其他指標的話,我覺得評價標準又會有所不同。

△相比于通常視頻的8比特像素,HDR的顏色表達范圍多了一個數量級,這體現在更多的高光和陰影細節上,對于電影制作管線至關重要,圖片:采訪人提供
智能涌現:擴散模型和自回歸模型,誰的“天花板”更高?
宋佳銘:我現在不會給出“誰的天花板更高”這樣的結論。真正決定上限的,其實是數據量和架構設計,從數學層面上,都還沒有碰到實際的天花板。
我覺得關鍵的還是找到商業用戶的痛點,這樣我才能去提供客戶真正想要的東西,這不一定和AI的模型能力直接相關。
智能涌現:你覺得視頻和大一統模型的賽道,會像語言模型一樣收斂到少數幾家嗎?這對初創公司意味著什么?
宋佳銘:我覺得這是幾乎可以類推的結論。
如果回頭看語言模型這條線,會發現一直能持續做得好的玩家其實就那么幾家,很多項目要么轉型,要么被并購,要么慢慢消失。視頻和多模態大一統,本質上是同一條大模型產業鏈上的分支,只要跟“基座模型”這件事綁得足夠深,它也不可避免地會走向頭部高度集中。
在國內,我個人基本不會考慮從零做這種基座模型創業,因為大廠在資金、人力、算力上的優勢太大,留給純技術向創業公司的空間非常有限;在美國會好一些,美元基金還有動力在這個方向下注,退出機制也更清晰,和大廠之間的合作、并購、共建都更常態化。
Luma 的路線:模型迭代、融資與人才
智能涌現:Ray 3是9月推出的,Ray 2的推出差不多在這七個月之前,在這七個月時間里,Luma團隊有在嘗試不同的方向嗎?什么才是重點?
宋佳銘:我們會嘗試不同的方向,比如世界模型,但最主要的還是大一統模型。
大一統模型有很多方法把不同的模型拼起來,這里面有的組合更能帶來短期收益,比如用別的公司訓練好的模型去實現某些能力。和訓練自己的模型相比,這當然是更快的。
我們希望兼顧短期的收益,但總體而言,更傾向完成長遠的布局。
智能涌現:這次C輪融資,你們拿到了9億美金級別的資金,估值也大幅抬升。在你看來,投資人下注的核心理由是什么?
宋佳銘:這次由沙特主權基金PIF旗下的HUMAIN領投,AMD Ventures和Amplify、Matrix這些老股東都繼續加碼。對我們自己來說,這件事更像是幾層邏輯被外部驗證了一次。
這里包括過去成績,和創新和迭代速度的驗證。
同時,投資人也在找“下一個基座模型玩家”。對一些美元基金來說,他們并不滿足于只看短期商業化的利益,而是希望長期押出真正有機會做大的公司。我想,更看重長期布局的能力也是投資人下注我們的理由。
智能涌現:C輪融資這筆錢具體會花在哪里?
宋佳銘:算力仍然是絕對大頭,不管是訓練還是推理,對做大規模多模態模型的公司來說,都是最大的剛性支出。
另一塊是人才和基礎設施建設,我們需要繼續擴充工程和系統團隊,不是為了變成“小版的大廠”,而是為了真正把這些模型“跑得更穩、更快、更便宜”。
智能涌現:現在Luma的團隊結構是怎樣的?在招人這件事上,你個人更看重什么?
宋佳銘:目前團隊大概一百三十人左右,其中30%–40%是技術研發,其余是產品、商業、市場和運營。
和很多公司不同,我們沒有特別強調“傳統意義上的產品經理”,而是讓很多人共同承擔產品職責:有些人偏工程,但非常懂用戶場景;有些人偏運營,又能把需求翻譯成清晰的技術任務,所以“產品思考”是被分散在很多人身上的。
招人方面,我們會盡量避免卷進“搶明星選手”的價格戰,更像是足球俱樂部里的“青訓和球探體系”:那些已經家喻戶曉的球員,轉會費肯定很高,創業公司去搶代價極大;我們更希望在一個人還沒被市場廣泛共識之前,就發現他、支持他。
我個人會非常看重三點:寫代碼能力要足夠扎實,學習速度要快,以及自驅力和對這件事的長期興趣。
封面來源|企業官方
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.