網易首頁 > 網易號 > 正文申請入駐

當硅谷轉向「世界模型」，中國視頻公司選擇先把錢賺了丨對話 Sand.ai

2026-04-10 14:10:26　來源: 極客公園

北京舉報

分享至

這家兩個月達成千萬美金 ARR 的團隊，認為音樂才是 AI 視頻的入口。

整理｜曹思頎

采訪｜張鵬曹思頎

2026 年，在以 OpenClaw 為代表的 Agentic AI 成為整個 AI 圈「超級共識」的同時，視頻模型卻開始走向另一種分化。

在美國，OpenAI 已關閉 Sora 的獨立產品形態，視頻生成在其當前優先級里明顯后撤；Runway、Luma AI 等創業公司也開始把敘事的中心轉向「世界模型」。

而國內則呈現另一番景象：視頻模型正在成為大廠下一階段必爭的多模態能力。無論是字節旗下的即夢，還是快手旗下的可靈，這類視頻生成產品正在從大眾娛樂場景，進一步滲透進付費意愿更強的專業創作者群體。

Sand.ai 是這輪分化里一個值得觀察的創業樣本。他們的核心產品 VidMuse 主打「Music in，Video Out」的產品形態，把音頻放到產品最核心的輸入位置。據了解，VidMuse 自年初上線以來，ARR（年度經常性收入）已超千萬美金。

近期，Sand.ai 宣布完成了新一輪約 5000 萬美元的融資，極客公園也和 Sand.ai 創始人曹越、VidMuse 產品負責人張子賀 Zake 進行了當面溝通。在 Sand.ai 看來，音樂的重要性并不因為它對應某一類內容或用戶，而在于它可能成為 AI 時代視頻創作更底層的輸入起點，也天然連接著更強的創作意愿。

與此同時，Sand.ai 還堅定地選擇了既做產品又做模型的「雙輪驅動」路徑：先用市場上效果最好的模型為產品找到 PMF，再用自家的模型回到關鍵節點換效果、換成本、換毛利。無論從精力、能力還是資源上看，這都不是一條輕松的路。但在曹越看來，這恰恰是創業公司相對巨頭的一種優勢：在這里，模型和產品更容易服務于同一個目標，而不會彼此分裂。

而這條路徑真正指向的，不只是一個更強的視頻生成工具，而是一個能夠長期協作的「數字制片團隊」。在 Video Agent 這種新的產品形態下，用戶更像一個「出資方」：不再需要充當導演反復 prompt 獎戲，而是可以把創作目標安心托付給一個能夠長期信賴、持續調用的創作伙伴。

以下是整理后的訪談內容：

視頻模型生成的「中美分野」

極客公園：你們關注到最近很火那個 HappyHorse 了嗎？

曹越：看到了，還挺有意思的，好多人拿推特上一個分析的帖子來問這個是不是我們的模型。我后來發現，是有個網站上面就直接把我們 Magihuman tech report（Sand.ai 最新開源的模型）內容轉成網頁，名字是 HappyHorse。（笑）不過我們的新模型在訓練中，會盡快推出，很大概率會直接開源出來，希望整個行業一起加速推動。

極客公園：所以是個 fake news。但最近你們一邊內測新產品 VidMuse 2.0，一邊開源了一個基模，在外部看來是個有點反共識的決定。今天大家都在強調商業化和閉源，你們為什么選擇開源？

曹越：我覺得開源的本質之一是提升品牌價值，有的時候也能夠降低獲客成本。比如 DeepSeek-R1 那次開源，大家一開始也未必能想到帶來了那么好的效果，起到了很好的作用。

對我們來說，去年 4 月我們發布 Magi-1 的時候，就開源了那個模型，算是最早開始探索世界模型的團隊吧，Magi-1是自回歸視頻基礎模型。子賀當時還在北歐讀書，也是看到這個開源模型之后找到我們的。

極客公園：今天很多投資機構也是在 GitHub 上通過開源項目找創業者。所以視頻模型這個賽道，今天發展到了什么階段？

曹越：這件事已經進入了一個「節奏分化」的階段：有些方向會先成熟，有些方向會更晚成熟。現在最明確已經成立的，是用視頻模型來替代實拍。

過去如果要做一段內容，需要租場地、燈光、演員，再進入拍攝流程；現在則越來越多地變成「寫好 prompt，點擊生成」。這一能力首先服務的是一群本來就在做內容生產的專業創作者，幫助他們替代過去的實拍環節。

因此，現階段最成熟的不是泛娛樂消費，而是有明確目標的內容生產。隨著模型能力變強，這部分創作者使用 AI 的比例在持續提高，而且這類人本來就有生產需求、也更愿意付費。過去接近兩年里，可靈、Runway、Seedance 的增長，都是建立在這類場景之上，典型應用包括短視頻內容、廣告電商、短劇等泛內容生產。

極客公園：中美對待視頻模型的整體態度，有什么不同？

曹越：我認為，中美團隊的差異實質上來自過去十年的產業和產品環境不同。

在北美，過去十年 C 端的大錢更多被 Meta 這樣的巨頭拿走，真正以 C 端產品為核心的創業公司相對少，因此大量創業公司更習慣在 ToB SaaS 上掙錢。

而過去十年，微信、短視頻等產品形態是中國最熱的產品，因此整個市場對 ToC 場景的感知更強。所以，在視頻生成這件事上，中國公司會更重視它的價值，也更相信它能很快產生商業回報。

某種程度上，我理解 OpenAI 停掉 Sora，可以看成把更多算力資源傾斜到了 coding 這個方向。相較之下，中國公司看起來更重視視頻生成，因為它已經是除 coding 之外最明確的大場景之一，而且商業價值也更容易被驗證。

Sand.ai 創始人曹越，此前曾任光年之外聯合創始人 | 圖片由受訪者提供

極客公園：具體到大公司和創業者，他們都做了什么？你有關注美國那邊 Runway 最近的動作嗎？

曹越：我們其實沒有特別關注 Runway。因為看起來，他們在「面向創作者的純視頻生成」產品層面，似乎沒有再進行特別大規模的投入，整體敘事越來越偏向「世界模型」，包括 Luma AI 也是這樣的。相比繼續強化產品，美國的創業者更聚焦在強化模型，以及模型繼續演進的方向。

極客公園：所以他們是「弱化產品、強化模型」？

曹越：對，硅谷我認為是這個趨勢。

在中國，產品則會更快地進入商業化階段。以 Seedance、可靈為代表，中國的視頻模型可以更快實現付費的閉環。不過，雖然在語言模型上，國內和國際最領先水平仍有 gap，但在視頻這個方向上，我認為中國公司的模型能力已經處在世界第一梯隊了，這也是它們更容易率先把商業場景打出來的原因。

為數不多的技術共識：

音畫同出、多鏡頭敘事

極客公園：視頻模型的技術路線，今天收斂了嗎？

曹越：沒有收斂。至少現在還沒出現像語言模型里 coding 那樣，所有人都必須死磕、不能落后的統一方向。

目前視頻模型的競爭，更像是不同團隊在不同方向上做強化選擇。例如多鏡頭敘事這件事，目前 Seedance 是處于領先地位的，但我們認為這并不來自不可復制的絕對技術壁壘，更是「更早選擇了這個方向，并更早把它做好」的判斷，從而獲得了大約三個月左右的領先周期。

其實，從過去兩三年模型能力的進展看，一家公司做出的能力，其他公司往往會在很短時間內跟進，快則兩三個月，慢則三到六個月。所以，競爭核心不完全是長期技術壁壘，也包括階段性的判斷和選擇。

極客公園：那么過去一年，視頻模型層面最關鍵的技術突破是什么？

曹越：我認為是音畫同出和多鏡頭敘事。

Google Veo 3 是最早做出音畫同出的模型之一，我們后來也很快跟進了。它的關鍵價值在于：人物的基礎表演會變得更細膩、更逼真，尤其是口型、聲音、動作之間的同步，會讓人物看起來沒那么像一個 AI 合成的人，而更像真實表演。

極客公園：那多鏡頭敘事呢？

曹越：多鏡頭敘事的重要性，其實更多是在它被做出來之后，行業內才突然意識到。因為它顯著提升了敘事型視頻的質量和真實感。

如果只是單鏡頭生成，即便畫面本身很好，人依然會隱約覺得「不太對勁」。因為人天然生活在 3D 空間里，對空間是否真實有非常敏銳的感受。多鏡頭敘事能在一段短視頻里，讓同一個場景從不同視角被表現出來。比如先從一個角度拍一個人說話，再切到另一個角度拍另一個人回應。這樣一來，觀眾會迅速建立起對這個場景的空間感，整體也就顯得更真實、更舒服。

另外，現實世界里本來就存在大量天然對齊的信息。畫面和聲音是對齊的；同一個空間里的不同視角也是對齊的。過去如果模型只處理單鏡頭、無聲音的內容，其實就等于沒有利用這些現實中天然存在的信息。一旦把這些不同維度的信息一起灌進同一個模型里，生成效果就會顯著提高。

極客公園：聽起來是一個不斷升維的過程，從靜態畫面，到動態畫面加聲音，再到同一空間內的多視角表達，能力是一層層往上疊加的。疊到某個臨界點后，用戶才會突然覺得「這個東西真能用了」。

曹越：這其實就是多模態的本質：把物理世界里原本已經對齊的信息，用同一個模型統一起來。

極客公園：視頻模型領域，會不會出現一個類似 coding 之于語言模型那種「皇冠上的明珠」？如果會，它是什么？

曹越：如果現在就讓我給一個已經完全收斂的答案，我覺得還沒有。但我認為視頻模型下一步非常關鍵的方向，很可能是更強的上下文理解、thinking，以及由此帶來的更細膩的表演能力。

今天的模型已經能做到一部分事情。比如你給一張照片，再給一個比較具體的描述，它已經可以讓這個人帶著某種情緒去說一段臺詞，而且畫面和聲音是一起生成的，所以對齊度會比較高，你會覺得它比較真。

但這還只是比較粗的層面。如果想要更細膩地表達一段音畫同出的內容，我覺得模型需要的不是更簡單的一對一映射，而是 thinking。也就是它看到一整段 prompt 之后，不是直接把「憤怒地說」映射成一個表情，而是先理解上下文：這個角色是誰，之前發生了什么，這個場景是什么，他應該怎樣表達。只有這樣，表演才會更細膩，也更貼合場景。

現在，還沒有模型能真正做到這一點，但我覺得這會來得很快，而且會是下一個非常關鍵的 breakthrough。

從創作者到「視頻投資人」

極客公園：聊聊你們在內測的新產品 VidMuse 2.0 吧。我看了你們的介紹，交互邏輯是「Music in，Video Out」，這次核心的升級是什么？

張子賀：VidMuse 2.0 的核心，不是多了幾個功能，而是重新做了 agent 的框架。

之前市面上的很多 Video Agent，包括我們自己 1.0 的狀態，都會更像一個「帶著腳鐐」的 agent：它只能按你預設好的 workflow，一步一步往下走。

但視頻創作本身不是一個線性的流程，它是一個很發散的過程。所以 2.0 的核心升級，就是從這種 Workflow 式、強編排的工具，轉向一個更開放的 Video Agent。我們想做的是，盡量把原來加在 AI 身上的那些手鏈、腳鏈放開，讓它自己去發揮智能，順著用戶需求和創作過程流動。

極客公園：現在大家都開始放開韁繩、少編排，更多交給 agent 創造好環境，VidMuse 2.0 基本就是往這個思路走的，對嗎？

張子賀：是的，因為視頻創作這件事本身非常社區驅動。社區里會不斷冒出新的玩法、新的創作習慣、新的表達方式。如果每次社區冒出一個新想法，如果我都要靠人力、物力再去迭代一個新功能，那這個產品是永遠追不上的。哪怕有各類 coding agent 提效，你也不可能真的 24 小時在線去手工支持所有這些變化。

所以，從產品角度看，把 AI 綁在固定 workflow 里，是追不上創作演化速度的。

極客公園：既然你認為它是一個 Video Agent，那它對標的是什么？

張子賀：我們從一開始就不是把它當成一個單點工具，而是把它當成一個「完整的乙方」或者「制片團隊」。我們看到很多 AI 時代的創作者，為了做一個完整視頻，要在 DeepSeek、Midjourney、生圖工具、生視頻工具之間來回穿梭，自己搭管線，門檻很高。我們當時看到的機會就是：能不能在這些工具之上架一個 agent，把它變成一個完整的制片團隊。用戶不需要再自己穿梭在各種工具里，只需要說目標，agent 去組織流程、調度 agent，最后把視頻交付出來。

極客公園：這個形態下，用戶其實就成為了制片人或者投資方。「燒」Token，然后得到滿意的成片。

張子賀：是的。

VidMuse 產品負責人張子賀 Zake | 圖片由受訪者提供

音樂是 AI 時代的視頻創作起點

極客公園：我聽說有人把 VidMuse 看成一個 MV 場景的垂類產品？你們肯定是奔著一個通用目標去的吧？

張子賀：我想專門澄清一下。我們內部從來沒有說過自己只做 MV，也從來沒有把自己定位成一個 MV Video Agent。

一開始我們也走過一些彎路。最初的想法是，模型能力本來是通用的，那產品也應該盡量通用，不要給模型太多預設。但真正做的時候你會發現，如果所有場景都想覆蓋，產品很難跨過那個「用戶愿意付費」的閾值，所以它必須收斂。

問題在于，怎么收斂。很多人會按內容類型去切：音樂、漫劇、廣告，分別做成不同產品。但我不太認同這種切法。因為如果你按內容類型把產品框死，它后面一旦要輻射更多場景，往往就得重構。我們最后選擇的不是按內容類型切，而是按創作鏈路去切。也就是說，我不是先定義「我做的是 MV」，而是先定義：AI 時代的視頻創作，到底是沿著什么鏈路往前走的。

極客公園：所以你們是會順著「創作意愿」去找用戶？音樂為什么會成為更好的切入口？

張子賀：我越來越覺得，音頻是一個比圖片和文字更適合切入的連續信息。圖片和文字更像是離散的，但音頻，尤其是音樂，是連續流動的。

我們刷了很多 Twitter、YouTube 火的純 AI 生成視頻，發現它們有一個很明顯的共性：很多作品其實都是通過音樂或者音頻去 drive 整個創作鏈路。所以我當時才會說，音樂其實像這個視頻的骨架。

所以我會覺得：AI 時代的視頻，不一定還需要傳統剪映式的軟件邏輯，而更可能是沿著音頻驅動的鏈路往前走。我們后來選擇從音樂切，不是因為「MV 這個品類本身」，而是因為我覺得在音頻里，音樂占了一個非常大的部分，它是最自然的入口。

極客公園：如果順著這個邏輯往外延展？MV 之外還可能是什么？

張子賀：這套理解后來又延伸到廣告。我覺得，廣告里很多真正讓人記住的東西，不只是畫面和文案，還有旋律。一個詞配上一段洗腦的音樂，再配上簡單但強記憶點的畫面，信息傳遞會被明顯放大。

極客公園：所以從更長遠的角度看，你們會認為「文字、畫面、旋律」看成一種更高維的內容格式，而不是把音樂只當成一個附屬元素。

張子賀：是的。

VidMuse 的產品界面

極客公園：選擇「Music in」，跟用戶畫像有關系嗎？

張子賀：有，而且關系很大。

我們有一個很明確的判斷：很多 Video Agent 在增長上會遇到瓶頸，因為你很難憑空創造用戶的「創作意愿」。一個人如果本來沒有生產視頻的意愿，你很難讓他突然開始做這件事，ROI 也很難算正。但從音樂切就不一樣。因為有音樂的人，天然已經有創作意愿，讓他從音樂順理成章地過渡到視頻，投放和增長的 ROI 會更正，這也是我們增長比較快的一個原因。

所以，音樂不是隨便選的流量入口，而是和「創作意愿」直接相關。

極客公園：你們現在的用戶畫像，大概是怎樣的？

張子賀：我會把他們大致分成兩類。

第一類就是音樂相關用戶，不管是傳統音樂人，還是 AI 音樂人。后者其實占了很大一部分——比如 Suno 賦予了他們創作能力，他們從原來只是音樂愛好者，慢慢成長到會頻繁發布自己的歌，希望有更多人聽到。

但光有音樂還不夠。你把音樂發在 Spotify 或 SoundCloud 上，真正能聽到的人還是有限；流量更大的地方是 TikTok、Instagram、YouTube。這樣一來，他們就天然需要一個視頻媒介。所以我看到的第一批核心用戶，其實就是：他們很會做音樂，但不會做音樂視頻。他們本來就在音樂這個模態里很專業，來到 VidMuse，是為了補上「從音樂到視頻」這一步。

極客公園：那么另一類呢？

張子賀：我們內部把他們叫做泛生活化創作的人。

這類人的創作內容更偏生活和個人表達，比如年會視頻、孩子成長、朋友生日、家庭紀念日，這些都算。這個方向本身就是一個新發現，因為過去這類人其實很容易被忽視。

更讓我們印象深的是，里面還有一部分是非常強的個人情緒表達。有人會用它創作一些關于童年、家庭關系等等題材的視頻。他們很多時候其實已經有一首自己的歌，然后用這個產品去把那首歌對應成自己心里真正想要的畫面，一遍一遍調。這里面有些內容甚至不會發到任何平臺上，它不是為了傳播，而是為了表達和宣泄。

這類用戶很重要的一點是：他們上傳的往往是非常隱私的照片和故事。他們未必愿意把這些內容交給一個人類創作者，但愿意交給一個工具或 agent 去完成。所以我會覺得，這里已經不只是普通的內容生產，它更接近一種個人紀念、情緒整理，甚至某種自我療愈式的創作。

創業公司更容易搞定「雙輪驅動」

極客公園：如果通過編排和加 skill 的方式，用 OpenClaw 做一個類似的產品，那你們自己的模型在 VidMuse 里到底扮演什么角色？你們的模型和產品之間，是強耦合還是弱耦合？

曹越：我們內部從一開始就是雙輪驅動。

產品不應該被模型掣肘，產品的目標是服務用戶、把規模做大，所以不應該帶著鐐銬跳舞，哪怕這個鐐銬是金的。對我們來說，哪個模型能讓產品跑得更快，就應該調用哪個模型；我們從一開始就沒有要求產品必須用自家模型。

但換一個角度，模型團隊在很多場景下又確實要支持產品。比如我們做 Music Video，第一步就需要更準確地分析音樂，識別節奏、卡點這些細顆粒度信息，這時候模型團隊就可以過來支持，把音樂分析做得更準。再比如在視頻生成里，有些場景用我們自己的模型效果更好，或者成本更低，這些也都能直接支持產品。

所以這不是簡單的強耦合或者弱耦合。更準確地說，產品先按自己的節奏跑，模型在關鍵環節提供支持：一方面提升效果，另一方面降低調用 API 的成本，提高毛利，幫助產品跑得更大。

極客公園：雙輪驅動肯定好，但也肯定難。

曹越：我的感受是，創業公司更容易把雙輪驅動搞定。原因不是團隊小本身，而是創業公司里更容易有一批真正處在 founder mode 的人。無論是做業務、做產品，還是做模型的人，只要他們心里的目標和公司的目標是對齊的，這件事就好推動。

反過來，如果一個做模型的人心里想的是「我要做一個特別的模型，公司好壞跟我關系不大」，那他的目標其實只對齊在模型這條線上，這就不是雙輪驅動，而是單輪驅動。

所以真正決定雙輪驅動能不能成立的，不是形式上公司里同時有模型和產品，而是兩邊負責人是不是都相信：同時擁有模型和產品，對公司整體是更有利的。

極客公園：具體來說，你們是怎么處理「先用最好模型把產品跑起來，再把關鍵能力收回來」這個問題的？

曹越：從產品 0 到 1 去找 PMF 的階段，如果一開始就和自家模型綁得太死，驗證周期會被拉長，不利于快速驗證、快速找到 PMF。所以我們過去這段時間的做法是，先拿效果最好的模型把產品搭起來。

這個階段我們不會先優先考慮成本，而是先看它能跑到什么狀態，這個產物能不能交付，能不能形成商業閉環。等這條鏈路先跑通以后，我們再看有哪些地方值得優化、值得收回來。

所以這件事不是一開始就要求產品必須用自家模型，而是先讓產品按自己的節奏跑起來；模型團隊在關鍵環節提供支持。一方面把效果做得更好，另一方面把調用 API 的成本降下來，提高毛利，幫助產品跑得更大。

信任關系才是最深的護城河

極客公園：你們現在商業收入跑到什么程度了？

張子賀：VidMuse 從 1 月中旬上線開始，大概兩個月時間，跑到了1000 萬美金的 ARR，而且還在漲。基本上是單周 20 多萬美金的收入，并且已經比較穩定。

收費方式上，我們現在是訂閱+加油包。注冊用戶有免費 1000 積分，可以先起一個項目。

極客公園：1000 積分是什么概念？

張子賀：大概能把一個 30 秒左右的視頻項目推進到比較后面的階段。

極客公園：付費轉化率、客單價怎么樣？

張子賀：注冊到付費的轉化大約在 5%-7%。客單價一直比較高，因為用戶需要先訂閱，再買加油包，有些人最后會直接升級到更高階版本。

極客公園：繼續往后走呢？VidMuse 3.0、4.0 還要補齊什么能力？產品邊界會怎么變？

曹越：3.0 或 4.0 應該是一個更徹底釋放的狀態：用戶提一個原來產品里沒有的功能，它也能想辦法調動自己擁有的資源，把這個問題解決掉。

這件事會越來越依賴更通用的 agent 能力，尤其是 coding agent 的能力。因為社區里會不斷冒出千奇百怪的需求。你得有一種能力，能順著用戶的需求流動，用戶給你一個鏈接、一個帖子、一個教程，你能理解里面的方法，然后把它實現出來。產品會更少依賴預設功能，而是更順著用戶需求流動。

極客公園：聽起來，未來的產品會越來越「無為」。從長期看，Sand.ai 的護城河是什么？怎么留住用戶、沉淀長期價值？我相信不止是模型能力吧？

曹越：現在 AI agent 產品最大的問題之一，是穩定性很差，很難和用戶建立可信賴的關系。

所以我們的思路是：先解決各種幻覺，尤其是多輪對話里小幻覺被不斷放大的問題，讓用戶敢信你。我們希望用戶在創作結束時，留下的是「thank you」、「good night」這樣的情緒，而不是被激怒、被消耗。第一步先是建立信任感。

第二步，是讓用戶愿意留在這里。好的產品要在使用過程中不斷認識這個人、了解這個人、理解他喜歡什么。比如用戶已經明確說過自己喜歡諾蘭，就不要再給他推別的導演風格；用戶說過自己不喜歡紫色，后面的場景、分鏡、腳本設計就不該再往這個方向走。

所以，memory（長期記憶）和信任關系是我們 Video Agent 的靈魂。

*頭圖來源：Sand.ai

本文為極客公園原創文章，轉載請聯系極客君微信 geekparkGO

極客一問

你想體驗 Sand.ai 嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.