![]()
這家兩個月達成千萬美金 ARR 的團隊,認為音樂才是 AI 視頻的入口。
整理|曹思頎
采訪|張鵬 曹思頎
2026 年,在以 OpenClaw 為代表的 Agentic AI 成為整個 AI 圈「超級共識」的同時,視頻模型卻開始走向另一種分化。
在美國,OpenAI 已關閉 Sora 的獨立產品形態,視頻生成在其當前優先級里明顯后撤;Runway、Luma AI 等創業公司也開始把敘事的中心轉向「世界模型」。
而國內則呈現另一番景象:視頻模型正在成為大廠下一階段必爭的多模態能力。無論是字節旗下的即夢,還是快手旗下的可靈,這類視頻生成產品正在從大眾娛樂場景,進一步滲透進付費意愿更強的專業創作者群體。
Sand.ai 是這輪分化里一個值得觀察的創業樣本。他們的核心產品 VidMuse 主打「Music in,Video Out」的產品形態,把音頻放到產品最核心的輸入位置。據了解,VidMuse 自年初上線以來,ARR(年度經常性收入)已超千萬美金。
近期,Sand.ai 宣布完成了新一輪約 5000 萬美元的融資,極客公園也和 Sand.ai 創始人曹越、VidMuse 產品負責人張子賀 Zake 進行了當面溝通。在 Sand.ai 看來,音樂的重要性并不因為它對應某一類內容或用戶,而在于它可能成為 AI 時代視頻創作更底層的輸入起點,也天然連接著更強的創作意愿。
與此同時,Sand.ai 還堅定地選擇了既做產品又做模型的「雙輪驅動」路徑:先用市場上效果最好的模型為產品找到 PMF,再用自家的模型回到關鍵節點換效果、換成本、換毛利。無論從精力、能力還是資源上看,這都不是一條輕松的路。但在曹越看來,這恰恰是創業公司相對巨頭的一種優勢:在這里,模型和產品更容易服務于同一個目標,而不會彼此分裂。
而這條路徑真正指向的,不只是一個更強的視頻生成工具,而是一個能夠長期協作的「數字制片團隊」。在 Video Agent 這種新的產品形態下,用戶更像一個「出資方」:不再需要充當導演反復 prompt 獎戲,而是可以把創作目標安心托付給一個能夠長期信賴、持續調用的創作伙伴。
以下是整理后的訪談內容:
01
視頻模型生成的「中美分野」
極客公園:你們關注到最近很火那個 HappyHorse 了嗎?
曹越:看到了,還挺有意思的,好多人拿推特上一個分析的帖子來問這個是不是我們的模型。我后來發現,是有個網站上面就直接把我們 Magihuman tech report(Sand.ai 最新開源的模型)內容轉成網頁,名字是 HappyHorse。(笑)不過我們的新模型在訓練中,會盡快推出,很大概率會直接開源出來,希望整個行業一起加速推動。
極客公園:所以是個 fake news。但最近你們一邊內測新產品 VidMuse 2.0,一邊開源了一個基模,在外部看來是個有點反共識的決定。今天大家都在強調商業化和閉源,你們為什么選擇開源?
曹越:我覺得開源的本質之一是提升品牌價值,有的時候也能夠降低獲客成本。比如 DeepSeek-R1 那次開源,大家一開始也未必能想到帶來了那么好的效果,起到了很好的作用。
對我們來說,去年 4 月我們發布 Magi-1 的時候,就開源了那個模型,算是最早開始探索世界模型的團隊吧,Magi-1是自回歸視頻基礎模型。子賀當時還在北歐讀書,也是看到這個開源模型之后找到我們的。
極客公園:今天很多投資機構也是在 GitHub 上通過開源項目找創業者。所以視頻模型這個賽道,今天發展到了什么階段?
曹越:這件事已經進入了一個「節奏分化」的階段:有些方向會先成熟,有些方向會更晚成熟。現在最明確已經成立的,是用視頻模型來替代實拍。
過去如果要做一段內容,需要租場地、燈光、演員,再進入拍攝流程;現在則越來越多地變成「寫好 prompt,點擊生成」。這一能力首先服務的是一群本來就在做內容生產的專業創作者,幫助他們替代過去的實拍環節。
因此,現階段最成熟的不是泛娛樂消費,而是有明確目標的內容生產。隨著模型能力變強,這部分創作者使用 AI 的比例在持續提高,而且這類人本來就有生產需求、也更愿意付費。過去接近兩年里,可靈、Runway、Seedance 的增長,都是建立在這類場景之上,典型應用包括短視頻內容、廣告電商、短劇等泛內容生產。
極客公園:中美對待視頻模型的整體態度,有什么不同?
曹越:我認為,中美團隊的差異實質上來自過去十年的產業和產品環境不同。
在北美,過去十年 C 端的大錢更多被 Meta 這樣的巨頭拿走,真正以 C 端產品為核心的創業公司相對少,因此大量創業公司更習慣在 ToB SaaS 上掙錢。
而過去十年,微信、短視頻等產品形態是中國最熱的產品,因此整個市場對 ToC 場景的感知更強。所以,在視頻生成這件事上,中國公司會更重視它的價值,也更相信它能很快產生商業回報。
某種程度上,我理解 OpenAI 停掉 Sora,可以看成把更多算力資源傾斜到了 coding 這個方向。相較之下,中國公司看起來更重視視頻生成,因為它已經是除 coding 之外最明確的大場景之一,而且商業價值也更容易被驗證。
![]()
Sand.ai 創始人曹越,此前曾任光年之外聯合創始人 | 圖片由受訪者提供
極客公園:具體到大公司和創業者,他們都做了什么?你有關注美國那邊 Runway 最近的動作嗎?
曹越:我們其實沒有特別關注 Runway。因為看起來,他們在「面向創作者的純視頻生成」產品層面,似乎沒有再進行特別大規模的投入,整體敘事越來越偏向「世界模型」,包括 Luma AI 也是這樣的。相比繼續強化產品,美國的創業者更聚焦在強化模型,以及模型繼續演進的方向。
極客公園:所以他們是「弱化產品、強化模型」?
曹越:對,硅谷我認為是這個趨勢。
在中國,產品則會更快地進入商業化階段。以 Seedance、可靈為代表,中國的視頻模型可以更快實現付費的閉環。不過,雖然在語言模型上,國內和國際最領先水平仍有 gap,但在視頻這個方向上,我認為中國公司的模型能力已經處在世界第一梯隊了,這也是它們更容易率先把商業場景打出來的原因。
02
為數不多的技術共識:
音畫同出、多鏡頭敘事
極客公園:視頻模型的技術路線,今天收斂了嗎?
曹越:沒有收斂。至少現在還沒出現像語言模型里 coding 那樣,所有人都必須死磕、不能落后的統一方向。
目前視頻模型的競爭,更像是不同團隊在不同方向上做強化選擇。例如多鏡頭敘事這件事,目前 Seedance 是處于領先地位的,但我們認為這并不來自不可復制的絕對技術壁壘,更是「更早選擇了這個方向,并更早把它做好」的判斷,從而獲得了大約三個月左右的領先周期。
其實,從過去兩三年模型能力的進展看,一家公司做出的能力,其他公司往往會在很短時間內跟進,快則兩三個月,慢則三到六個月。所以,競爭核心不完全是長期技術壁壘,也包括階段性的判斷和選擇。
極客公園:那么過去一年,視頻模型層面最關鍵的技術突破是什么?
曹越:我認為是音畫同出和多鏡頭敘事。
Google Veo 3 是最早做出音畫同出的模型之一,我們后來也很快跟進了。它的關鍵價值在于:人物的基礎表演會變得更細膩、更逼真,尤其是口型、聲音、動作之間的同步,會讓人物看起來沒那么像一個 AI 合成的人,而更像真實表演。
極客公園:那多鏡頭敘事呢?
曹越:多鏡頭敘事的重要性,其實更多是在它被做出來之后,行業內才突然意識到。因為它顯著提升了敘事型視頻的質量和真實感。
如果只是單鏡頭生成,即便畫面本身很好,人依然會隱約覺得「不太對勁」。因為人天然生活在 3D 空間里,對空間是否真實有非常敏銳的感受。多鏡頭敘事能在一段短視頻里,讓同一個場景從不同視角被表現出來。比如先從一個角度拍一個人說話,再切到另一個角度拍另一個人回應。這樣一來,觀眾會迅速建立起對這個場景的空間感,整體也就顯得更真實、更舒服。
另外,現實世界里本來就存在大量天然對齊的信息。畫面和聲音是對齊的;同一個空間里的不同視角也是對齊的。過去如果模型只處理單鏡頭、無聲音的內容,其實就等于沒有利用這些現實中天然存在的信息。一旦把這些不同維度的信息一起灌進同一個模型里,生成效果就會顯著提高。
極客公園:聽起來是一個不斷升維的過程,從靜態畫面,到動態畫面加聲音,再到同一空間內的多視角表達,能力是一層層往上疊加的。疊到某個臨界點后,用戶才會突然覺得「這個東西真能用了」。
曹越:這其實就是多模態的本質:把物理世界里原本已經對齊的信息,用同一個模型統一起來。
極客公園:視頻模型領域,會不會出現一個類似 coding 之于語言模型那種「皇冠上的明珠」?如果會,它是什么?
曹越:如果現在就讓我給一個已經完全收斂的答案,我覺得還沒有。但我認為視頻模型下一步非常關鍵的方向,很可能是更強的上下文理解、thinking,以及由此帶來的更細膩的表演能力。
今天的模型已經能做到一部分事情。比如你給一張照片,再給一個比較具體的描述,它已經可以讓這個人帶著某種情緒去說一段臺詞,而且畫面和聲音是一起生成的,所以對齊度會比較高,你會覺得它比較真。
但這還只是比較粗的層面。如果想要更細膩地表達一段音畫同出的內容,我覺得模型需要的不是更簡單的一對一映射,而是 thinking。也就是它看到一整段 prompt 之后,不是直接把「憤怒地說」映射成一個表情,而是先理解上下文:這個角色是誰,之前發生了什么,這個場景是什么,他應該怎樣表達。只有這樣,表演才會更細膩,也更貼合場景。
現在,還沒有模型能真正做到這一點,但我覺得這會來得很快,而且會是下一個非常關鍵的 breakthrough。
03
從創作者到「視頻投資人」
極客公園:聊聊你們在內測的新產品 VidMuse 2.0 吧。我看了你們的介紹,交互邏輯是「Music in,Video Out」,這次核心的升級是什么?
張子賀:VidMuse 2.0 的核心,不是多了幾個功能,而是重新做了 agent 的框架。
之前市面上的很多 Video Agent,包括我們自己 1.0 的狀態,都會更像一個「帶著腳鐐」的 agent:它只能按你預設好的 workflow,一步一步往下走。
但視頻創作本身不是一個線性的流程,它是一個很發散的過程。所以 2.0 的核心升級,就是從這種 Workflow 式、強編排的工具,轉向一個更開放的 Video Agent。我們想做的是,盡量把原來加在 AI 身上的那些手鏈、腳鏈放開,讓它自己去發揮智能,順著用戶需求和創作過程流動。
極客公園:現在大家都開始放開韁繩、少編排,更多交給 agent 創造好環境,VidMuse 2.0 基本就是往這個思路走的,對嗎?
張子賀:是的,因為視頻創作這件事本身非常社區驅動。社區里會不斷冒出新的玩法、新的創作習慣、新的表達方式。如果每次社區冒出一個新想法,如果我都要靠人力、物力再去迭代一個新功能,那這個產品是永遠追不上的。哪怕有各類 coding agent 提效,你也不可能真的 24 小時在線去手工支持所有這些變化。
所以,從產品角度看,把 AI 綁在固定 workflow 里,是追不上創作演化速度的。
極客公園:既然你認為它是一個 Video Agent,那它對標的是什么?
張子賀:我們從一開始就不是把它當成一個單點工具,而是把它當成一個「完整的乙方」或者「制片團隊」。我們看到很多 AI 時代的創作者,為了做一個完整視頻,要在 DeepSeek、Midjourney、生圖工具、生視頻工具之間來回穿梭,自己搭管線,門檻很高。我們當時看到的機會就是:能不能在這些工具之上架一個 agent,把它變成一個完整的制片團隊。用戶不需要再自己穿梭在各種工具里,只需要說目標,agent 去組織流程、調度 agent,最后把視頻交付出來。
極客公園:這個形態下,用戶其實就成為了制片人或者投資方。「燒」Token,然后得到滿意的成片。
張子賀:是的。
![]()
VidMuse 產品負責人張子賀 Zake | 圖片由受訪者提供
04
音樂是 AI 時代的視頻創作起點
極客公園:我聽說有人把 VidMuse 看成一個 MV 場景的垂類產品?你們肯定是奔著一個通用目標去的吧?
張子賀:我想專門澄清一下。我們內部從來沒有說過自己只做 MV,也從來沒有把自己定位成一個 MV Video Agent。
一開始我們也走過一些彎路。最初的想法是,模型能力本來是通用的,那產品也應該盡量通用,不要給模型太多預設。但真正做的時候你會發現,如果所有場景都想覆蓋,產品很難跨過那個「用戶愿意付費」的閾值,所以它必須收斂。
問題在于,怎么收斂。很多人會按內容類型去切:音樂、漫劇、廣告,分別做成不同產品。但我不太認同這種切法。因為如果你按內容類型把產品框死,它后面一旦要輻射更多場景,往往就得重構。我們最后選擇的不是按內容類型切,而是按創作鏈路去切。也就是說,我不是先定義「我做的是 MV」,而是先定義:AI 時代的視頻創作,到底是沿著什么鏈路往前走的。
極客公園:所以你們是會順著「創作意愿」去找用戶?音樂為什么會成為更好的切入口?
張子賀:我越來越覺得,音頻是一個比圖片和文字更適合切入的連續信息。圖片和文字更像是離散的,但音頻,尤其是音樂,是連續流動的。
我們刷了很多 Twitter、YouTube 火的純 AI 生成視頻,發現它們有一個很明顯的共性:很多作品其實都是通過音樂或者音頻去 drive 整個創作鏈路。所以我當時才會說,音樂其實像這個視頻的骨架。
所以我會覺得:AI 時代的視頻,不一定還需要傳統剪映式的軟件邏輯,而更可能是沿著音頻驅動的鏈路往前走。我們后來選擇從音樂切,不是因為「MV 這個品類本身」,而是因為我覺得在音頻里,音樂占了一個非常大的部分,它是最自然的入口。
極客公園:如果順著這個邏輯往外延展?MV 之外還可能是什么?
張子賀:這套理解后來又延伸到廣告。我覺得,廣告里很多真正讓人記住的東西,不只是畫面和文案,還有旋律。一個詞配上一段洗腦的音樂,再配上簡單但強記憶點的畫面,信息傳遞會被明顯放大。
極客公園:所以從更長遠的角度看,你們會認為「文字、畫面、旋律」看成一種更高維的內容格式,而不是把音樂只當成一個附屬元素。
張子賀:是的。
![]()
VidMuse 的產品界面
極客公園:選擇「Music in」,跟用戶畫像有關系嗎?
張子賀:有,而且關系很大。
我們有一個很明確的判斷:很多 Video Agent 在增長上會遇到瓶頸,因為你很難憑空創造用戶的「創作意愿」。一個人如果本來沒有生產視頻的意愿,你很難讓他突然開始做這件事,ROI 也很難算正。但從音樂切就不一樣。因為有音樂的人,天然已經有創作意愿,讓他從音樂順理成章地過渡到視頻,投放和增長的 ROI 會更正,這也是我們增長比較快的一個原因。
所以,音樂不是隨便選的流量入口,而是和「創作意愿」直接相關。
極客公園:你們現在的用戶畫像,大概是怎樣的?
張子賀:我會把他們大致分成兩類。
第一類就是音樂相關用戶,不管是傳統音樂人,還是 AI 音樂人。后者其實占了很大一部分——比如 Suno 賦予了他們創作能力,他們從原來只是音樂愛好者,慢慢成長到會頻繁發布自己的歌,希望有更多人聽到。
但光有音樂還不夠。你把音樂發在 Spotify 或 SoundCloud 上,真正能聽到的人還是有限;流量更大的地方是 TikTok、Instagram、YouTube。這樣一來,他們就天然需要一個視頻媒介。所以我看到的第一批核心用戶,其實就是:他們很會做音樂,但不會做音樂視頻。他們本來就在音樂這個模態里很專業,來到 VidMuse,是為了補上「從音樂到視頻」這一步。
極客公園:那么另一類呢?
張子賀:我們內部把他們叫做泛生活化創作的人。
這類人的創作內容更偏生活和個人表達,比如年會視頻、孩子成長、朋友生日、家庭紀念日,這些都算。這個方向本身就是一個新發現,因為過去這類人其實很容易被忽視。
更讓我們印象深的是,里面還有一部分是非常強的個人情緒表達。有人會用它創作一些關于童年、家庭關系等等題材的視頻。他們很多時候其實已經有一首自己的歌,然后用這個產品去把那首歌對應成自己心里真正想要的畫面,一遍一遍調。這里面有些內容甚至不會發到任何平臺上,它不是為了傳播,而是為了表達和宣泄。
這類用戶很重要的一點是:他們上傳的往往是非常隱私的照片和故事。他們未必愿意把這些內容交給一個人類創作者,但愿意交給一個工具或 agent 去完成。所以我會覺得,這里已經不只是普通的內容生產,它更接近一種個人紀念、情緒整理,甚至某種自我療愈式的創作。
05
創業公司更容易搞定「雙輪驅動」
極客公園:如果通過編排和加 skill 的方式,用 OpenClaw 做一個類似的產品,那你們自己的模型在 VidMuse 里到底扮演什么角色?你們的模型和產品之間,是強耦合還是弱耦合?
曹越:我們內部從一開始就是雙輪驅動。
產品不應該被模型掣肘,產品的目標是服務用戶、把規模做大,所以不應該帶著鐐銬跳舞,哪怕這個鐐銬是金的。對我們來說,哪個模型能讓產品跑得更快,就應該調用哪個模型;我們從一開始就沒有要求產品必須用自家模型。
但換一個角度,模型團隊在很多場景下又確實要支持產品。比如我們做 Music Video,第一步就需要更準確地分析音樂,識別節奏、卡點這些細顆粒度信息,這時候模型團隊就可以過來支持,把音樂分析做得更準。再比如在視頻生成里,有些場景用我們自己的模型效果更好,或者成本更低,這些也都能直接支持產品。
所以這不是簡單的強耦合或者弱耦合。更準確地說,產品先按自己的節奏跑,模型在關鍵環節提供支持:一方面提升效果,另一方面降低調用 API 的成本,提高毛利,幫助產品跑得更大。
極客公園:雙輪驅動肯定好,但也肯定難。
曹越:我的感受是,創業公司更容易把雙輪驅動搞定。原因不是團隊小本身,而是創業公司里更容易有一批真正處在 founder mode 的人。無論是做業務、做產品,還是做模型的人,只要他們心里的目標和公司的目標是對齊的,這件事就好推動。
反過來,如果一個做模型的人心里想的是「我要做一個特別的模型,公司好壞跟我關系不大」,那他的目標其實只對齊在模型這條線上,這就不是雙輪驅動,而是單輪驅動。
所以真正決定雙輪驅動能不能成立的,不是形式上公司里同時有模型和產品,而是兩邊負責人是不是都相信:同時擁有模型和產品,對公司整體是更有利的。
極客公園:具體來說,你們是怎么處理「先用最好模型把產品跑起來,再把關鍵能力收回來」這個問題的?
曹越:從產品 0 到 1 去找 PMF 的階段,如果一開始就和自家模型綁得太死,驗證周期會被拉長,不利于快速驗證、快速找到 PMF。所以我們過去這段時間的做法是,先拿效果最好的模型把產品搭起來。
這個階段我們不會先優先考慮成本,而是先看它能跑到什么狀態,這個產物能不能交付,能不能形成商業閉環。等這條鏈路先跑通以后,我們再看有哪些地方值得優化、值得收回來。
所以這件事不是一開始就要求產品必須用自家模型,而是先讓產品按自己的節奏跑起來;模型團隊在關鍵環節提供支持。一方面把效果做得更好,另一方面把調用 API 的成本降下來,提高毛利,幫助產品跑得更大。
06
信任關系才是最深的護城河
極客公園:你們現在商業收入跑到什么程度了?
張子賀:VidMuse 從 1 月中旬上線開始,大概兩個月時間,跑到了1000 萬美金的 ARR,而且還在漲。基本上是單周 20 多萬美金的收入,并且已經比較穩定。
收費方式上,我們現在是訂閱+加油包。注冊用戶有免費 1000 積分,可以先起一個項目。
極客公園:1000 積分是什么概念?
張子賀:大概能把一個 30 秒左右的視頻項目推進到比較后面的階段。
極客公園:付費轉化率、客單價怎么樣?
張子賀:注冊到付費的轉化大約在 5%-7%。客單價一直比較高,因為用戶需要先訂閱,再買加油包,有些人最后會直接升級到更高階版本。
極客公園:繼續往后走呢?VidMuse 3.0、4.0 還要補齊什么能力?產品邊界會怎么變?
曹越:3.0 或 4.0 應該是一個更徹底釋放的狀態:用戶提一個原來產品里沒有的功能,它也能想辦法調動自己擁有的資源,把這個問題解決掉。
這件事會越來越依賴更通用的 agent 能力,尤其是 coding agent 的能力。因為社區里會不斷冒出千奇百怪的需求。你得有一種能力,能順著用戶的需求流動,用戶給你一個鏈接、一個帖子、一個教程,你能理解里面的方法,然后把它實現出來。產品會更少依賴預設功能,而是更順著用戶需求流動。
極客公園:聽起來,未來的產品會越來越「無為」。從長期看,Sand.ai 的護城河是什么?怎么留住用戶、沉淀長期價值?我相信不止是模型能力吧?
曹越:現在 AI agent 產品最大的問題之一,是穩定性很差,很難和用戶建立可信賴的關系。
所以我們的思路是:先解決各種幻覺,尤其是多輪對話里小幻覺被不斷放大的問題,讓用戶敢信你。我們希望用戶在創作結束時,留下的是「thank you」、「good night」這樣的情緒,而不是被激怒、被消耗。第一步先是建立信任感。
第二步,是讓用戶愿意留在這里。好的產品要在使用過程中不斷認識這個人、了解這個人、理解他喜歡什么。比如用戶已經明確說過自己喜歡諾蘭,就不要再給他推別的導演風格;用戶說過自己不喜歡紫色,后面的場景、分鏡、腳本設計就不該再往這個方向走。
所以,memory(長期記憶)和信任關系是我們 Video Agent 的靈魂。
*頭圖來源:Sand.ai
本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO
極客一問
你想體驗 Sand.ai 嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.