文章轉載自「Alphaist Partners」,FP進行了部分刪減。
基模正在走向全面的多模態,Gemini、豆包都已經具有了文字、視覺和語音功能了,獨立的語音模型還有存在的必要嗎?
ElevenLabs 活得很好,Fish Audio 也活得很好。
過去一年,Fish Audio 實現了 13 倍增長,達到了 10 million 的 ARR,月活超過 100 萬。這家全球第二大 AI 語音平臺,擁有 350 萬用戶和 110 萬 UGC 聲音模型,核心產品 S1 是世界首個支持自然語言情感控制的 TTS 模型。
Fish Audio S1模型效果
更反直覺的是,他們最核心的數據壁壘,來自傳統公司會直接扔掉的「臟數據」——吵架聲、爭論聲、興奮的討論聲。
Alphaist Partners 合伙人陳哲(Peter)和 Fish Audio 兩位聯合創始人聊了聊:CEO Rissa(前 Meta/Amazon 增長與開發者社區負責人)與 CTO 冷月(00 后,前英偉達算法研究員)。從技術信仰到商業飛輪,從股權危機到團隊重組,這是一個關于「AI 語音 2.0」的完整創業故事。
注:The Alphaist 是一檔深度對話欄目,關注技術與創業的第一性原理,聚焦正在改變世界的早期創業者、工程師和產品探索者。Alphaist Partners 是一家專注于硬科技領域的美元基金,使命是賦能 Alpha 創業者,推動人類社會進步。
??關注 Founder Park,最及時最干貨的創業分享
超 19000 人的「AI 產品市集」社群!不錯過每一款有價值的 AI 應用。
邀請從業者、開發人員和創業者,飛書掃碼加群:
進群后,你有機會得到:
最新、最值得關注的 AI 新品資訊;
不定期贈送熱門新品的邀請碼、會員碼;
最精準的 AI 產品曝光渠道
01從開源走向全球第二大語音生成平臺
Peter:簡單介紹下 Fish Audio?
Rissa:Fish Audio 是一個 AI 語音生成平臺,目前已經是世界第二大的 AI voice generation platform。我們提供多語言文本轉語音(TTS)和高精度聲音克隆,讓每個人都能擁有人類水平的 AI 配音能力。我們的用戶包括游戲開發者、ASMR artist、播客創作者以及各類 professional content creator,他們用我們的產品創作音頻內容,提高生產效率,實現更有效的內容商業化。
過去 12 個月內我們實現了 13 倍的增長,達到了 10 million 的 ARR。我們積累了 350 萬用戶,月活超過 100 萬。我們也是業界最大的 UGC 聲音模型市場,有 110 萬個 public voice models 在平臺上,用戶可以找到喜歡的角色來創作音頻內容。流量上我們是全球第二大 AI 語音平臺,僅次于 ElevenLabs。因為我們起源于開源項目 Fish Speech,各個開源 repository 累計超過 100K 的 GitHub Stars。過去一年我們還 launch 了世界上第一個 open domain emotion control 的 TTS model,也就是我們的 S1 模型。
Peter: Fish Audio 的核心產品是什么?
冷月:目前我們線上的主要產品是 S1 模型,也是世界上第一個支持自然語言控制的 TTS 模型,可以通過文本描述情感、強調、速度等各種特征。在 S1 這一代我們開源了一個小模型叫 S1 Mini,下一代模型將在自然度、可控性、穩定性和多說話人方面做出進一步提升,同時我們預計會完全開源 S2 模型。
Peter:Fish Audio 的客戶現在是誰?誰在用你們的產品?
Rissa:我們起源于開源,所以最早的用戶是開源社區里的游戲開發者。過去一年客戶群體發生了很大的演化,主要分兩大類。第一類是 prosumer 創作者,他們直接在我們平臺上做內容創作,包括 vlogger、博客主、有聲書作者、自媒體和游戲配音演員,用來給視頻或小程序做多語言配音。
第二類是 API 企業用戶,過去三個月內突飛猛漲,已占我們 40% 的 revenue。主要分四大類:一是 AI 陪伴類社交應用,如 Character.AI 這類產品;二是游戲公司和 To B 企業,用來做 NPC 對話和角色配音;三是 AI 內容創作平臺,如 HeyGen、Vigo、Clokation 等;四是 real time voice agent,這部分量非常大,增長趨勢很強,主要用于實時客服、銷售和教育場景。
02
ElevenLabs 效果不夠好,語音需要大模型革命
Peter:為什么選擇做音頻模型這個方向?
冷月:大概兩三年前,我還沒從英偉達離職的時候,我們看到市場上語音領域并沒有特別好的 player,最著名的就是 ElevenLabs,當時大概有 5000 萬到 1 億美金收入的規模。但說實話效果并不好。我個人對 VTube 和語音合成、語音開源非常感興趣,發現沒有一個產品效果能達到我的預期——它們都不夠自然,尤其句子長了之后,語音生成會變得非常單調。
我們就想能不能解決這個問題,讓語音變得自然。我一直相信語音會是人類與 AI 交互非常重要的入口,就像圖像模態一樣。我們開始思考:要讓語音模型更自然,需要做什么?第一點,模型一定得大,一定得是自回歸架構,一定得盡可能多地建模語義信息和聲學信息,做一個大一統的模型。沒有這樣的結構,語音就沒辦法走到下一個階段。所以我們從 Fish Speech 開始研究端到端的語音模型,早期也遇到了很多困難,比如模型穩定性、訓練穩定性等各種問題。
現在回過頭來看,當時的選擇是完全正確的。在我們之后,Moshi、SESAME,到最近的千問 TTS,大家都不約而同地選擇了端到端建模語義和聲學信息,都使用了類似我們當時采用的雙自回歸架構。這讓我們從很早開始就在數據收集和強化學習管線上做出了很多領先于時代的工作。
Peter:你覺得獨立音頻模型的生存空間是暫時的還是持久的?音頻模型會被多模態大模型直接吸收進去嗎?
冷月:「直接吸收」這個說法可能不太妥當,并不是把語音數據扔進去模型就練完了,沒那么簡單。但語音模型和文本模型、視覺模型一定會結合,形成更完善的 Omni Model,這是我一直相信的。
如果只是做最普通的 TTS 任務,現在很多工作已經把它吸收進去了,比如千問的 Omni Model 等。但如果要做更復雜、更富有情感、更可控的語音,整體數據集的構建非常難,互聯網上不存在這種復雜標注的文本和語音的 pair,這就構成了護城河。我們更聚焦 content creator 市場的模型,不那么容易被吸收。相反,我們要做的是通過語音把文本和圖像模型整合到一起,構建更低延遲、效果更好、可以對多模態進行理解的 voice agent。
Peter:所以我的理解是,對情感和語義的細膩控制,讓我們在市場里有一個獨特的位置。關于 AI voice 和 voice agent 的未來,你們怎么看?
冷月:現在絕大部分做 TTS 的公司都覺得 TTS 技術已經到頭了,已經 good enough,再往上提升是 marginal 的,這是我們聽到非常多的聲音。但從我們的視角來看,能做的東西還有非常多——更好的可控性,基于 vision 的 control,比如給模型一個人物線稿或劇情分鏡,讓它據此配音,還有很多各種各樣的事情。只有把這些都做好了,我們才能真正服務好 content creator 用戶和 B2B 客戶。而絕大部分公司在目前階段就止步于此了。
03
吵架時情緒最真實,「臟數據」反而是寶藏
Peter:在音頻領域會有類似大語言模型的 Scaling Law 嗎?作為一家體量小得多的創業公司,我們相比大公司在數據或算力的積累上會有劣勢嗎?
冷月:這是一個很有意思的話題。如果單看最樸素的 TTS 任務,你會發現所有開源模型、閉源模型基本都止步于 1.5B、4B 這個規模——因為模型超過 4B 之后,對于純粹的 TTS 任務我們看不到更多提升。但如果我們想把語音做得更可控,想要 voice agent 能力,想要模型更好地思考,就需要更多參數——30B、100B。我們選擇了像大語言模型公司一樣采用 MOE 架構,30 active 3、100 active 10,大概這些規模的模型作為下一代備選。
一個 30 active 3 的模型,訓練和推理資源大概跟一個 6B 的 dense model 差不多,對我們來說完全可以 afford。這里有一個大部分人不知道的事實:絕大部分大公司雖然有 1 萬卡、10 萬卡來做大語言模型,但語音組的計算資源往往非常有限,能到幾百卡、一千卡的公司其實非常少,而我們已經進入第一梯隊了。
Peter:之前提到說未來會把圖片和文字吸收到語音骨干模型里,跟今天的多模態語言模型訓練方式有什么本質區別?
冷月:這兩件事殊途同歸,但我們認為獲得高質量文本數據比獲得高質量語音數據更簡單,因為市場上已有很多成熟的文本模型,可以作為 online distillation 的數據來源。舉個例子,我們拿自己的端到端模型給定一個語音,輸出一個文本答案,再把這個答案和對應文本給到一個 teacher model,就可以算出整個 sequence 的 log probability 和 logits,做在線蒸餾,學習和克隆教師模型的行為。
現在不用太多成本就能打造出解決 95% 問題的文本模型,已經變得非常簡單。但絕大部分公司對語音數據的積累——尤其是高自然度、多音軌、情感豐富的語音數據——還沒有開始。這種數據在互聯網上極其稀缺,所以我們往文本和圖像理解方向邁進,比他們往語音走要快得多。
Peter:你們在數據上的投入會是什么量級?
冷月:我們預計今年 Q1、Q2 在數據上的投入會達到百萬美金級別。
Peter:需要在不同語種上都有相應的采集?
冷月:對,不只是不同語種,還有不同的任務類型。我們早年犯過一個錯——從互聯網上爬完數據后直接用原始分布訓練 TTS 模型,導致模型對播客的能力表現特別好,但在創作類、陪伴類、電影和動漫配音方面表現就差了很多。數據分布本身非常重要,我們內部有一套不同語種數據分布的目標指標,從不同數據源精確匹配每個位置需要什么樣的數據、需要多少數據,來構建每一代模型的 data recipe。
Peter:那是不是所有數字音頻內容——電影、戲劇、播客——都可能成為訓練原料?
冷月:所有可得的數據都有價值,但不同數據有不同的版權風險。我們的策略是在合法前提下,盡可能從多元數據源獲取數據,包括已過版權保護期的電影、動漫、播客,以及真人聊天對話等。
Peter:像電影這種高質量影視內容有大量豐富的語音和表現力,傳統互聯網大廠或內容平臺會有先天的數據優勢嗎?
冷月:并非如此。受限于監管體系,即便一家公司持有電影版權,也并不意味著可以把其中的人聲用于 AI 訓練,這受到配音協會等的強烈抵制。就像 Google 圖書館有大量藏書,但并不代表可以隨意免費使用這些資料。
Peter:所以作為創業公司,在數據獲取方面沒有明顯優勢,但在高質量數據的清洗 know-how 和積累上,比大公司有更強的經驗和復利。
冷月:對,我們離用戶更近,清洗管線更傾向于保留高自然度和多說話人的語音。翻看最近各家 TTS 公司的論文,大部分數據清洗只保留了單說話人音頻,不允許一個片段有多個說話人疊在一起。但在我們的管線中,我們是允許的。
我們自己的語音識別模型和數據清洗模型也做到了世界第一。我發現一個有趣的事實:noisy 數據往往是更有高表現力的數據。人什么時候情緒最豐富?往往是兩個人在吵架、在爭論、或在很高興地討論事情的時候——這時兩人的聲音往往會重疊在一起。傳統數據清洗會直接把這種數據扔掉,而我們希望盡可能保留更多原汁原味的、符合原始分布的數據。
Peter:合成數據不是解法?
冷月:大家低估了語音工作的難度。現在絕大部分工作只是給大語言模型增加語音模態,并不是從語音本身出發的。很多時候他們用大量合成數據,拿 TTS 模型直接合成,這里面有很多問題。這種數據固然容易獲得,就像合成的文本數據一樣,是一個 low hanging fruit,能很快提高模型效果,但也有 toxic 的一面,會在一定程度上影響模型的表現能力和上限。我們在語音、文本、視頻、圖像這些模態上都看到了這個規律。所以我們相信一定需要更多高質量的、由人工標注的、由真實線上數據驅動的數據來帶動模型能力提升,這是我們獨特的護城河。
04
S2 的秘密武器:自研情緒標ASR與 RLHF
Peter:公司即將發布全新的 S2 模型,跟上一代 S1 的主要優勢和差異是什么?
冷月:S2 主要實現了更精細化的控制、多說話人支持以及更低延遲。絕大部分改進不是來自模型結構,而是數據工作。我們基本上完全重構了數據管線,所有模型都是自研的——包括一個情緒標注世界第一的 ASR 模型,以及聲音分離模型、Audio Quality Model 等,讓預訓練數據天然具有準確的 speaker tag 和 open domain 的情感標簽(從簡單的 emphasize 到復雜的"帶著憤怒和悲傷"這類情緒),整合到數據管線后得到了非常健壯的高質量預訓練數據集。
然后我們結合線上用戶反饋數據——用戶是否喜歡、是否下載等——構建了一個巨大的偏好數據集,訓練了一個 reward model。同時我們還有通過 in-house labeling 實現的另一個 reward model,關注模型正確性和表達自然性。我們專門組建了一個全球 native speaker 團隊來標注數據。結合預訓練數據和后訓練的強化學習管線,我們得到了 S2。
Peter:怎么理解 Fish Audio 的語音模型跟市場上其他競爭對手在架構方面的區別?
冷月:目前市場上存在多種 TTS 模型架構。第一種是比較古老的,類似 StyleTTS 的架構,ElevenLabs 2.5 等在用,優勢是延遲非常低,一次能把很長的 sequence 吐出來,但韻律比較弱,比較 monotone。在此基礎上出現了 Tortoise 架構,也是目前 CosyVoice、Seed TTS 等在使用的架構。
這個架構的特性是給定文本,先讓模型把語義 token 吐出來——這更像文本任務而非語音任務——帶有一點音高信息,再由一個額外的模型將其解碼為音頻。這是目前業界部署最多的一類模型,好處是非常穩定,同時在表現力上有了質的飛躍。
還有一種更新的路線,比如我們的模型,或者千問 TTS、SESAME 等——把語義和聲學信息一起端到端建模。這樣得到的模型表現力更強,天生可以 handle 多說話人,但反面是容易出現說話人跳變、噪音等 badcase。所以我們在強化學習上做了大量后訓練來優化穩定性,讓它能和前者的模型持平,同時 deliver 更好的表現力。
Peter:這種方式是未來 TTS 架構的主流趨勢嗎?
冷月:未來這會成為主流架構。它還有一個巨大優點:延遲可以比之前的架構低很多,理論上只需要第一個 token 生成完就可以開始音頻解碼,延遲可以壓縮到非常恐怖的狀態。我們最近還會發布一個全新類型的模型,完全去掉了 Vocoder 模塊,實現從文本到波形的完整端到端建模。
我們一直非常相信端到端。每一個模塊都在往模型中引入更多結構和復雜性,不只限制計算效率,也限制了模型的能力和上限。從語音發展的歷程來看——早些年我們有一個模塊預測每個音素有多長,再有一個模塊把長度和音素放在一起,轉成梅爾譜,再有一個 Vocoder 把梅爾譜轉成波形,這個流程非常長。而我們和千問的方案把前兩個模塊又融合了,從文本信息直接給出聲學信息。再往后一步——能不能把文本給進去就直接把波形吐出來?這個事情會非常 amazing,有希望把延遲降到 30~50 毫秒。
Peter:那整個 voice agent 架構呢?傳統級聯方案和端到端方案的區別是什么?
冷月:現階段雖然各廠商都有端到端模型,但投入生產最多的還是級聯方案:VAD → turn taking → STT → LM → TTS,大概 4~5 級流水線。很多公司宣稱達到 500 毫秒,但實際生產上平均延遲都在一秒以上,因為里面有很多 bottleneck 無法完全流式化。
最先能合并的是 LM、STT 和 turn taking 三個模塊——如果有一個支持流式的語音編碼器接入 LM,就可以由 LM 自己判斷用戶是否已經說完,完成了就停止,沒完成就生成答案文本再交給 TTS。這個流程從用戶停止說話到模型開口,可能只有 300~500 毫秒。
再進一步把 streaming TTS 也融合進去,那我們需要等待的時間就只有:用戶完成這句話之后的一次 LM prefill,加上可能幾個 token 的輸出時間。這個流程就非常短,可能整個就在 100 毫秒以內了。
再往前一步就是全雙工模型。世界上已經存在全雙工模型,但它們智力水平都很低,有各種模態 conflict。不過這個方案能提供比端到端更低的延遲響應,還能在用戶說話時給出 supportive 的語氣——比如「確實」「對的」「我想想」等。預計今年 Q4 推出端到端的 speech-in-to-speech-out 模型,之后再走向全雙工。
Peter:ASR 模型對預訓練最大的優勢是什么?
冷月:最主要體現在 speaker、情感和副語言(笑聲、停頓、強調等)的準確性上。我們測了 Gemini、火山 Audio Capturer 等很多模型,發現大家對副語言的處理表現都不好。要做出真正可控的、能 follow 用戶 instruction 的 TTS 模型,就需要更多帶 control 標簽的數據,所以我們構建了自己的 ASR 模型來做這件事。
Peter:隨著每一代模型架構迭代,上一代的訓練管線在下一代還有幫助嗎?還是每次都要從頭搭建?
冷月:每一代都有基礎性作用,更多時候是往前一代管線里添加更多功能。比如做全雙工模型,就需要更好的聲音分離模型、target speaker extraction 模型加入現有管線,把重疊說話的內容分離出來用于訓練。這是一個漸進式的過程,大部分數據可以 reuse S2 的訓練數據。
05
不做單一大模型,用模型矩陣匹配商業場景
Peter:從產品和商業角度,不同技術路線選擇對用戶體驗和商業價值有哪些影響?
Rissa:我們按照不同商業場景選擇了不同的技術路徑,匹配不同需求的模型矩陣,而非追求單一大模型。比如 S1 是平臺的 flagship model,也是用戶使用最多的模型,非常適用于 entertainment 和 AI native apps——AI 陪伴社交應用、VTubing、Gaming 公司等,需要更自然、更真實的表達。同時我們也發現大量 real-time voice agent 和 call center 的 use case 希望使用我們的 TTS 模型。
針對這類企業客戶,我們即將 launch S2 Flash,一個 4B 的 enterprise model,適用于實時客服對話場景,有更低的延遲和更高的穩定性。對于內容生成來說可以容忍較高延遲,但更在意聲音質量和情感表達力,我們更建議用 S1 或即將發布的 S2 Pro。不同企業用戶有不同的偏好組合——穩定性+低延遲,或穩定性+表達力,或表達力+自然度——我們會適配不同模型給不同應用場景。
Peter:所以面向更有表現力和情感性的市場,是增量最快也是潛力最大的市場。
Rissa:對。我們的聲音 is more built for entertainment 和 AI native apps。這些公司過去兩三年會變成未來的世界 500 強。ElevenLabs 現在主打的是傳統行業世界 500 強的企業配音和有聲書場景,有比較高的 content safety 管制,要樹立專業的品牌形象。而我們的切入口是更有趣的聲音、更有靈魂的聲音,更適用于游戲和 entertainment use case,這些公司也在快速發展中,很可能在未來兩到三年內成為接下來的世界 500 強——也就是高潛力市場。
Peter:公司現在大約 60% 收入來自 C 端或 prosumer 創作者,這在 AI 基礎設施公司里很少見。為什么從創作者切入,而不是一開始做企業級API服務?
Rissa:我們先做了開源模型,開源社區里有很多需求要求專業創作工具,我們就做了創作平臺給 content creators 使用。最早是游戲開發者和游戲配音的 ASMR artist,第一輪破圈有很多 Audio Podcast 內容創作者,最近一輪破圈讓更多專業 vlogger 開始在 workflow 里使用我們做音頻配音,提高創作效率也幫他們賺錢。這是一個很自然的從開源社區 evolve 的過程,團隊本身做 C 端 creator platform 的 DNA 比較強。
Enterprise 和 B2B API 用戶方面,早期人力有限無法滿足社區里的很多需求。去年 10 月 reorg 完成后才真正開始嘗試,一開始說實話冷月和我自己都沒那么看好,我就抱著試一試的心態開始接 enterprise contract——我看 ElevenLabs 都能把 enterprise 模型做那么多,但我們的 use case 又不太一樣。結果發現增長模式非常 bottom-up——跟 Slack、Notion 很像。開源社區里用我們模型的 engineer 和 developer,還有平臺上的 PM 和內容創作者,覺得我們好用,就介紹給他們工作的公司簽 enterprise contract,也有些是本身就是 founder,長期關注 TTS,開始跟我們簽約。這部分增長比預期快很多,我們也發現了這部分的增長潛力,所以開始 dedicate 更多 resource 在模型上提供更多支持,做 enterprise sales 這件事。
Peter:所以你們是非常漂亮的 Product-Led Growth,結合了開源社區運營和創作平臺的口碑傳播。
06
1UGC聲音模型構成最難復制的壁壘
Peter:你們的UGC內容也做得很好,介紹下經驗?
Rissa:我們整個 go-to-market 策略 ToB 和 ToC 都非常 bottom-up。而且我們打造了世界第一大的 UGC voice model market,有 110 萬 public UGC voices,它既加持了 consumer 平臺的用戶轉化,也 strengthen 了 enterprise sales——很多人因為我們有這么多有趣的聲音,選擇我們而不是 ElevenLabs 或 Cartesia。
Peter:這些 UGC 聲音模型背后有什么特別的激勵機制嗎?
Rissa:有的。創作者公開的聲音模型如果被其他用戶使用,消耗的 paid token 的 30% 我們會以 credit 形式回饋給創作者。
Peter:你們有觀察到這些用戶創作的聲音在使用量或趨勢上有什么顯著變化嗎?
Rissa:確實有很 dynamic 的變化。我們也是業界唯一一家建立了完整 live RLHF 做 audio preference alignment 后訓練的 voice generation platform。越多人使用某個語種或帶口音的語言,對應的模型表現就會實現一定的爆發。舉個例子,去年 10 月我們的阿拉伯語模型實現了爆發——原因是 9 月有阿拉伯王子去世,他的聲音被大量克隆在我們平臺上,大家為悼念他用他的聲音制作各種內容,帶來了很多阿拉伯語用戶,使我們阿拉伯語模型實現了性能突破。后來也有企業用戶來找我們 host enterprise model in Arabic,因為他們認為我們的阿拉伯語模型是 SOTA。
Peter:如果用戶上傳名人聲音進行克隆,從平臺角度有審核或風控機制嗎?
Rissa:大家在上傳聲音時要自己 declare ownership。如果沒有 ownership,其他人可以舉報,我們會撤掉聲音模型。因為我們是 UGC platform,creator 要自己為自己創造的聲音負責,這在我們的 terms of service 里寫得很明確。
Peter:這個 UGC 生態可能會成為 Fish Audio 最難復制的資產。
Rissa:UGC 音色只是其中一個護城河。我們在過去一年建立了多個難以復制的閉環效應:第一,UGC 音色生態;第二,整個后訓練 RLHF 管線——越多人使用,聲音模型表現就越好、越穩定;第三,架構非常 efficient,不論訓練還是推理都帶來極大的成本優勢;第四,我們起源于開源社區,能有效利用模型發布以最低 CAC 獲取流量,讓更多人使用模型、表現越來越好,造成更多 token 消耗和更多 revenue。這整個閉環是我們在過去一年成功跑起來的。
07
真正留下來的是"用 AI 賺錢"的創作者
Peter:很多模型公司的產品就是一個API或模型本身,沒有太多定制開發。但 Fish Audio 不一樣,你們也在開發完整的 Fish Studio,新版本會有更多產品級功能。你們在產品深度和設計上是怎么思考的?
Rissa:過去 12 個月里,我們整個用戶畫像都有很大的 dynamic change。我們成功 launch 了 SOTA 模型,找到了 PMF,實現了 10 million ARR 的商業化。在整個變化過程中,用戶群體經歷了 dynamic shift——從最早的游戲開發者、游戲配音創作者,到 Audio Podcast 創作者,到現在更多的是專業 professional content creator 和 VTuber。
我們發現真正有更強付費能力、真正會留在 Fish 的用戶是專業內容創作者,他們用 Fish Audio 作為 existing workflow 的一部分,讓他們能更高效地生產內容、幫他們賺錢。所以至少接下來六個月,我們的方向還是服務 consumer 專業內容創作者,基于他們做聲音相關的衍生產品和 feature——除了現有的聲音克隆、語音合成,還要讓他們實現多軌編輯、更精細的情感控制,甚至 lip sync、口型結合和整個 video avatar,實現更加完整的端到端內容創作。
Peter:對于這群專業用戶,產品要求和客單價跟傳統配音用戶很不一樣。
Rissa:對,這些用戶在逐漸成為主流,付費能力很強——因為他為 Fish Audio 付費是為了自己賺錢,所以粘性更強、使用頻率更高、付費和續費能力也更強。關鍵是 Fish Audio 能不能給他最極致的體驗,滿足創作需求,真正幫他提高創作效率、減少創作成本。
市場上確實缺乏一個專門為播客制作者或音頻創作者打造的 AI 化工具,傳統工具要么太老舊,要么 ElevenLabs 這類 AI 工具并不具備專業內容創作真正需要的能力和產品。
整體來說 consumer platform 實現了兩個價值:提高創作效率讓 productivity 更高,同時提高 creativity。
Peter:你們的開源倉庫超過 10 萬 GitHub Stars,能詳細闡述開源策略和對商業化的影響嗎?
Rissa:我們的 DNA 里有些東西是天生的——冷月和團隊小伙伴源自開源社區,本身就是 top contributor,我自己在 Meta 和 Amazon 也是做開發者社區的。我們很有效地利用了開源作為分發的護城河,成為早期很有效的 distribution channel。
但開源并不是一個 monetization 的鏈路。我們選擇開源核心模型和工具鏈,是因為開發者不相信 Demo,只相信代碼。只有當他們真正能跑、能測、能對比,才會相信你的模型表現。我們把模型推理工具和訓練方法全部開源,讓開發者可以直接 benchmark 我們的模型,本地部署測試 latency、quality 等各方面性能。
簡單來說,開源是讓你可以用、可以測、可以感知 Fish 模型與其他模型的差異。但我們真正的閉源商業化模型才是讓你能夠規模化上線、在產品上做開發、讓你賺錢的模型。很多 enterprise API 客戶就是這樣來的——最早起源于開源,覺得好用,起了量之后開始使用閉源模型。
08
先吃 AI Native 市場,再切傳統 500 強
Peter:跟 ElevenLabs 和頭部大廠的競爭,長期差異化在哪里?
Rissa:First mover 永遠有 advantage。ElevenLabs 確實是過去幾年音頻領域最成功的公司,短時間做到 3.3 億 ARR、110 億估值,是行業標桿。直接 head-to-head 競爭非常 challenging。但我們一直打的是自己的 value——針對情感化實時交互的聲音,更 entertainment、更有趣的聲音,這是大家選擇我們而非 ElevenLabs 的原因。
但 at the end of the day,我們和 ElevenLabs 的市場肯定有 merge 的地方。等我們把 AI native apps 市場吃下之后,接下來也會打實時客服這種穩定性市場、世界 500 強公司。到那時候拼的是誰手速快、誰真正能抓住用戶心智打入市場。我們整個團隊在 go-to-market、內容、B2B sales 以及模型和技術能力上都很強。
Peter:Fish Audio 未來 18 個月的目標是什么?
Rissa:希望在未來 12 到 18 個月實現更 aggressive 的增長,接下來 optimize revenue growth,目標是 50~100 million ARR,jointly among B2B 和 B2C。同時也要 expand beyond AI voice generation platform,變成一個 multi-modal 平臺,讓更多創作者可以在我們平臺做完整的內容創作。
冷月:從 research 和產品角度,希望在未來 18 個月把 Fish 打造成更完善的 content creator platform。模型側希望在未來半年內完成多模態感知模型(感知多模態、輸出語音和文本兩個模態)的研發,再往后 6~12 個月完成全雙工模型的研發,并在今年年底讓模型能力超越 99% 的配音演員。
Peter:怎么看 Fish Audio 的全球化戰略?產品有非常多的語言,在全球不同市場有不同的用戶群體。
Rissa:是的,startup 精力有限,但我們是打 global 市場的語音公司。過去一年用比較有限的人力成功實現了日語、中文、英文和阿拉伯語的突破,一方面借助數據和模型能力,另一方面基于后訓練 RLHF 管線。
我們定位為美國公司,serve 很多美國的 content creator 和 B2B 企業用戶、AI native apps 創作者。但這些公司很多是 global company,不僅 operate in 英語,還有日語、西班牙語、韓語、葡語、法語、德語等。跨語言多語種是一個很明顯的機會。我們有個得天獨厚的優勢——小語種和帶口音語言的優勢,因為聲音克隆做得好,線上越多該語種或口音的人使用我們模型,對應表現就越好。
最近也發現了亞洲市場很獨特的機會——日韓 AI companion 市場沒有好的本地 TTS,Fish 就成了他們的首選。之前也分享過,我們在阿拉伯語和非美式口音英語的表現也實現了爆發。多語言支持需要時間和投入,但這在我們戰略上非常重要。
Peter:從技術角度,做好 Fish Studio 產品和做好模型,背后有什么不同的挑戰?產品需求是否會影響模型能力和架構訓練的設計?
冷月:模型一直取決于用戶需求來改變,研發過程強烈受用戶需求影響。比如我們在研究更好的 word-level timestamp、character-level timestamp,還有 lip sync,這些都是 audio creation platform 不可或缺的部分。最早用戶給一段文本我們就給一段語音,進入 Studio 時代后開始有多音軌。我們發現用戶生成很多音頻后導出還需要自己過一遍第三方語音識別模型才能拿到字幕——這很不方便,所以我們就在 Fish Audio 這邊幫他們做好字幕生成。最早用 Whisper 做 alignment,但只能處理 30 秒音頻,所以我們在研究新的模型來更好地完成音頻和文本對齊。
未來我們還會有更多功能——基于音頻補全(給定前后音頻和中間文本去補全),或者給定視頻生成對應音頻——這些都會逐漸加入產品線。
09
我們現在正在進入 AI Voice 2.0 的技術爆發期
Peter:Rissa,你之前在 Meta 和 Amazon 做過增長和產品,也在頭部 AI 圖片社區創過業,25 年下半年加入 Fish Audio 擔任 CEO,能聊聊這個決定背后的思考嗎?
Rissa:選擇 Fish Audio 有種命運驅使的感覺。最早認識冷月是通過一個 founder event,當時冷月在我眼里已經是一個閃閃發光的天才少年 researcher——我接觸過很多 researcher,但像他這種對技術這么 passion 的還是第一次見。
Peter:為什么當時選擇了語音,而不是圖像或視頻等其他方向?
Rissa:首先我自己是一個很容易與聲音建立鏈接的人,聲音能牽動我的思緒和靈感。第二,我覺得 AI 圖像領域大的技術突破已經 reach 了 ceiling——從 22 年到 24 年各種 diffusion model 突破讓創作門檻降低,Midjourney 以及各種圖像模型 launch,甚至到去年的 Nano Banana,之后圖像模型已經進入雕花狀態,很少再看到非常大的技術 breakthrough。
而我們現在正在進入 AI Voice 2.0 的技術爆發期。什么是 AI Voice 2.0?就是基于上一代純 broadcasting 類型的、很企業很正式的逐字逐句、非常清晰的 AI 生成語音,進入了下一階段——更有交互式、具備情感的聲音。你真正可以跟 AI 創作的聲音建立情感鏈接。語音正好在這個時候從配音工具轉化為真正具備 emotional intelligence 的 AI 智能體。因為各種推理和 inference 的優化,延遲可以達到更低,多輪對話情感表達也更逼真,你甚至感覺跟 AI 的對話像跟真人在交互一樣。過去一年也是 AI massive adoption 的一個關鍵節點。
現在世界上有 4000 萬 professional content creators 在逐漸 adopt 用 AI 做內容創作——就像 2022 年剛進入 diffusion 那個時代一樣。所以我覺得今年以及去年是 AI Voice 時代技術 breakthrough 最佳、影響最深遠的時代。
Peter:冷月,你從英偉達離職后創業的過程是怎樣的?
冷月:Fish Audio 的發展過程充滿故事性。從最開始脫胎于我個人在虛擬主播方面的經歷,從社區性的聲音合成、歌聲合成走向 TTS,大概在 2024 年年初開始積極推進 TTS 技術進步。2024 年年中我覺得如果再不出來就晚了——當時世界上只有一家做出規模的語音合成公司 ElevenLabs,沒有其他競爭對手。我們覺得 AI 語音需要新鮮血液,把 AI 語音做得更有情感,真正達到情感陪伴、更自然的效果。
10
創業不是培養人,是找戰友一起打仗
Peter:對于年輕的創業者,在尋找合伙人和合作伙伴時,有哪些好的 lesson 和經驗可以分享?
Rissa:首先選擇合伙人時,最好 skill set 比較互補,大家有獨立的 scope,但整體性格和能力互補。比如我跟冷月,他負責整個技術部分,我更多負責融資、go-to-market、partnership 和公司架構。
同時很重要的一點是看這個人的 track record——公司之前的合伙人或早期員工有沒有拿到過股份?如果歷史上從來沒有給之前的合伙人分過任何股份,那可能是一個 red flag。還有公司是不是有比較健康的 vesting schedule——業界標準是 one year cliff,vesting over four years。創業者在創造價值的同時,也要確保跟他一起創業的伙伴們能得到應有的回報。
Peter:我注意到你們是一家能持續吸引和轉化年輕超級個體的初創公司,這種人才吸引力是怎么建立的?
Rissa:我自己長期在硅谷,比較喜歡跟超級個體合作。我更喜歡抓大方向、確保解決問題,而不是抓很多細節,所以我喜歡合作的人非常 reliable——一個事情交給他就能做得很漂亮。我和冷月之前合作比較順利的 talent 類型,都是比較 entrepreneur、有 founder traits 的人,他們擅長對某個領域 take full ownership from end to end。
我過去幾年也在比較刻意性地結交這種類型的 talent,build relationship——要么讓他加入我當時的公司,要么想各種方式給他們提供 support,讓他們覺得我能 be helpful,在這個過程中建立比較好的戰略友誼的關系。當我 ready 有一個好的 opportunity 時,我也愿意給出更多 upside——因為這種類型的 talent 如果你不給足夠的 potential 和 upside,他們就會自己創業,不會加入初創公司。所以在 ownership、股份和 compensation 上我們都非常 generous,用這種方式激勵大家一起克服困難、一起 take ownership。
說句實話,startup 并不是培養人的地方,startup 是大家一起找戰友、一起打仗的地方。我們要在不同位置上放最適合的戰友,一起實現共贏,大家最后的目標就是贏。
Peter:你們怎么吸引市場上最好的技術人才?
冷月:我們長期在開源和開發者社區深耕,認識了非常多已經 well proven、有 amazing work 的開源工作者和 researcher。他們絕大部分都是非常強的超級個體,我們優先把他們拉入團隊,一般會給每個人足夠的計算資源和 compensation,讓他往多個方向中最感興趣的方向跑一個月,這是我們最喜歡的招人方式。
當我們覺得一個人"聞起來味道很對",就盡快開始合作和 work trial,給足夠的資源讓他去跑感興趣的事情。這個過程中可以篩選掉對某個內容感興趣但沒有真正花時間和 effort 的人,也可以篩掉 claim 自己能做但最后沒完成的人。最后留下來的都是真的喜歡這個事情、有相應 skill set 或能很快學到的人。
整體 culture 上我們是獎勵功勞而不獎勵苦勞,并不鼓勵加班。但核心團隊成員其實都是凌晨 4、5 點才睡覺。我們不鼓勵少睡覺,而是在這種環境下大家非常有自驅力,每天會覺得很 excited——覺得我就是改變和創造 AGI 這個世界的人。這種 team culture 鑄造了我們現在的 talent profile:大家都很年輕,除了我以外都是 00 后,非常 ambitious,都想證明給世界看——我可以做出很不一樣的東西。
![]()
轉載原創文章請添加微信:founderparker
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.