<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      對話ACE Studio:做AI音樂、月收入200萬美元,我們選了一條和Suno截然不同的路

      0
      分享至

      內(nèi)容轉(zhuǎn)載自播客節(jié)目「Alphaist Partners」。Alphaist Partners 關(guān)注 AI、機器人和硬件領(lǐng)域的早期創(chuàng)業(yè)者。

      過去一年,AI 音樂可能是生成式 AI 領(lǐng)域最出圈的 ToC 應(yīng)用賽道之一。Suno 剛剛完成了 2.5 億美金的融資,年化收入超過 2 億美金,吸引了千萬級用戶。

      與 Suno 不同的是,AI 音樂平臺 ACE Studio 選擇了一條截然不同的路徑,從制作人、電影配樂者等專業(yè)用戶切入 AI 音樂市場,幫助他們更快速地把 idea 變成 release ready 的作品。

      不到一年的時間,ACE Studio 實現(xiàn)了超千萬美元的 ARR。25 年 12 月初,2.0 版本上線,3 個月時間月收入翻了三倍,達到 200 萬美元。

      近期,Alphaist Partners 合伙人陳哲(Peter)對話了 ACE 的創(chuàng)始人 Joe(郭靖),聊了聊 7 年艱難創(chuàng)業(yè)經(jīng)歷、如何在 Suno 這座「大山」的存在下成功打入 AI 音樂市場,以及他對于 AI 音樂的一些思考。

      為了方便閱讀,F(xiàn)ounder Park 對原對話內(nèi)容進行了適當(dāng)調(diào)整。

      ??關(guān)注 Founder Park,最及時最干貨的創(chuàng)業(yè)分享

      超 22000 人的「AI 產(chǎn)品市集」社群!不錯過每一款有價值的 AI 應(yīng)用。

      邀請從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者,飛書掃碼加群:

      進群后,你有機會得到:

      • 最新、最值得關(guān)注的 AI 新品資訊;

      • 不定期贈送熱門新品的邀請碼、會員碼;

      • 最精準(zhǔn)的 AI 產(chǎn)品曝光渠道

      01ACE Studio,更像是音樂人的「Cursor」

      Peter:ACE Studio 跟 Suno 最大的區(qū)別是什么?

      Joe:大家如果關(guān)注 AI 可能會想,Cursor 跟 Lovart 的區(qū)別是什么?Lovart 更偏向于一句話讓你一鍵生成你想要的項目,Cursor 更多的是一個 human in the loop 的 IDE,只不過被 AI 加持了。今天的 ACE Studio 更像是 Cursor——完全基于 AI 的新能力,重新創(chuàng)造工作流、重新塑形創(chuàng)作環(huán)境的音樂人的 IDE。而 Suno 更偏向于一鍵生成的 model as a product,用戶輸入一個 prompt 就生成一首音樂,門檻很低,但很難編輯。

      我們跟 Suno 正好反過來——先從 professionals 切入,用更好的對音樂創(chuàng)作工作流的理解去打造更好的模型、更好的專家反饋,再賦能 consumer 端。我們的模型也比 Suno 更輕、更快,可以在 3090 上幾秒鐘就能生成一首完整歌曲。今天世界上所有的 AI 音樂模型,開源和閉源的,都做不到我們這樣的速度,或者在同樣速度下有我們這樣的 quality。

      Peter:在專業(yè)級市場,ACE Studio 發(fā)布之前其實并沒有什么競爭對手?

      Joe:對,用 AI 的方式重塑專業(yè)音樂創(chuàng)作的工作流,這件事幾乎是我們首創(chuàng)的,目前也是我們比較領(lǐng)先的。

      Peter:AI 在打破專業(yè)和非專業(yè)用戶之間的壁壘上,有哪些例子?

      Joe:國內(nèi)有一個非常有名的頭部音樂教育機構(gòu)在用我們來教學(xué)。他的一個徒弟是三線城市的音樂老師,開了一個兩個月的培訓(xùn)班讓小朋友學(xué)會寫 prompt、生成歌曲。結(jié)果很神奇——他教的初中、高中小朋友在兩個月內(nèi)創(chuàng)作出非常有趣的歌曲。然后一個震撼的事情發(fā)生了——他把其中一些比較好的作品代理到版權(quán)公司放到流媒體平臺,其中一首歌在 QQ 音樂上連續(xù)好幾周是 number one,最終版權(quán)分成接近 500 萬人民幣。

      你可以想象這個震撼的程度——一個高中小朋友跟媽媽說給我報個興趣班,399 塊錢,學(xué)了兩個月后拿了 500 萬人民幣回家。這個信號已經(jīng)非常強烈。一部分人還在懷疑 AI 是不是有靈魂,但另一部分 underdog 已經(jīng)在用 AI 做的音樂系統(tǒng)性地賺到很大的錢了。

      這讓我們看到 AI 音樂可能甚至是一個大于音樂本身的事情,因為它會徹底讓人類幾千年來都長期需要的內(nèi)容模式真正實現(xiàn)普惠化。音樂是一個很獨特的東西,代表人類情緒的延伸。所有人都有情緒,每個人的情緒都不一樣,但不是所有人都有能力用音樂去表達。今天主流的現(xiàn)象是人們在別人的音樂上 echo 自己的情緒,用別人的歌作為情緒抒發(fā)的代餐。如果能真的讓你用自己的音樂去表達自己的情緒,是不是一個 ten times better 的事情?是不是一個更大的市場?

      Peter:做一款專業(yè)工具,最大的門檻或者困難點是什么?

      Joe:我們會發(fā)現(xiàn)一個很有趣的現(xiàn)象——如果你做 C 端產(chǎn)品,想象一下今天抖音把所有功能都干掉,沒有本地生活、沒有加好友、沒有點贊評論,只有上下滑和推薦算法,抖音可能短時間內(nèi) DAU 都不會下降,因為對于 C 端產(chǎn)品,主 use case 占用戶 90% 以上的注意力和價值。

      但專業(yè)產(chǎn)品正好反過來。專業(yè)產(chǎn)品要盡可能覆蓋更多的 corner case,又 somehow 整合在一個優(yōu)雅的工作流里,這需要你對專業(yè)人士創(chuàng)作的工作流有非常深刻的理解。比如我們跟 Suno Studio 有一個巨大區(qū)別——Suno Studio 是網(wǎng)頁版產(chǎn)品,因為它從 consumer 做起,天然想法是 producer 端也整合在 webapp 里。但網(wǎng)頁端產(chǎn)品有很多需求對專業(yè)用戶來講是滿足不了的,比如插件。專業(yè)創(chuàng)作者需要連接到自己的 workstation 里面,這個插件很難用網(wǎng)頁端實現(xiàn)。而 ACE Studio 雖然自己是獨立的 IDE,但同時也做了插件,可以橋接到傳統(tǒng)音樂創(chuàng)作者的 workstation 里面,讓他們可以無縫接入到已有 workflow 中。

      在模型能力上,Suno 偏向于全部都是 end to end 的 generative model,我們也有一套 end to end generative 的 model 跟 Suno 能力不相上下。但同時我們有很多專家模型——可以輸入音符輸出高質(zhì)量的歌聲,輸入音符輸出高質(zhì)量的樂器。音符的語言是專業(yè)用戶經(jīng)常 speak 的語言,專業(yè)用戶最大的需求在于精準(zhǔn)表達自己的想法。

      不僅僅是質(zhì)量問題。今天大家能看到 AI 生成的音樂在質(zhì)量上對普通人來講已經(jīng)跟專業(yè)人士做出來的沒有區(qū)別了,但為什么今天 Suno 或者所有 AI 生成的音樂在互聯(lián)網(wǎng)上還沒有打造出一個超級明星、一個創(chuàng)作者為中心的 IP?因為 AI 是一個相對黑盒的隨機事件,即使一個創(chuàng)作者把歌曲做好了,他如何保持自己獨特的個性化、獨特的風(fēng)格是很難的。

      02AI 音樂,是最接近可直接消費的 AI 生成內(nèi)容

      Peter:ACE Studio 作為專業(yè)級工具,對音樂的基礎(chǔ)單元——音符有完整的控制和創(chuàng)作能力,本質(zhì)上也是一種 human in the loop 的創(chuàng)作方法?

      Joe:對。音符之于代碼確實是音樂底層邏輯和技術(shù)世界底層邏輯的對應(yīng)。我覺得未來音樂創(chuàng)作的顆粒度即使在專業(yè)工具之內(nèi)也會逐漸提升。為什么內(nèi)容持續(xù)有 human in the loop 的價值?因為內(nèi)容沒有標(biāo)準(zhǔn)答案,沒有 verifiable 的 reward。你喜歡什么、我喜歡什么,這很難通過確定一個目標(biāo)來解決。比如搖滾樂剛被發(fā)明的時候,什么 AI 可以幫助發(fā)明搖滾樂這樣偉大的劃時代的音樂類型?沒有任何 AI 能做到,因為類型被發(fā)明之前訓(xùn)練數(shù)據(jù)里沒有這個類型,AI 無法學(xué)習(xí)。而一個類型剛被發(fā)明出來的時候,用戶對它的評價也是褒貶不一、有巨大爭議的,所以強化學(xué)習(xí)也沒辦法在早期獎勵一個真正革命性的發(fā)明。

      End to end 的 AI approach 可以很好地讓人 involve 到內(nèi)容創(chuàng)作里邊,但很難幫助人真正探索出劃時代的、改變?nèi)祟惖膬?nèi)容形式。所以長期來講 end to end 跟 human in the loop 是結(jié)合的——end to end 可以快速讓人進入創(chuàng)作的心流,當(dāng)所有人都能幾秒鐘上手、創(chuàng)作質(zhì)量都差不多的時候,競爭的維度就變成誰能夠更可控地創(chuàng)造出自己想要表達的精確 idea、精確感覺,而不僅僅是比質(zhì)量。

      Peter:所以,更獨特的、更有創(chuàng)造力的內(nèi)容一直是被獎勵和傳播的。

      Joe:對。拿照相機來舉例——照相機出現(xiàn)之前,畫師最大的價值是把人畫得更真實。但照相機出來后,人們開始思考繪畫到底是什么、藝術(shù)到底是什么,開始出現(xiàn)現(xiàn)代主義、抽象主義。

      Peter:你前邊提到,AI 音樂不只是效率工具升級,甚至有可能大于音樂本身。AI 音樂市場到底有多大?

      Joe:這件事今天沒辦法算清楚,只能有一些定性判斷。當(dāng) AI 視頻出現(xiàn)時,所有人的想象都是每個人都可以做自己的電影——如果每個人能創(chuàng)造自己的電影,這個市場遠大于電影行業(yè)本身。但問題在于今天 AI video 離普通人可以消費的電影還有很大距離,因為電影有太多元素——鏡頭節(jié)奏、表演、劇情設(shè)計。

      但你會發(fā)現(xiàn)今天 AI 音樂好像是最接近 AI 直出的內(nèi)容能夠直接讓終端消費者消費的。今天 AI 音樂的問題反而不是沒有供給,而是消費端的平臺在打壓這樣的供給——因為跟傳統(tǒng)既得利益產(chǎn)生了沖突。騰訊音樂也好、Spotify 也好,你上傳 AI 音樂它對你是歧視的,會貼上 AI 生成的標(biāo)簽。但這個勢頭已經(jīng)擋不住了,AI 出來的大量作品已經(jīng)超過人類的效果,能夠批量產(chǎn)生 hit song、過億播放。

      Peter:從終端消費者角度,大家并不在乎它是不是 AI 生成的?

      Joe:對,消費者 always 是不在乎的。一個普通人去聽 AI 音樂平臺的 playlist,你很難區(qū)別它到底是 AI 的還是人類的。大家可以想想看這件事有多可怕——AI 直出的內(nèi)容已經(jīng)能直接讓消費者消費了,哪個領(lǐng)域今天接近這一點?

      03自建專家模型矩陣,不止一個模型

      Peter:Studio 2.0 發(fā)布三個月,你觀察的用戶是怎么使用和擁抱新一代產(chǎn)品的?

      Joe:隨著我們給用戶在 Studio 2.0 里面開放的不同模型能力的多樣性和質(zhì)量提升,形成了一種明顯的涌現(xiàn)感——每一個能力是一個原子,用戶在這些原子中排列組合會產(chǎn)生出很多連我們自己都意想不到的 workflow。比如有人通過自己哼唱一個 idea,獲得大概的想法,然后通過我們的 vocal to MIDI 模型把哼唱變成樂譜,再把樂譜通過 AI instrument 變成小提琴的聲音,再通過 music enhancer 把音樂 idea 直接生成出品級的完整歌曲——整個 workflow 全部在 ACE Studio 里面完成。做出了好萊塢史詩級的弦樂配樂作品。

      今天沒有一個 AI 工具能獨立達到這樣的效果。這里面不乏好萊塢的音樂制作人、格萊美獲獎?wù)哌@些行業(yè)頂端的人,他們也在用這樣的 workflow。

      Peter:在模型能力方面展開介紹下?其他通用大模型公司有辦法復(fù)現(xiàn)或超越你們的模型能力嗎?

      Joe:首先我們不止一個模型。剛才的 workflow 里就有旋律識別模型、樂器合成模型、基于音頻 prompt 的端到端音樂生成模型,還有跟 Suno 類似的輸入 prompt 直接生成音樂的模型、音頻分軌的模型、對音樂進行續(xù)寫或在下面加一個軌道的 stem generation 模型。

      所有這些模型,理論上在一個產(chǎn)品公司里我們不應(yīng)該自己 train,但音樂領(lǐng)域第三方或開源模型很少,所以反而倒逼我們做成了自己 train 模型、自己擁有模型壁壘的產(chǎn)品公司,這是我們比較獨特的地方。大廠如果想做這件事,需要沉下心來在音樂產(chǎn)業(yè)里不斷理解和思考用戶需求,不斷構(gòu)建每一個專有模型,這些模型可能都需要專有的數(shù)據(jù)、專有的標(biāo)注,是一個極耗時的成本。目前完全沒有可見的路徑是大模型會內(nèi)生地長出音樂創(chuàng)作能力,仍然需要調(diào)用外部的音樂創(chuàng)作模型。

      Peter:訓(xùn)練自己一系列專用模型需要什么樣的數(shù)據(jù)?

      Joe:千差萬別。比如我們的歌聲模型,數(shù)據(jù)就是在錄音棚里精致采集的專業(yè)歌手的錄音級數(shù)據(jù),由專業(yè)音樂家去標(biāo)注,量級可能也就 1 萬小時左右。而端到端的音樂生成模型,可能就會用到上百萬小時甚至更多的完整音樂數(shù)據(jù)。我們通過版權(quán)公司買到音樂授權(quán),加上開源社區(qū)捐贈的數(shù)據(jù),通過內(nèi)部的合成數(shù)據(jù)生成管線再排列組合,最終達到了兩三千萬首、一兩百萬小時的數(shù)據(jù)集。

      我們是用 Audio LLM 做預(yù)標(biāo)注,然后用人來清洗數(shù)據(jù)、調(diào)出更精的標(biāo)注,再去強化學(xué)習(xí)這個 Audio LLM 讓它更精準(zhǔn)。那么問題來了——今天如果給你聽一段音樂,上面有個描述說"這是一個典型的 drum and bass 風(fēng)格的律動",普通人你是否能判斷這個標(biāo)注是正確還是錯誤的?如果對一個沒有音樂 knowhow 的團隊來做這件事,就相當(dāng)于瞎子在做圖片生成的模型,很難評估。

      04Flux 式商業(yè)模式:免費是漏斗,閉源是變現(xiàn)

      Peter:2.0 產(chǎn)品發(fā)布以來,你們在用戶群跟用戶畫像上有什么變化?

      Joe:ACE Music 是 for consumer 的,ACE Studio 是 for professional 的,但即使在 ACE Studio 上,我們發(fā)現(xiàn)引入更多端到端音樂生成模型后,"professional"的定義發(fā)生了一種彌散效果。原先我們認為的 professional 是 music producer——這些人可以啟動制作軟件,有各種硬核設(shè)備。但音樂制作人和懂音樂的人之間還有巨大的人數(shù) gap。比如音樂老師,全中國幾千萬的琴童,學(xué)琴、學(xué)唱歌、會彈吉他、業(yè)余時間玩樂隊,這些人我們理解都是今天的 new professionals,但他們并不都是 music producer。

      在 ACE Studio 2.0 上我們看到大量這些跟音樂相關(guān)的人——他們懂一些音樂,會彈鋼琴,也把自己當(dāng)做 new professionals,已經(jīng)在認真創(chuàng)作音樂了。比如有一個在馬來西亞的用戶,他用 ACE Studio 做的歌已經(jīng)在跟劉德華的電影合作了,但他之前不是音樂制作人,也不會用傳統(tǒng)制作軟件,他只是一個從小喜歡唱歌、會彈琴、有很好音樂審美的人,就用 ACE Studio 做出了非常專業(yè)的作品。所以即使"專業(yè)"這個定義在 AI 加持下也在發(fā)生變化——當(dāng)更輕的門檻和更強大的能力出現(xiàn)時,哪些人是專業(yè)人士這個定義本身也在變化。

      Peter:ACE Music 作為市場后進者,怎么跟 Suno 競爭?

      Joe:很多 Suno-like 的產(chǎn)品其實很難殺出血路。因為 Suno 有全世界最好的模型,你的模型接近但差一點點,這很難構(gòu)建增長——用戶花一份錢,有更好的為什么要用差一點的?所以我想了很久。

      短期的答案是開源和免費。Suno 今天是云端自持的封閉生態(tài),沒有第三方 API。如果跟用戶說"我們有個類似 Suno 的產(chǎn)品,模型比他差一點但便宜",用戶不會感興趣。但如果說"我們有一個跟 Suno 差不多的模型,完全免費,且你可以下載到自己電腦上在本地運行和訓(xùn)練,用自己的音樂把模型訓(xùn)練成你想要的樣子和審美"——這是一個巨大的賣點。所以我們把模型做得極快,在一張 3090 GPU 上 11 秒可以生成一首完整的音樂,在 A100 上兩秒就可以。端側(cè)的運行和訓(xùn)練成為了可能性,這是我們短期去跟 Suno 競爭、撕開口子的手段。

      但長期來講開源只是手段,真正在戰(zhàn)略上有可能讓我們?nèi)俚牟皇情_源,而是開放生態(tài)。這就是為什么我說 ACE 是全球首個開放生態(tài)的 AI 音樂平臺——我們應(yīng)該不遺余力地利用這個世界上現(xiàn)存的所有音樂相關(guān)模型:我們自己的開源模型、別的開源模型、甚至閉源但可以提供 API 的音樂模型。比如 OpenAI 在做 AI 音樂模型,ElevenLabs 已經(jīng)做了,千問也在做,MiniMax 的音樂模型效果也非常好。

      Suno 一直在走封閉生態(tài)的路線,它跟版權(quán)公司的和解造成了平臺上只允許它自己的模型存在。但你看任何一個領(lǐng)域,哪怕是資源集中度大到像大語言模型這樣的領(lǐng)域,今天都已經(jīng)出現(xiàn)了百花齊放的趨勢——開源跟閉源很接近,不同廠商的模型各有千秋,在此之上構(gòu)建 agent 的產(chǎn)品才能受到系統(tǒng)性賦能。我們想做的事情完全一樣:我們相信所有音樂模型加在一起肯定能打敗 Suno。

      Peter:過去兩三年在 Studio 產(chǎn)品上的工作,對今天推出 Music 有什么直接幫助?

      Joe:因為我們先從專業(yè)用戶切入,專業(yè)用戶在創(chuàng)作過程中給了很多對模型、對音樂質(zhì)量的反饋和洞見。就像 Midjourney 在強化學(xué)習(xí)過程中有一個 300 人的頂端 artist 用戶池,只用這些人的反饋來進行強化學(xué)習(xí),所以它能打造出全世界審美最好的圖片社區(qū)。同樣,ACE Studio 的切入點就是跟最頂級音樂人提供工具,這些人的反饋無論對模型還是對 feature 的建議,都幫助我們構(gòu)建更好的 AI 音樂平臺。

      Peter:ACE Music 使用開源和免費模型的模式,靠什么賺錢?

      Joe:我在開源這件事上研究了挺多,發(fā)現(xiàn)一個很有趣的現(xiàn)象——Flux 在圖片領(lǐng)域的開源上建構(gòu)了很好的商業(yè)模式。首先開源一個小模型,然后半開源一個中模型——效果更好也是開源但商用需要授權(quán)許可,再做一個閉源的大模型提供 API。小模型因為開源,大量開發(fā)者會替你傳播,在各種場景里構(gòu)建用戶習(xí)慣。當(dāng)用戶習(xí)慣和模型的聲量被構(gòu)建起來后,真正有付費能力的用戶不介意花更多錢使用更好的閉源版本。

      在 ACE Music 上直接使用這一版模型還是免費的——這是漏斗最上層,讓更多人被 involve 進來、對這事情感興趣,最終形成付費轉(zhuǎn)化。

      Peter:按照 Studio 現(xiàn)在的增長趨勢,今年全年可能做到 3000 萬美元的收入?,F(xiàn)在 Studio 的毛利是什么情況?

      Joe:推理成本很低,因為模型都是自建的,有很好的推理優(yōu)化框架——每掙 100 塊錢大概花五六塊錢做推理。營銷上大概花 20 塊錢,因為要持續(xù)找到用戶來 onboard,也是持續(xù)教育用戶的過程。年費是 200 美金,還有一檔 264 美金。我們還會賣兩年訂閱,因為這個領(lǐng)域用戶的消費習(xí)慣更傾向于買更長周期的產(chǎn)品。

      Peter:專業(yè)市場天花板在什么高度?

      Joe:24 年整個音樂專業(yè)市場的軟硬件售賣加在一起是 150 億美金,單說軟件將近 80 億美金——各種效果器、音源、插件,加在一起就干一件事:讓創(chuàng)作者最終創(chuàng)作出那個 3 分 45 秒的 MP3 音頻。而這個過程為什么需要這么復(fù)雜的工具鏈?比如今天用傳統(tǒng)數(shù)字音樂工作站,光環(huán)境 setup 對一個小白來講可能就花一周時間。這些所有東西加在一起一年能賣 150 億美金,ACE Studio 未來是否至少可以吃下這個市場的 10%、20%?這是我們看到專業(yè)市場的保底天花板。

      05在創(chuàng)業(yè)最艱難時,看著 Suno 從 day one 做到了世界級水平

      Peter:我們認識快 7 年了,從 19 年天使輪剛開始做 ACE 虛擬歌姬的時候就認識。這些年看到你經(jīng)歷了非常多,是什么讓你一直在做這件事情?

      Joe:一種畫面感。從 day one 我就看到了——音樂不應(yīng)該是少數(shù)人壟斷的高級形式,而應(yīng)該是每一個人表達自己的方式,自古以來就是這樣。原始人在發(fā)明語言之前就已經(jīng)發(fā)明了音樂了,創(chuàng)作音樂本質(zhì)上就是自己情緒的表達,是根植在人的基因里的本能。

      那是什么讓音樂創(chuàng)作變成高門檻的事情?不是音樂本身,而是技術(shù)發(fā)展的形態(tài)——以數(shù)字信號處理為基礎(chǔ)的技術(shù)底層建構(gòu)出來的軟硬件生態(tài),倒逼創(chuàng)作者必須先學(xué)幾年的音樂制作技術(shù)和樂理。如果能發(fā)明一種全新的方式,讓普通人把自己的情緒注入進去,創(chuàng)造出其他人也能欣賞和消費的音樂,這就是會徹底改變的正確的事情。這句話一直在我心里,從來沒有變過。

      Peter:過往創(chuàng)業(yè)經(jīng)歷中有哪些特別痛苦或至暗的時刻?

      Joe:我們在 22 年初完成了一筆融資,那時候整個 AIGC 的勢頭還沒有起來。我們有一段時間不夠 focus——也做過 agent 項目、聲音的語音生成、聲音陪伴。事后反思,我們做的所有其他決定本質(zhì)上都是在回避 AI 音樂這個核心問題——是否能用 AI 真正創(chuàng)作出可消費性的音樂。做到 22 年的時候我們已經(jīng)開始自我懷疑,因為一直做一直沒做出來。但那個時候恰恰是這件事情開始 work 的時候——22 年 Suno 第一個版本發(fā)布了。

      但在那個過程中我們被太多東西分散精力,被牽扯在國內(nèi)一個相對井底之蛙的狀態(tài)里,技術(shù) vision 不夠豐富。我們既誤判了 Suno 訓(xùn)練的成本,又誤判了這件事的潛力——看著它一路從名不見經(jīng)傳慢慢一點點突破,變成今天這個樣子。那個時候?qū)ξ襾碇v極度痛苦——我看到公司有好幾個項目在同時做,每一個都很難 100% 投入。同時我反過來問自己到底相信什么,conviction 到底是什么,為什么在做這些事情。我發(fā)現(xiàn)它其實是一種恐懼或回避。

      在 24 年初,我跟兩個合伙人第一次去美國參加一個音樂展,在飛機上討論了十幾個小時,得到一個結(jié)論——我們應(yīng)該把所有項目都砍掉,all in AI music。那個對話和決定非常重要也非常艱難,但做完之后坦白講從 24 年中開始我們才進入了增長軌道。

      這是我最大的成長——可能出發(fā)過早、長期沒有技術(shù)變量、長期做不出 traction,從其他路徑找出路,但最終發(fā)現(xiàn)只是沒等到那個技術(shù)變量,而別人在你眼前把你的愿景、夢想做到了世界級水平。我們在 24 年才開始反應(yīng)過來要追趕模型,開始訓(xùn)練自己的音樂大模型。25 年初做了第一次開源,那個模型當(dāng)時是開源領(lǐng)域的 SOTA,但跟 Suno 最好的模型還有巨大差距。再到今天 26 年初我們第二版開源模型達到了很接近 Suno 的水平。

      Peter:如果回到兩年前,你會對當(dāng)時的自己或者想做同樣事情的人有什么建議?

      Joe:第一盡快出海,第二盡快跟世界上最優(yōu)秀、最前沿的一幫人混在一起。跟你的用戶、跟你的技術(shù)領(lǐng)先者離得越快越近越好。

      06對于 AI 音樂來說,個性化才是最重要的競爭要素

      Joe:今天大家能看到 AI 生成的音樂在質(zhì)量上對普通人來講已經(jīng)跟專業(yè)人士做出來的沒有區(qū)別了,但為什么今天 Suno 或者所有 AI 生成的音樂在互聯(lián)網(wǎng)上還沒有打造出一個超級明星、一個創(chuàng)作者為中心的 IP?

      Joe:比如像土搖滾 94 年紅磡那種風(fēng)格——竇唯、張楚、唐朝樂隊的那種感覺,今天用 AI 能生成嗎?生成不了。生成出來的東西可能過于完美和統(tǒng)一了,一個模型它最終會去擬合一個分布,但人類喜歡的東西的分布是極度多樣性的。

      我前段時間刷 Instagram,看到一個很火的網(wǎng)紅歌手參加美國達人秀。他的歌是一個非常機器、有點 hiphop 的 beat,然后唱的就是說話一樣的念詞——非常尷尬地站在舞臺上說話,也不是激昂的 rap。但他在 Instagram 上有幾百萬粉絲,內(nèi)容在 Spotify 上銷量都非常好。這就是典型的個性化內(nèi)容,今天讓任何一個 AI 音樂模型不去進行專門的微調(diào)都很難生成出來。

      所以我們想在基模型上構(gòu)建大量 Lora,每個人可以把自己的個性引入進來。長期來講 AI 賦能音樂一定走向 personalized,而不是所有人都統(tǒng)一聽 Suno 生成出來的那種全部很華麗的東西。

      Peter:對于傳統(tǒng)音樂分發(fā)渠道,核心價值會不會因為 AI 音樂的普及而被顛覆?

      Joe:一定會的。音樂流媒體平臺的巨大成本來自版權(quán),而這個版權(quán)是存量市場——人類的心智面積就這么多,占領(lǐng)了心智面積就可以持續(xù)產(chǎn)生收入。但這也意味著行業(yè)迭代更新相對緩慢、創(chuàng)新更難、普通人參與方式更少。AI 完全可以打破這一點——比如它可以讓老 IP 被重演。今天 AI Remix,你可以把任何一個名人的歌送進去模型 Remix 成你喜歡的樣子,消費音樂的方式已經(jīng)變了,創(chuàng)作也是一種消費了。傳統(tǒng)流媒體平臺要不要重新定義人跟音樂的交互方式?要不要重塑產(chǎn)品形態(tài)或商業(yè)模式?如果重塑了,是否會得罪已有的版權(quán)方?這就是老商業(yè)模式很難轉(zhuǎn)型的原因。

      Peter:你自己會去涉及內(nèi)容分發(fā)環(huán)節(jié)嗎?

      Joe:一定會的。ACE Music day one 就是一個創(chuàng)作跟消費的社區(qū),會逐漸跟 ACE Studio 打通。我們認為未來的 AI 音樂創(chuàng)作跟消費是一體化的,從 day one 就應(yīng)該做在一起。

      Peter:對于 AI 音樂來說,長期來看最重要的競爭要素是什么?

      Joe:我覺得是某種形式的用戶 IP 或用戶的個性化資產(chǎn)。比如聲音——我們聽了那么多歌,問周圍普通人最喜歡的音樂為什么喜歡,可能 90% 是關(guān)注歌手的演唱,聲音構(gòu)建了音樂一致性的個性或風(fēng)格。如何保有音樂里的個性化資產(chǎn)——保有聲音、vocal,持續(xù)創(chuàng)造統(tǒng)一唱腔、統(tǒng)一風(fēng)格的內(nèi)容,在互聯(lián)網(wǎng)上構(gòu)建長期 IP 和粉絲忠誠度——這件事長期來講肯定是最重要的競爭要素。

      Peter:你們?yōu)槭裁催x擇在 LA 而不是硅谷?

      Joe:首先市場在美國或歐洲,所以我們一定要跟市場離得更近。當(dāng)時在選灣區(qū)還是洛杉磯,其實就是靠近資本更多還是靠近用戶更多。對我們來講,靠近用戶這件事更本質(zhì)。洛杉磯是全球音樂制作的中心,格萊美在這里,我們所在的位置名字就叫 Studio City——大量的影視、音樂 studio 都在這。搬過來后在這個房子里接待用戶,很多格萊美獲獎?wù)叨家呀?jīng)接待了不下十次,他們過來坐坐聊一下,我們給他看新功能、問他使用體驗,大家非常近。

      Peter:在 2026 年,對于 ACE 來說最重要的幾件事情是什么?

      Joe:最重要的事情是把 ACE Music 跟 ACE Studio 的完整生態(tài)打通,變成一個統(tǒng)一的開放的 AI 音樂生產(chǎn)平臺——真正形成每個人都能創(chuàng)造出自己個性化音樂的產(chǎn)品,而不僅僅是所有人都創(chuàng)作統(tǒng)一的、好聽但沒有個性的音樂。

      這里面有很多手段——比如用 agent 去創(chuàng)作音樂,用 agent 幫你 plan 創(chuàng)作 idea,到每一個環(huán)節(jié)應(yīng)該用什么模型去排列組合;比如模型的自主訓(xùn)練,每個人都可以 fine tune 自己的模型,host 自己的模型甚至分享;比如音樂的多模態(tài)化——我們認為未來的音樂一定是視頻的,每個音樂都應(yīng)該有一個對應(yīng)的視頻,對已有視頻配上合理的音樂也是目前沒被解決的問題。

      Peter:如果 ACE 成功了,10 年以后行業(yè)會是什么樣子?

      Joe:AI 會徹頭徹尾地改變音樂產(chǎn)業(yè)——音樂如何被消費、如何被生產(chǎn)、如何在線下場景里跟人互動、你和偶像如何互動、如何社交——所有方方面面都會被 AI 全部重構(gòu)。如果 ACE 有幸成為這里面最重要的生態(tài)系統(tǒng),來接管音樂的產(chǎn)生、分發(fā)、消費甚至線下演藝,那么它將是一個至少幾千億美金以上的基礎(chǔ)設(shè)施。


      轉(zhuǎn)載原創(chuàng)文章請?zhí)砑游⑿牛篺ounderparker

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      你有知道哪些炸裂的秘密?網(wǎng)友:我有個秘密說出來肯定大家要笑死

      你有知道哪些炸裂的秘密?網(wǎng)友:我有個秘密說出來肯定大家要笑死

      帶你感受人間冷暖
      2026-01-29 00:10:05
      霍爾木茲海峽開了一條“縫”,1.4億桶在途油在路上,下周一開盤,多頭還扛得住嗎?

      霍爾木茲海峽開了一條“縫”,1.4億桶在途油在路上,下周一開盤,多頭還扛得住嗎?

      匯通網(wǎng)
      2026-03-21 14:54:04
      1-0:東北大帥3輪首勝,鄭智謝天謝地謝人!

      1-0:東北大帥3輪首勝,鄭智謝天謝地謝人!

      工從昊懂球阿靖
      2026-03-21 23:20:37
      東莞一鞋材廠起火,大火吞沒廠房燃起沖天黑煙,當(dāng)?shù)貞?yīng)急:已經(jīng)撲滅,未造成人員傷亡

      東莞一鞋材廠起火,大火吞沒廠房燃起沖天黑煙,當(dāng)?shù)貞?yīng)急:已經(jīng)撲滅,未造成人員傷亡

      瀟湘晨報
      2026-03-21 17:49:38
      美國簽證政策大收緊!1.5萬美元才能入境?今天新增12國

      美國簽證政策大收緊!1.5萬美元才能入境?今天新增12國

      新浪財經(jīng)
      2026-03-19 11:46:25
      馮東生:天津市原顧問委員會常委、市委組織部原副部長

      馮東生:天津市原顧問委員會常委、市委組織部原副部長

      墜入二次元的海洋
      2026-03-21 19:35:38
      A股:剛剛五部門發(fā)聲,金融法案征求意見,下周一散戶走還是留?

      A股:剛剛五部門發(fā)聲,金融法案征求意見,下周一散戶走還是留?

      夜深愛雜談
      2026-03-21 18:44:14
      欠錢不還還刪好友?傅盛深夜炮轟周鴻祎,互聯(lián)網(wǎng)師徒恩怨再度上演

      欠錢不還還刪好友?傅盛深夜炮轟周鴻祎,互聯(lián)網(wǎng)師徒恩怨再度上演

      一窺究竟
      2026-03-21 21:11:23
      全世界都被特朗普耍了?打擊伊朗只是幌子,真實目的終于浮出水面

      全世界都被特朗普耍了?打擊伊朗只是幌子,真實目的終于浮出水面

      夕陽渡史人
      2026-01-30 09:47:08
      明晚開播!CCTV8黃金檔又一部大制作劇來襲!陣容好強大

      明晚開播!CCTV8黃金檔又一部大制作劇來襲!陣容好強大

      動物奇奇怪怪
      2026-03-21 19:59:17
      霍爾木茲海峽傳重大利好,國內(nèi)或?qū)⒂瓉須v史性漲幅,抓緊入場!

      霍爾木茲海峽傳重大利好,國內(nèi)或?qū)⒂瓉須v史性漲幅,抓緊入場!

      次元君情感
      2026-03-21 11:32:32
      汪小菲明確表示不會在臺北買房,馬筱梅通過汪寶兒示好張?zhí)m引熱議

      汪小菲明確表示不會在臺北買房,馬筱梅通過汪寶兒示好張?zhí)m引熱議

      草莓信箱
      2026-03-21 20:45:36
      20萬彩禮娶回個“祖宗”!班不上、活不干,一網(wǎng)友哭訴只會買買買

      20萬彩禮娶回個“祖宗”!班不上、活不干,一網(wǎng)友哭訴只會買買買

      火山詩話
      2026-03-21 09:38:42
      4000噸稀土被轉(zhuǎn)運美國?大陸停供臺灣稀土!臺學(xué)者:不如直接統(tǒng)一

      4000噸稀土被轉(zhuǎn)運美國?大陸停供臺灣稀土!臺學(xué)者:不如直接統(tǒng)一

      小舟談歷史
      2026-03-19 17:27:44
      天大的諷刺!直到釋永信被公訴后,才知道她有多讓人敬佩

      天大的諷刺!直到釋永信被公訴后,才知道她有多讓人敬佩

      冒泡泡的魚兒
      2026-03-22 03:09:47
      曝光侵華日軍罪證被威脅后續(xù):已報警立案,看完讓人解氣

      曝光侵華日軍罪證被威脅后續(xù):已報警立案,看完讓人解氣

      樂天閑聊
      2026-03-20 02:35:33
      西班牙民調(diào)支持率逼近19%,青年倒向威權(quán),民主承諾落空

      西班牙民調(diào)支持率逼近19%,青年倒向威權(quán),民主承諾落空

      光輝與陰暗
      2026-03-21 11:21:41
      打了6場又傷了! 本賽季最荒唐的交易,用頂級天賦換玻璃人球星

      打了6場又傷了! 本賽季最荒唐的交易,用頂級天賦換玻璃人球星

      你的籃球頻道
      2026-03-21 11:36:53
      怪不得腿腳有勁了!原來是常吃這菜,硒是洋蔥50倍,肝臟也跟著好

      怪不得腿腳有勁了!原來是常吃這菜,硒是洋蔥50倍,肝臟也跟著好

      美食店主
      2026-01-15 07:11:12
      大排長龍,番禺街坊大量涌入!師傅:6點半就開門了,手沒停下來過

      大排長龍,番禺街坊大量涌入!師傅:6點半就開門了,手沒停下來過

      番禺臺
      2026-03-21 00:07:54
      2026-03-22 04:56:49
      FounderPark incentive-icons
      FounderPark
      關(guān)注AI創(chuàng)業(yè),專注和創(chuàng)業(yè)者聊真問題
      1179文章數(shù) 159關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      頭條要聞

      伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細節(jié)披露

      頭條要聞

      伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細節(jié)披露

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      田栩?qū)幗K于涼了?出軌風(fēng)波影響惡劣

      財經(jīng)要聞

      通脹警報拉響,加息潮要來了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態(tài)度原創(chuàng)

      教育
      家居
      健康
      親子
      公開課

      教育要聞

      南師附中舉行2026年31公里步行者行動

      家居要聞

      時空交織 空間綺夢

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      親子要聞

      什么牌子駝奶粉好?2026中國駝奶品牌評測,原生營養(yǎng)無可挑剔

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版