西風 發自 凹非寺
量子位 | 公眾號 QbitAI
AI又在某個方面悄悄超越我了——這次是五音比我全!
剛聽到這首新歌,我還以為出自哪位實力派“小刀郎”……一兩句話說不清,直接來聽吧:
![]()
音頻鏈接:https://mp.weixin.qq.com/s/yDWVdeQuGxPgXzNLcxFLvg
故事大概是這樣的:
- 一位剛考完試、順利畢業的少年,訴說著對老師與同窗的不舍,藏著少年獨有的懵懂青澀,也懷揣著對未來的滿心憧憬。
制作精良吧?躍動的節奏、流暢的旋律、跌宕的情緒,不失專業水準。
但你敢信?從寫詞到編曲,整首歌全是AI一鍵生成。
“小刀郎”們,只是一句話表達了自己的想法,然后等待不到一分鐘,就能產出2–6分鐘完整音樂,整體結構穩定、音調不跑偏、人聲音色自然不漂移的那種。
這一切,出自于專注自研音樂大模型的AI公司自由量級,剛剛發布的新模型——音潮V3.0
相較于前代,音潮V3.0在演唱質量、整體悅耳度與記憶點、編曲豐富度、音樂完整性等方面均實現顯著提升。
![]()
目前,音潮V3.0已正式登陸網頁端與官方App,面向所有用戶免費開放試用
既然如此,量子位童鞋又要整活了,實測走起~
AI“靈魂歌手”為你寫歌
打開App,可以看到有四種創作模式:一句話寫歌、照片寫歌、歌詞寫歌、熱歌改編
此外,用戶還可以創建音色,用自己的聲音生成,主打一個就算你五音不全、更不會詞曲創作,AI也能幫你實現原地出道。
![]()
先來看“一句話寫歌”,操作簡單直給:輸入一句話,描述你想要的歌曲風格或內容即可。
比如,我們輸入一個有關祈愿新年好運來、霉運退的提示詞:
- 退!退!退!霉運退散專屬戰歌。
如果一時不知如何表達,系統提供“一鍵AI潤色”與“靈感提示”功能,把使用門檻一降再降。

輸好提示詞后,你還可以根據具體使用場景,靈活選擇兩種創作模式
- 片段模式”專為短視頻、社交媒體分享等短內容場景設計,直接生成結構緊湊、高潮突出的精華段落。
- 完整模式”可生成2-6分鐘的成熟作品,涵蓋主歌、副歌、間奏等完整結構,更適合個人作品或深度表達。
系統會根據歌曲風格自動匹配推薦音色。如果你已提前創建了個人專屬音色,也可在此處選擇使用,讓作品更具個人辨識度。
![]()
一切設置就緒,點擊“生成歌曲”按鈕。
不到一分鐘,一首屬于你的全新歌曲便創作完成,來聽聽看:
![]()
音頻鏈接:https://mp.weixin.qq.com/s/yDWVdeQuGxPgXzNLcxFLvg
prompt理解到位,旋律清晰,節奏踩點也很帶感,還有點魔性上頭(本人已開啟循環播放)。
歌詞始終緊扣“霉運退好運來”的核心,金句頻出——
“你喊一聲我就亮一盞燈,我們合聲就把黑夜推翻,不是等風來而是自己生風”“舊煩惱打包寄往北極圈”“今天只收快遞不收壞消息”……這小汁挺有網感挺會寫啊。

英文歌也支持生成,效果那是相當燃:
![]()
音頻鏈接:https://mp.weixin.qq.com/s/yDWVdeQuGxPgXzNLcxFLvg
當然,如果你本身就擅長寫詞,或是有現成歌詞,也可以直接使用“歌詞寫歌”模式。
在這個模式下,你只需要把歌詞復制粘貼到輸入框,簡單做好分段就行。支持主歌、副歌、間奏、橋段等多種常見段落結構,還可以用自帶“歌詞優化”功能一鍵優化。
風格在輸入框下面另外設置,官方提供了多種預設風格,也支持自定義。流派、情緒、樂器、語言(中英文)、人聲性別,都可以自由選擇。

比如,隨便輸入一段簡單浪漫的小歌詞,讓它幫忙一鍵優化打磨、再依詞譜曲,成品出爐:
![]()
視頻鏈接:https://mp.weixin.qq.com/s/yDWVdeQuGxPgXzNLcxFLvg
黑膠輕旋,慵懶沉醉,氛圍感直接拉滿~
接下來“照片寫歌”玩法就更簡單了,只需要上傳一張照片,不用寫prompt,也不用設定風格。模型能夠讀懂圖片內容,自動生成適配的詞曲
![]()
比如咱隨手選一張參考圖來生成一小段(片段模式),聽聽怎么個事兒:
![]()
視頻鏈接:https://mp.weixin.qq.com/s/yDWVdeQuGxPgXzNLcxFLvg
各種曲風都能拿捏。
再來一張車內視角公路隨拍,下次旅游發社交平臺就用這個BGM:
![]()
視頻鏈接:https://mp.weixin.qq.com/s/yDWVdeQuGxPgXzNLcxFLvg
第四種玩法“熱歌改編”,就是在別的作品之上再做改編,這里就不具體展開了~感興趣的童鞋可以自己上手試試。
順便一提,音潮生成的所有歌曲,都能直接下載音頻或視頻,視頻還會自動配AI生成的封面,可編輯歌名,發圈超方便。
![]()
實測一圈下來,音潮確實把音樂創作這件事,變得比想象中容易得多。
不懂樂理、不會樂器、也沒有編曲基礎的普通人,只需要把自己的故事或情緒寫下來,就能生成一首結構完整、表達清晰的歌曲。那些原本停留在腦海里的日常片段,也終于有了被音樂承載的可能。
更關鍵的是,它不只是好上手,成品質量也經得起反復聽。
旋律走向自然,副歌有記憶點;編曲結構連貫,沒有明顯拼貼感;人聲細節處理得也比較克制,不會有明顯僵硬或AI機械感。整體聽感已經超出了試玩的范疇,是可以拿得出手、值得分享的作品。
那么,音潮是如何做到的?
背后是音樂與技術的相輔相成
進入AI音樂深水區,純粹的算法迭代往往會觸碰到“審美的天花板”。
許多模型之所以缺乏“樂感”,是因為算法研發往往難以將抽象的音樂理論轉化為具體的優化目標,導致技術與藝術之間存在天然的認知鴻溝。
而在音潮,這種隔閡被徹底打破。
他們的成員熱衷于貢獻自己的音樂認知,從復雜的樂理邏輯到細膩的編曲美學,大家積極參與每一次技術討論,將感性的音樂直覺精準“翻譯”為理性的算法語言。
這種跨界融合,有效彌補了單一技術視角對音樂本體理解的匱乏,將專業的音樂知識真正注入到了算法迭代的血液中。
正是這種“音樂+技術”的雙螺旋驅動,讓音潮V3.0的生成不再是單向推理,而是建立在樂理認知之上的創作行為。
所以,音潮V3.0的升級具體都表現在哪些方面?
首先,最直觀的變化,是演唱質量的大幅提升
通過引入團隊自研的雙軌建模機制[1],音潮V3.0將人聲與伴奏拆分建模,在不同語義空間中分別學習特征,再在高層結構上完成融合。
這樣既避免了人聲與伴奏之間的信息干擾,又能精準匹配二者在節奏、和聲上的協同關系。

在此基礎上,引入團隊研發的HEAR框架的分層增強策略與混合訓練目標,既保證轉音、滑音等演唱技巧的精準復刻,又通過對音樂美學維度的層級學習強化模型對歌曲情感的感知能力,讓模型學習不同審美維度下的表達邏輯,而不僅僅是滿足于“唱準”。
最終帶來的體驗,差異化優勢很明顯:它不再只是把歌詞唱出來,而是會根據語義和情境調整唱腔——悲傷不再只是慢,而是情緒收斂;激昂不再只是高音,而是張力推進。
演唱開始具備敘事能力。

其次,旋律層面的變化同樣明顯
當前AI音樂普遍存在一個問題——聽感順暢,但缺乏記憶點。
音潮V3.0的旋律生成機制顯著增強了動機設計能力。音符之間的張力分布更有結構意識,高潮與鋪墊之間的關系更清晰,副歌段落更容易形成可辨識的Hook。
換句話說,它開始具備“寫副歌”的能力。旋律不再只是線性流動,而是帶有意圖地構建高光片段,使作品在情緒與聽覺上都能留下錨點。
當旋律和人聲站穩之后,編曲的整體性、多樣性也隨之提升
音潮V3.0在風格建模上更成熟,能夠根據不同音樂類型自動匹配更合理的配器策略。樂器之間不再是簡單疊加,而是圍繞主旋律展開分工,段落之間的起承轉合更加自然,橋段銜接更平滑,節奏層次也更清晰。
與此同時,聲音的“物理質感”被重新打磨。音潮V3.0采用團隊自研?ar-VAE[3]核心技術對空間信息進行獨立建模,并將這套高保真重建方案應用到整體生成鏈路中。
?ar-VAE引入了對空間信息的表征與監督手段,能夠準確還原高質量音樂中涉及時序性空間轉移的設計細節——比如編曲里鼓組段落的Tom過門、混音中樂器混響的自動化運動等。
鼓點的沖擊力、電吉他的顆粒感、混響的空間層次,都比以往更加清晰。聽感不再只是單純高保真的頻率響應,而是真正還原了樂曲中復雜的層次安排與空間設計。

這些改進疊加在一起,帶來的變化并不是某個單點突破,而是整體聽感的升級。
不過,技術難題并不止于生成。
音樂評價本身就是高度主觀的領域,缺乏絕對客觀的自動化指標。
為此,自由量級建立了專業評價團隊,構建了細粒度評審體系
評審維度極為細致,涵蓋旋律動機、人聲表現(特別是中文特有的聲調與情感處理)、編曲豐富度、樂器音質還原度、整體風格統一性等。
他們還構建了大規模的強化學習標注數據庫,將人類審美映射進模型參數空間,實現“人機審美對齊”。
自由量級CTO兼執行CEO姜濤博士表示,審美對齊是一大核心挑戰,“如何把不同背景的標注人員的品位,收斂到一個普適的、可信的審美共識上,并用數據讓模型真正理解這種美”,這個過程他們迭代了無數個版本,最終目的是讓AI的創作判斷無限趨近于資深音樂人的行業直覺。
團隊的一系列成果,現已獲得國際權威學術舞臺的正面驗證。
在聲學與音頻領域的國際頂會ICASSP 2026上,首屆“歌曲美學自動評估挑戰賽”結果揭曉,自由量級打造的AI音樂評價系統(BAL-RAE),在全球多支研究團隊的激烈競爭中表現突出,斬獲Task 1(歌曲綜合美學評分)全球第二名
![]()
從早期無模型可用的拓荒,到如今在人味、音樂性、編曲豐富度等關鍵維度上達到行業領先水準,自由量級的技術路徑真正的護城河,來自于其在最底層的模型架構、數據與審美對齊上,所進行的漫長而堅定的全鏈路投入。
值得一提的是,這種投入并非封閉。
音樂行業本身是一個相對閉源的生態,商業公司的技術方案大多藏在圍墻之后。自由量級原本可以守著這套自研體系悶聲趕路,但他們選擇把部分研究成果與模塊對外開源
產品上讓人人都會寫歌,技術上讓更多團隊有路可走。一家已經有商業解決方案的公司,還愿意向開源社區輸送自己的技術細節和組件,這件事本身就很難得。
更多開源成果可查閱自由量級技術團隊ear-lab主頁:https://eps-acoustic-revolution-lab.github.io/ear-lab
![]()
技術能跑到這個水位,往往不是偶然。順著模型和產品往回看,背后的團隊,其實更值得展開說一說。
一群懂音樂的人,要讓每個人都能用音樂表達
和團隊交流時,一個非常直接的感受是:他們做音樂AI,并不是從模型能力有多強出發,而是從音樂創作這件事本身出發。
自由量級,成立于2023年,專注于AIGC與多模態大模型研發。核心團隊極具特色:人均音樂人。
CTO兼執行CEO姜濤笑稱“我們的算法團隊都能拉出個樂隊了,吹拉彈唱都夠了”。工位上吉他、Populele隨手抓,寫代碼的間隙能直接jam一段。
專業評價團隊負責人雖工科出身,但也是個音樂人,還曾給一線音樂人寫過詞、做過曲。這樣的角色承擔了雙向翻譯的工作——既能理解音樂語言中的情緒張力與風格表達,也掌握算法體系中的指標邏輯與優化路徑,彌合兩個領域之間的認知差異。
有意思的是,這種協作時也常產生有趣的碰撞。姜濤透露,有時作為音樂人覺得某首生成作品極具感染力,算法側從語譜圖或結構指標看卻不達標;某些實錄樂器的“模糊感”在技術指標上算作缺陷,聽感上卻更顯擬真。
正是這種持續的拉扯,讓產品在技術可控與情緒驚喜之間找到了動態平衡。
![]()
向上生長,打磨模型的人味與質感;向下扎根,還要把這些能力鋪到離普通人最近的地方。對自由量級而言,這兩件事從來不是割裂的——技術越往上走,越要往下落得實。
目前,音潮已進入多家廠商的音樂生成接口服務供應鏈,覆蓋音樂創作工具、MV生成、圖片轉視頻等多個方向;線下與KTV的合作也在推進,未來用戶或許可以在包房里唱自己寫的AI原創歌。就連2025年WAIC大會的官方主題曲《AI For Good》,從作詞、作曲到人聲演唱,也由音潮大模型全棧支持完成。
“音樂消費是分層次、分場景、分人群的”團隊表示,“我們的服務甜點,恰恰站在離大家最近的地方。”
理念層面,他們強調讓人人都能創作音樂;機制層面,音潮用戶協議明確AI生成音樂的版權歸屬用戶,并為創作者提供版權認證協助。從專業舞臺到KTV,從影視配樂到朋友圈BGM,音樂正在經歷一次工具形態的轉變。
姜濤博士自信且堅定:“滴滴司機、外賣小哥,他們有故事、有想法,缺的是工具。他們完全可以是這個時代的‘周杰倫’。
參考文獻:
[1]https://arxiv.org/abs/2511.20224
[2]https://arxiv.org/abs/2511.18869
[3]https://arxiv.org/abs/2509.14912
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.