![]()
這項(xiàng)由香港中文大學(xué)主導(dǎo)的開創(chuàng)性研究于2026年2月發(fā)表,論文編號(hào)為arXiv:2602.04683v2,標(biāo)志著音頻人工智能領(lǐng)域的重大進(jìn)展。研究團(tuán)隊(duì)開發(fā)出了名為UniAudio 2.0的統(tǒng)一音頻語言模型,其核心創(chuàng)新在于全新的ReasoningCodec音頻編碼技術(shù)。
當(dāng)我們?nèi)粘Ec智能音箱對(duì)話時(shí),你有沒有想過為什么有時(shí)它能準(zhǔn)確理解你的話,有時(shí)卻驢唇不對(duì)馬嘴?這背后的根本問題在于,現(xiàn)有的AI系統(tǒng)在處理音頻時(shí)就像一個(gè)只會(huì)死記硬背的學(xué)生——它們要么專注于理解語音內(nèi)容,要么專門負(fù)責(zé)生成音頻,但很難同時(shí)做好兩件事。
考慮這樣一個(gè)場景:你希望AI不僅能聽懂你說的"今天天氣很好",還能用同樣愉快的語調(diào)回應(yīng)你。現(xiàn)有的AI系統(tǒng)就像兩個(gè)互不相通的專家——一個(gè)擅長"聽",一個(gè)擅長"說",但它們之間缺乏有效的溝通橋梁。
香港中文大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)了這個(gè)核心問題,并提出了一個(gè)絕妙的解決方案。他們開發(fā)的ReasoningCodec就像是給AI裝上了一個(gè)"雙語翻譯器",能夠?qū)⒁纛l信息分解成兩個(gè)互補(bǔ)的部分:推理層面的高級(jí)信息(類似于理解語音的"意思"和"情感")和重建層面的具體信息(類似于記住語音的"音色"和"細(xì)節(jié)")。
這種創(chuàng)新設(shè)計(jì)讓AI第一次能夠真正做到"文武雙全"——既能深度理解語音內(nèi)容,又能生成高質(zhì)量的音頻回應(yīng)。更令人驚嘆的是,研究團(tuán)隊(duì)在1000億個(gè)文本標(biāo)記和600億個(gè)音頻標(biāo)記的超大規(guī)模數(shù)據(jù)上訓(xùn)練了這個(gè)系統(tǒng),使其具備了強(qiáng)大的跨任務(wù)泛化能力。
這項(xiàng)研究的突破性意義在于,它為構(gòu)建真正智能的音頻AI系統(tǒng)奠定了堅(jiān)實(shí)基礎(chǔ)。無論是語音識(shí)別、語音合成,還是音樂生成、音頻分析,UniAudio 2.0都展現(xiàn)出了卓越的性能。更重要的是,它在面對(duì)全新的、訓(xùn)練時(shí)從未見過的任務(wù)時(shí),也能表現(xiàn)出令人矚目的適應(yīng)能力。
一、音頻AI的"分裂癥"問題
傳統(tǒng)的音頻AI系統(tǒng)面臨著一個(gè)根本性的矛盾,就像試圖用同一把鑰匙開兩扇完全不同的門。在音頻處理領(lǐng)域,研究者們長期以來被迫在兩種截然不同的方法之間做出選擇。
第一種方法使用連續(xù)表示,就像用一支非常精細(xì)的畫筆來描繪音頻的每一個(gè)細(xì)微變化。這種方法在理解音頻內(nèi)容方面表現(xiàn)出色,能夠捕捉到語音中的情感色彩、說話者的身份特征,以及各種微妙的聲學(xué)信息。然而,當(dāng)需要生成新的音頻時(shí),這種方法就顯得力不從心了。這就好比用一幅極其復(fù)雜的油畫作為模板來創(chuàng)作新畫作——雖然細(xì)節(jié)豐富,但操作起來極其困難。
第二種方法采用離散標(biāo)記化,將音頻信息轉(zhuǎn)換成類似于文字的離散符號(hào)。這種方法在生成音頻方面非常高效,就像使用標(biāo)準(zhǔn)化的積木塊來搭建不同的結(jié)構(gòu)。AI可以像組織文字一樣組織這些音頻標(biāo)記,從而生成流暢的語音或音樂。然而,這種方法的問題在于,為了實(shí)現(xiàn)標(biāo)準(zhǔn)化,它往往會(huì)丟失許多重要的細(xì)節(jié)信息,就像用馬賽克拼圖來重現(xiàn)一幅寫實(shí)油畫——整體輪廓可以保留,但精細(xì)的紋理和微妙的色彩變化就消失了。
這種兩難境地就像是要求一個(gè)人既要成為精密的外科醫(yī)生,又要成為力大無窮的建筑工人。外科醫(yī)生需要極其精細(xì)的操作能力,而建筑工人需要強(qiáng)大的執(zhí)行力,但很難找到一個(gè)人同時(shí)具備這兩種截然不同的技能。
香港中文大學(xué)的研究團(tuán)隊(duì)敏銳地意識(shí)到,問題的根源在于現(xiàn)有方法試圖用單一的表示方式來處理音頻的多個(gè)層面。音頻信息實(shí)際上是分層次的——有高級(jí)的語義信息(比如說話的內(nèi)容、情感色彩),也有低級(jí)的聲學(xué)信息(比如音色、音高的細(xì)微變化)。就像一首歌曲包含了歌詞的意義、旋律的走向、歌手的音色等多個(gè)維度的信息一樣,強(qiáng)制用單一方式來表示所有這些信息必然會(huì)導(dǎo)致信息的失真或丟失。
正是基于這樣的認(rèn)識(shí),研究團(tuán)隊(duì)提出了一個(gè)革命性的想法:既然音頻信息本身是多層次的,為什么不設(shè)計(jì)一個(gè)同樣多層次的表示方法呢?這就是ReasoningCodec誕生的思想基礎(chǔ)——它不再試圖用一種表示方法解決所有問題,而是巧妙地將音頻信息分解為兩個(gè)互補(bǔ)的組成部分,每個(gè)部分都針對(duì)特定的任務(wù)進(jìn)行優(yōu)化。
這種設(shè)計(jì)思路的巧妙之處在于,它承認(rèn)了音頻處理任務(wù)的多樣性,并且為不同的任務(wù)需求提供了相應(yīng)的信息表示。這就像設(shè)計(jì)一個(gè)多功能工具箱,里面既有精密的螺絲刀用于細(xì)致操作,也有大錘子用于粗重工作,每種工具都在其擅長的場景中發(fā)揮最大效用。
二、ReasoningCodec:AI音頻處理的"雙腦"設(shè)計(jì)
ReasoningCodec的核心創(chuàng)新可以比作給AI裝上了一個(gè)"雙腦"系統(tǒng),就像人類大腦中負(fù)責(zé)語言理解的區(qū)域和負(fù)責(zé)運(yùn)動(dòng)控制的區(qū)域分工合作一樣。這個(gè)系統(tǒng)將音頻信息巧妙地分解為兩個(gè)既獨(dú)立又協(xié)調(diào)的處理流程。
第一個(gè)處理流程被稱為"推理分支",它就像一個(gè)善于思考和分析的大腦半球。當(dāng)這個(gè)分支接收到音頻信息時(shí),它會(huì)進(jìn)行高層次的分析和理解。比如,當(dāng)你說"我今天心情不錯(cuò)"時(shí),推理分支不僅會(huì)識(shí)別出具體的文字內(nèi)容,還會(huì)分析出你的情感狀態(tài)、語調(diào)特征,甚至推斷出你可能正處于輕松愉快的環(huán)境中。這種分析能力讓AI能夠真正"理解"音頻的深層含義,而不僅僅是機(jī)械地識(shí)別聲音模式。
推理分支的工作方式很像一個(gè)經(jīng)驗(yàn)豐富的心理學(xué)家。它會(huì)綜合考慮語音的各個(gè)方面:說話的節(jié)奏透露了什么情緒?音調(diào)的變化暗示了什么態(tài)度?背景音反映了什么環(huán)境?通過這種綜合分析,推理分支生成的"推理標(biāo)記"包含了豐富的語義信息,這些信息與文本語言模型的表示方式高度兼容,使得AI能夠像處理文字一樣處理這些高級(jí)音頻概念。
第二個(gè)處理流程是"重建分支",它扮演著精密工程師的角色。重建分支專注于保存音頻的所有技術(shù)細(xì)節(jié),確保聲音的質(zhì)量和保真度。當(dāng)推理分支在思考"這個(gè)人說了什么,表達(dá)了什么情感"時(shí),重建分支則在記錄"這個(gè)人的聲音具體是什么樣的,每一個(gè)音素是如何發(fā)出的"。
重建分支采用了一種多專家的設(shè)計(jì)策略,就像組建了一個(gè)專業(yè)的音頻技術(shù)團(tuán)隊(duì)。這個(gè)團(tuán)隊(duì)包含了三個(gè)不同的專家:語音專家專門處理人聲的細(xì)微特征,比如不同說話者的音色差異、口音特點(diǎn)等;音樂專家負(fù)責(zé)處理旋律、節(jié)拍、和聲等音樂要素;環(huán)境聲專家則處理各種非語音的聲音信息,比如風(fēng)聲、水聲、機(jī)器聲等。每個(gè)專家都使用專門優(yōu)化的編碼方式來保存其領(lǐng)域內(nèi)的關(guān)鍵信息。
這種多專家設(shè)計(jì)的巧妙之處在于,它承認(rèn)了不同類型音頻的獨(dú)特性質(zhì)。語音信號(hào)和音樂信號(hào)雖然都是音頻,但它們的內(nèi)在結(jié)構(gòu)和重要特征是截然不同的。語音更注重清晰度和可理解性,而音樂更注重和諧性和藝術(shù)性。通過讓不同的專家處理不同類型的音頻,系統(tǒng)能夠?yàn)槊糠N音頻類型提供最適合的表示方法。
更令人稱道的是,研究團(tuán)隊(duì)在兩個(gè)分支之間建立了一種巧妙的協(xié)調(diào)機(jī)制。推理分支的分析結(jié)果會(huì)通過一種叫作FiLM(特征線性調(diào)制)的技術(shù)來指導(dǎo)重建分支的工作。這就像一個(gè)項(xiàng)目經(jīng)理向技術(shù)團(tuán)隊(duì)傳達(dá)設(shè)計(jì)意圖一樣——推理分支告訴重建分支"我們需要生成一個(gè)聽起來快樂、年輕、帶有南方口音的女性聲音",重建分支則根據(jù)這些指導(dǎo)來調(diào)整其技術(shù)參數(shù),確保最終生成的音頻符合高層次的語義要求。
這種協(xié)調(diào)機(jī)制的存在使得整個(gè)系統(tǒng)能夠在保持技術(shù)精度的同時(shí),確保生成的音頻在語義層面也是準(zhǔn)確和一致的。這就避免了傳統(tǒng)方法中經(jīng)常出現(xiàn)的問題:技術(shù)上完美但語義上不匹配的音頻輸出。
為了訓(xùn)練這個(gè)復(fù)雜的雙分支系統(tǒng),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)多階段的訓(xùn)練策略。在第一階段,推理分支通過大量的音頻理解任務(wù)來學(xué)習(xí)如何進(jìn)行高級(jí)分析,這些任務(wù)包括語音識(shí)別、情感識(shí)別、音頻描述等。在第二階段,系統(tǒng)進(jìn)一步通過強(qiáng)化學(xué)習(xí)來優(yōu)化推理分支的分析質(zhì)量,確保它能夠生成詳細(xì)、準(zhǔn)確、有用的音頻分析。第三階段則專注于訓(xùn)練重建分支,使其能夠根據(jù)推理分支的指導(dǎo)來重建高質(zhì)量的音頻。
三、統(tǒng)一架構(gòu):打造音頻處理的"全能選手"
在解決了音頻表示的根本問題之后,研究團(tuán)隊(duì)面臨的下一個(gè)挑戰(zhàn)是如何構(gòu)建一個(gè)能夠同時(shí)處理文本和音頻的統(tǒng)一系統(tǒng)。這就像要設(shè)計(jì)一座既能處理汽車又能處理火車的多功能交通樞紐——兩種交通工具有著完全不同的運(yùn)行方式和技術(shù)要求,但卻需要在同一個(gè)系統(tǒng)中和諧共存。
傳統(tǒng)的做法是簡單地將音頻標(biāo)記和文本標(biāo)記混合在一起,然后用同一個(gè)神經(jīng)網(wǎng)絡(luò)來處理所有信息。這種方法雖然簡單,但就像讓同一個(gè)服務(wù)員既要精通法式料理又要擅長中式茶藝——雖然理論上可行,但實(shí)際效果往往差強(qiáng)人意。
香港中文大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)更加巧妙的解決方案:功能層級(jí)專業(yè)化架構(gòu)。這個(gè)架構(gòu)將整個(gè)神經(jīng)網(wǎng)絡(luò)分為三個(gè)功能不同的層級(jí),每個(gè)層級(jí)都有其特定的專業(yè)領(lǐng)域和職責(zé)。
第一個(gè)層級(jí)是"音頻理解專家層",位于網(wǎng)絡(luò)的底部。這些層級(jí)專門負(fù)責(zé)從原始音頻信號(hào)中提取和分析信息,就像一個(gè)專業(yè)的聲學(xué)工程師團(tuán)隊(duì)。當(dāng)音頻數(shù)據(jù)進(jìn)入系統(tǒng)時(shí),這些專家層會(huì)進(jìn)行初步的特征提取和模式識(shí)別,將復(fù)雜的聲學(xué)信號(hào)轉(zhuǎn)換成更容易理解的中間表示。這個(gè)層級(jí)只處理音頻信息,不接觸文本數(shù)據(jù),因此能夠?qū)W⒂谝纛l信號(hào)的獨(dú)特特征。
第二個(gè)層級(jí)是"跨模態(tài)專家層",位于網(wǎng)絡(luò)的中間部分。這個(gè)層級(jí)扮演著"翻譯官"的角色,負(fù)責(zé)在音頻信息和文本信息之間建立橋梁。這些層級(jí)從預(yù)訓(xùn)練的大型語言模型(如LLaMA 3.2 3B)初始化而來,因此天然具備了強(qiáng)大的文本處理能力。然后,通過專門的訓(xùn)練,這些層級(jí)學(xué)會(huì)了如何將音頻信息與文本信息進(jìn)行對(duì)齊和整合。
跨模態(tài)專家層的工作方式很像聯(lián)合國的同聲傳譯員。它們需要深刻理解兩種不同"語言"(音頻和文本)的內(nèi)在邏輯,然后在它們之間建立準(zhǔn)確的對(duì)應(yīng)關(guān)系。當(dāng)系統(tǒng)需要將語音轉(zhuǎn)換為文本時(shí),這個(gè)層級(jí)會(huì)將來自音頻理解專家層的信息"翻譯"成文本語言模型能夠理解的形式。反之,當(dāng)系統(tǒng)需要根據(jù)文本生成語音時(shí),這個(gè)層級(jí)則負(fù)責(zé)將文本指令轉(zhuǎn)換成音頻生成所需的控制信號(hào)。
第三個(gè)層級(jí)是"音頻生成專家層",位于網(wǎng)絡(luò)的頂部。這個(gè)層級(jí)專門負(fù)責(zé)音頻的合成和生成工作,就像一個(gè)專業(yè)的音響制作團(tuán)隊(duì)。它們接收來自跨模態(tài)專家層的指導(dǎo)信息,然后精確地控制音頻的各個(gè)參數(shù),最終生成高質(zhì)量的音頻輸出。
這種三層結(jié)構(gòu)的巧妙之處在于,每個(gè)層級(jí)都能在其專業(yè)領(lǐng)域內(nèi)發(fā)揮最大效能,同時(shí)通過層級(jí)間的協(xié)作實(shí)現(xiàn)整體功能。音頻理解專家層確保了對(duì)音頻信號(hào)的精確分析,跨模態(tài)專家層保證了音頻與文本信息的準(zhǔn)確對(duì)齊,音頻生成專家層則負(fù)責(zé)產(chǎn)出高質(zhì)量的音頻結(jié)果。
為了進(jìn)一步優(yōu)化這個(gè)架構(gòu),研究團(tuán)隊(duì)還設(shè)計(jì)了一種"音頻專用計(jì)算"機(jī)制。在傳統(tǒng)的混合模型中,所有的計(jì)算資源都會(huì)被平均分配給文本和音頻處理。但在UniAudio 2.0中,音頻理解專家層和音頻生成專家層只對(duì)音頻位置進(jìn)行計(jì)算,而跳過文本位置。這就像在一條生產(chǎn)線上,專業(yè)工人只處理屬于自己專業(yè)領(lǐng)域的產(chǎn)品,而不會(huì)浪費(fèi)時(shí)間在不相關(guān)的工作上。
這種設(shè)計(jì)的好處是顯而易見的。首先,它保護(hù)了預(yù)訓(xùn)練語言模型中積累的豐富文本知識(shí),避免了因?yàn)橐胍纛l處理而導(dǎo)致的文本能力退化。其次,它允許音頻處理專家專注于音頻特有的挑戰(zhàn),不受文本處理邏輯的干擾。最后,它提高了整體系統(tǒng)的效率,因?yàn)槊總€(gè)組件都在做它最擅長的工作。
在訓(xùn)練過程中,系統(tǒng)采用了一種創(chuàng)新的多流表示方法。每個(gè)時(shí)間步都被表示為一個(gè)多維向量,其中前8個(gè)維度用于音頻信息(對(duì)應(yīng)ReasoningCodec的8個(gè)編碼書),最后一個(gè)維度用于文本信息。當(dāng)處理文本時(shí),音頻維度被設(shè)置為填充值;當(dāng)處理音頻時(shí),文本維度被設(shè)置為填充值。這種設(shè)計(jì)讓單一的transformer架構(gòu)能夠靈活地處理多模態(tài)信息,而不需要復(fù)雜的架構(gòu)修改。
四、大規(guī)模訓(xùn)練:四步走向音頻AI的巔峰
訓(xùn)練一個(gè)能夠處理多種音頻任務(wù)的統(tǒng)一AI系統(tǒng),就像培養(yǎng)一個(gè)既能演奏古典音樂又能創(chuàng)作流行歌曲,既能進(jìn)行同聲傳譯又能編寫詩歌的全能藝術(shù)家。這需要一個(gè)精心設(shè)計(jì)的分階段培養(yǎng)計(jì)劃,確保AI能夠逐步掌握各種技能,同時(shí)避免新技能的學(xué)習(xí)干擾已有能力的發(fā)揮。
研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)四階段的訓(xùn)練策略,每個(gè)階段都有明確的目標(biāo)和專門的訓(xùn)練內(nèi)容。這種漸進(jìn)式的訓(xùn)練方法確保了AI系統(tǒng)能夠穩(wěn)步提升,避免了一次性學(xué)習(xí)過多內(nèi)容導(dǎo)致的"消化不良"。
第一階段被稱為"音頻理解熱身"。在這個(gè)階段,系統(tǒng)專注于學(xué)習(xí)如何"聽懂"各種音頻內(nèi)容。就像一個(gè)剛開始學(xué)習(xí)語言的孩子,系統(tǒng)需要首先掌握音頻信號(hào)的基本含義。訓(xùn)練內(nèi)容包括語音識(shí)別、音頻分類、情感識(shí)別等基礎(chǔ)理解任務(wù)。在這個(gè)階段,只有音頻理解專家層接受訓(xùn)練,其他部分保持凍結(jié)狀態(tài)。
為了確保音頻理解專家層能夠提取到豐富的語義信息,研究團(tuán)隊(duì)還引入了一個(gè)輔助的語義蒸餾目標(biāo)。這個(gè)目標(biāo)要求系統(tǒng)學(xué)會(huì)重建來自預(yù)訓(xùn)練音頻編碼器的連續(xù)語義特征,就像要求學(xué)生不僅要理解課文的意思,還要能夠用自己的話重新表述出來。這種訓(xùn)練方式確保了理解專家層不僅能識(shí)別音頻內(nèi)容,還能深度理解其內(nèi)在含義。
第二階段轉(zhuǎn)向"音頻生成熱身"。在掌握了音頻理解能力之后,系統(tǒng)開始學(xué)習(xí)如何"說話"和"創(chuàng)作"。這個(gè)階段專門訓(xùn)練音頻生成專家層和局部音頻解碼器,讓系統(tǒng)學(xué)會(huì)根據(jù)文本指令生成高質(zhì)量的語音、音樂和其他音頻內(nèi)容。訓(xùn)練任務(wù)包括文本轉(zhuǎn)語音、文本轉(zhuǎn)音樂、歌曲生成等。在這個(gè)階段,理解和跨模態(tài)專家層保持固定,確保第一階段學(xué)到的理解能力不會(huì)被破壞。
第三階段是"音頻文本預(yù)訓(xùn)練",這是一個(gè)關(guān)鍵的整合階段。系統(tǒng)開始學(xué)習(xí)如何協(xié)調(diào)其理解和生成能力,同時(shí)處理音頻理解任務(wù)、音頻生成任務(wù)、純文本數(shù)據(jù)和純音頻數(shù)據(jù)。這就像讓一個(gè)學(xué)會(huì)了聽和說的學(xué)生開始練習(xí)對(duì)話——需要將之前分別學(xué)習(xí)的技能整合起來,形成流暢的交互能力。
在這個(gè)階段,所有模型參數(shù)都參與訓(xùn)練,但訓(xùn)練數(shù)據(jù)經(jīng)過精心平衡。文本數(shù)據(jù)和音頻數(shù)據(jù)的權(quán)重被仔細(xì)調(diào)整,確保音頻能力的獲得不會(huì)損害預(yù)訓(xùn)練語言模型的文本處理能力。這種平衡訓(xùn)練的目標(biāo)是讓系統(tǒng)成為真正的"雙語專家"——既精通文本語言,又熟練掌握音頻語言。
第四階段是"音頻文本中級(jí)訓(xùn)練",這是一個(gè)關(guān)鍵的能力提升階段。在這個(gè)階段,系統(tǒng)的上下文長度從1024個(gè)標(biāo)記擴(kuò)展到2048個(gè)標(biāo)記,同時(shí)引入了研究團(tuán)隊(duì)創(chuàng)新設(shè)計(jì)的"聽覺句子"數(shù)據(jù)。
"聽覺句子"是一個(gè)非常有趣的概念,它將多個(gè)相關(guān)的音頻和文本片段組織成長序列,就像將幾個(gè)相關(guān)的場景串聯(lián)成一個(gè)完整的故事。比如,一個(gè)聽覺句子可能包含一段對(duì)話的錄音,然后是對(duì)話內(nèi)容的文字描述,接著是參與者情感狀態(tài)的分析,最后是整個(gè)場景的背景音效。通過學(xué)習(xí)這樣的復(fù)雜序列,AI系統(tǒng)學(xué)會(huì)了在更長的上下文中進(jìn)行推理和生成。
這種長上下文訓(xùn)練的重要性在于,它讓AI系統(tǒng)具備了處理復(fù)雜、多步驟任務(wù)的能力。就像人類在進(jìn)行復(fù)雜對(duì)話時(shí)需要記住之前的話題并保持邏輯連貫性一樣,AI系統(tǒng)也需要在長序列中維持一致性和連貫性。
每個(gè)訓(xùn)練階段都使用了大量的計(jì)算資源——64張NVIDIA H100 GPU持續(xù)工作,處理海量的音頻和文本數(shù)據(jù)。整個(gè)訓(xùn)練過程消耗了1000億個(gè)文本標(biāo)記和600億個(gè)音頻標(biāo)記,這相當(dāng)于讓AI系統(tǒng)"閱讀"了數(shù)百萬本書籍,同時(shí)"聆聽"了數(shù)十萬小時(shí)的音頻內(nèi)容。
訓(xùn)練數(shù)據(jù)的多樣性也是這個(gè)系統(tǒng)成功的關(guān)鍵因素。數(shù)據(jù)來源涵蓋了多種語言(英語、中文、粵語),多種音頻類型(語音、音樂、環(huán)境聲),以及多種任務(wù)類型(理解、生成、轉(zhuǎn)換)。這種多樣性確保了系統(tǒng)具備廣泛的適應(yīng)能力,能夠處理現(xiàn)實(shí)世界中遇到的各種音頻任務(wù)。
五、性能表現(xiàn):全方位超越現(xiàn)有技術(shù)
經(jīng)過精心設(shè)計(jì)和大規(guī)模訓(xùn)練的UniAudio 2.0在各種測試中展現(xiàn)出了令人驚嘆的性能。這就像一個(gè)經(jīng)過多年訓(xùn)練的全能運(yùn)動(dòng)員,不僅在自己的專項(xiàng)上表現(xiàn)卓越,在其他項(xiàng)目上也能達(dá)到專業(yè)水準(zhǔn)。
在語音識(shí)別任務(wù)上,UniAudio 2.0展現(xiàn)出了強(qiáng)大的多語言能力。在英語LibriSpeech測試集上,它的詞錯(cuò)誤率僅為2.7%,這意味著它能夠準(zhǔn)確識(shí)別97%以上的英語語音內(nèi)容。更令人印象深刻的是,它在中文和粵語語音識(shí)別上也表現(xiàn)出色,在SEED-TTS中文測試集上達(dá)到了2.6%的詞錯(cuò)誤率,在粵語測試中更是達(dá)到了7.7%的字符錯(cuò)誤率。這種多語言能力的實(shí)現(xiàn)尤其難得,因?yàn)椴煌Z言有著完全不同的語音特征和語法結(jié)構(gòu)。
在語音合成方面,UniAudio 2.0生成的語音質(zhì)量得到了多項(xiàng)指標(biāo)的驗(yàn)證。系統(tǒng)能夠根據(jù)文本指令生成自然流暢的語音,生成的語音在清晰度、自然度和表達(dá)力方面都達(dá)到了很高的水準(zhǔn)。更重要的是,系統(tǒng)還能夠根據(jù)描述性指令來控制語音的風(fēng)格和特征,比如"生成一個(gè)聽起來快樂的年輕女性聲音"或"模仿老年男性略帶沙啞的語調(diào)"。
在音頻描述和分析任務(wù)上,UniAudio 2.0展現(xiàn)出了出色的理解能力。它不僅能夠識(shí)別音頻中的具體內(nèi)容,還能分析音頻的情感色彩、環(huán)境背景、聲學(xué)特征等深層信息。比如,給定一段錄音,系統(tǒng)不僅能識(shí)別出"有人在說話",還能分析出"這是一個(gè)中年男性,語調(diào)輕松愉快,可能在室內(nèi)安靜的環(huán)境中進(jìn)行非正式的交談"。
音樂相關(guān)任務(wù)的表現(xiàn)同樣出色。UniAudio 2.0能夠根據(jù)文本描述生成相應(yīng)的音樂片段,分析音樂的風(fēng)格特征,甚至進(jìn)行歌詞識(shí)別和歌曲生成。在音樂生成質(zhì)量評(píng)估中,它在多項(xiàng)客觀指標(biāo)上都達(dá)到了與專業(yè)音樂生成模型相當(dāng)甚至更好的水準(zhǔn)。
特別值得關(guān)注的是ReasoningCodec在音頻重建質(zhì)量上的表現(xiàn)。在保持相同數(shù)據(jù)傳輸率的情況下,ReasoningCodec在語音、音樂和一般音頻的重建質(zhì)量上都超越了現(xiàn)有的主流音頻編解碼器。在主觀聽音測試中,使用ReasoningCodec重建的音頻獲得了90.5分的高分,顯著超過了其他競爭方法。
更令人印象深刻的是系統(tǒng)的泛化能力。在面對(duì)訓(xùn)練時(shí)從未見過的任務(wù)時(shí),UniAudio 2.0展現(xiàn)出了強(qiáng)大的適應(yīng)性。在文本理解能力測試MMLU上,即使在引入音頻處理能力后,系統(tǒng)仍然保持了44.1%的準(zhǔn)確率,接近原始文本模型47.6%的性能。這說明音頻能力的添加并沒有顯著損害系統(tǒng)原有的文本處理能力。
在零樣本任務(wù)評(píng)估中,系統(tǒng)展現(xiàn)出了處理全新任務(wù)類型的能力。比如,在從未專門訓(xùn)練過的構(gòu)音障礙語音識(shí)別任務(wù)中,UniAudio 2.0的詞錯(cuò)誤率僅為19.4%,遠(yuǎn)低于其他多模態(tài)模型80.6%的錯(cuò)誤率。在語音到語音的對(duì)話任務(wù)中,系統(tǒng)也展現(xiàn)出了良好的交互能力。
少樣本學(xué)習(xí)能力同樣出色。在只提供一兩個(gè)示例的情況下,UniAudio 2.0能夠快速適應(yīng)新的音頻處理任務(wù)。在語音降噪任務(wù)中,僅憑一個(gè)示例,系統(tǒng)就能學(xué)會(huì)有效地去除背景噪音,在聲音質(zhì)量和語音清晰度上都取得了顯著改善。
系統(tǒng)在跨模態(tài)任務(wù)上的表現(xiàn)也相當(dāng)出色。它能夠根據(jù)音頻提示和文本描述來生成具有特定音色和風(fēng)格的語音,實(shí)現(xiàn)了真正的音頻-文本聯(lián)合控制。這種能力在實(shí)際應(yīng)用中具有重要意義,比如可以用于個(gè)性化的語音助手,或者為有聲書制作提供多樣化的聲音選擇。
六、技術(shù)深度:關(guān)鍵創(chuàng)新的內(nèi)在機(jī)制
UniAudio 2.0的成功不僅體現(xiàn)在表面的性能數(shù)據(jù)上,更在于其背后一系列精巧的技術(shù)創(chuàng)新。這些創(chuàng)新就像一部精密機(jī)械內(nèi)部的齒輪組合,每一個(gè)組件都發(fā)揮著關(guān)鍵作用,共同驅(qū)動(dòng)著整個(gè)系統(tǒng)的高效運(yùn)轉(zhuǎn)。
ReasoningCodec的分解機(jī)制是整個(gè)系統(tǒng)的核心創(chuàng)新。這種分解并非簡單的信息分割,而是基于對(duì)音頻信息層次結(jié)構(gòu)的深刻理解。研究團(tuán)隊(duì)發(fā)現(xiàn),音頻信息天然具有分層特性:高層的語義信息關(guān)乎內(nèi)容理解,而低層的聲學(xué)信息關(guān)乎質(zhì)量保真。傳統(tǒng)方法試圖用單一表示來兼顧這兩個(gè)層面,往往導(dǎo)致兩頭都不討好的結(jié)果。
推理分支采用了查詢驅(qū)動(dòng)的量化策略,這種策略的巧妙之處在于它模仿了人類注意力機(jī)制的工作方式。當(dāng)我們聽到一段語音時(shí),我們的注意力會(huì)自動(dòng)聚焦在最重要的信息上,而忽略一些次要細(xì)節(jié)。查詢驅(qū)動(dòng)的量化通過可學(xué)習(xí)的查詢向量來"提問":這段音頻中最重要的信息是什么?這種提問機(jī)制確保了推理標(biāo)記能夠捕獲最關(guān)鍵的語義信息。
重建分支的多專家設(shè)計(jì)體現(xiàn)了"專業(yè)化分工"的智慧。語音專家使用WavLM編碼器來提取語音特有的語言學(xué)特征,音樂專家使用專門的音樂SSL編碼器來捕獲旋律、節(jié)拍等音樂元素,而環(huán)境聲專家則負(fù)責(zé)處理各種非結(jié)構(gòu)化的聲學(xué)信息。每個(gè)專家都配備了專門優(yōu)化的向量量化模塊,確保在其專業(yè)領(lǐng)域內(nèi)達(dá)到最佳的信息保留效果。
FiLM調(diào)制機(jī)制在兩個(gè)分支之間建立了精確的協(xié)調(diào)關(guān)系。這種調(diào)制不是簡單的信息傳遞,而是一種參數(shù)級(jí)別的影響。推理分支的輸出通過FiLM網(wǎng)絡(luò)轉(zhuǎn)換為縮放和偏移參數(shù),這些參數(shù)直接調(diào)制重建分支中的特征表示。這就像一個(gè)指揮家通過手勢來精確控制樂團(tuán)中每個(gè)樂器的演奏強(qiáng)度和音色一樣。
流式擴(kuò)散解碼器的應(yīng)用是另一個(gè)重要?jiǎng)?chuàng)新。傳統(tǒng)的音頻生成往往使用簡單的線性解碼器,但這種方法在處理復(fù)雜音頻時(shí)常常力不從心。流式擴(kuò)散解碼器通過多步去噪過程來逐步構(gòu)建音頻波形,每一步都能精確控制生成質(zhì)量。這種方法雖然增加了計(jì)算復(fù)雜度,但顯著提升了音頻生成的保真度和自然度。
在架構(gòu)設(shè)計(jì)上,功能層級(jí)專業(yè)化不僅僅是簡單的層級(jí)劃分,更體現(xiàn)了對(duì)音頻-文本跨模態(tài)學(xué)習(xí)規(guī)律的深刻洞察。音頻理解專家層通過專門的掩碼操作確保只處理音頻位置,這種設(shè)計(jì)防止了音頻特有的歸納偏置被文本處理邏輯所稀釋。跨模態(tài)專家層從預(yù)訓(xùn)練語言模型初始化,保留了豐富的語言知識(shí),然后通過漸進(jìn)式訓(xùn)練學(xué)會(huì)處理音頻信息。音頻生成專家層則專注于精細(xì)的聲學(xué)建模,確保生成音頻的技術(shù)質(zhì)量。
多流表示機(jī)制是一個(gè)看似簡單但實(shí)際上非常巧妙的設(shè)計(jì)。每個(gè)時(shí)間步使用9個(gè)并行流來表示信息:前8個(gè)流對(duì)應(yīng)音頻的不同編碼層,最后1個(gè)流用于文本。這種表示方法讓單一的transformer架構(gòu)能夠無縫處理多模態(tài)信息,同時(shí)保持了計(jì)算效率。更重要的是,這種設(shè)計(jì)為未來擴(kuò)展到更多模態(tài)(如視頻、圖像)提供了靈活的框架。
在訓(xùn)練策略上,漸進(jìn)式多階段訓(xùn)練體現(xiàn)了對(duì)復(fù)雜技能學(xué)習(xí)規(guī)律的尊重。每個(gè)階段都有明確的學(xué)習(xí)目標(biāo),避免了不同技能之間的相互干擾。特別是"聽覺句子"的設(shè)計(jì),它通過構(gòu)建長上下文的多模態(tài)序列來訓(xùn)練系統(tǒng)的復(fù)合推理能力。這些聽覺句子不是簡單的數(shù)據(jù)拼接,而是經(jīng)過精心設(shè)計(jì)的語義連貫序列,能夠考驗(yàn)系統(tǒng)的長程依賴建模能力。
強(qiáng)化學(xué)習(xí)在推理分支訓(xùn)練中的應(yīng)用也是一個(gè)亮點(diǎn)。通過GRPO(Group Relative Policy Optimization)算法,系統(tǒng)學(xué)會(huì)生成更詳細(xì)、更準(zhǔn)確的音頻分析。這種訓(xùn)練方式讓AI不僅能識(shí)別音頻內(nèi)容,還能像專業(yè)的音頻分析師一樣提供深入的解讀和評(píng)論。
七、實(shí)際應(yīng)用:改變未來音頻交互的可能性
UniAudio 2.0的技術(shù)突破為音頻AI的實(shí)際應(yīng)用開辟了廣闊的前景。這些應(yīng)用不僅僅是現(xiàn)有技術(shù)的改進(jìn),更是對(duì)人機(jī)交互方式的根本性變革。
在智能語音助手領(lǐng)域,UniAudio 2.0能夠帶來質(zhì)的飛躍。傳統(tǒng)的語音助手往往只能進(jìn)行簡單的命令識(shí)別和固定模式的回應(yīng),就像一個(gè)只會(huì)背誦標(biāo)準(zhǔn)答案的機(jī)器人。而基于UniAudio 2.0的語音助手能夠真正理解對(duì)話的語境和情感,并以相應(yīng)的語調(diào)和風(fēng)格進(jìn)行回應(yīng)。比如,當(dāng)用戶帶著疲憊的語調(diào)詢問天氣時(shí),系統(tǒng)不僅能提供準(zhǔn)確的天氣信息,還能以溫和、關(guān)切的語調(diào)回應(yīng),甚至主動(dòng)建議一些能夠緩解疲勞的活動(dòng)。
在教育領(lǐng)域,這項(xiàng)技術(shù)能夠?yàn)檎Z言學(xué)習(xí)帶來革命性的改變。傳統(tǒng)的語言學(xué)習(xí)軟件只能提供標(biāo)準(zhǔn)化的發(fā)音示例和簡單的正誤判斷。而UniAudio 2.0能夠分析學(xué)習(xí)者語音中的細(xì)微特征,識(shí)別具體的發(fā)音問題,并提供個(gè)性化的改進(jìn)建議。更進(jìn)一步,它能夠模擬不同地區(qū)的口音、不同年齡段的語音特征,為學(xué)習(xí)者提供更豐富、更真實(shí)的語言環(huán)境。
在內(nèi)容創(chuàng)作領(lǐng)域,UniAudio 2.0為有聲內(nèi)容制作開辟了新的可能性。播客制作者、有聲書出版商、在線教育平臺(tái)都能從中受益。系統(tǒng)不僅能夠生成高質(zhì)量的語音內(nèi)容,還能根據(jù)內(nèi)容的情感色彩和風(fēng)格要求來調(diào)整語音特征。比如,在制作兒童故事有聲書時(shí),系統(tǒng)能夠?yàn)椴煌慕巧山厝徊煌穆曇簦尮适赂由鷦?dòng)有趣。
在醫(yī)療康復(fù)領(lǐng)域,這項(xiàng)技術(shù)為語言康復(fù)治療提供了新的工具。對(duì)于中風(fēng)后失語癥患者、構(gòu)音障礙患者等,UniAudio 2.0能夠準(zhǔn)確識(shí)別他們的語音問題,提供針對(duì)性的訓(xùn)練方案,并跟蹤康復(fù)進(jìn)展。系統(tǒng)的零樣本學(xué)習(xí)能力特別適合這類應(yīng)用,因?yàn)槊總€(gè)患者的語音問題都是獨(dú)特的,傳統(tǒng)方法往往難以應(yīng)對(duì)這種多樣性。
在娛樂和創(chuàng)意產(chǎn)業(yè)中,UniAudio 2.0為音樂創(chuàng)作和音效設(shè)計(jì)帶來了新的可能性。音樂制作人能夠通過自然語言描述來生成音樂片段,聲音設(shè)計(jì)師能夠快速創(chuàng)造各種環(huán)境音效。更有趣的是,系統(tǒng)的跨模態(tài)能力使得創(chuàng)作者能夠?qū)⒁曈X靈感直接轉(zhuǎn)化為聽覺作品。
在無障礙技術(shù)方面,UniAudio 2.0為視聽障礙人群提供了更好的輔助工具。對(duì)于視覺障礙者,系統(tǒng)能夠提供更自然、更詳細(xì)的音頻描述服務(wù)。對(duì)于聽覺障礙者,系統(tǒng)能夠?qū)⒄Z音實(shí)時(shí)轉(zhuǎn)換為文本,同時(shí)保留語音中的情感信息和語調(diào)變化。
然而,這項(xiàng)技術(shù)的應(yīng)用也需要謹(jǐn)慎考慮一些潛在風(fēng)險(xiǎn)。語音合成技術(shù)的進(jìn)步使得創(chuàng)造極其逼真的虛假語音成為可能,這可能被惡意使用于欺詐或誤導(dǎo)。因此,研究團(tuán)隊(duì)強(qiáng)調(diào)需要配套的檢測技術(shù)和倫理規(guī)范來確保技術(shù)的負(fù)責(zé)任使用。
在商業(yè)應(yīng)用中,客戶服務(wù)行業(yè)可能是最直接的受益者。基于UniAudio 2.0的客服系統(tǒng)能夠提供更自然、更個(gè)性化的服務(wù)體驗(yàn)。系統(tǒng)不僅能準(zhǔn)確理解客戶的問題,還能感知客戶的情緒狀態(tài),并相應(yīng)地調(diào)整回應(yīng)策略。這種情感智能的客服體驗(yàn)?zāi)軌蝻@著提升客戶滿意度。
在新聞和媒體行業(yè),這項(xiàng)技術(shù)能夠自動(dòng)化很多語音內(nèi)容制作流程。新聞機(jī)構(gòu)能夠快速將文字新聞轉(zhuǎn)換為高質(zhì)量的音頻新聞,并且可以根據(jù)不同平臺(tái)和受眾的需求來調(diào)整語音風(fēng)格。這不僅提高了內(nèi)容制作效率,也為媒體機(jī)構(gòu)開辟了新的傳播渠道。
八、未來展望:音頻AI的新時(shí)代
UniAudio 2.0的成功標(biāo)志著音頻人工智能正式邁入了一個(gè)新的發(fā)展階段。這個(gè)階段的特征是統(tǒng)一性、智能化和泛化能力,就像從各自獨(dú)立的工具發(fā)展為一個(gè)集成的智能工作臺(tái)。
從技術(shù)發(fā)展趨勢來看,未來的音頻AI系統(tǒng)將變得更加智能和自適應(yīng)。當(dāng)前的UniAudio 2.0已經(jīng)展現(xiàn)出了強(qiáng)大的零樣本和少樣本學(xué)習(xí)能力,未來的系統(tǒng)可能會(huì)發(fā)展出真正的"學(xué)會(huì)學(xué)習(xí)"能力。這意味著AI不僅能夠處理預(yù)定義的任務(wù),還能夠自主發(fā)現(xiàn)新的音頻模式,創(chuàng)造新的應(yīng)用場景。
模型規(guī)模的擴(kuò)展是另一個(gè)重要趨勢。雖然當(dāng)前的研究受到計(jì)算資源限制,只探索了1B和3B參數(shù)規(guī)模的模型,但研究團(tuán)隊(duì)的實(shí)驗(yàn)表明,模型規(guī)模的增加能夠顯著提升系統(tǒng)的泛化能力。未來7B、13B甚至更大規(guī)模的音頻語言模型可能會(huì)帶來質(zhì)的飛躍,特別是在復(fù)雜推理和創(chuàng)意生成方面。
跨模態(tài)能力的進(jìn)一步發(fā)展也值得期待。當(dāng)前的UniAudio 2.0主要處理音頻和文本兩種模態(tài),但其架構(gòu)設(shè)計(jì)已經(jīng)為擴(kuò)展到視頻、圖像等其他模態(tài)奠定了基礎(chǔ)。未來的多模態(tài)AI系統(tǒng)可能會(huì)真正實(shí)現(xiàn)"看、聽、說、寫"的全面統(tǒng)一,為人機(jī)交互帶來革命性的變化。
在數(shù)據(jù)和訓(xùn)練方法方面,合成數(shù)據(jù)的應(yīng)用將變得更加重要。隨著生成技術(shù)的進(jìn)步,高質(zhì)量的合成音頻數(shù)據(jù)能夠補(bǔ)充真實(shí)數(shù)據(jù)的不足,特別是在稀缺語言、特殊場景的數(shù)據(jù)收集方面。同時(shí),自監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的進(jìn)一步發(fā)展將減少對(duì)標(biāo)注數(shù)據(jù)的依賴,讓AI系統(tǒng)能夠從更廣泛的音頻資源中學(xué)習(xí)。
個(gè)性化定制將成為音頻AI應(yīng)用的一個(gè)重要方向。未來的系統(tǒng)不僅能夠提供標(biāo)準(zhǔn)化的音頻處理服務(wù),還能夠根據(jù)個(gè)人的喜好、習(xí)慣、文化背景等因素進(jìn)行深度定制。比如,語音助手可能會(huì)學(xué)會(huì)每個(gè)用戶獨(dú)特的表達(dá)方式和偏好,提供真正個(gè)性化的交互體驗(yàn)。
實(shí)時(shí)處理能力的提升也是技術(shù)發(fā)展的重點(diǎn)。當(dāng)前的高質(zhì)量音頻生成往往需要一定的處理時(shí)間,但隨著算法優(yōu)化和硬件進(jìn)步,未來的系統(tǒng)可能實(shí)現(xiàn)真正的實(shí)時(shí)高質(zhì)量音頻生成,這對(duì)于對(duì)話系統(tǒng)、直播應(yīng)用等實(shí)時(shí)場景具有重要意義。
在應(yīng)用層面,我們可能會(huì)看到音頻AI與物聯(lián)網(wǎng)設(shè)備的深度整合。未來的智能家居系統(tǒng)可能會(huì)基于UniAudio 2.0這樣的技術(shù),實(shí)現(xiàn)真正智能的環(huán)境感知和交互。通過分析環(huán)境中的各種音頻信息,系統(tǒng)能夠理解家庭成員的活動(dòng)狀態(tài)、情緒狀況,并主動(dòng)提供相應(yīng)的服務(wù)。
教育領(lǐng)域的應(yīng)用前景也非常廣闊。基于先進(jìn)音頻AI的智能輔導(dǎo)系統(tǒng)可能會(huì)提供真正個(gè)性化的學(xué)習(xí)體驗(yàn),不僅能夠理解學(xué)生的學(xué)習(xí)內(nèi)容,還能感知學(xué)生的學(xué)習(xí)狀態(tài),并相應(yīng)地調(diào)整教學(xué)策略。這種技術(shù)特別有助于解決教育資源不均衡的問題,讓優(yōu)質(zhì)的教育體驗(yàn)?zāi)軌蛴|達(dá)更廣泛的學(xué)習(xí)者群體。
當(dāng)然,技術(shù)發(fā)展也伴隨著挑戰(zhàn)。音頻深度偽造的潛在風(fēng)險(xiǎn)需要相應(yīng)的檢測和防護(hù)技術(shù)。隱私保護(hù)也是一個(gè)重要考慮,特別是在音頻數(shù)據(jù)包含大量個(gè)人信息的情況下。此外,如何確保AI生成的音頻內(nèi)容符合文化規(guī)范和倫理要求,也是需要持續(xù)關(guān)注的問題。
從產(chǎn)業(yè)發(fā)展的角度看,音頻AI技術(shù)的成熟將催生新的商業(yè)模式和產(chǎn)業(yè)生態(tài)。專業(yè)的音頻內(nèi)容創(chuàng)作可能會(huì)部分自動(dòng)化,同時(shí)也會(huì)創(chuàng)造出新的職業(yè)需求,比如AI音頻訓(xùn)練師、音頻體驗(yàn)設(shè)計(jì)師等。傳統(tǒng)的音頻產(chǎn)業(yè)鏈可能會(huì)重新洗牌,新的參與者和商業(yè)模式將不斷涌現(xiàn)。
說到底,UniAudio 2.0的意義不僅在于它解決了當(dāng)前音頻AI面臨的技術(shù)挑戰(zhàn),更在于它為我們描繪了一個(gè)更智能、更自然的人機(jī)音頻交互未來。在這個(gè)未來中,AI不再是冰冷的機(jī)器助手,而是能夠理解我們的情感、適應(yīng)我們的需求、甚至激發(fā)我們創(chuàng)造力的智能伙伴。這項(xiàng)由香港中文大學(xué)主導(dǎo)的研究為我們開啟了通往這個(gè)未來的大門,而真正令人興奮的旅程才剛剛開始。
Q&A
Q1:ReasoningCodec與傳統(tǒng)音頻編碼器有什么不同?
A:ReasoningCodec最大的不同在于它將音頻分解為兩個(gè)互補(bǔ)的部分:推理標(biāo)記負(fù)責(zé)理解語音的意思、情感等高級(jí)信息,重建標(biāo)記負(fù)責(zé)保存音色、音質(zhì)等技術(shù)細(xì)節(jié)。傳統(tǒng)編碼器通常只能顧及其中一個(gè)方面,要么理解能力強(qiáng)但生成質(zhì)量差,要么生成質(zhì)量高但理解能力弱。ReasoningCodec讓AI既能"聽懂"又能"說好"。
Q2:UniAudio 2.0在哪些實(shí)際應(yīng)用中最有優(yōu)勢?
A:UniAudio 2.0在需要同時(shí)進(jìn)行音頻理解和生成的場景中最有優(yōu)勢,比如智能語音助手、語言學(xué)習(xí)軟件、有聲內(nèi)容制作等。它還特別擅長處理從未見過的新任務(wù),所以在醫(yī)療康復(fù)、個(gè)性化教育等需要高度定制化的領(lǐng)域也很有潛力。最重要的是它支持多種語言,包括中文、英文、粵語等。
Q3:這項(xiàng)技術(shù)什么時(shí)候能夠普及應(yīng)用?
A:雖然UniAudio 2.0展現(xiàn)了強(qiáng)大的技術(shù)能力,但從研究原型到大規(guī)模商業(yè)應(yīng)用還需要時(shí)間。目前該技術(shù)主要在學(xué)術(shù)研究階段,商業(yè)化應(yīng)用可能還需要幾年時(shí)間來解決計(jì)算效率、成本控制、安全防護(hù)等實(shí)際問題。不過,一些相對(duì)簡單的應(yīng)用場景可能會(huì)更早出現(xiàn),比如改進(jìn)版的語音助手或音頻處理工具。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.