原文發(fā)表于《科技導(dǎo)報(bào)》2026 年第4 期 《 人工智能在聲學(xué)中的應(yīng)用及展望 》
人工智能(AI),正與聲學(xué)中的水聲學(xué)、超聲學(xué)和空氣聲學(xué)深度交叉融合,持續(xù)推動(dòng)著聲學(xué)技術(shù)的革新。《科技導(dǎo)報(bào)》邀請中國科學(xué)院大學(xué)鄭成詩研究員團(tuán)隊(duì)撰寫文章,重點(diǎn)探討了AI在聲學(xué),尤其是在空氣聲學(xué)領(lǐng)域中的應(yīng)用。針對應(yīng)用過程中可能出現(xiàn)并致使其難以滿足實(shí)際應(yīng)用需求的核心問題展開討論。最后,總結(jié)了AI在聲學(xué)應(yīng)用中所面臨的挑戰(zhàn)和未來的發(fā)展方向。
聲學(xué)作為物理學(xué)的一個(gè)重要分支,按照聲波傳播媒介分為水聲學(xué)、超聲學(xué)和空氣聲學(xué),分別研究聲波在液體中(水中)、固體中和空氣中的科學(xué)問題與實(shí)踐應(yīng)用。相較于聲學(xué)的悠久歷史,AI則是始于20世紀(jì)40年代的新興交叉學(xué)科,已與計(jì)算機(jī)科學(xué)、數(shù)學(xué)、神經(jīng)科學(xué)等領(lǐng)域深度融合。近年來,以深度學(xué)習(xí)( DL)為核心技術(shù)路線的NAI已經(jīng)在視覺和聽覺等領(lǐng)域接連取得突破,甚至部分任務(wù)(如中英文語音識(shí)別)性能已超越人類水平。隨著DL的飛速發(fā)展,能夠在眾多領(lǐng)域模擬人類處理問題的通用人工智能(AGI)應(yīng)運(yùn)而生,成為科技巨頭競爭的焦點(diǎn),同時(shí)也已成為大國綜合國力競爭的制高點(diǎn)。
AI與聲學(xué)的結(jié)合始于20世紀(jì)50年代,早期主要應(yīng)用于語音識(shí)別和語音合成領(lǐng)域,典型代表為貝爾實(shí)驗(yàn)室在1952年開發(fā)的首個(gè)人工語音識(shí)別系統(tǒng)“Audrey”。經(jīng)過70余年的融合發(fā)展,其在聲學(xué)領(lǐng)域的應(yīng)用已超越語音信號(hào)處理范疇,深度融入語音處理、聲源定位、空間音頻、聲學(xué)場景檢測與分類及聲學(xué)仿真與優(yōu)化等多個(gè)分支領(lǐng)域,全面推動(dòng)水聲學(xué)、超聲學(xué)和空氣聲學(xué)的技術(shù)革新,顯著提升各分支領(lǐng)域的性能表現(xiàn)。
我們的研究聚焦AI在聲學(xué)中的應(yīng)用,重點(diǎn)闡述“AI+聲學(xué)”技術(shù)的發(fā)展現(xiàn)狀,并與傳統(tǒng)聲學(xué)技術(shù)展開對比分析,剖析該領(lǐng)域所面臨的多重挑戰(zhàn),并對“AI+聲學(xué)”技術(shù)的未來發(fā)展方向進(jìn)行展望。
1 基本概念
1.1 聲學(xué)基本概念
聲學(xué)主要研究聲音的產(chǎn)生、傳播、接收和效應(yīng)等。不同類型的聲音通常在頻率、聲壓級、頻譜等物理屬性上存在差異,在心理屬性上則對應(yīng)于音調(diào)、響度和音色的差異。
對在空間中傳播的聲音進(jìn)行接收、處理、識(shí)別和定位及調(diào)控是當(dāng)前聲學(xué)的研究熱點(diǎn)。對語音進(jìn)行撿拾、定位、增強(qiáng)、識(shí)別和合成,已成為聲學(xué)領(lǐng)域最為重要的研究分支之一;對其他類型的聲音信號(hào)進(jìn)行有效撿拾、處理、檢測和定位,也得到了廣泛的關(guān)注和研究。
1.2 AI基本技術(shù)
AI技術(shù)源于對人類智能的模擬與探索,其早期演進(jìn)為現(xiàn)代核心模型架構(gòu)奠定了重要基礎(chǔ)。經(jīng)過數(shù)十年演進(jìn),AI領(lǐng)域形成了以經(jīng)典模型為核心的技術(shù)體系,各模型憑借獨(dú)特結(jié)構(gòu)適配不同數(shù)據(jù)處理需求,如圖1所示。
![]()
圖1 不同AI基本模型結(jié)構(gòu)示意
卷積神經(jīng)網(wǎng)絡(luò)(CNN)以“局部感知+參數(shù)共享”為核心,通過卷積核捕獲數(shù)據(jù)局部關(guān)聯(lián)特征,在減少參數(shù)量的同時(shí)保留關(guān)鍵信息。其結(jié)構(gòu)在局部相關(guān)性數(shù)據(jù)處理中表現(xiàn)突出,可高效提取層級化特征,適配多通道信號(hào)、圖像等數(shù)據(jù)類型。
長短期記憶網(wǎng)絡(luò)(LSTM)是適配時(shí)序數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)變體,通過遺忘門、輸入門、輸出門的門控機(jī)制,解決傳統(tǒng)RNN面臨的長序列梯度消失(gradient vanishing)問題。
Transformer模型于2017年由Google提出,核心為自注意力(SA)機(jī)制,通過計(jì)算數(shù)據(jù)不同位置間的關(guān)聯(lián)權(quán)重,實(shí)現(xiàn)全局信息的并行捕獲與動(dòng)態(tài)聚焦。相較于LSTM的時(shí)序漸進(jìn)式處理,其可同步整合全局上下文信息,強(qiáng)化關(guān)鍵信息的特征表達(dá),在長時(shí)長、高冗余的復(fù)雜數(shù)據(jù)處理中優(yōu)勢顯著。
這些核心技術(shù)從早期簡單模型逐步演進(jìn)為復(fù)雜高效的架構(gòu)體系,為不同類型數(shù)據(jù)的解析提供了針對性工具,與聲學(xué)概念互補(bǔ),共同支撐起了“AI+聲學(xué)”的融合應(yīng)用與創(chuàng)新發(fā)展。
2 應(yīng)用現(xiàn)狀
從技術(shù)應(yīng)用現(xiàn)狀來看,傳統(tǒng)聲學(xué)處理整體圍繞5大核心需求展開,為后續(xù)細(xì)分應(yīng)用場景提供基礎(chǔ)支撐:針對語音信號(hào)的“采集?特征提取?語義解析”需求;針對聲音空間位置確定的需求;針對聲場空間信息還原與個(gè)性化體驗(yàn)需求;針對環(huán)境中有效噪聲信號(hào)與分類的需求;針對聲學(xué)組件性能評估與結(jié)構(gòu)設(shè)計(jì)需求。
2.1 AI+語音信號(hào)處理
語音信號(hào)處理作為AI與聲學(xué)交叉融合的核心領(lǐng)域,其發(fā)展歷程見證了從統(tǒng)計(jì)信號(hào)模型到數(shù)據(jù)驅(qū)動(dòng)范式的轉(zhuǎn)變。早期的語音信號(hào)處理技術(shù)如語音識(shí)別主要基于隱馬爾可夫模型(HMM)處理常用語音特征。隨著AI技術(shù)的興起,CNN憑借分層時(shí)頻特征提取能力展現(xiàn)出顯著優(yōu)勢,而LSTM因自回歸處理模式,契合語音分幀處理模式和時(shí)間序列信號(hào)特性,被廣泛應(yīng)用于各類語音信號(hào)處理任務(wù)中。
2.1.1 語音識(shí)別
在語音識(shí)別領(lǐng)域,2012年,微軟研究院與Google率先使用深度神經(jīng)網(wǎng)絡(luò)( DNN),將語音識(shí)別錯(cuò)誤率降低20%~30%。這一突破標(biāo)志著語音識(shí)別從依賴手工設(shè)計(jì)特征與傳統(tǒng)模型,轉(zhuǎn)向基于數(shù)據(jù)驅(qū)動(dòng)的DNN范式。2015年,百度公司提出DeepSpeech 2,在中文語音識(shí)別任務(wù)中首次超越人類專業(yè)速記員水平。2023年,OpenAI推出了Whisper模型,實(shí)現(xiàn)了語音識(shí)別、轉(zhuǎn)寫與翻譯的一體化突破,顯著提升了復(fù)雜環(huán)境與低資源語種識(shí)別的魯棒性。
隨著研究深入,多模態(tài)融合的語音識(shí)別技術(shù)成為新的研究熱點(diǎn)。在語音與視覺聯(lián)合建模中,研究人員通過攝像頭捕捉說話人的唇動(dòng)信息,利用跨模態(tài)特征融合技術(shù)實(shí)現(xiàn)唇動(dòng)特征與語音特征的精準(zhǔn)對齊(圖2)。近年來,腦機(jī)接口與語音識(shí)別的融合也取得了突破性進(jìn)展,例如,Kamble等嘗試結(jié)合腦電圖(EEG)信號(hào)進(jìn)行語音識(shí)別,取得了一些進(jìn)展。但由于腦電信號(hào)具有高噪聲、個(gè)體差異大等復(fù)雜性,該技術(shù)在性能與泛化性方面仍存在巨大的研究提升空間。
![]()
圖2 唇動(dòng)?語音多模態(tài)識(shí)別系統(tǒng)示意
2.1.2 語音增強(qiáng)
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,數(shù)據(jù)驅(qū)動(dòng)的語音增強(qiáng)技術(shù)通過構(gòu)建帶噪與純凈語音的非線性映射關(guān)系,實(shí)現(xiàn)了從“模型假設(shè)”到“數(shù)據(jù)學(xué)習(xí)”的范式轉(zhuǎn)變。2014年,Xu等利用多層DNN學(xué)習(xí)帶噪語音對數(shù)譜到干凈對數(shù)譜的非線性映射(圖3),相比傳統(tǒng)算法,其在各項(xiàng)指標(biāo)上實(shí)現(xiàn)顯著提升。近年來,一系列相關(guān)比賽也為該方向的發(fā)展注入新的活力,微軟公司于2020年發(fā)起深度降噪(DNS)挑戰(zhàn)賽,迄今已連續(xù)舉辦5年,該比賽的舉辦進(jìn)一步推動(dòng)了該領(lǐng)域進(jìn)步。然而,面對實(shí)際場景中可能出現(xiàn)的模態(tài)缺失問題,如何提升多模態(tài)語音增強(qiáng)方法的魯棒性,仍是亟待解決的關(guān)鍵問題。
![]()
圖3 基于DNN的語音增強(qiáng)示意
2.1.3 語音合成
語音合成技術(shù)經(jīng)歷了從參數(shù)化統(tǒng)計(jì)語音合成到端到端生成的跨越式演進(jìn)。隨著AI技術(shù)在生成式建模領(lǐng)域的突破,語音合成實(shí)現(xiàn)了從“參數(shù)驅(qū)動(dòng)”到“數(shù)據(jù)驅(qū)動(dòng)”的根本性轉(zhuǎn)變。2016年,DeepMind推出的WaveNet模型取得了合成語音質(zhì)量的突破性進(jìn)展(圖4),顯著提升了合成語音的自然度,平均意見得分(MOS)從傳統(tǒng)參數(shù)化合成方法的3.6提升至4.0以上。浙江大學(xué)研究人員提出FastSpeech系列工作,通過時(shí)長預(yù)測與聲學(xué)特征解耦的設(shè)計(jì),在保持高自然度的同時(shí),將語音合成速度提升了數(shù)十倍。近年來,LLM和DM為語音合成帶來了新的技術(shù)突破。此外,多模態(tài)融合與個(gè)性化合成已成為當(dāng)前研究熱點(diǎn),為定制化語音生成與高表現(xiàn)力語音提供了可能,在娛樂、人機(jī)交互等領(lǐng)域具有重要應(yīng)用價(jià)值。
![]()
圖4 WaveNet結(jié)構(gòu)示意
2.2 AI+聲源定位
人類僅用單耳就可實(shí)現(xiàn)聲源定位,源于不同方向入射的聲源受頭部、軀干及耳廓等的散射與濾波效應(yīng)差異;受此仿生啟發(fā),有研究人員將單個(gè)傳聲器嵌入預(yù)設(shè)計(jì)的三維超材料結(jié)構(gòu)中,實(shí)現(xiàn)了多聲源實(shí)時(shí)定位和分離。現(xiàn)有的絕大多數(shù)聲源定位系統(tǒng)均通過多傳感器拾取信號(hào),并利用時(shí)延等特征估計(jì)聲源位置。
1916年,法國科學(xué)家Paul Langevin發(fā)明了首臺(tái)實(shí)用化聲吶定位系統(tǒng),可同步測定目標(biāo)方位與距離。1794年,意大利科學(xué)家Lazzaro Spallanzani研究了蝙蝠進(jìn)行空間定位的基本機(jī)制,證實(shí)其不依賴視覺導(dǎo)航。1913年,Richardson基于超聲波原理發(fā)明了回聲定位器,奠定了主動(dòng)式超聲定位基礎(chǔ)。20世紀(jì)10年代,空氣聲學(xué)定位方法興起。盡管早年的聲源定位系統(tǒng)大多源于軍事用途,但如今已廣泛應(yīng)用于海洋通信導(dǎo)航、醫(yī)學(xué)診斷、消費(fèi)電子等民用領(lǐng)域。
2.2.1 傳統(tǒng)聲源定位方法
傳統(tǒng)聲源定位方法包括可控波束響應(yīng)(SRP)、基于高分辨率譜估計(jì)和基于時(shí)間差(TDOA)等方法。
可控波束響應(yīng)的典型方法為延遲相加波束形成(DSB),這類方法通常需要預(yù)先計(jì)算某一方向聲源的每個(gè)頻帶兩兩傳感器之間的傳播時(shí)延,補(bǔ)償傳播時(shí)延后求和所有頻帶所有兩兩傳感器之間的互功率譜;再搜尋全空間所有方向的最大值以定位聲源方位。由于可控波束相應(yīng)方法需要在全空間進(jìn)行波束掃描,并搜尋最大值,因此該類方法運(yùn)算復(fù)雜度較高。
基于高分辨率譜估計(jì)的定位方法,包括最小方差( MV)譜估計(jì)和基于特征值分析的方法如MUSIC、ESPRIT以及MODE等算法。這類方法通常需要首先估計(jì)空間相關(guān)矩陣,且假定聲源具備統(tǒng)計(jì)平穩(wěn),當(dāng)聲源位置移動(dòng)或者聲源二階統(tǒng)計(jì)特性不平穩(wěn)如語音信號(hào),這類算法的定位性能會(huì)呈現(xiàn)不同程度的退化。相比于可控波束響應(yīng)方法,基于高分辨率譜估計(jì)的定位方法每次迭代所需要的運(yùn)算復(fù)雜度更低。
基于TDOA的定位方法有2個(gè)階段:第一階段估計(jì)任意2個(gè)傳感器接收信號(hào)的相對時(shí)延,第二階段根據(jù)傳感器的相對位置以及第一階段估計(jì)得到的相對時(shí)延通過解一組非線性方程得到聲源位置的極大似然估計(jì)值。這類方法的性能取決于第一階段估計(jì)的相對時(shí)延的準(zhǔn)確性,Knapp等提出的廣義互相關(guān)(GCC)方法是應(yīng)用最為廣泛的相對時(shí)延估計(jì)方法。已有研究結(jié)果表明,基于時(shí)間差的定位方法在多聲源、強(qiáng)噪聲或者中等混響以上聲學(xué)場景性能不佳。
2.2.2 AI聲源定位方法
Grumiaux等對基于深度學(xué)習(xí)的室內(nèi)聲源定位進(jìn)行了全面的總結(jié),涵蓋神經(jīng)網(wǎng)絡(luò)架構(gòu)、輸入特征與輸出目標(biāo)、訓(xùn)練及測試數(shù)據(jù)生成與獲取途徑,以及深度學(xué)習(xí)方法。
如圖5所示,基于AI的聲源定位方法的處理流程與傳統(tǒng)TDOA定位方法類似,可分為2個(gè)階段:第一階段提取定位所需特征,第二階段通過預(yù)訓(xùn)練模型映射輸出聲源位置。Krause等對比了不同輸入特征的聲事件檢測與定位性能。第二階段通常采用主流的MLP、CNN、Transformer等網(wǎng)絡(luò)結(jié)構(gòu)或其組合形式以實(shí)現(xiàn)更高的定位精度。
![]()
圖5 AI聲源定位處理流程
AI聲源定位方法的位置信息輸出常采用分類或回歸的方式:前者需將整個(gè)位置區(qū)域劃分為多個(gè)子區(qū)域,通過神經(jīng)網(wǎng)絡(luò)輸出各子區(qū)域的聲源存在概率;后者則通過神經(jīng)網(wǎng)絡(luò)直接輸出聲源坐標(biāo)信息。相較于分類方法給出的定位是離散值,回歸方法給出的定位是連續(xù)值,因此其定位精度更高。由于在基于AI的聲源定位中,輸入特征與輸出位置信息維度通常較低,神經(jīng)網(wǎng)絡(luò)架構(gòu)相對簡單,因而運(yùn)算復(fù)雜度通常較低。
AI聲源定位方法通常需要大量訓(xùn)練數(shù)據(jù)優(yōu)化模型參數(shù),常用數(shù)據(jù)獲取方式包括真實(shí)實(shí)驗(yàn)錄制、仿真生成與數(shù)據(jù)增廣3類。錄制真實(shí)場景典型實(shí)驗(yàn)數(shù)據(jù)的工作量極大。通過仿真生成訓(xùn)練數(shù)據(jù)是一種比較低成本的方案。研究表明,僅依賴仿真數(shù)據(jù)訓(xùn)練的模型在真實(shí)聲學(xué)場景下存在魯棒性不足的問題,而完全采用真實(shí)實(shí)驗(yàn)數(shù)據(jù)成本高昂,因此通過數(shù)據(jù)增廣擴(kuò)充有限真實(shí)數(shù)據(jù)成為折衷方案。
在學(xué)習(xí)方法方面,當(dāng)前AI聲源定位模型訓(xùn)練以有監(jiān)督學(xué)習(xí)為主。目前,基于AI的聲源定位已應(yīng)用于水下目標(biāo)定位、空中目標(biāo)定位及超聲病灶定位等領(lǐng)域,在諸多場景中展現(xiàn)出優(yōu)于傳統(tǒng)方法的性能,因而具備潛在的研究價(jià)值與工程應(yīng)用價(jià)值。
2.3 AI+空間音頻
空間音頻(spatial audio)旨在通過電聲和信號(hào)處理手段,實(shí)現(xiàn)聲場空間信息的撿拾、處理和重放,為聽者提供身臨其境的沉浸式聽覺體驗(yàn)。作為聲學(xué)、聽覺心理和信息處理的交叉領(lǐng)域,空間音頻技術(shù)已廣泛應(yīng)用于科學(xué)研究、消費(fèi)電子、虛擬/增強(qiáng)現(xiàn)實(shí)等場景。Cobos等討論了AI技術(shù)在空間音頻領(lǐng)域多個(gè)任務(wù)中的應(yīng)用現(xiàn)狀。
空間音頻核心流程包括信號(hào)撿拾(合成)、處理和重放3個(gè)主要環(huán)節(jié)。目前,AI技術(shù)主要應(yīng)用于空間音頻的信號(hào)處理環(huán)節(jié),下面闡述相關(guān)的應(yīng)用現(xiàn)狀,重點(diǎn)放在取得了一定進(jìn)展的方向,簡要技術(shù)流程圖如圖6所示。
![]()
圖6 空間音頻不同任務(wù)的AI應(yīng)用技術(shù)流程示意
2.3.1 聲場重構(gòu)
傳聲器采集的聲場信號(hào)是空間離散的,而許多應(yīng)用場合如聲場空間信息分析、6自由度聲重放等需重構(gòu)任意連續(xù)位置的聲場信號(hào)。傳統(tǒng)的聲場重構(gòu)方法依賴線性內(nèi)插或外插,其重構(gòu)性能在采樣密度較低時(shí)會(huì)顯著下降。深度學(xué)習(xí)的引入為該問題提供了高效解決方案。得益于神經(jīng)網(wǎng)絡(luò)對聲場共性統(tǒng)計(jì)特性強(qiáng)大的學(xué)習(xí)能力,在稀疏采樣下,AI方法的重構(gòu)精度已逐步超越傳統(tǒng)方法。
2.3.2 音頻信號(hào)上混
空間音頻信號(hào)上混(upmixing)是將通路數(shù)較少的音頻信號(hào)(通常為雙通路立體聲)轉(zhuǎn)換為通路數(shù)更多的音頻格式(如 5.1 通路環(huán)繞聲)的過程,其技術(shù)本質(zhì)在于拓展原音頻信號(hào)的空間信息。鑒于AI在聲源識(shí)別與分離任務(wù)中的優(yōu)勢,相關(guān)技術(shù)被逐步應(yīng)用于上混領(lǐng)域:Park等采用DNN,以信號(hào)子帶對數(shù)譜為輸入,訓(xùn)練中央與環(huán)繞通路模型,實(shí)現(xiàn)立體聲到5.1通路的轉(zhuǎn)換;Choi等設(shè)計(jì)雙DNN架構(gòu),分別負(fù)責(zé)信號(hào)分離與渲染,并將包含空間信息的通路ILD特征融入損失函數(shù),強(qiáng)化網(wǎng)絡(luò)空間信息提取能力。實(shí)驗(yàn)結(jié)果表明,AI方法在主客觀評價(jià)中均表現(xiàn)出較傳統(tǒng)方法更優(yōu)的性能,且該優(yōu)勢可能源于更強(qiáng)的方向性與環(huán)境氛圍分離能力。
2.3.3 個(gè)性化頭相關(guān)函數(shù)預(yù)測
HRTF是空間音頻耳機(jī)重放的核心數(shù)據(jù),具有顯著個(gè)體差異性。個(gè)性化HRTF的測量需特定設(shè)備與場地,過程耗時(shí)費(fèi)力。鑒于HRTF與人體生理參數(shù)(人頭尺寸、耳廓外形等)高度相關(guān),基于生理參數(shù)的個(gè)性化HRTF預(yù)測成為簡便方案。為提升性能,相關(guān)研究利用AI技術(shù)來實(shí)現(xiàn)基于生理參數(shù)的個(gè)性化HRTF預(yù)測。Lee等提出一種MLP?CNN混合模型,利用CNN從耳部圖像中提取耳廓生理參數(shù),然后利用MLP預(yù)測個(gè)性化的頭相關(guān)脈沖相應(yīng)( HRIR)。Yao等提出一種基于變分自動(dòng)編碼器(VAE)的方法,并用于實(shí)現(xiàn)利用生理參數(shù)對HRTF的個(gè)性化預(yù)測。上述研究結(jié)果表明,借助DNN的非線性建模能力,基于AI的HRTF方法普遍取得了較傳統(tǒng)線性映射更優(yōu)異的性能。
2.3.4 視聽信息融合的多模態(tài)處理
多模態(tài)AI技術(shù)通過融合視頻信息補(bǔ)充缺失的空間維度,實(shí)現(xiàn)單通路音頻到空間音頻的生成。Gao等采用U?Net網(wǎng)絡(luò),從視頻及對應(yīng)單通路音頻中生成雙耳音頻信號(hào);Morgado等則利用360°全景視頻與自監(jiān)督學(xué)習(xí),通過生成時(shí)頻掩碼分離單通路信號(hào)中的方向性分量,進(jìn)而將其編碼為一階Ambisonics信號(hào)。迄今為止,AI已在空間音頻的多個(gè)任務(wù)中得到應(yīng)用,并在特定場景下展現(xiàn)出優(yōu)于傳統(tǒng)方法的性能,凸顯了其在空間音頻領(lǐng)域的應(yīng)用潛力。
2.4 AI+聲學(xué)環(huán)境聲檢測、分類與噪聲智能監(jiān)測
聲學(xué)環(huán)境聲檢測分類與監(jiān)測以聲學(xué)信號(hào)為核心研究對象,旨在通過技術(shù)手段實(shí)現(xiàn)對復(fù)雜聲學(xué)環(huán)境的精準(zhǔn)感知與解讀。作為聲學(xué)、心理聽覺與AI的交叉融合產(chǎn)物,該技術(shù)已廣泛應(yīng)用于智能安防、生態(tài)環(huán)境治理、智能家居、城市精細(xì)化管理等多個(gè)領(lǐng)域,成為支撐多場景智能化升級的關(guān)鍵基礎(chǔ)技術(shù),尤其在環(huán)境噪聲污染防治等實(shí)際場景中發(fā)揮著不可替代的作用。
2.4.1 傳統(tǒng)機(jī)器學(xué)習(xí)方法
早期聲學(xué)環(huán)境聲檢測、分類及監(jiān)測工作,依賴人工設(shè)計(jì)聲學(xué)特征與淺層機(jī)器學(xué)習(xí)分類器,這類方法面對復(fù)雜混合聲學(xué)環(huán)境(例如城市中多源疊加噪聲、相似聲事件干擾)時(shí),存在特征適應(yīng)性差、抗干擾能力弱、泛化性能不足等局限,難以滿足精準(zhǔn)化、智能化的應(yīng)用訴求。
2.4.2 深度學(xué)習(xí)方法
AI技術(shù)為聲學(xué)環(huán)境聲檢測與分類帶來了系統(tǒng)性革新,推動(dòng)聲學(xué)環(huán)境聲檢測、分類與噪聲智能檢測從“人工驅(qū)動(dòng)”向“數(shù)據(jù)驅(qū)動(dòng)”轉(zhuǎn)型,基于DL的端到端技術(shù)路徑逐漸成為主流。其核心優(yōu)勢體現(xiàn)在3方面:
一是特征提取的自動(dòng)化;
二是復(fù)雜環(huán)境的適配性;
三是推動(dòng)監(jiān)測模式的智能化升級,實(shí)現(xiàn)噪聲源實(shí)時(shí)定位、等效聲級動(dòng)態(tài)計(jì)算,改變傳統(tǒng)監(jiān)測依賴人工分析、效率低下的局面。
2016年,IEEE SPS發(fā)起的首次國際聲學(xué)場景和事件檢測及分類挑戰(zhàn)賽(DCASE)挑戰(zhàn)賽,成為該領(lǐng)域標(biāo)準(zhǔn)化與規(guī)模化發(fā)展的重要里程碑,推動(dòng)了聲學(xué)環(huán)境聲檢測與分類及噪聲監(jiān)測技術(shù)的快速迭代。
環(huán)境聲的多樣性、復(fù)雜性,以及高質(zhì)量標(biāo)注數(shù)據(jù)集的稀缺性,導(dǎo)致模型泛化能力面臨挑戰(zhàn)。預(yù)訓(xùn)練與遷移學(xué)習(xí)技術(shù)的應(yīng)用有效緩解了這一問題。2017年,Google公司推出AudioSet數(shù)據(jù)集,為模型的預(yù)訓(xùn)練提供了海量數(shù)據(jù)支撐。基于此,Kong等提出預(yù)訓(xùn)練音頻模型PANN,如圖7所示,其基于AudioSet預(yù)訓(xùn)練,可靈活遷移至其他6種音頻任務(wù),并在聲事件分類上取得當(dāng)時(shí)最好的性能。
![]()
圖7 PANN采用的預(yù)訓(xùn)練模型結(jié)構(gòu)示意
此外,針對實(shí)際場景中噪聲、小眾聲事件等標(biāo)注稀缺問題,無監(jiān)督、半監(jiān)督及自監(jiān)督學(xué)習(xí)方法陸續(xù)涌現(xiàn),這類方法通過大量無標(biāo)簽聲學(xué)數(shù)據(jù)中的潛在規(guī)律,有效擴(kuò)展了技術(shù)在數(shù)據(jù)缺乏場景中的應(yīng)用邊界。
2.5 AI+聲學(xué)仿真優(yōu)化
聲學(xué)仿真與結(jié)構(gòu)優(yōu)化是聲學(xué)工程中的關(guān)鍵任務(wù)之一,廣泛應(yīng)用于建筑聲學(xué)、交通降噪、聽覺增強(qiáng)設(shè)備以及新型聲學(xué)材料的研發(fā)。隨著問題復(fù)雜度的增加,如結(jié)構(gòu)多樣性提升、優(yōu)化目標(biāo)增多、設(shè)計(jì)空間高維化,傳統(tǒng)方法逐漸暴露出不足。AI技術(shù)的興起為這一需求提供了一種可行路徑,尤其在數(shù)據(jù)量不斷積累、計(jì)算資源持續(xù)提升的背景下,AI正逐步成為聲學(xué)結(jié)構(gòu)優(yōu)化的重要引擎。
聲學(xué)仿真通常涉及從結(jié)構(gòu)參數(shù)到性能指標(biāo)的映射,即正向問題(forward problem),而實(shí)際工程往往需要解決逆向問題(inverse problem),即從目標(biāo)性能出發(fā)反推結(jié)構(gòu)設(shè)計(jì)。隨著DL和強(qiáng)化學(xué)習(xí)(RL)的興起,研究者開始借助AI技術(shù)在復(fù)雜系統(tǒng)中實(shí)現(xiàn)反向設(shè)計(jì)、高維參數(shù)映射以及快速性能預(yù)測。
2.5.1 傳統(tǒng)聲學(xué)仿真與優(yōu)化方法
有限元法是聲學(xué)結(jié)構(gòu)分析中應(yīng)用最廣泛的數(shù)值技術(shù),能夠求解復(fù)雜邊界條件下的聲場分布。然而其缺點(diǎn)也非常突出:每次更改結(jié)構(gòu)參數(shù)都需重新建模和求解,導(dǎo)致大量冗余計(jì)算。拓?fù)鋬?yōu)化是一種數(shù)學(xué)驅(qū)動(dòng)的結(jié)構(gòu)形貌優(yōu)化方法,常用于最大化某一目標(biāo)(如吸收系數(shù)、阻抗匹配等)。然而,這類方法往往依賴梯度信息,難以適應(yīng)非線性材料行為,且不易擴(kuò)展至多目標(biāo)情形。為提升優(yōu)化效率,部分研究結(jié)合了遺傳算法、粒子群算法等啟發(fā)式搜索方法,緩解了參數(shù)空間維度高帶來的問題。但這些算法本質(zhì)仍是黑盒搜索,計(jì)算效率低、收斂性差,且在復(fù)雜結(jié)構(gòu)多目標(biāo)優(yōu)化中仍需大量仿真樣本支持。
2.5.2 AI聲學(xué)仿真優(yōu)化
AI反向優(yōu)化的基本思想是利用神經(jīng)網(wǎng)絡(luò)擬合性能與結(jié)構(gòu)參數(shù)之間的映射關(guān)系。Donda等指出MLP適用于低維連續(xù)參數(shù)預(yù)測,而CNN適合處理網(wǎng)格結(jié)構(gòu)的拓?fù)鋬?yōu)化問題,在預(yù)測聲學(xué)帶隙、吸聲頻率等方面效果顯著。近年來興起的PINN備受關(guān)注。該類模型將物理定律(如聲波傳播方程)嵌入損失函數(shù)中,使訓(xùn)練過程兼具數(shù)據(jù)驅(qū)動(dòng)與物理約束,提高了泛化能力與物理一致性。
在具體應(yīng)用場景中,AI技術(shù)已深度融入周期性聲子晶體、聲學(xué)超材料等領(lǐng)域。Shi等采用LSTM?Transformer串聯(lián)的類自編碼器模型,如圖8所示,實(shí)現(xiàn)了空間折疊聲學(xué)超材料(SFAM)的中低頻寬帶隔聲反設(shè)計(jì)與空間優(yōu)化,為空間受限場景下的聲學(xué)超材料高效設(shè)計(jì)提供了可行方案,其預(yù)測性能如圖9所示。Zea等借鑒ResNet架構(gòu),實(shí)現(xiàn)寬頻率范圍、不同尺寸與流阻率的矩形吸聲材料在強(qiáng)邊緣衍射場景下的吸聲系數(shù)的精準(zhǔn)估計(jì),且在400 Hz以下低頻段及小尺寸吸聲材料上的性能顯著優(yōu)于傳統(tǒng)雙麥傳聲器。隨著AI與物理建模的融合深化,越來越多研究開始探索多物理場(如聲?熱、電?聲)的耦合優(yōu)化。未來,基于小樣本學(xué)習(xí)、自監(jiān)督預(yù)訓(xùn)練與遷移學(xué)習(xí)的算法將進(jìn)一步降低對大量仿真數(shù)據(jù)的依賴。
![]()
圖8 用于隔聲材料設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)示意
![]()
圖9 經(jīng)過AI模型優(yōu)化前后隔聲量結(jié)果對比
3 面臨挑戰(zhàn)
3.1 泛化性問題
泛化性是制約AI在聲學(xué)領(lǐng)域落地的核心瓶頸,其本質(zhì)是模型對“未見場景”的適配能力不足。Rohlfs等將泛化分為樣本泛化、分布泛化、域泛化、任務(wù)泛化、跨模態(tài)泛化及范圍泛化6類。
3.2 數(shù)據(jù)依賴與質(zhì)量問題
數(shù)據(jù)是AI技術(shù)的燃料和基礎(chǔ),其依賴與質(zhì)量問題直接制約模型的性能上限。對于聲學(xué)模型而言,數(shù)據(jù)相關(guān)難題主要集中在2個(gè)方面:
一是高質(zhì)量標(biāo)注數(shù)據(jù)的獲取瓶頸;
二是數(shù)據(jù)質(zhì)量的固有缺陷。
近年來,大模型的出現(xiàn)進(jìn)一步加劇了該挑戰(zhàn),其對數(shù)據(jù)規(guī)模的需求呈指數(shù)級增長,需以數(shù)十萬乃至億小時(shí)級的海量音頻數(shù)據(jù)為支撐,遠(yuǎn)超傳統(tǒng)模型的數(shù)萬至百萬級需求,使得數(shù)據(jù)缺口被進(jìn)一步放大。此外,數(shù)據(jù)依賴問題還延伸至合規(guī)性和安全層面。
3.3 復(fù)雜度問題
AI模型的復(fù)雜度與聲學(xué)應(yīng)用場景的資源約束間存在突出矛盾。從模型層面看,現(xiàn)有通用AI模型的參數(shù)規(guī)模已達(dá)千億級至萬億級,運(yùn)算復(fù)雜度往往隨參數(shù)規(guī)模非線性增長,導(dǎo)致云端部署的算力與能源成本居高不下。從應(yīng)用場景看,聲學(xué)技術(shù)的落地場景日益多元,對模型提出了嚴(yán)苛的要求,現(xiàn)有解決方案可分為3類:
一是模型壓縮技術(shù),知識(shí)蒸餾(knowledge distillation)通過“教師?學(xué)生”架構(gòu)實(shí)現(xiàn)性能遷移;
二是模型架構(gòu),如結(jié)合聲學(xué)先驗(yàn)設(shè)計(jì)輕量級網(wǎng)絡(luò)架構(gòu);
三是硬件協(xié)同,存算一體芯片通過集成存儲(chǔ)與運(yùn)算單元,降低數(shù)據(jù)搬運(yùn)帶來的功耗與延時(shí),為低功耗場景提供硬件支撐。
這些技術(shù)的核心是在模型性能與復(fù)雜度之間尋求最優(yōu)平衡,但在極端低資源場景下的性能損失控制仍需進(jìn)一步研究。
3.4 實(shí)時(shí)性問題
實(shí)時(shí)性是AI聲學(xué)技術(shù)面向?qū)嶋H應(yīng)用的關(guān)鍵指標(biāo),其需求差異源于聲學(xué)信號(hào)的傳播特性與應(yīng)用場景的功能定位。從時(shí)延要求看,不同場景的閾值跨度極大。實(shí)時(shí)性的核心瓶頸包括2方面:一是算法復(fù)雜度,二是算法延遲。因而解決方案需針對性優(yōu)化:針對復(fù)雜度問題,可采用輕量化模型設(shè)計(jì)、模型壓縮等技術(shù)降低運(yùn)算量;針對延遲問題,可選擇時(shí)域處理方法或在時(shí)頻域中采用短幀移與重疊保持法(OLS)。值得注意的是,實(shí)時(shí)性往往與性能存在平衡,如何在極端時(shí)延約束下保證處理效果,是當(dāng)前研究的重點(diǎn)方向。
3.5 多模態(tài)融合問題
多模態(tài)融合已成為提升聲學(xué)技術(shù)性能的重要路徑,但在聲學(xué)領(lǐng)域的應(yīng)用仍面臨3類核心挑戰(zhàn)。其一,模態(tài)異構(gòu)性;其二,融合效率與性能的平衡;其三,低資源場景的多模態(tài)數(shù)據(jù)稀疏。當(dāng)前研究主要聚焦跨模態(tài)精準(zhǔn)對齊、輕量化融合架構(gòu)和低資源適配技術(shù),未來需進(jìn)一步結(jié)合聲學(xué)物理規(guī)律優(yōu)化,推動(dòng)跨模態(tài)技術(shù)實(shí)用化。
4 結(jié)論與展望
AI與聲學(xué)的深度融合,推動(dòng)了聲學(xué)從基礎(chǔ)研究到工程應(yīng)用的全面革新。
在語音信號(hào)處理領(lǐng)域,AI已實(shí)現(xiàn)從特征工程到端到端建模的范式轉(zhuǎn)變。其中,基于深度學(xué)習(xí)的語音識(shí)別、增強(qiáng)和合成技術(shù),不僅在特定任務(wù)中超越了人類水平,還通過多模態(tài)融合和生成式模型拓展了應(yīng)用邊界。然而,這些技術(shù)在實(shí)際部署中仍受限于數(shù)據(jù)依賴性和計(jì)算資源需求。
AI在聲學(xué)中的應(yīng)用將呈現(xiàn)以下發(fā)展趨勢:首先,跨模態(tài)與多任務(wù)協(xié)同將成為技術(shù)突破的關(guān)鍵方向。其次,小樣本與自監(jiān)督技術(shù)將緩解強(qiáng)數(shù)據(jù)依賴問題。未來,基于自監(jiān)督學(xué)習(xí)和元學(xué)習(xí)的框架可以廣泛應(yīng)用于聲學(xué)任務(wù)中,通過挖掘數(shù)據(jù)內(nèi)在規(guī)律和跨領(lǐng)域知識(shí)遷移,降低算法對數(shù)據(jù)的依賴。此外,物理信息引導(dǎo)的生成式模型有望生成更符合真實(shí)聲學(xué)規(guī)律的數(shù)據(jù),進(jìn)一步提升模型泛化能力;再者,邊緣計(jì)算與輕量化部署將推動(dòng)基于AI的聲學(xué)技術(shù)的普及。
AI在聲學(xué)中的應(yīng)用和發(fā)展也面臨諸多挑戰(zhàn)。在基礎(chǔ)理論層面,聲學(xué)與AI的交叉研究尚未建立完善的理論框架,需要重點(diǎn)研究以指導(dǎo)模型的設(shè)計(jì)和性能評估。在技術(shù)層面,如何平衡算法復(fù)雜度與性能,實(shí)現(xiàn)可擴(kuò)展性的實(shí)時(shí)處理,仍是亟待解決的關(guān)鍵技術(shù)難題。此外,在倫理與隱私保護(hù)方面也需要行業(yè)規(guī)范和技術(shù)防護(hù)的雙重保障。
未來,隨著基礎(chǔ)理論的突破、技術(shù)的迭代和跨學(xué)科合作的深化,“AI+聲學(xué)”將在海洋探測、醫(yī)療診斷、虛擬現(xiàn)實(shí)、環(huán)境聲學(xué)等領(lǐng)域進(jìn)一步發(fā)揮重要的作用,以最終實(shí)現(xiàn)從實(shí)驗(yàn)室研究、單點(diǎn)技術(shù)落地到大規(guī)模產(chǎn)業(yè)化應(yīng)用的跨越。
本文作者:鄭成詩、李安冬、饒丹、袁旻忞、江峰、李曉東
作者簡介:鄭成詩,中國科學(xué)院聲學(xué)研究所,噪聲與音頻聲學(xué)實(shí)驗(yàn)室,中國科學(xué)院大學(xué),研究員,研究方向?yàn)橥ㄐ怕晫W(xué)。
文章來 源 : 鄭成詩, 李安冬, 饒丹, 等. 人工智能在聲學(xué)中的應(yīng)用及展望[J]. 科技導(dǎo)報(bào), 2026, 44(4): 62?78 .
本文有刪改,
內(nèi)容為【科技導(dǎo)報(bào)】公眾號(hào)原創(chuàng),歡迎轉(zhuǎn)載
白名單回復(fù)后臺(tái)「轉(zhuǎn)載」
《科技導(dǎo)報(bào)》創(chuàng)刊于1980年,中國科協(xié)學(xué)術(shù)會(huì)刊,主要刊登科學(xué)前沿和技術(shù)熱點(diǎn)領(lǐng)域突破性的研究成果、權(quán)威性的科學(xué)評論、引領(lǐng)性的高端綜述,發(fā)表促進(jìn)經(jīng)濟(jì)社會(huì)發(fā)展、完善科技管理、優(yōu)化科研環(huán)境、培育科學(xué)文化、促進(jìn)科技創(chuàng)新和科技成果轉(zhuǎn)化的決策咨詢建議。常設(shè)欄目有院士卷首語、科技新聞、科技評論、本刊專稿、特色專題、研究論文、政策建議、科技人文等。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.