聽得見，更“慧”聽：揭秘AI+聲學(xué)的無限可能

2026-03-30 17:28:33　來源: 科技導(dǎo)報(bào)

北京舉報(bào)

分享至

原文發(fā)表于《科技導(dǎo)報(bào)》2026 年第4 期《人工智能在聲學(xué)中的應(yīng)用及展望》

人工智能（AI），正與聲學(xué)中的水聲學(xué)、超聲學(xué)和空氣聲學(xué)深度交叉融合，持續(xù)推動(dòng)著聲學(xué)技術(shù)的革新。《科技導(dǎo)報(bào)》邀請中國科學(xué)院大學(xué)鄭成詩研究員團(tuán)隊(duì)撰寫文章，重點(diǎn)探討了AI在聲學(xué)，尤其是在空氣聲學(xué)領(lǐng)域中的應(yīng)用。針對應(yīng)用過程中可能出現(xiàn)并致使其難以滿足實(shí)際應(yīng)用需求的核心問題展開討論。最后，總結(jié)了AI在聲學(xué)應(yīng)用中所面臨的挑戰(zhàn)和未來的發(fā)展方向。

聲學(xué)作為物理學(xué)的一個(gè)重要分支，按照聲波傳播媒介分為水聲學(xué)、超聲學(xué)和空氣聲學(xué)，分別研究聲波在液體中（水中）、固體中和空氣中的科學(xué)問題與實(shí)踐應(yīng)用。相較于聲學(xué)的悠久歷史，AI則是始于20世紀(jì)40年代的新興交叉學(xué)科，已與計(jì)算機(jī)科學(xué)、數(shù)學(xué)、神經(jīng)科學(xué)等領(lǐng)域深度融合。近年來，以深度學(xué)習(xí)（ DL）為核心技術(shù)路線的NAI已經(jīng)在視覺和聽覺等領(lǐng)域接連取得突破，甚至部分任務(wù)（如中英文語音識(shí)別）性能已超越人類水平。隨著DL的飛速發(fā)展，能夠在眾多領(lǐng)域模擬人類處理問題的通用人工智能（AGI）應(yīng)運(yùn)而生，成為科技巨頭競爭的焦點(diǎn)，同時(shí)也已成為大國綜合國力競爭的制高點(diǎn)。

AI與聲學(xué)的結(jié)合始于20世紀(jì)50年代，早期主要應(yīng)用于語音識(shí)別和語音合成領(lǐng)域，典型代表為貝爾實(shí)驗(yàn)室在1952年開發(fā)的首個(gè)人工語音識(shí)別系統(tǒng)“Audrey”。經(jīng)過70余年的融合發(fā)展，其在聲學(xué)領(lǐng)域的應(yīng)用已超越語音信號(hào)處理范疇，深度融入語音處理、聲源定位、空間音頻、聲學(xué)場景檢測與分類及聲學(xué)仿真與優(yōu)化等多個(gè)分支領(lǐng)域，全面推動(dòng)水聲學(xué)、超聲學(xué)和空氣聲學(xué)的技術(shù)革新，顯著提升各分支領(lǐng)域的性能表現(xiàn)。

我們的研究聚焦AI在聲學(xué)中的應(yīng)用，重點(diǎn)闡述“AI+聲學(xué)”技術(shù)的發(fā)展現(xiàn)狀，并與傳統(tǒng)聲學(xué)技術(shù)展開對比分析，剖析該領(lǐng)域所面臨的多重挑戰(zhàn)，并對“AI+聲學(xué)”技術(shù)的未來發(fā)展方向進(jìn)行展望。

1 基本概念

1.1 聲學(xué)基本概念

聲學(xué)主要研究聲音的產(chǎn)生、傳播、接收和效應(yīng)等。不同類型的聲音通常在頻率、聲壓級、頻譜等物理屬性上存在差異，在心理屬性上則對應(yīng)于音調(diào)、響度和音色的差異。

對在空間中傳播的聲音進(jìn)行接收、處理、識(shí)別和定位及調(diào)控是當(dāng)前聲學(xué)的研究熱點(diǎn)。對語音進(jìn)行撿拾、定位、增強(qiáng)、識(shí)別和合成，已成為聲學(xué)領(lǐng)域最為重要的研究分支之一；對其他類型的聲音信號(hào)進(jìn)行有效撿拾、處理、檢測和定位，也得到了廣泛的關(guān)注和研究。

1.2 AI基本技術(shù)

AI技術(shù)源于對人類智能的模擬與探索，其早期演進(jìn)為現(xiàn)代核心模型架構(gòu)奠定了重要基礎(chǔ)。經(jīng)過數(shù)十年演進(jìn)，AI領(lǐng)域形成了以經(jīng)典模型為核心的技術(shù)體系，各模型憑借獨(dú)特結(jié)構(gòu)適配不同數(shù)據(jù)處理需求，如圖1所示。

圖1 不同AI基本模型結(jié)構(gòu)示意

卷積神經(jīng)網(wǎng)絡(luò)（CNN）以“局部感知+參數(shù)共享”為核心，通過卷積核捕獲數(shù)據(jù)局部關(guān)聯(lián)特征，在減少參數(shù)量的同時(shí)保留關(guān)鍵信息。其結(jié)構(gòu)在局部相關(guān)性數(shù)據(jù)處理中表現(xiàn)突出，可高效提取層級化特征，適配多通道信號(hào)、圖像等數(shù)據(jù)類型。

長短期記憶網(wǎng)絡(luò)（LSTM）是適配時(shí)序數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）變體，通過遺忘門、輸入門、輸出門的門控機(jī)制，解決傳統(tǒng)RNN面臨的長序列梯度消失（gradient vanishing）問題。

Transformer模型于2017年由Google提出，核心為自注意力（SA）機(jī)制，通過計(jì)算數(shù)據(jù)不同位置間的關(guān)聯(lián)權(quán)重，實(shí)現(xiàn)全局信息的并行捕獲與動(dòng)態(tài)聚焦。相較于LSTM的時(shí)序漸進(jìn)式處理，其可同步整合全局上下文信息，強(qiáng)化關(guān)鍵信息的特征表達(dá)，在長時(shí)長、高冗余的復(fù)雜數(shù)據(jù)處理中優(yōu)勢顯著。

這些核心技術(shù)從早期簡單模型逐步演進(jìn)為復(fù)雜高效的架構(gòu)體系，為不同類型數(shù)據(jù)的解析提供了針對性工具，與聲學(xué)概念互補(bǔ)，共同支撐起了“AI+聲學(xué)”的融合應(yīng)用與創(chuàng)新發(fā)展。

2 應(yīng)用現(xiàn)狀

從技術(shù)應(yīng)用現(xiàn)狀來看，傳統(tǒng)聲學(xué)處理整體圍繞5大核心需求展開，為后續(xù)細(xì)分應(yīng)用場景提供基礎(chǔ)支撐：針對語音信號(hào)的“采集?特征提取?語義解析”需求；針對聲音空間位置確定的需求；針對聲場空間信息還原與個(gè)性化體驗(yàn)需求；針對環(huán)境中有效噪聲信號(hào)與分類的需求；針對聲學(xué)組件性能評估與結(jié)構(gòu)設(shè)計(jì)需求。

2.1 AI+語音信號(hào)處理

語音信號(hào)處理作為AI與聲學(xué)交叉融合的核心領(lǐng)域，其發(fā)展歷程見證了從統(tǒng)計(jì)信號(hào)模型到數(shù)據(jù)驅(qū)動(dòng)范式的轉(zhuǎn)變。早期的語音信號(hào)處理技術(shù)如語音識(shí)別主要基于隱馬爾可夫模型（HMM）處理常用語音特征。隨著AI技術(shù)的興起，CNN憑借分層時(shí)頻特征提取能力展現(xiàn)出顯著優(yōu)勢，而LSTM因自回歸處理模式，契合語音分幀處理模式和時(shí)間序列信號(hào)特性，被廣泛應(yīng)用于各類語音信號(hào)處理任務(wù)中。

2.1.1 語音識(shí)別

在語音識(shí)別領(lǐng)域，2012年，微軟研究院與Google率先使用深度神經(jīng)網(wǎng)絡(luò)（ DNN），將語音識(shí)別錯(cuò)誤率降低20%~30%。這一突破標(biāo)志著語音識(shí)別從依賴手工設(shè)計(jì)特征與傳統(tǒng)模型，轉(zhuǎn)向基于數(shù)據(jù)驅(qū)動(dòng)的DNN范式。2015年，百度公司提出DeepSpeech 2，在中文語音識(shí)別任務(wù)中首次超越人類專業(yè)速記員水平。2023年，OpenAI推出了Whisper模型，實(shí)現(xiàn)了語音識(shí)別、轉(zhuǎn)寫與翻譯的一體化突破，顯著提升了復(fù)雜環(huán)境與低資源語種識(shí)別的魯棒性。

隨著研究深入，多模態(tài)融合的語音識(shí)別技術(shù)成為新的研究熱點(diǎn)。在語音與視覺聯(lián)合建模中，研究人員通過攝像頭捕捉說話人的唇動(dòng)信息，利用跨模態(tài)特征融合技術(shù)實(shí)現(xiàn)唇動(dòng)特征與語音特征的精準(zhǔn)對齊（圖2）。近年來，腦機(jī)接口與語音識(shí)別的融合也取得了突破性進(jìn)展，例如，Kamble等嘗試結(jié)合腦電圖（EEG）信號(hào)進(jìn)行語音識(shí)別，取得了一些進(jìn)展。但由于腦電信號(hào)具有高噪聲、個(gè)體差異大等復(fù)雜性，該技術(shù)在性能與泛化性方面仍存在巨大的研究提升空間。

圖2 唇動(dòng)?語音多模態(tài)識(shí)別系統(tǒng)示意

2.1.2 語音增強(qiáng)

隨著深度學(xué)習(xí)技術(shù)的發(fā)展，數(shù)據(jù)驅(qū)動(dòng)的語音增強(qiáng)技術(shù)通過構(gòu)建帶噪與純凈語音的非線性映射關(guān)系，實(shí)現(xiàn)了從“模型假設(shè)”到“數(shù)據(jù)學(xué)習(xí)”的范式轉(zhuǎn)變。2014年，Xu等利用多層DNN學(xué)習(xí)帶噪語音對數(shù)譜到干凈對數(shù)譜的非線性映射（圖3），相比傳統(tǒng)算法，其在各項(xiàng)指標(biāo)上實(shí)現(xiàn)顯著提升。近年來，一系列相關(guān)比賽也為該方向的發(fā)展注入新的活力，微軟公司于2020年發(fā)起深度降噪（DNS）挑戰(zhàn)賽，迄今已連續(xù)舉辦5年，該比賽的舉辦進(jìn)一步推動(dòng)了該領(lǐng)域進(jìn)步。然而，面對實(shí)際場景中可能出現(xiàn)的模態(tài)缺失問題，如何提升多模態(tài)語音增強(qiáng)方法的魯棒性，仍是亟待解決的關(guān)鍵問題。

圖3 基于DNN的語音增強(qiáng)示意

2.1.3 語音合成

語音合成技術(shù)經(jīng)歷了從參數(shù)化統(tǒng)計(jì)語音合成到端到端生成的跨越式演進(jìn)。隨著AI技術(shù)在生成式建模領(lǐng)域的突破，語音合成實(shí)現(xiàn)了從“參數(shù)驅(qū)動(dòng)”到“數(shù)據(jù)驅(qū)動(dòng)”的根本性轉(zhuǎn)變。2016年，DeepMind推出的WaveNet模型取得了合成語音質(zhì)量的突破性進(jìn)展（圖4），顯著提升了合成語音的自然度，平均意見得分（MOS）從傳統(tǒng)參數(shù)化合成方法的3.6提升至4.0以上。浙江大學(xué)研究人員提出FastSpeech系列工作，通過時(shí)長預(yù)測與聲學(xué)特征解耦的設(shè)計(jì)，在保持高自然度的同時(shí)，將語音合成速度提升了數(shù)十倍。近年來，LLM和DM為語音合成帶來了新的技術(shù)突破。此外，多模態(tài)融合與個(gè)性化合成已成為當(dāng)前研究熱點(diǎn)，為定制化語音生成與高表現(xiàn)力語音提供了可能，在娛樂、人機(jī)交互等領(lǐng)域具有重要應(yīng)用價(jià)值。

圖4 WaveNet結(jié)構(gòu)示意

2.2 AI+聲源定位

人類僅用單耳就可實(shí)現(xiàn)聲源定位，源于不同方向入射的聲源受頭部、軀干及耳廓等的散射與濾波效應(yīng)差異；受此仿生啟發(fā)，有研究人員將單個(gè)傳聲器嵌入預(yù)設(shè)計(jì)的三維超材料結(jié)構(gòu)中，實(shí)現(xiàn)了多聲源實(shí)時(shí)定位和分離。現(xiàn)有的絕大多數(shù)聲源定位系統(tǒng)均通過多傳感器拾取信號(hào)，并利用時(shí)延等特征估計(jì)聲源位置。

1916年，法國科學(xué)家Paul Langevin發(fā)明了首臺(tái)實(shí)用化聲吶定位系統(tǒng)，可同步測定目標(biāo)方位與距離。1794年，意大利科學(xué)家Lazzaro Spallanzani研究了蝙蝠進(jìn)行空間定位的基本機(jī)制，證實(shí)其不依賴視覺導(dǎo)航。1913年，Richardson基于超聲波原理發(fā)明了回聲定位器，奠定了主動(dòng)式超聲定位基礎(chǔ)。20世紀(jì)10年代，空氣聲學(xué)定位方法興起。盡管早年的聲源定位系統(tǒng)大多源于軍事用途，但如今已廣泛應(yīng)用于海洋通信導(dǎo)航、醫(yī)學(xué)診斷、消費(fèi)電子等民用領(lǐng)域。

2.2.1 傳統(tǒng)聲源定位方法

傳統(tǒng)聲源定位方法包括可控波束響應(yīng)（SRP）、基于高分辨率譜估計(jì)和基于時(shí)間差（TDOA）等方法。

可控波束響應(yīng)的典型方法為延遲相加波束形成（DSB），這類方法通常需要預(yù)先計(jì)算某一方向聲源的每個(gè)頻帶兩兩傳感器之間的傳播時(shí)延，補(bǔ)償傳播時(shí)延后求和所有頻帶所有兩兩傳感器之間的互功率譜；再搜尋全空間所有方向的最大值以定位聲源方位。由于可控波束相應(yīng)方法需要在全空間進(jìn)行波束掃描，并搜尋最大值，因此該類方法運(yùn)算復(fù)雜度較高。

基于高分辨率譜估計(jì)的定位方法，包括最小方差（ MV）譜估計(jì)和基于特征值分析的方法如MUSIC、ESPRIT以及MODE等算法。這類方法通常需要首先估計(jì)空間相關(guān)矩陣，且假定聲源具備統(tǒng)計(jì)平穩(wěn)，當(dāng)聲源位置移動(dòng)或者聲源二階統(tǒng)計(jì)特性不平穩(wěn)如語音信號(hào)，這類算法的定位性能會(huì)呈現(xiàn)不同程度的退化。相比于可控波束響應(yīng)方法，基于高分辨率譜估計(jì)的定位方法每次迭代所需要的運(yùn)算復(fù)雜度更低。

基于TDOA的定位方法有2個(gè)階段：第一階段估計(jì)任意2個(gè)傳感器接收信號(hào)的相對時(shí)延，第二階段根據(jù)傳感器的相對位置以及第一階段估計(jì)得到的相對時(shí)延通過解一組非線性方程得到聲源位置的極大似然估計(jì)值。這類方法的性能取決于第一階段估計(jì)的相對時(shí)延的準(zhǔn)確性，Knapp等提出的廣義互相關(guān)（GCC）方法是應(yīng)用最為廣泛的相對時(shí)延估計(jì)方法。已有研究結(jié)果表明，基于時(shí)間差的定位方法在多聲源、強(qiáng)噪聲或者中等混響以上聲學(xué)場景性能不佳。

2.2.2 AI聲源定位方法

Grumiaux等對基于深度學(xué)習(xí)的室內(nèi)聲源定位進(jìn)行了全面的總結(jié)，涵蓋神經(jīng)網(wǎng)絡(luò)架構(gòu)、輸入特征與輸出目標(biāo)、訓(xùn)練及測試數(shù)據(jù)生成與獲取途徑，以及深度學(xué)習(xí)方法。

如圖5所示，基于AI的聲源定位方法的處理流程與傳統(tǒng)TDOA定位方法類似，可分為2個(gè)階段：第一階段提取定位所需特征，第二階段通過預(yù)訓(xùn)練模型映射輸出聲源位置。Krause等對比了不同輸入特征的聲事件檢測與定位性能。第二階段通常采用主流的MLP、CNN、Transformer等網(wǎng)絡(luò)結(jié)構(gòu)或其組合形式以實(shí)現(xiàn)更高的定位精度。

圖5 AI聲源定位處理流程

AI聲源定位方法的位置信息輸出常采用分類或回歸的方式：前者需將整個(gè)位置區(qū)域劃分為多個(gè)子區(qū)域，通過神經(jīng)網(wǎng)絡(luò)輸出各子區(qū)域的聲源存在概率；后者則通過神經(jīng)網(wǎng)絡(luò)直接輸出聲源坐標(biāo)信息。相較于分類方法給出的定位是離散值，回歸方法給出的定位是連續(xù)值，因此其定位精度更高。由于在基于AI的聲源定位中，輸入特征與輸出位置信息維度通常較低，神經(jīng)網(wǎng)絡(luò)架構(gòu)相對簡單，因而運(yùn)算復(fù)雜度通常較低。

AI聲源定位方法通常需要大量訓(xùn)練數(shù)據(jù)優(yōu)化模型參數(shù)，常用數(shù)據(jù)獲取方式包括真實(shí)實(shí)驗(yàn)錄制、仿真生成與數(shù)據(jù)增廣3類。錄制真實(shí)場景典型實(shí)驗(yàn)數(shù)據(jù)的工作量極大。通過仿真生成訓(xùn)練數(shù)據(jù)是一種比較低成本的方案。研究表明，僅依賴仿真數(shù)據(jù)訓(xùn)練的模型在真實(shí)聲學(xué)場景下存在魯棒性不足的問題，而完全采用真實(shí)實(shí)驗(yàn)數(shù)據(jù)成本高昂，因此通過數(shù)據(jù)增廣擴(kuò)充有限真實(shí)數(shù)據(jù)成為折衷方案。

在學(xué)習(xí)方法方面，當(dāng)前AI聲源定位模型訓(xùn)練以有監(jiān)督學(xué)習(xí)為主。目前，基于AI的聲源定位已應(yīng)用于水下目標(biāo)定位、空中目標(biāo)定位及超聲病灶定位等領(lǐng)域，在諸多場景中展現(xiàn)出優(yōu)于傳統(tǒng)方法的性能，因而具備潛在的研究價(jià)值與工程應(yīng)用價(jià)值。

2.3 AI+空間音頻

空間音頻（spatial audio）旨在通過電聲和信號(hào)處理手段，實(shí)現(xiàn)聲場空間信息的撿拾、處理和重放，為聽者提供身臨其境的沉浸式聽覺體驗(yàn)。作為聲學(xué)、聽覺心理和信息處理的交叉領(lǐng)域，空間音頻技術(shù)已廣泛應(yīng)用于科學(xué)研究、消費(fèi)電子、虛擬/增強(qiáng)現(xiàn)實(shí)等場景。Cobos等討論了AI技術(shù)在空間音頻領(lǐng)域多個(gè)任務(wù)中的應(yīng)用現(xiàn)狀。

空間音頻核心流程包括信號(hào)撿拾（合成）、處理和重放3個(gè)主要環(huán)節(jié)。目前，AI技術(shù)主要應(yīng)用于空間音頻的信號(hào)處理環(huán)節(jié)，下面闡述相關(guān)的應(yīng)用現(xiàn)狀，重點(diǎn)放在取得了一定進(jìn)展的方向，簡要技術(shù)流程圖如圖6所示。

圖6 空間音頻不同任務(wù)的AI應(yīng)用技術(shù)流程示意

2.3.1 聲場重構(gòu)

傳聲器采集的聲場信號(hào)是空間離散的，而許多應(yīng)用場合如聲場空間信息分析、6自由度聲重放等需重構(gòu)任意連續(xù)位置的聲場信號(hào)。傳統(tǒng)的聲場重構(gòu)方法依賴線性內(nèi)插或外插，其重構(gòu)性能在采樣密度較低時(shí)會(huì)顯著下降。深度學(xué)習(xí)的引入為該問題提供了高效解決方案。得益于神經(jīng)網(wǎng)絡(luò)對聲場共性統(tǒng)計(jì)特性強(qiáng)大的學(xué)習(xí)能力，在稀疏采樣下，AI方法的重構(gòu)精度已逐步超越傳統(tǒng)方法。

2.3.2 音頻信號(hào)上混

空間音頻信號(hào)上混（upmixing）是將通路數(shù)較少的音頻信號(hào)（通常為雙通路立體聲）轉(zhuǎn)換為通路數(shù)更多的音頻格式（如 5.1 通路環(huán)繞聲）的過程，其技術(shù)本質(zhì)在于拓展原音頻信號(hào)的空間信息。鑒于AI在聲源識(shí)別與分離任務(wù)中的優(yōu)勢，相關(guān)技術(shù)被逐步應(yīng)用于上混領(lǐng)域：Park等采用DNN，以信號(hào)子帶對數(shù)譜為輸入，訓(xùn)練中央與環(huán)繞通路模型，實(shí)現(xiàn)立體聲到5.1通路的轉(zhuǎn)換；Choi等設(shè)計(jì)雙DNN架構(gòu)，分別負(fù)責(zé)信號(hào)分離與渲染，并將包含空間信息的通路ILD特征融入損失函數(shù)，強(qiáng)化網(wǎng)絡(luò)空間信息提取能力。實(shí)驗(yàn)結(jié)果表明，AI方法在主客觀評價(jià)中均表現(xiàn)出較傳統(tǒng)方法更優(yōu)的性能，且該優(yōu)勢可能源于更強(qiáng)的方向性與環(huán)境氛圍分離能力。

2.3.3 個(gè)性化頭相關(guān)函數(shù)預(yù)測

HRTF是空間音頻耳機(jī)重放的核心數(shù)據(jù)，具有顯著個(gè)體差異性。個(gè)性化HRTF的測量需特定設(shè)備與場地，過程耗時(shí)費(fèi)力。鑒于HRTF與人體生理參數(shù)（人頭尺寸、耳廓外形等）高度相關(guān)，基于生理參數(shù)的個(gè)性化HRTF預(yù)測成為簡便方案。為提升性能，相關(guān)研究利用AI技術(shù)來實(shí)現(xiàn)基于生理參數(shù)的個(gè)性化HRTF預(yù)測。Lee等提出一種MLP?CNN混合模型，利用CNN從耳部圖像中提取耳廓生理參數(shù)，然后利用MLP預(yù)測個(gè)性化的頭相關(guān)脈沖相應(yīng)（ HRIR）。Yao等提出一種基于變分自動(dòng)編碼器（VAE）的方法，并用于實(shí)現(xiàn)利用生理參數(shù)對HRTF的個(gè)性化預(yù)測。上述研究結(jié)果表明，借助DNN的非線性建模能力，基于AI的HRTF方法普遍取得了較傳統(tǒng)線性映射更優(yōu)異的性能。

2.3.4 視聽信息融合的多模態(tài)處理

多模態(tài)AI技術(shù)通過融合視頻信息補(bǔ)充缺失的空間維度，實(shí)現(xiàn)單通路音頻到空間音頻的生成。Gao等采用U?Net網(wǎng)絡(luò)，從視頻及對應(yīng)單通路音頻中生成雙耳音頻信號(hào)；Morgado等則利用360°全景視頻與自監(jiān)督學(xué)習(xí)，通過生成時(shí)頻掩碼分離單通路信號(hào)中的方向性分量，進(jìn)而將其編碼為一階Ambisonics信號(hào)。迄今為止，AI已在空間音頻的多個(gè)任務(wù)中得到應(yīng)用，并在特定場景下展現(xiàn)出優(yōu)于傳統(tǒng)方法的性能，凸顯了其在空間音頻領(lǐng)域的應(yīng)用潛力。

2.4 AI+聲學(xué)環(huán)境聲檢測、分類與噪聲智能監(jiān)測

聲學(xué)環(huán)境聲檢測分類與監(jiān)測以聲學(xué)信號(hào)為核心研究對象，旨在通過技術(shù)手段實(shí)現(xiàn)對復(fù)雜聲學(xué)環(huán)境的精準(zhǔn)感知與解讀。作為聲學(xué)、心理聽覺與AI的交叉融合產(chǎn)物，該技術(shù)已廣泛應(yīng)用于智能安防、生態(tài)環(huán)境治理、智能家居、城市精細(xì)化管理等多個(gè)領(lǐng)域，成為支撐多場景智能化升級的關(guān)鍵基礎(chǔ)技術(shù)，尤其在環(huán)境噪聲污染防治等實(shí)際場景中發(fā)揮著不可替代的作用。

2.4.1 傳統(tǒng)機(jī)器學(xué)習(xí)方法

早期聲學(xué)環(huán)境聲檢測、分類及監(jiān)測工作，依賴人工設(shè)計(jì)聲學(xué)特征與淺層機(jī)器學(xué)習(xí)分類器，這類方法面對復(fù)雜混合聲學(xué)環(huán)境（例如城市中多源疊加噪聲、相似聲事件干擾）時(shí)，存在特征適應(yīng)性差、抗干擾能力弱、泛化性能不足等局限，難以滿足精準(zhǔn)化、智能化的應(yīng)用訴求。

2.4.2 深度學(xué)習(xí)方法

AI技術(shù)為聲學(xué)環(huán)境聲檢測與分類帶來了系統(tǒng)性革新，推動(dòng)聲學(xué)環(huán)境聲檢測、分類與噪聲智能檢測從“人工驅(qū)動(dòng)”向“數(shù)據(jù)驅(qū)動(dòng)”轉(zhuǎn)型，基于DL的端到端技術(shù)路徑逐漸成為主流。其核心優(yōu)勢體現(xiàn)在3方面：

一是特征提取的自動(dòng)化；
二是復(fù)雜環(huán)境的適配性；
三是推動(dòng)監(jiān)測模式的智能化升級，實(shí)現(xiàn)噪聲源實(shí)時(shí)定位、等效聲級動(dòng)態(tài)計(jì)算，改變傳統(tǒng)監(jiān)測依賴人工分析、效率低下的局面。

2016年，IEEE SPS發(fā)起的首次國際聲學(xué)場景和事件檢測及分類挑戰(zhàn)賽（DCASE）挑戰(zhàn)賽，成為該領(lǐng)域標(biāo)準(zhǔn)化與規(guī)模化發(fā)展的重要里程碑，推動(dòng)了聲學(xué)環(huán)境聲檢測與分類及噪聲監(jiān)測技術(shù)的快速迭代。

環(huán)境聲的多樣性、復(fù)雜性，以及高質(zhì)量標(biāo)注數(shù)據(jù)集的稀缺性，導(dǎo)致模型泛化能力面臨挑戰(zhàn)。預(yù)訓(xùn)練與遷移學(xué)習(xí)技術(shù)的應(yīng)用有效緩解了這一問題。2017年，Google公司推出AudioSet數(shù)據(jù)集，為模型的預(yù)訓(xùn)練提供了海量數(shù)據(jù)支撐。基于此，Kong等提出預(yù)訓(xùn)練音頻模型PANN，如圖7所示，其基于AudioSet預(yù)訓(xùn)練，可靈活遷移至其他6種音頻任務(wù)，并在聲事件分類上取得當(dāng)時(shí)最好的性能。

圖7 PANN采用的預(yù)訓(xùn)練模型結(jié)構(gòu)示意

此外，針對實(shí)際場景中噪聲、小眾聲事件等標(biāo)注稀缺問題，無監(jiān)督、半監(jiān)督及自監(jiān)督學(xué)習(xí)方法陸續(xù)涌現(xiàn)，這類方法通過大量無標(biāo)簽聲學(xué)數(shù)據(jù)中的潛在規(guī)律，有效擴(kuò)展了技術(shù)在數(shù)據(jù)缺乏場景中的應(yīng)用邊界。

2.5 AI+聲學(xué)仿真優(yōu)化

聲學(xué)仿真與結(jié)構(gòu)優(yōu)化是聲學(xué)工程中的關(guān)鍵任務(wù)之一，廣泛應(yīng)用于建筑聲學(xué)、交通降噪、聽覺增強(qiáng)設(shè)備以及新型聲學(xué)材料的研發(fā)。隨著問題復(fù)雜度的增加，如結(jié)構(gòu)多樣性提升、優(yōu)化目標(biāo)增多、設(shè)計(jì)空間高維化，傳統(tǒng)方法逐漸暴露出不足。AI技術(shù)的興起為這一需求提供了一種可行路徑，尤其在數(shù)據(jù)量不斷積累、計(jì)算資源持續(xù)提升的背景下，AI正逐步成為聲學(xué)結(jié)構(gòu)優(yōu)化的重要引擎。

聲學(xué)仿真通常涉及從結(jié)構(gòu)參數(shù)到性能指標(biāo)的映射，即正向問題（forward problem），而實(shí)際工程往往需要解決逆向問題（inverse problem），即從目標(biāo)性能出發(fā)反推結(jié)構(gòu)設(shè)計(jì)。隨著DL和強(qiáng)化學(xué)習(xí)（RL）的興起，研究者開始借助AI技術(shù)在復(fù)雜系統(tǒng)中實(shí)現(xiàn)反向設(shè)計(jì)、高維參數(shù)映射以及快速性能預(yù)測。

2.5.1 傳統(tǒng)聲學(xué)仿真與優(yōu)化方法

有限元法是聲學(xué)結(jié)構(gòu)分析中應(yīng)用最廣泛的數(shù)值技術(shù)，能夠求解復(fù)雜邊界條件下的聲場分布。然而其缺點(diǎn)也非常突出：每次更改結(jié)構(gòu)參數(shù)都需重新建模和求解，導(dǎo)致大量冗余計(jì)算。拓?fù)鋬?yōu)化是一種數(shù)學(xué)驅(qū)動(dòng)的結(jié)構(gòu)形貌優(yōu)化方法，常用于最大化某一目標(biāo)（如吸收系數(shù)、阻抗匹配等）。然而，這類方法往往依賴梯度信息，難以適應(yīng)非線性材料行為，且不易擴(kuò)展至多目標(biāo)情形。為提升優(yōu)化效率，部分研究結(jié)合了遺傳算法、粒子群算法等啟發(fā)式搜索方法，緩解了參數(shù)空間維度高帶來的問題。但這些算法本質(zhì)仍是黑盒搜索，計(jì)算效率低、收斂性差，且在復(fù)雜結(jié)構(gòu)多目標(biāo)優(yōu)化中仍需大量仿真樣本支持。

2.5.2 AI聲學(xué)仿真優(yōu)化

AI反向優(yōu)化的基本思想是利用神經(jīng)網(wǎng)絡(luò)擬合性能與結(jié)構(gòu)參數(shù)之間的映射關(guān)系。Donda等指出MLP適用于低維連續(xù)參數(shù)預(yù)測，而CNN適合處理網(wǎng)格結(jié)構(gòu)的拓?fù)鋬?yōu)化問題，在預(yù)測聲學(xué)帶隙、吸聲頻率等方面效果顯著。近年來興起的PINN備受關(guān)注。該類模型將物理定律（如聲波傳播方程）嵌入損失函數(shù)中，使訓(xùn)練過程兼具數(shù)據(jù)驅(qū)動(dòng)與物理約束，提高了泛化能力與物理一致性。

在具體應(yīng)用場景中，AI技術(shù)已深度融入周期性聲子晶體、聲學(xué)超材料等領(lǐng)域。Shi等采用LSTM?Transformer串聯(lián)的類自編碼器模型，如圖8所示，實(shí)現(xiàn)了空間折疊聲學(xué)超材料（SFAM）的中低頻寬帶隔聲反設(shè)計(jì)與空間優(yōu)化，為空間受限場景下的聲學(xué)超材料高效設(shè)計(jì)提供了可行方案，其預(yù)測性能如圖9所示。Zea等借鑒ResNet架構(gòu)，實(shí)現(xiàn)寬頻率范圍、不同尺寸與流阻率的矩形吸聲材料在強(qiáng)邊緣衍射場景下的吸聲系數(shù)的精準(zhǔn)估計(jì)，且在400 Hz以下低頻段及小尺寸吸聲材料上的性能顯著優(yōu)于傳統(tǒng)雙麥傳聲器。隨著AI與物理建模的融合深化，越來越多研究開始探索多物理場（如聲?熱、電?聲）的耦合優(yōu)化。未來，基于小樣本學(xué)習(xí)、自監(jiān)督預(yù)訓(xùn)練與遷移學(xué)習(xí)的算法將進(jìn)一步降低對大量仿真數(shù)據(jù)的依賴。

圖8 用于隔聲材料設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)示意

圖9 經(jīng)過AI模型優(yōu)化前后隔聲量結(jié)果對比

3 面臨挑戰(zhàn)

3.1 泛化性問題

泛化性是制約AI在聲學(xué)領(lǐng)域落地的核心瓶頸，其本質(zhì)是模型對“未見場景”的適配能力不足。Rohlfs等將泛化分為樣本泛化、分布泛化、域泛化、任務(wù)泛化、跨模態(tài)泛化及范圍泛化6類。

3.2 數(shù)據(jù)依賴與質(zhì)量問題

數(shù)據(jù)是AI技術(shù)的燃料和基礎(chǔ)，其依賴與質(zhì)量問題直接制約模型的性能上限。對于聲學(xué)模型而言，數(shù)據(jù)相關(guān)難題主要集中在2個(gè)方面：

一是高質(zhì)量標(biāo)注數(shù)據(jù)的獲取瓶頸；
二是數(shù)據(jù)質(zhì)量的固有缺陷。

近年來，大模型的出現(xiàn)進(jìn)一步加劇了該挑戰(zhàn)，其對數(shù)據(jù)規(guī)模的需求呈指數(shù)級增長，需以數(shù)十萬乃至億小時(shí)級的海量音頻數(shù)據(jù)為支撐，遠(yuǎn)超傳統(tǒng)模型的數(shù)萬至百萬級需求，使得數(shù)據(jù)缺口被進(jìn)一步放大。此外，數(shù)據(jù)依賴問題還延伸至合規(guī)性和安全層面。

3.3 復(fù)雜度問題

AI模型的復(fù)雜度與聲學(xué)應(yīng)用場景的資源約束間存在突出矛盾。從模型層面看，現(xiàn)有通用AI模型的參數(shù)規(guī)模已達(dá)千億級至萬億級，運(yùn)算復(fù)雜度往往隨參數(shù)規(guī)模非線性增長，導(dǎo)致云端部署的算力與能源成本居高不下。從應(yīng)用場景看，聲學(xué)技術(shù)的落地場景日益多元，對模型提出了嚴(yán)苛的要求，現(xiàn)有解決方案可分為3類：

一是模型壓縮技術(shù)，知識(shí)蒸餾（knowledge distillation）通過“教師?學(xué)生”架構(gòu)實(shí)現(xiàn)性能遷移；
二是模型架構(gòu)，如結(jié)合聲學(xué)先驗(yàn)設(shè)計(jì)輕量級網(wǎng)絡(luò)架構(gòu)；
三是硬件協(xié)同，存算一體芯片通過集成存儲(chǔ)與運(yùn)算單元，降低數(shù)據(jù)搬運(yùn)帶來的功耗與延時(shí)，為低功耗場景提供硬件支撐。

這些技術(shù)的核心是在模型性能與復(fù)雜度之間尋求最優(yōu)平衡，但在極端低資源場景下的性能損失控制仍需進(jìn)一步研究。

3.4 實(shí)時(shí)性問題

實(shí)時(shí)性是AI聲學(xué)技術(shù)面向?qū)嶋H應(yīng)用的關(guān)鍵指標(biāo)，其需求差異源于聲學(xué)信號(hào)的傳播特性與應(yīng)用場景的功能定位。從時(shí)延要求看，不同場景的閾值跨度極大。實(shí)時(shí)性的核心瓶頸包括2方面：一是算法復(fù)雜度，二是算法延遲。因而解決方案需針對性優(yōu)化：針對復(fù)雜度問題，可采用輕量化模型設(shè)計(jì)、模型壓縮等技術(shù)降低運(yùn)算量；針對延遲問題，可選擇時(shí)域處理方法或在時(shí)頻域中采用短幀移與重疊保持法（OLS）。值得注意的是，實(shí)時(shí)性往往與性能存在平衡，如何在極端時(shí)延約束下保證處理效果，是當(dāng)前研究的重點(diǎn)方向。

3.5 多模態(tài)融合問題

多模態(tài)融合已成為提升聲學(xué)技術(shù)性能的重要路徑，但在聲學(xué)領(lǐng)域的應(yīng)用仍面臨3類核心挑戰(zhàn)。其一，模態(tài)異構(gòu)性；其二，融合效率與性能的平衡；其三，低資源場景的多模態(tài)數(shù)據(jù)稀疏。當(dāng)前研究主要聚焦跨模態(tài)精準(zhǔn)對齊、輕量化融合架構(gòu)和低資源適配技術(shù)，未來需進(jìn)一步結(jié)合聲學(xué)物理規(guī)律優(yōu)化，推動(dòng)跨模態(tài)技術(shù)實(shí)用化。

4 結(jié)論與展望

AI與聲學(xué)的深度融合，推動(dòng)了聲學(xué)從基礎(chǔ)研究到工程應(yīng)用的全面革新。

在語音信號(hào)處理領(lǐng)域，AI已實(shí)現(xiàn)從特征工程到端到端建模的范式轉(zhuǎn)變。其中，基于深度學(xué)習(xí)的語音識(shí)別、增強(qiáng)和合成技術(shù)，不僅在特定任務(wù)中超越了人類水平，還通過多模態(tài)融合和生成式模型拓展了應(yīng)用邊界。然而，這些技術(shù)在實(shí)際部署中仍受限于數(shù)據(jù)依賴性和計(jì)算資源需求。

AI在聲學(xué)中的應(yīng)用將呈現(xiàn)以下發(fā)展趨勢：首先，跨模態(tài)與多任務(wù)協(xié)同將成為技術(shù)突破的關(guān)鍵方向。其次，小樣本與自監(jiān)督技術(shù)將緩解強(qiáng)數(shù)據(jù)依賴問題。未來，基于自監(jiān)督學(xué)習(xí)和元學(xué)習(xí)的框架可以廣泛應(yīng)用于聲學(xué)任務(wù)中，通過挖掘數(shù)據(jù)內(nèi)在規(guī)律和跨領(lǐng)域知識(shí)遷移，降低算法對數(shù)據(jù)的依賴。此外，物理信息引導(dǎo)的生成式模型有望生成更符合真實(shí)聲學(xué)規(guī)律的數(shù)據(jù)，進(jìn)一步提升模型泛化能力；再者，邊緣計(jì)算與輕量化部署將推動(dòng)基于AI的聲學(xué)技術(shù)的普及。

AI在聲學(xué)中的應(yīng)用和發(fā)展也面臨諸多挑戰(zhàn)。在基礎(chǔ)理論層面，聲學(xué)與AI的交叉研究尚未建立完善的理論框架，需要重點(diǎn)研究以指導(dǎo)模型的設(shè)計(jì)和性能評估。在技術(shù)層面，如何平衡算法復(fù)雜度與性能，實(shí)現(xiàn)可擴(kuò)展性的實(shí)時(shí)處理，仍是亟待解決的關(guān)鍵技術(shù)難題。此外，在倫理與隱私保護(hù)方面也需要行業(yè)規(guī)范和技術(shù)防護(hù)的雙重保障。

未來，隨著基礎(chǔ)理論的突破、技術(shù)的迭代和跨學(xué)科合作的深化，“AI+聲學(xué)”將在海洋探測、醫(yī)療診斷、虛擬現(xiàn)實(shí)、環(huán)境聲學(xué)等領(lǐng)域進(jìn)一步發(fā)揮重要的作用，以最終實(shí)現(xiàn)從實(shí)驗(yàn)室研究、單點(diǎn)技術(shù)落地到大規(guī)模產(chǎn)業(yè)化應(yīng)用的跨越。

本文作者：鄭成詩、李安冬、饒丹、袁旻忞、江峰、李曉東

作者簡介：鄭成詩，中國科學(xué)院聲學(xué)研究所，噪聲與音頻聲學(xué)實(shí)驗(yàn)室，中國科學(xué)院大學(xué)，研究員，研究方向?yàn)橥ㄐ怕晫W(xué)。

文章來源：鄭成詩, 李安冬, 饒丹, 等. 人工智能在聲學(xué)中的應(yīng)用及展望[J]. 科技導(dǎo)報(bào), 2026, 44(4): 62?78 .

本文有刪改，

內(nèi)容為【科技導(dǎo)報(bào)】公眾號(hào)原創(chuàng)，歡迎轉(zhuǎn)載
白名單回復(fù)后臺(tái)「轉(zhuǎn)載」

《科技導(dǎo)報(bào)》創(chuàng)刊于1980年，中國科協(xié)學(xué)術(shù)會(huì)刊，主要刊登科學(xué)前沿和技術(shù)熱點(diǎn)領(lǐng)域突破性的研究成果、權(quán)威性的科學(xué)評論、引領(lǐng)性的高端綜述，發(fā)表促進(jìn)經(jīng)濟(jì)社會(huì)發(fā)展、完善科技管理、優(yōu)化科研環(huán)境、培育科學(xué)文化、促進(jìn)科技創(chuàng)新和科技成果轉(zhuǎn)化的決策咨詢建議。常設(shè)欄目有院士卷首語、科技新聞、科技評論、本刊專稿、特色專題、研究論文、政策建議、科技人文等。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.