![]()
在嘈雜的酒吧里,即便是最好的降噪耳機也會束手無策。它們要么完全隔絕外界聲音,要么讓所有聲音涌入,但無法像人類那樣自然地專注于重要的聲音同時忽略其他噪音。華盛頓大學研究人員的一項新研究提出了第三種解決方案——一種"主動式聽力助手",它能利用人工智能技術自動識別你的對話對象,并實時增強他們的聲音,無需任何手勢或觸控操作。
華盛頓大學移動智能實驗室負責人、該研究的共同作者Shyam Gollakota說:"我們提出了一個非常簡單的問題,如果你在有一百個人的酒吧里,人工智能如何知道你在和誰交談?"
研究團隊的解決方案融合了音頻工程和對話科學。基于Gollakota實驗室之前的研究,該系統使用經過訓練的人工智能來檢測人類本能遵循的細微輪流發言模式,這種模式能讓對話者以最小重疊交替發言。這種對話節奏成為識別對話參與者的關鍵線索。不遵循這種模式的聲音將被過濾掉。
該原型設備在雙耳使用麥克風,并配備一個指向佩戴者嘴部的定向音頻濾波器來提取用戶自己的語音,這作為檢測輪流發言的錨點。有了這個錨點,系統能夠隔離和增強對話伙伴的聲音,同時抑制其他人的聲音,運行延遲低于10毫秒——足夠快以保持放大音頻與唇部動作同步。
Gollakota表示:"核心洞察很直觀。如果我在和你對話,我們不會像不參與對話的人那樣頻繁地互相打斷。"該智能體識別與佩戴者自然輪流發言的聲音,而忽略那些過于頻繁重疊、不符合對話模式的聲音。該方法不依賴于距離、音量、方向或音調。"除了音頻,我們不使用任何其他傳感器,"他說。"你可以看向別處,或者距離更遠的人說話更大聲——它仍然有效。"
這項技術對有聽力障礙的人特別有用,因為傳統助聽器會同時放大所有聲音和噪音。Gollakota說:"這對生活質量的提升可能極其重要。"配備這項技術的主動式聽力助手還能幫助那些難以手動選擇要放大的說話者的老年用戶。
為了解決延遲問題,系統采用了模仿大腦處理對話方式的雙重模型。對話音頻要感覺自然,必須在10毫秒內處理完成,但檢測輪流發言模式需要一到兩秒的上下文。協調這些時間尺度需要分離式架構:一個每秒更新一次的慢速模型和一個每10到12毫秒運行一次的快速模型。
慢速模型推斷對話動態并生成"對話嵌入"。快速模型使用該嵌入僅提取已識別的伙伴聲音,以足夠快的速度抑制所有其他聲音,確保對話無縫進行。Gollakota將這個過程比作大腦如何將較慢的思考與快速的語音產生分離。"有一個較慢的過程理解對話,還有一個更快的過程幾乎瞬時響應,"他說。
對話節奏因文化而異,所以團隊在英語和普通話上訓練了系統。它能夠泛化到日語對話,盡管從未在日語上訓練過——研究人員說,這證明模型正在捕獲通用的時序線索。
在受控測試中,該系統識別對話伙伴的準確率達到80%到92%,混淆率為1.5%到2.2%(意味著系統錯誤地將外部說話者識別為對話參與者)。它將語音清晰度提高了多達14.6分貝。
智能體眼鏡公司SoftEye首席執行官Te-Won Lee最近為商用開發了類似技術,他表示:"他們描述的是一個有趣且新穎的方向。但在實際應用方面,仍然面臨許多挑戰。"Lee的技術基于盲源分離,這是一種信號處理技術,試圖在不事先知道源是什么的情況下從混合聲音中篩選出單個聲源。
Lee說:"在大多數環境中,你不會得到四個人整齊地輪流發言。你會遇到音樂、不可預測的噪音、人們互相打斷。研究中描述的場景不是你在大多數真實環境中遇到的場景。"隨著聲音環境變得更加混亂,性能可能會下降。
不過,他認為該原型的超低延遲是一個重大優勢。"當涉及在數百萬設備中部署時,延遲必須極低,"他說。"即使100毫秒都是不可接受的。你需要接近10毫秒的東西。"
Lee還指出,幾十年來的盲源分離和語音增強工作已經產生了能在各種噪音條件下工作的算法,通常將設備用戶這一個期望的說話者從所有其他源中隔離出來。Lee說:"真實世界的語音增強就是將期望的語音從所有其他噪音中分離出來。這些技術更適用于不可預測的環境。"但在耳機或AR眼鏡中,系統知道佩戴者打算與誰交談,他說華盛頓大學的方法"如果場景符合他們的假設,可以非常有效"。
該系統嚴重依賴自我語音,所以長時間沉默可能會使其混亂。重疊語音和同時的輪流變化仍然具有挑戰性。該方法不適合被動聆聽,因為它假設主動參與。由于對話規范因文化而異,可能需要額外的微調。
錯誤檢測也可能放大錯誤的人——這在快速變化的交流中是一個真正的風險。Lee補充說,從音樂到混亂聲景的不可預測噪音仍然是一個主要障礙。"真實世界是混亂的,"他說。
接下來,團隊計劃使用大語言模型融入語義理解,使未來版本不僅能推斷誰在說話,還能推斷誰在有意義地貢獻,讓聽力助手在跟隨對話方面更加靈活、更像人類。
Q&A
Q1:這個主動式聽力助手是如何工作的?
A:該系統使用人工智能檢測人類對話中的自然輪流發言模式。它通過雙耳麥克風和指向嘴部的音頻濾波器提取用戶語音作為錨點,然后識別與用戶自然輪流發言的聲音并增強它們,同時抑制其他不符合對話模式的聲音,整個過程延遲低于10毫秒。
Q2:這項技術相比傳統降噪耳機有什么優勢?
A:傳統降噪耳機只能選擇完全隔絕聲音或讓所有聲音進入,而這個聽力助手能智能識別對話伙伴并只增強他們的聲音。它不依賴距離、音量或方向,即使用戶看向別處或有人距離更遠但聲音更大,系統仍能準確識別真正的對話參與者。
Q3:主動式聽力助手在實際使用中有哪些局限性?
A:該系統嚴重依賴用戶自己的語音,長時間沉默會造成混亂。在有重疊語音、同時輪流變化或不可預測噪音(如音樂、混亂聲景)的環境中性能可能下降。它不適合被動聆聽,需要用戶主動參與對話,且可能因文化差異需要額外調整。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.