基本信息
Title:Sensory sharpening and semantic prediction errors unify competing models of predictive processing in human speech comprehension
發表時間:2025.1.9
發表期刊:PLoS Biology
影響因子:7.2
獲取原文:
- 添加小助手:PSY-Brain-Frontier即可獲取PDF版本
- 點擊頁面底部“”即可跳轉論文原網頁
![]()
研究背景
在日常交流中,我們的大腦其實是一個不知疲倦的“算命先生”。當我們身處嘈雜的雞尾酒會,或者通過信號不佳的電話交談時,往往能通過上下文毫不費力地補全聽不清的單詞。這種現象背后的核心機制被稱為預測性處理(Predictive Processing)。大腦會構建關于世界的生成模型,不斷預測即將到來的感官輸入。
![]()
然而,在這個領域中存在著一個長期未決的“路線之爭”:大腦到底是如何處理預測與現實的差異的?一方觀點支持“銳化”(Sharpening)模型,認為大腦會增強符合預期的信號,抑制不相關的噪聲,從而讓感知更清晰、更符合原本的期望;另一方則支持“預測誤差”(Prediction Error)模型,認為大腦更關注那些出乎意料的信息,通過計算預測與現實的差值來更新內部模型。
這兩個機制看似矛盾:一個強調“我想看什么就看什么”,另一個強調“什么不一樣我看什么”。尤其是在復雜的對話場景中,當我們對特定的說話者(Speaker)有著特定的語義預期時(比如某位朋友是個“吃貨”,他提到“bean”的可能性遠大于“dream”),大腦究竟是銳化了預期的聲音,還是計算了語義上的驚奇度?以往的研究大多局限于單向聆聽(如聽有聲書),忽略了對話中關鍵的說話者特異性(Speaker-specific)先驗知識。本研究通過精巧的實驗設計,試圖調和這一矛盾,揭示大腦如何在層級結構中統籌這兩種機制。
研究核心總結
研究者結合了腦電圖(EEG)、刺激重構(Stimulus Reconstruction)以及預訓練Transformer模型,揭示了人類在言語理解中整合預測信息的層級機制。
![]()
Fig 1. Paradigm and behaviour.
核心發現一:低級感知層面的“銳化”機制
研究結果表明,聽者會根據特定說話者的語義先驗(Speaker-specific semantic priors)來解決聽覺模糊性。利用刺激重構模型和項目內綜合表征相似性分析(Within-item composite RSA),研究發現,在早期的聲學處理階段,大腦通過銳化(Sharpening)機制運作。具體而言,當面對模糊的語音變形(Morphs,例如介于“sea”和“tea”之間的聲音)時,神經表征會被主動“拉向”預期的聲學信號。這意味著,如果你預期該說話者會說關于“自然”的詞匯,大腦在早期聽覺階段編碼的聲學特征會更像“sea”而不是模糊的輸入。這種銳化作用在時間上貫穿了整個詞匯的處理過程,旨在穩定感知,使模糊輸入更符合內部模型。
![]()
Fig 2. Sensory sharpening at the acoustic level.
核心發現二:高級語義層面的“預測誤差”機制
與低級感知的銳化不同,在更高的語言層級(語義層),大腦主要計算預測誤差(Prediction Error)。研究者使用預訓練Transformer(Wav2Vec 2.0)作為統計代理,構建了單試次EEG編碼模型。結果顯示,說話者特異性的語義驚奇度(Surprisal)顯著調節了神經反應。這表明,雖然大腦在聽覺層面“修飾”了輸入以符合預期,但在理解意義的層面,它依然敏銳地捕捉那些違反預期的信息,以便于模型的更新和學習。這一效應主要集中在刺激呈現后的150ms-630ms時間窗內,對應于音系和語義處理階段。
![]()
Fig 3. Prediction errors at the semantic level.
核心發現三:先驗應用的靈活性與雙重分離
研究還發現,大腦并非盲目地應用先驗知識。當輸入的詞匯與說話者的先驗極度不符時,大腦會靈活地“丟棄”說話者特異性的先驗,轉而依賴更通用的語言統計規律。這種機制防止了在面對極不可能的輸入時產生過大的預測誤差,從而避免對內部模型造成破壞性的錯誤更新。
![]()
Fig 4. Double dissociation between semantic congruency and prior specificity.
總結與意義
本研究提出了一個統一的預測處理模型:銳化和預測誤差并非互斥,而是共存于不同的神經層級。
- 低層級(聲學):通過銳化來增強感知的魯棒性,確保在噪聲中“聽到”預期的內容。
- 高層級(語義):通過預測誤差來驅動學習,適應環境變化。
這一發現不僅解決了長期以來的理論爭端,揭示了大腦在自然對話中如何利用“誰在說話”這一背景知識來優化理解,同時也為神經語音解碼和腦機接口(BCI)的開發提供了重要啟示:即在解碼算法中納入個性化的說話者模型,可能顯著提升解碼精度。
Abstract
The human brain makes abundant predictions in speech comprehension that, in real-world conversations, depend on conversational partners. Yet, tested models of predictive processing diverge on how such predictions are integrated with incoming speech: The brain may emphasise either expected information through sharpening or unexpected information through prediction error. We reconcile these views through direct neural evidence from electroencephalography showing that both mechanisms operate at different hierarchical levels during speech perception. Across multiple experiments, participants heard identical ambiguous speech in different speaker contexts. Using speech decoding, we show that listeners learn speaker-specific semantic priors, which sharpen sensory representations by pulling them toward expected acoustic signals. In contrast, encoding models leveraging pretrained transformers reveal that prediction errors emerge at higher linguistic levels. These findings support a unified model of predictive processing, wherein sharpening and prediction errors coexist at distinct hierarchical levels to facilitate both robust perception and adaptive world models.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.