基本信息
Title:Predictive coding of reward in the hippocampus
發表時間:2025.1.14
發表期刊:Nature
影響因子:48.5
獲取原文:
- 添加小助手:PSY-Brain-Frontier即可獲取PDF版本
- 點擊頁面底部“”即可跳轉論文原網頁
![]()
研究背景
在認知神經科學的經典敘事中,海馬體(Hippocampus)常被譽為大腦的“GPS”。自O'Keefe和Nadel提出“認知地圖(Cognitive Map)”理論以來,我們一直認為海馬體的主要職責是構建環境的空間表征,幫助我們在復雜的迷宮中找到出路。
![]()
然而,生存不僅僅是關于“我在哪里”,更重要的是“哪里有獎勵”以及“獎勵何時出現”。從進化的角度來看,動物必須高效地學習和記憶那些與獎勵相關聯的體驗。過去的研究確實發現,海馬神經元對獎勵高度敏感:當動物接近或到達獎勵位置時,特定位置細胞(Place Cells)的放電頻率會顯著增加,甚至形成對獎勵位置的“過度表征(Over-representation)” 。
但是,這些經典的觀察往往來自于短期的橫斷研究。一個關鍵且懸而未決的問題是:這種獎勵表征是靜態的嗎? 當動物日復一日地執行任務,對環境規律爛熟于心后,海馬體對獎勵的編碼會發生變化嗎?
如果海馬體不僅僅是一張被動的地圖,而是一個主動預測未來的模型,那么隨著學習的深入,它的神經活動應當不再局限于對“當下獎勵”的被動響應,而是轉向對“未來獎勵”的主動預測。為了驗證這一假設,來自麥吉爾大學和哈佛大學的研究團隊利用鈣成像技術,對小鼠進行了長達數周的縱向追蹤,揭示了海馬體在長期學習過程中對獎賞預測編碼的動態重構機制。
研究核心總結
研究團隊利用頭戴式微型顯微鏡(Miniscope)結合自動化觸摸屏任務,在小鼠背側海馬CA1區進行了長時程的在體鈣成像記錄。通過對同一群神經元進行跨越數周的追蹤(Tracking),研究者發現了海馬獎勵表征在時間維度上的系統性重構,強有力地支持了海馬體的“預測編碼”假說。
![]()
Fig. 1 | Imaging of CA1 neuronal activity in mice while they perform a reward-based task.
獎勵編碼隨經驗積累而衰減,前兆線索編碼增強
研究發現,隨著小鼠對任務的熟練掌握(經驗增加),海馬CA1區對“獎勵本身”的編碼強度在群體水平和單細胞水平上均呈現顯著下降趨勢。具體而言,被識別為“獎勵細胞(Reward cells)”的比例隨訓練天數減少。與此同時,海馬體并未“閑著”,它轉而增強了對“獎勵前兆特征”的表征。無論是對屏幕線索(Screen/Cue)的響應,還是在從選擇點奔向獎勵口(Reward approach)的過程中,相關神經元的信息含量和被募集的細胞比例均隨經驗積累而顯著增加。這表明海馬體的表征重點從“結果”轉移到了“預測結果的線索”上。
![]()
Fig. 2 | Dynamics of reward encoding during learning.
神經元活動的“反向移動”
利用細胞配準技術追蹤同一神經元,研究者觀察到了一種令人驚嘆的動態現象:起初對獎勵時刻有強烈響應的神經元,并沒有簡單地停止放電,而是將其放電時刻逐漸在時間軸上向前推移(Backward shift)。具體來說,原本在“享用獎勵”階段放電的細胞,隨著訓練天數的增加,逐漸演變為在“接近獎勵”甚至“看到線索”階段放電。這種現象與中腦多巴胺神經元中經典的“獎勵預測誤差(Reward Prediction Error, RPE)”信號的時間轉移高度相似。
![]()
Fig. 3 | Dynamics of pre-reward encoding across learning.
機制解釋:基于時序差分學習的計算模型
為了解釋這一現象,研究團隊構建了一個結合高斯基函數(Gaussian basis functions)空間特征的時序差分強化學習(TDRL)模型。模型模擬顯示,如果海馬體試圖通過最小化TD誤差來學習狀態價值(State Value),那么TD誤差信號會從獎勵狀態向起始狀態反向傳播。這種誤差信號驅動了位置場(Place Fields)的重塑,導致神經元的峰值活性從獎勵位置向預測獎勵的線索位置反向移動。模型結果完美復現了實驗中觀察到的三種主要模式:獎勵近端細胞的反向移動、接近細胞的動態調整以及線索細胞的后期涌現。
![]()
Fig. 4 | Weeks-long backward shift of reward encoding during learning.
研究意義
這項研究從單一細胞到計算模型,全方位證實了海馬體并非一個靜態的空間存儲器,而是一個具備預測編碼(Predictive Coding)能力的動態系統。該發現不僅揭示了海馬體在長期記憶鞏固和表征漂移(Representational Drift)中的規律,更建立了海馬認知地圖與強化學習理論(特別是TD Learning)之間的直接神經生理學聯系。它暗示海馬體通過不斷修正其內部模型,將當下的感知與對未來的預期無縫融合,從而實現對未來獎勵的高效預測與規劃。
![]()
Fig. 5 | TD error drives backward shifting of place fields.
Abstract
Anticipating future outcomes is a fundamental task of the brain. This process requires learning the states of the world as well as the transitional relationships between those states. In rodents, the hippocampal spatial cognitive map is thought to be one such internal model. However, evidence for predictive coding and reward sensitivity in the hippocampal neuronal representation suggests that its role extends beyond purely spatial representation. How this reward representation evolves over extended experience remains unclear. Here we track the evolution of the hippocampal reward representation over weeks as mice learn to solve a cognitively demanding reward-based task. We find several lines of evidence, both at the population and the single-cell level, indicating that the hippocampal representation becomes predictive of reward as the mouse learns the task over several weeks. Both the population-level encoding of reward and the proportion of reward-tuned neurons decrease with experience. At the same time, the representation of features that precede the reward increases with experience. By tracking reward-tuned neurons over time, we find that their activity gradually shifts from encoding the reward itself to representing preceding task features, indicating that experience drives a backward-shifted reorganization of neural activity to anticipate reward. We show that a temporal difference model of place fields recapitulates these results. Our findings underscore the dynamic nature of hippocampal representations, and highlight their role in learning through the prediction of future outcomes.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.