網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Trends Cogn Sci: 大腦并非只關(guān)注獎(jiǎng)勵(lì)，它其實(shí)更在意目標(biāo)實(shí)現(xiàn)

2026-01-21 08:00:03　來(lái)源: PsyBrain腦心前沿

北京舉報(bào)

分享至

基本信息

Title:The Reward Positivity signals a goal prediction error

發(fā)表時(shí)間：2026.1.2

Journal:Trends in Cognitive Sciences

影響因子：17.2

獲取原文：

添加小助手:PSY-Brain-Frontier即可獲取PDF版本
點(diǎn)擊頁(yè)面底部“”即可跳轉(zhuǎn)論文原網(wǎng)頁(yè)

背景介紹

想象一下，你正在玩一款賽車游戲。當(dāng)你意外吃掉一枚金幣，或是費(fèi)盡周折終于超過(guò)對(duì)手時(shí)，大腦中會(huì)產(chǎn)生一種名為“獎(jiǎng)勵(lì)正波”（Reward Positivity, RewP）的電信號(hào) 。長(zhǎng)期以來(lái)，神經(jīng)科學(xué)界普遍認(rèn)為 RewP 就像一個(gè)“心情晴雨表”，忠實(shí)地記錄著反饋的好壞，給獎(jiǎng)金它就跳動(dòng)，給懲罰它就收縮。

然而，這個(gè)看似完美的“獎(jiǎng)賞計(jì)數(shù)器”模型正面臨挑戰(zhàn)。為什么有時(shí)候沒(méi)有金錢獎(jiǎng)勵(lì)，僅憑一句“挑戰(zhàn)成功”也能誘發(fā)強(qiáng)烈的信號(hào)？為什么它在抑郁癥患者身上表現(xiàn)得如此特殊？為了撥開(kāi)云霧，James F. Cavanagh 與 Clay B. Holroyd 在《Trends in Cognitive Sciences》(TICS) 上發(fā)表了最新綜述，試圖為 RewP 重新定性。他們認(rèn)為，我們一直以來(lái)可能都“找錯(cuò)了對(duì)象”：RewP 追蹤的并非感官上的快樂(lè)，而是大腦對(duì)“目標(biāo)達(dá)成”的精準(zhǔn)校準(zhǔn) 。

綜述框架梳理

為了系統(tǒng)性地重塑這一理論，作者在文中構(gòu)建了嚴(yán)密的論證路線：

首先，作者回顧了現(xiàn)有的研究共識(shí)，并針對(duì)“RewP 反映雙向獎(jiǎng)賞預(yù)測(cè)誤差（RPE）”的傳統(tǒng)假設(shè)提出了挑戰(zhàn) 。

隨后，通過(guò)分析腦電波形與空間定位，論證了 RewP 是一個(gè)獨(dú)立且疊加在背景信號(hào)上的電生理特征。

接著，作者引入了核心論點(diǎn)：RewP 本質(zhì)上反映的是“目標(biāo)更新”而非單純的獎(jiǎng)賞收受。

最后，將這一信號(hào)置于強(qiáng)化學(xué)習(xí)的“演員-評(píng)論員”（Actor-Critic）框架下，探討了其在認(rèn)知控制與行為調(diào)整中的深層計(jì)算邏輯。

核心觀點(diǎn)總結(jié)

它是單向的疊加信號(hào)，而非雙向的刻度尺

作者強(qiáng)調(diào)，RewP 并不是在正負(fù)反饋之間滑動(dòng)的連續(xù)波形，而是特異性地對(duì)“好于預(yù)期”的反饋?zhàn)龀龇磻?yīng) 。正如作者在圖1中展示的，通過(guò)單試次相關(guān)分析發(fā)現(xiàn)，懲罰反饋（RPE-）主要調(diào)制背景成分（如 N2/P3）的幅度，而獎(jiǎng)勵(lì)反饋（RPE+）則誘發(fā)了一個(gè)獨(dú)立且額外疊加的成分。這種獨(dú)立性意味著它擁有獨(dú)特的計(jì)算職能。

Figure 1. Feedback-locked event-related potentials (ERPs) at the Cz electrode. Fig1通過(guò)對(duì)比腦電波形，確立了RewP作為一個(gè)獨(dú)立神經(jīng)信號(hào)的地位。作者展示了懲罰反饋（RPE-）主要通過(guò)調(diào)制大腦已有的背景成分（如N1-P2-N2-P3復(fù)合體）的幅度來(lái)體現(xiàn) ，而獎(jiǎng)勵(lì)反饋（RPE+）則誘發(fā)了一個(gè)額外疊加在背景之上的獨(dú)立正向成分，即RewP 。單試次相關(guān)性分析（圖1D）進(jìn)一步證實(shí)，獎(jiǎng)勵(lì)信號(hào)在時(shí)間進(jìn)程和空間分布上都與懲罰信號(hào)存在顯著差異，這有力地反駁了“大腦用同一把刻度尺衡量獎(jiǎng)懲”的傳統(tǒng)觀點(diǎn) 。

源自額葉中部的計(jì)算中心 RewP 的產(chǎn)生地在哪里？

作者通過(guò)薈萃分析指出，其最明確的來(lái)源是背側(cè)前額葉皮層（dmPFC）和前中扣帶回（aMCC）。圖2展示了兩種生成假設(shè)的對(duì)比：相較于多個(gè)網(wǎng)絡(luò)共同貢獻(xiàn)的“多發(fā)生源假設(shè)”，作者更傾向于“單發(fā)生源假設(shè)”，即 dmPFC/aMCC 作為一個(gè)匯聚中心，集成了價(jià)值更新、代理感和執(zhí)行功能，最終產(chǎn)出了 RewP 信號(hào) 。

Figure 2. Contrasting models of Reward Positivity (RewP) generation. Fig2探討了RewP在大腦中的解剖學(xué)來(lái)源，對(duì)比了“多發(fā)生源”與“單發(fā)生源”兩種科學(xué)假說(shuō) 。多發(fā)生源假設(shè)認(rèn)為，價(jià)值更新、顯著性探測(cè)和執(zhí)行控制等多個(gè)分布式的網(wǎng)絡(luò)共同貢獻(xiàn)了頭皮記錄到的信號(hào) ；而單發(fā)生源假設(shè)則認(rèn)為，雖然多個(gè)系統(tǒng)參與計(jì)算，但RewP直接產(chǎn)生于額葉中部的一個(gè)核心區(qū)域: 前中扣帶回（aMCC）。這一模型解釋了RewP如何作為一個(gè)匯聚中心，將來(lái)自不同認(rèn)知維度的信息整合為統(tǒng)一的目標(biāo)評(píng)價(jià)信號(hào) 。

它是大腦的“目標(biāo)達(dá)成”探測(cè)器

該綜述最核心的觀點(diǎn)是：RewP 信號(hào)由“目標(biāo)預(yù)測(cè)誤差”驅(qū)動(dòng)，而非“快樂(lè)（獎(jiǎng)賞）預(yù)測(cè)誤差” 。該結(jié)論支撐了圖3的核心模型：在賽車游戲比喻中，當(dāng)玩家的目標(biāo)從“撿金幣”切換為“超越對(duì)手”或“追求競(jìng)技公平”時(shí)，誘發(fā) RewP 的不再是金幣，而是任何預(yù)示目標(biāo)實(shí)現(xiàn)的抽象信號(hào) 。

Figure 3. Reward Positivity (RewP) is a flexible signal of goal achievement. Fig3通過(guò)賽車游戲的生動(dòng)案例，直觀地詮釋了RewP的靈活性和抽象性。案例顯示，當(dāng)玩家的學(xué)習(xí)目標(biāo)從撿金幣（物質(zhì)獎(jiǎng)賞）切換到吃寶箱（抽象目標(biāo)），甚至切換到為了維護(hù)兄妹和諧而主動(dòng)讓步（超額目標(biāo)）時(shí)，RewP信號(hào)會(huì)隨著主觀目標(biāo)的轉(zhuǎn)移而重新定位。這證明了RewP追蹤的并非固定的物理獎(jiǎng)賞，而是任何被大腦定義為“目標(biāo)達(dá)成”的積極反饋，體現(xiàn)了其在認(rèn)知控制中的核心作用。

它是大腦里的“評(píng)論員”，而非“執(zhí)行者”

基于強(qiáng)化學(xué)習(xí)框架，作者將 RewP 定義為一種“評(píng)論員（Critic）”信號(hào) 。它負(fù)責(zé)評(píng)估當(dāng)前狀態(tài)的價(jià)值并更新對(duì)未來(lái)的期望，卻并不直接決定下一步的行動(dòng) 。這解釋了為什么 RewP 往往無(wú)法直接預(yù)測(cè)即時(shí)的行為調(diào)整，因?yàn)樗袷窃诟麓竽X的“內(nèi)部賬本”，為長(zhǎng)期的學(xué)習(xí)奠定基礎(chǔ) 。

省流總結(jié)

這篇發(fā)表于Trends Cogn Sci的綜述文章刷新了我們對(duì)大腦“獎(jiǎng)勵(lì)正波”（RewP）的本質(zhì)認(rèn)知，指出該信號(hào)并非單純記錄獎(jiǎng)賞收受的“心情晴雨表”，而是一個(gè)特異性針對(duì)目標(biāo)達(dá)成的“評(píng)價(jià)器” 。作者論證稱，RewP是一個(gè)獨(dú)立且僅對(duì)正向預(yù)測(cè)誤差（RPE+）敏感的單向電生理特征，它在功能上更接近強(qiáng)化學(xué)習(xí)架構(gòu)中的“評(píng)論員”（Critic），主要負(fù)責(zé)在背側(cè)前額葉皮層（dmPFC）與前中扣帶回（aMCC）區(qū)域更新關(guān)于目標(biāo)狀態(tài)的價(jià)值估算，而非直接驅(qū)動(dòng)即時(shí)的行為調(diào)整。這種機(jī)制使得RewP展現(xiàn)出極高的認(rèn)知靈活性：它追蹤的不是固定的物理獎(jiǎng)勵(lì)或感官快樂(lè)，而是任何被大腦控制系統(tǒng)定義為“當(dāng)前目標(biāo)”的抽象成就，從而將這一信號(hào)從基礎(chǔ)的反饋處理提升到了高級(jí)認(rèn)知控制的范疇

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.