PsyBrain 腦心前沿 | 公眾號 PSY-Brain_Frontier
一鍵關注,點亮星標 ??
不錯過每日前沿資訊
認知神經科學前沿文獻分享
![]()
基本信息:
Title:Orbitofrontal-sensory cortical interactions in learning and adaptive decision-making
發表時間:2025.12.4
Journal:Trends in Cognitive Sciences(TiCS)
影響因子:17.2
獲取原文:
添加小助手:PSY-Brain-Frontier即可獲取PDF版本
![]()
![]()
引言
每天早上換一家咖啡店,哪一杯更香、更順口,會悄悄決定你明天往哪家走——這就是強化學習(reinforcement learning, RL)在生活中的表現。然而,做出“下次去哪兒買”的決定,不只是簡單記住味道這么粗糙。大腦需要把氣味、口感、杯型、價格、情緒、品牌這些雜亂信息,整合成一個“值不值得再去”的主觀價值,還要在環境變了(比如咖啡突然變難喝)時迅速翻盤。
傳統觀點認為,感覺皮層只是負責“看清、聞清、嘗清”,眶額皮層(orbitofrontal cortex, OFC)負責“算賬和決策”。但新證據提示,感覺皮層本身也會編碼注意(attention)、工作記憶(working memory)、不確定性(perceptual uncertainty)甚至價值相關信息,而 OFC 又通過反饋信號改寫感覺皮層的表征。兩者更像一個不斷互相教學的閉環系統,而不是簡單的“前端采集 + 后端決策”。
這篇 TiCS 綜述文章以計算強化學習框架為主線,系統梳理了 OFC 與五大感覺系統(視覺、聽覺、軀體感覺、嗅覺、味覺)之間的雙向連接:
感覺皮層把壓縮后的任務信息送給 OFC,幫助構建抽象的任務狀態與“認知地圖”(cognitive map);OFC 再把基于價值與任務結構的“教學信號”回送感覺皮層,放大有用特征、重映射價值,讓感覺皮層從“被動感受器”升級為“帶認知功能的前端模塊”。
這不僅改寫了我們對感覺皮層的認識,也為理解人腦如何高效學習,以及如何設計更聰明的人工神經網絡,提供了新思路。
![]()
實驗設計與方法邏輯
本文并非單一實驗,而是整合解剖追蹤、動物電生理、人類 fMRI 以及深度 / 元強化學習(deep/meta-RL)模型等多類證據:
作者先從解剖結構出發,明確 OFC 與各感覺皮層的互惠投射;隨后分別梳理自下而上的“感覺→OFC”通路如何提供注意、工作記憶與不確定性信息,自上而下的“OFC→感覺”通路如何實現感知增強與價值重映射;最后在強化學習的計算框架中,把這些結果統一成一個閉環模型,解釋大腦如何邊感知邊學習、邊更新任務結構。
![]()
核心發現
解剖上:OFC 是連接五大感覺通路的“價值樞紐”
圖 1 展示了人類大腦外側視圖中,OFC 與軀體感覺、嗅覺、味覺、視覺和聽覺皮層的廣泛雙向連接:后部 OFC 接收更多來自初級感覺皮層的輸入,前部 OFC 更多連接聯絡區,尤其是與物體 / 面孔識別相關的腹側視覺通路。 這種“從外周到高級”的多級輸入,使 OFC 得以整合多模態信息(比如咖啡的味道 + 香氣 + 觸感),計算跨模態的主觀價值,并向下游(如紋狀體、海馬)輸出價值與任務狀態信息,從而在解剖上奠定其“價值樞紐”的地位。
![]()
Figure 1. Major anatomical connections between sensory cortices and the orbitofrontal cortex (OFC).
感覺→OFC:不僅傳“是什么”,還傳注意、記憶和不確定性
圖 2A 用示意流程總結了感覺皮層送往 OFC 的多條信息流:除傳統的感覺特征外,還有自下而上的顯著性 / 注意信號(bottom-up attention)、感覺工作記憶表征以及對當前刺激的感知不確定性。 這些“預處理后”的高級信號,幫助 OFC更精準地進行獎勵預測、價值比較與責任歸因(credit assignment):突出的刺激優先被評估,可維持在感覺工作記憶中的特征更易被正確“記賬”,高不確定性則會壓低價值信號、推動探索。
![]()
Figure 2. Contribution of sensory inputs to value computation and representation learning in the orbitofrontal cortex (OFC).
OFC→感覺:用價值信號直接“調參”感覺皮層
在圖 3A 的咖啡例子中,一次令人愉快的體驗,會讓 OFC 向感覺皮層發送獎勵期望與目標導向注意兩類自上而下信號:前者提升對與獎勵相關特征的響應增益,后者選擇性放大與當前目標有關的刺激、抑制無關輸入。 動物實驗進一步顯示,OFC 投射到 V1、A1 或嗅皮層時,可以分別抑制無獎刺激、放大獎勵相關刺激的神經反應,實現對感覺編碼的“價值調諧”;在人類 fMRI 中,則可觀察到在反轉學習階段,OFC 與獎相關 S1 區域的功能連接瞬時增強,提示其通過“教學信號”重寫感覺-獎勵映射。
![]()
Figure 3. The orbitofrontal cortex (OFC)–sensory cortex interactions supporting reinforcement-based adaptive learning.
閉環 RL 模型:OFC–感覺皮層協同構建
“任務認知地圖”
圖 2B 和 3B 合在一起給出一個閉環強化學習框架:感覺皮層將壓縮后的任務相關特征(包括不確定性、顯著性與近期刺激記憶)送入 OFC,OFC 將其與海馬、內嗅皮層等處存儲的既往任務狀態進行比較——若相似,則更新舊狀態;若不同,則創建新狀態并附帶“探索”加成。 這些任務狀態構成抽象的認知地圖,驅動對未來結果的預測,再通過價值期望與重映射信號回傳感覺皮層,持續調整前端表征,實現在不確定、可變環境中的高效學習與靈活決策。
![]()
歸納總結和點評
總體來看,本文提出了一個優雅的閉環模型:
感覺皮層不再是被動的“像素工廠”,而是能根據注意、記憶與不確定性進行智能“壓縮”的前端;
眶額皮層則在此基礎上構建任務狀態與認知地圖,并通過價值導向的教學信號,塑造感覺皮層對世界的“看法”。
這種雙向互動既可以解釋動物與人類反轉學習、價值驅動注意和感知增強等現象,也為人工智能中的表征學習與元強化學習提供了神經啟發。
作為一篇跨解剖、系統神經與計算建模的綜述,它在“感覺皮層也很聰明”與“OFC 不只是算錢,更在教別人怎么算”這兩個點上,給出了兼具數據基礎與理論高度的統一視角,值得做決策與學習研究的讀者細細品味。
![]()
AI 一句話銳評
這篇文章本質上在說:真正聰明的腦,不是前端感知 + 后端決策,而是讓“感覺皮層也會思考、OFC 也會 teach”,把整張大腦網絡訓練成一個自我更新的閉環強化學習系統。
![]()
請打分
這篇剛剛登上TiCS的綜述,是否實至名歸?我們邀請您作為“云審稿人”,一同品鑒。精讀全文后,歡迎在匿名投票中打分,并在評論區分享您的深度見解。
前沿交流|歡迎加入認知神經科學前沿交流群!
![]()
核心圖表、方法細節、統計結果與討論見原文及其拓展數據。
分享人:BQ
審核:PsyBrain 腦心前沿編輯部
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.