![]()
從深夜的冰啤酒到周末的麻辣火鍋,再到手機里刷不完的短視頻,現代生活似乎總能輕易地為我們提供各種“快樂”與“爽感”。我們很自然地認為,是這些事物本身的味道、畫面或節奏,直接帶來了感官上的愉悅,并驅使我們不斷追逐、重復。
然而,這種解釋或許忽略了故事中一個更為關鍵的角色——我們的身體本身。當我們享受美食或娛樂時,真正的“獎勵”信號,可能并非發生在味蕾接觸食物的那一刻,而是在后續的消化、吸收與能量調節過程中,由身體內部悄然發出。
這意味著,我們許多看似由感官主導的行為,其根源可能并非來自外部的即時刺激,而是一種源于生理深處的、無意識的反饋。我們的身體,似乎在以一種我們未曾察覺的方式,“操控”著大腦的選擇。
最近Weber等人發表在Trends in Cognitive Sciences期刊上的一篇綜述論文[1],提出了一個別有新意的觀點:
強化學習(Reinforcement Learning, RL)和行為驅動的核心動力,并非僅僅源于感官上的即時刺激,而是更深層次地來自我們身體內部無意識的生理反饋,即“內感受”(interoception)。
這一觀點重新定義了自然獎勵(primary reward)的起源與性質,將獎勵從單純的“外部刺激”轉向了體內狀態和事件驅動,擴展了RL的理論框架,也將引導我們重新審視人類行為與學習的底層邏輯。
![]()
強化學習:行為與獎勵的閉環
要理解內感受的重要性,首先需要了解強化學習這一概念。RL是心理學、神經科學和人工智能領域的一個重要理論,它描述了個體如何通過行為獲得獎勵或懲罰,從而學習哪些行為應該重復,哪些行為應該避免。
RL的核心在于“環境—動作—反饋—學習”的閉環。個體在特定環境中采取某種行動,該行動會產生一個反饋,可能是積極的獎勵,也可能是消極的懲罰。個體根據這些反饋來調整其未來的行為策略,以最大化獎勵或最小化懲罰。
![]()
![]()
?訓狗與自動停車中的強化學習. 圖源:https://www.mathworks.com/
這方面的經典案例是巴甫洛夫的狗。每次喂食狗的同時搖鈴,幾次之后,狗在只搖鈴的情況下,也會分泌唾液。同樣,一只狗在指定地點排便后得到零食獎勵,它就會學會在這個地方上廁所。
RL的機制在人工智能領域也有著廣泛的應用。例如AlphaGo通過與自己對弈,從每一次棋局的勝負中學習,不斷優化其下棋策略,最終擊敗了人類頂尖棋手。自動駕駛汽車通過在模擬環境中不斷嘗試不同的駕駛行為,并根據行駛安全性、效率等反饋來調整其決策模型。Netflix、Tiktok等平臺的推薦算法會根據用戶觀看、點贊、收藏等行為來學習用戶的偏好,并推薦更符合用戶口味的內容,從而增加用戶的使用時長。
這些應用都體現了RL“行為→外部反饋→學習路徑優化”的基本模式。然而,這種傳統模型存在一個關鍵問題:我們是否真的僅僅根據“感受到的外部刺激”來判斷一件事的價值呢?
傳統模型過度強調外部獎勵和懲罰的作用,而忽視了人類行為背后更深層次的驅動力。例如,如果一個人僅僅為了獲得點贊而寫作,那么當點贊量不如預期時,他可能就會失去繼續寫作的動力。這并不能完全解釋為什么有些作家即使沒有獲得大量關注,依然堅持創作。
更重要的是,很多我們“上癮”的行為,其外部獎勵并不總是顯而易見的,或者其長期后果甚至是負面的,比如吸煙、熬夜、沉迷垃圾食品等。如果僅僅是外部刺激在起作用,那么當這些行為帶來負面后果時,我們應該能夠輕易戒斷,但現實并非如此。這表明,在外部反饋之外,存在著某種更深層次的、無意識的獎勵系統在起作用。
![]()
內感受:身體內無聲的獎勵系統
內感受是指我們身體內部的各種生理信號,它們是如此微弱以至于我們通常難以察覺,但卻真實地存在并影響著我們的大腦。這些信號包括但不限于:心跳的加快或減緩、呼吸的急促或平緩、血糖水平的升降、口渴感、飽腹感、肌肉的緊張或放松等等。
內感受不僅影響我們的基本生理需求,還深刻影響著我們的情緒、認知和決策。例如,當我們的心跳加速、手心出汗時,這些內部生理信號可能會被大腦解讀為焦慮或興奮,從而影響我們對當前情境的判斷和反應。
雖然內感受不如視覺、聽覺、味覺等外部感官刺激那樣明顯,但它們卻構成了大腦評估一個行為是否有價值的最終依據。正如論文所強調的,我們并不是被食物本身獎勵了,而是被食物消化后產生的生理變化所獎勵。
內感受之所以重要,是因為它為大腦提供了一個關于身體內部狀態的實時“報告”。這個報告決定了大腦如何評估一個行為對于身體生存和繁衍的價值。當我們采取某個行為,并因此改善了身體的內部環境(例如補充了能量、緩解了壓力),大腦就會將這種改善解讀為一種“獎勵”,并強化導致這一行為的神經通路[2]。
例如當我們感到饑餓時,身體的血糖水平下降,腸胃發出信號。這時我們進食,食物被消化吸收,血糖水平回升,能量得到補充。這個過程中,迷走神經會將營養輸入的信息傳遞給腦干,進而觸發大腦釋放多巴胺,產生“快感”。這種快感并非僅僅來自食物的味道,更重要的是身體通過內感受獲得的“續命”信號。
然而,這套為保障生存而演化出的古老系統,在現代社會中常常被各種超常刺激所“利用”甚至“劫持”。理解這個過程,我們首先需要區分兩種相互關聯的獎勵信號:
自然獎勵(Natural Reward):這是最根本的獎勵,源自內感受系統對身體內部狀態真實改善的確認。例如,食物消化后血糖回升、飲水后身體脫水狀態緩解。這是我們生存系統真正追求的終極目標。
代理獎勵(Proxy Reward):又叫次級獎勵(secondary reward),這是一種“快捷方式”或“預測信號”。它是能夠預示自然獎勵即將到來的外部感官線索。例如,食物的香氣、甜美的味道、餐廳的招牌。大腦通過經驗學會,這些代理獎勵的出現,意味著真正的自然獎勵很可能隨之而來。
現代生活中的許多誘惑,正是通過放大“代理獎勵”并精準兌現“自然獎勵”來讓我們難以自拔的。夜宵、游戲、短視頻便是三個典型的案例。
以深夜加班后的那碗拉面為例。身體此時正處于低血糖的能量缺乏狀態,食物的香氣和味道首先作為一種代理獎勵,強烈地預示著能量即將到來。而當食物入胃,迷走神經感受到營養物質的輸入,并將“能量正在補充”的信號傳至腦干,最終促使大腦釋放多巴胺時,真正的自然獎勵才被兌現。此時,你的身體在用最誠實的方式告訴你:“這碗面成功地為我續命了!”這種由身體能量狀態真實改善所帶來的深刻滿足感,其力量遠比味覺刺激更強大,也解釋了為何我們明知夜宵不健康,身體的本能依然難以抗拒。
相比于夜宵對生理需求的直接修復,游戲則通過另一種方式——模擬生理興奮——來激活獎勵回路。當你在競技游戲中獲勝時,心跳會加快、血壓會上升,大腦會將這種生理上的高激活狀態與勝利的成就感錯誤地綁定,記錄下“這件事讓我的身體機能變強了”的信號。這種由游戲事件驅動的生理興奮本身就成了一種獎勵,即使意識已感到“沒意思”,但身體對腎上腺素飆升的依賴,仍在推動你渴望下一局的刺激。
而短視頻的邏輯則更為精妙,它通過碎片化、快速切換的特點,不斷制造“輕微期待”與“輕微滿足”的循環,頻繁地“微量”激活身體的反饋系統。每劃過一條視頻,身體都會進入一種微小的覺醒和期待狀態,當偶然刷到有趣內容時,心跳的瞬間加速、大腦皮層的活躍,都是內感受獎勵的體現。即使意識上感到空虛,但身體內部的反饋系統卻在不斷對大腦說:“繼續,下一個可能更精彩。”它讓我們沉迷于一種永不滿足、永在期待的過程本身。
從這三個案例中,我們可以看到獎勵系統運作的復雜性。夜宵的滿足感,更偏向于狀態驅動(state-driven)的獎勵,因為它真實地修復了身體的能量虧損狀態。而游戲和短視頻帶來的刺激,則更接近事件驅動(event-driven),獎勵與具體事件(勝利、刷到新內容)的發生緊密相關。更進一步,這也揭示了獎勵機制可以推廣到更高級的認知與動機行為,即目標相關獎勵(goal-dependent Reward)。
無論是修復生理穩態,還是在虛擬世界中達成目標,其底層都依賴于內感受系統對“狀態變好”的判斷和確認。正是這套深植于我們生理內部、常常被意識忽略的獎勵系統,解釋了為何在理智與本能的博弈中,我們常常身不由己。
![]()
忽視了“身體”的傳統模型
這種以內感受為核心的獎勵機制,也讓我們得以重新審視和反思人工智能領域中關于學習和決策的傳統模型。
在傳統的人工智能強化學習(RL)模型中,獎勵通常被定義為外部的、可量化的結果,例如在游戲中獲得高分、投資成功賺錢或在分類任務中得出正確結果。模型的核心是“行動”與“回報”的簡單映射。然而,在人類身上,真正被強化的不是外部結果本身,而是這些結果所引發的身體內部變化。
這解釋了許多傳統模型難以解釋的“非理性”行為。按照傳統理論,當垃圾食品帶來肥胖、疾病等負面后果時,我們應該迅速戒斷。但實際上,高糖高脂食物帶來的即時能量補充(一種強大的內感受獎勵),往往讓人難以自拔。類似的,吸煙對健康的危害眾所周知,但尼古丁能夠暫時緩解焦慮、提高專注力,這種生理上的“爽感”使得戒斷變得異常困難。如果不將“身體狀態”這一變量納入考量,現有的RL模型就無法完整且準確地解釋這些復雜的行為模式。
更進一步,這一框架也解釋了為什么人在不同狀態下(餓、困、累)判斷力會差異如此之大。當我們饑餓、疲憊或壓力山大時,身體內部的穩態被打破,內感受系統會向大腦發送強烈的“警報”信號。此時,大腦的優先級會從長遠規劃轉向解決眼前的生理需求,因此更容易做出沖動或短視的決策,例如,一個饑餓的人可能會更容易被食物廣告吸引并超量購買。
因此,Weber等人認為,如果不將“身體狀態”這一變量納入考量,現有的RL模型就無法完整且準確地解釋這些復雜的行為模式。僅僅依靠外部獎勵來驅動行為,如同盲人摸象,無法窺見人類行為的全貌。
人類行為的復雜性在于,它不僅僅是理性思考的產物,更是生理和心理相互作用的結果。我們的決策往往受到情緒、身體狀況、潛意識等多種因素的影響。內感受作為一種無意識的生理反饋系統,為大腦提供了關于身體內部環境的關鍵信息,從而影響了我們對外部世界的感知、評估和響應。
例如,當我們感到寒冷時,我們會本能地尋找溫暖的衣物或取暖設備。這個行為并非僅僅基于我們對“冷”的認知,更重要的是身體內部溫度下降所帶來的不適感,這種不適感通過內感受被大腦識別,并促使我們采取行動來恢復身體的穩態。當身體恢復溫暖時,大腦會記錄下這種“獎勵”,從而強化了未來在類似情境下采取相同行為的傾向。
與傳統強化學習(RL)模型只關注外部行動與回報不同,人類的學習與行為強化,本質上是以身體內感受為核心驅動的。外部事件之所以能成為“獎勵”,是因為它們引發了身體內部的即時變化,例如能量補充、多巴胺釋放、焦慮緩解或穩態恢復。這些內感受信號是大腦記憶強化的對象。人類的決策與習慣形成,并非僅依賴理性計算或外部獎懲,而是深深植根于生理狀態與心理體驗的交互過程。換言之,人類更接近一個“以內感受為獎勵機制的強化學習框架”,而非傳統意義上忽視身體維度的模型。
![]()
強化學習+內感受系統,
構建更真實的智能體
如果我們要設計一個真正像人類一樣思考和行動的AI,那么它不應該僅僅考慮“贏”或“輸”的外部結果,而應該能夠“感受到”行動過程中產生的內部變化。這需要將內感受系統融入到未來的AI模型中。為了構建更真實的智能體,未來的AI模型需要具備“具身智能”(embodied intelligence)的特性[3]。具身智能是指智能體不僅能感知和處理信息,還能通過與物理世界的交互來學習和適應,并且能夠感知和利用自身的內部狀態。
要實現這一目標,需要模擬“體內狀態系統”。AI模型需要能夠實時跟蹤模擬的能量狀態、壓力水平、內分泌變化等內部生理指標。這就像為AI配備一個“身體”,讓它能夠感知自身的“饑餓”、“疲憊”或“興奮”。這些模擬的內部狀態反饋需要與AI的強化學習機制相結合,用于調節決策權重。例如,當AI的“能量”不足時,它可能會更傾向于選擇那些能夠迅速“補充能量”的行為,即使這些行為在短期內效率不高。
這是一種全新的強化學習框架,將內感受作為獎勵信號的重要來源。在這種模型中,AI的決策不僅僅是為了最大化外部獎勵,更是為了優化自身的內部狀態,以達到一種“體內穩態”。這樣的AI或許才能真正地接近人類,擁有情緒、欲望、節奏甚至成癮傾向。例如情緒感知。如果AI能夠模擬內部壓力水平的變化,它或許就能“感受到”焦慮,從而調整其任務分配策略,避免過度負荷。
如果AI能夠模擬能量消耗,它或許就能“感覺到饑餓”,從而主動尋找“食物”(例如計算資源或數據),而不是被動等待任務分配。如果某種行為能夠持續帶來“內部獎勵”,即使從外部看效率低下,AI也可能表現出“成癮”的趨勢。
當前,人工智能領域巨頭,包括OpenAI、DeepMind、Meta都在積極探索“能感受身體狀態”的AI,或所謂的“具身智能”(embodied intelligence)——未來的AI將不僅僅是能夠處理信息和執行任務,更重要的是能夠感知并利用自身的身體狀態,從而實現更接近人類的智能。
具身智能的核心在于,智能體不僅擁有“大腦”,還擁有“身體”,并且能夠通過身體與環境進行交互,感知身體的內部狀態。機器人通過與物理世界的交互來學習和適應,例如學習如何抓取物品、如何在復雜環境中導航。AI模型在模擬環境中進行訓練,這些環境不僅模擬了物理世界的規律,還可能模擬了智能體的“身體”和“感官”系統。AI能夠整合來自不同模態(例如視覺、聽覺、觸覺)的信息,更全面地理解事物。
內感受為AI提供了一個全新的維度。如果AI能夠感知自身的“能量水平”、“計算負荷”、“傳感器狀態”等內部指標,它就能夠更智能地分配資源,更有效地規劃行動,甚至在某些情況下表現出類似“直覺”或“情緒”的特征。
例如,OpenAI的“具身智能體”(Embodied Agent)項目,就旨在引入類似神經內反饋的模塊,使AI能夠感知自身的內部狀態;以及DeepMind提出的“內穩態RL”(homeostatic RL)框架,這一框架旨在讓AI通過調節內部生理狀態來優化其行為,而不是簡單地追求外部獎勵。
在醫療領域,AI模型開始將患者的“主觀身體體驗”(例如疼痛感、疲憊程度)作為重要的診斷變量,以更全面地評估患者的健康狀況。傳統的醫療診斷主要依賴于客觀的生理指標和醫生的經驗。然而,患者的主觀感受(例如疼痛程度、疲勞感、焦慮情緒)往往是疾病診斷和治療效果評估的關鍵信息。
未來的醫療AI可能會整合這些“主觀身體體驗”作為診斷變量。例如,一個能夠理解患者內感受的AI,可能會更準確地識別出慢性疼痛患者的真實痛苦程度,或者更早地發現患者情緒波動的深層生理原因。這將使得醫療診斷更加個性化、全面化,并有助于開發更有效的治療方案。
此外,如果AI自身能夠具備內感受,那么它將不僅僅是一個被動執行指令的工具,而可能擁有更復雜的“欲望”和“選擇”。例如,一個模擬了計算負荷和壓力水平的AI,當其“壓力”過大時,可能會主動尋求“休息”或“優化資源”,從而避免崩潰。一個具備內感受的自動駕駛AI,可能不僅僅選擇最快的路徑,還會考慮乘客的舒適度,例如避免急剎車或顛簸路段。
設想一下,未來的AI或許真的能夠“覺得自己餓了”、“意識到自己焦慮”、“選擇更舒服的路徑”,AI將從“贏得更多”的單一目標,轉向追求“體內穩態”和“整體福祉”的多目標優化,從而使得AI的行為模式更加接近人類,也更具通用性。這無疑是人工智能發展史上一個里程碑式的突破。
![]()
未解決的問題
? 除了主要的宏量營養素(脂肪、碳水化合物、蛋白質)之外,還有哪些微量營養素參與產生口后(post-ingestive)信號?
? 與其他生理相關過程(例如親密關系、體溫調節和呼吸)相關的潛在主要獎賞信號是什么?
? 這些內感受相關的獎賞信號是如何與支持決策的大腦回路整合的?
? 內感受的獎賞機制在多大程度上可以推廣到與好奇心、目標達成或新奇事物相關的內在獎賞?
? 其他內感受性信號,例如處理心臟和呼吸相關信息,是如何與獎賞系統相互作用的?
? 延遲的內部強化信號和即時的外部強化信號的不同多巴胺信號是如何整合的(例如,在背側紋狀體和腹側紋狀體中)?
在傳統的營養與獎賞研究中,脂肪、碳水化合物與蛋白質被視為主要的能量來源與獎賞驅動。但近年來的研究指出,微量營養素同樣在口后階段發揮信號作用。例如鈉離子直接驅動飲食偏好,鈣、鐵、鋅等礦物質則通過體液平衡、造血與酶活性調控,間接影響進食的獎賞反饋。此外,維生素類也能通過神經遞質合成(如維生素B6對多巴胺與5-HT合成的作用)參與獎賞系統。由此可見,營養獎賞并非單一能量模型,而是多層次的信號整合。
若將視野擴展到其他生理過程,親密接觸帶來的催產素、加壓素信號,體溫調節中的溫敏通道與內啡肽釋放,呼吸中的二氧化碳水平反饋與迷走神經張力,均能成為潛在的獎賞來源。這些內感受信號不僅傳遞身體狀態的適配信息,也強化了與個體生存和社會聯系相關的行為,從而具備“內在獎賞”的屬性。
在神經環路層面,這些信號通過丘腦、島葉、扣帶皮層與伏隔核等區域進入獎賞系統,與經典的多巴胺驅動的決策回路相融合。背側紋狀體多與動作習慣和延遲獎賞整合相關,腹側紋狀體則更敏感于即時獎勵與預測誤差。由此形成的動態平衡,使得個體能在即時滿足與長遠目標之間進行靈活選擇。
值得注意的是,內感受獎賞機制具有可推廣性。研究顯示,好奇心、新奇探索與目標達成同樣會招募與內感受獎賞相關的神經環路,特別是島葉與伏隔核的活動模式,提示大腦可能利用相似的“內部價值計算”機制來評估不同類型的獎勵。與此同時,心跳、呼吸等節律性信號通過與腦干及邊緣系統的交互,進一步塑造獎賞敏感性。例如心臟收縮相關的信號可調節杏仁核與前額葉的情緒價值判斷。
因此,內感受相關的獎賞機制為理解多維度的人類動機提供了關鍵線索。它們不僅涵蓋食物與營養,還延展到社交、探索、情緒調節與長期決策,最終在分布式的神經環路中實現即時與延遲強化的整合。
![]()
結語:身體塑造了大腦
人們為何偏愛某些人、某些食物、某種娛樂方式?你為何做出那些決策?為何總是堅持不了自己的計劃?這些問題的答案在于,人們并不完全受大腦皮層中“理智”的調控。
真正改變人類行為的,往往不是單純的邏輯思考,而是身體內部的無聲反饋。Weber等人的研究,將我們從“頭腦決定論”的傳統觀念中,拉回到一個更具整體性和生物學基礎的“身體共謀論”。我們的學習系統,你從未在意的心跳節奏、腸道迷走神經,以及奶茶滑入口中的爽感,卻時時刻刻都在影響著你是誰。它不吵不鬧,卻無聲無息地塑造著我們的一切。
在快節奏的現代生活中,我們常常忽視身體發出的這些微弱信號。我們習慣于用大腦去思考、去分析、去決策,卻很少停下來傾聽身體的聲音。然而,正是這些微弱的、無意識的內感受,在潛移默化地影響著我們的行為、情緒和決策。
理解“自己其實沒那么理性”。我們應該嘗試更認真地對待自己身體的每一個回饋。當你感到煩躁不安時,問問自己是不是累了;當你渴望某種食物時,思考一下是真正的饑餓還是身體對某種生理獎勵的渴望;當你沉迷于某個娛樂活動時,感受一下身體的真實狀態。通過有意識地感知和理解這些內部信號,我們將能夠更好地駕馭自身,做出更符合長期利益的決策,從而活出更健康、更充實的人生。
![]()
[1]. Weber, L.A., Rangel, A., & Barrett, L.F. (2025). The interoceptive origin of reinforcement learning. Trends in Cognitive Sciences.
[2]. Critchley, H.D., & Garfinkel, S.N. (2017). Interoception and emotion. Current Opinion in Psychology.
[3]. OpenAI (2024). Embodied Agent: A Framework for Interoceptive AI. arXiv preprint.
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
關于追問nextquestion
天橋腦科學研究院旗下科學媒體,旨在以科學追問為紐帶,深入探究人工智能與人類智能相互融合與促進,不斷探索科學的邊界。歡迎評論區留言,或后臺留言“社群”即可加入社群與我們互動。您也可以在后臺提問,我們將基于追問知識庫為你做出智能回復哦~
關于天橋腦科學研究院
天橋腦科學研究院(Tianqiao and Chrissy Chen Institute)是由陳天橋、雒芊芊夫婦出資10億美元創建的世界最大私人腦科學研究機構之一,圍繞全球化、跨學科和青年科學家三大重點,支持腦科學研究,造福人類。
Chen Institute與華山醫院、上海市精神衛生中心設立了應用神經技術前沿實驗室、人工智能與精神健康前沿實驗室;與加州理工學院合作成立了加州理工天橋神經科學研究院。
Chen Institute建成了支持腦科學和人工智能領域研究的生態系統,項目遍布歐美、亞洲和大洋洲,包括、、、科研型臨床醫生獎勵計劃、、等。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.