<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<p id="0vivk"><li id="0vivk"></li></p>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

強化學習：我們如何被獎勵塑造行為

2026-02-11 23:15:51　來源: 神經現實

北京舉報

0

分享至

很多時候，我們以為自己是在思考之后才學會某種行為。但從神經科學的角度看，學習往往發生得更早，也更隱秘。

當一個選擇帶來好結果，它更可能再次出現；當一個行為導致不利后果，它逐漸被抑制。

這種從反饋中調整行為的過程，被稱為強化學習（reinforcement learning）。它并不是某種高階推理，而是連接經驗、行動與未來選擇的基本機制。

在神經科學中，強化學習并不是從計算機科學“照搬”來的概念。相反，它最早來自對動物行為的觀察：獎勵不僅帶來愉悅感，更重要的是，它會改變行為的概率。正是這一點，讓獎勵成為塑造決策的關鍵力量。

從“被獎勵”到“做選擇”

早期心理學家很早就注意到，如果一個行為產生令人滿意的結果，它會在未來更頻繁地出現。久而久之，人們甚至提出一種激進的觀點：所有行為，都是為了獲得獎勵或避免懲罰。

這一思想在行為主義時代被推到極致。通過精心控制獎勵出現的方式——比如間隔多久、需要付出多少努力——研究者發現，行為可以被系統性地塑造。動物并不需要理解規則本身，只要反饋足夠穩定，行為模式就會逐漸成形。

真正讓“學習”與“決策”交匯的，是當環境中出現了多個可選項。當個體不再只是重復一個動作，而是在不同選項之間分配時間和精力，選擇本身就成為研究對象。

在這些多選項任務中，一個令人著迷的現象反復出現：個體往往不會把所有行為都壓到回報最高的選項上。相反，它們會在不同選項之間分配選擇次數，而且分配比例往往接近各選項獲得獎勵的比例。這種現象被稱為匹配行為。它描述了行為如何隨回報分布而變化，卻并不解釋行為為何如此。

更耐人尋味的是，在大多數實驗中，個體表現出的并不是“完美匹配”，而是一種偏離——它們對高回報選項的選擇不夠極端，對低回報選項的嘗試反而更多。這種現象被稱為欠匹配。

從結果上看，這似乎并不完全“理性”。如果目標是最大化回報，為什么不更堅決地選擇更好的選項？

大腦在做全局計算嗎？

一個重要的轉折在于，人們開始意識到：也許問題不在“結果是否最優”，而在大腦如何在時間中做決定。

在現實世界中，回報是隨機的、嘈雜的，真正的回報率需要很長時間才能估計清楚。如果要判斷“長期來看這樣做是否更好”，大腦必須保留大量歷史信息，并進行復雜計算。這在生物系統中并不容易實現。

相反，如果大腦采用的是一種局部規則——在當下偏向最近回報更高的選項——那么欠匹配反而是自然結果。每一次選擇，都是基于近期經驗的權衡，而不是對整體結構的精確把握。

從這種局部選擇規則出發，長期統計上的匹配行為會自然涌現，而無需大腦明確追求“最優解”。

當研究者把目光投向大腦時，這一假設開始獲得支持。在靈長類動物的實驗中，神經元的活動不僅與選擇本身有關，還會隨選項的回報歷史發生系統性變化。

某些神經區域中的神經元，其放電強度會反映某個選項在近期“有多值得選”。這種信號并不是一次性計算出的，而是通過對獎勵歷史的持續整合逐步形成。

重要的是，這種整合并不是無限的。較新的結果影響更大，較久遠的結果逐漸衰減。這意味著，大腦對世界的估計始終是動態的、帶有遺忘的。

學習信號來自哪里？

要讓估計發生改變，大腦需要一個關鍵信號：當結果與預期不一致時，系統必須“知道自己錯了”。

這正是預測誤差的核心思想。預測誤差并不只是“得到了多少獎勵”，而是“實際結果與預期之間的差異”。如果結果比預期好，估計上調；如果更差，估計下調。

在大腦中，某些神經系統的活動模式，與這種誤差信號高度一致。它們在結果超出預期時短暫增強，在結果落空時被抑制。這種信號并不是為了制造快感，而是為了驅動學習，讓連接發生改變。

隨著時間維度被引入，預測誤差也不再局限于結果出現的那一刻，而是逐漸提前，轉移到那些預示未來結果的線索上。這一現象，為更連續的學習模型提供了基礎。

正是在這樣的背景下，研究者開始借助計算機科學中的強化學習框架，對這些過程進行形式化描述。在這一框架中，個體被視為一個與環境互動的“代理”，通過行動獲得反饋，并試圖在時間中最大化回報。

這些模型提供了一種清晰的語言，用來描述學習、選擇和更新的關系。但它們并不等同于大腦的真實實現方式。某些算法在數學上優雅，卻可能難以在嘈雜、有限的神經系統中實現。

事實上，動物的行為往往偏離這些“理想模型”。它們會更新未被選擇的選項，會表現出選擇慣性，會在探索與利用之間搖擺。這些特征并非噪聲，而是生物系統在現實約束下的產物。

從神經科學的角度看，強化學習更像是一種視角，幫助我們理解：經驗如何塑造行為，反饋如何改變選擇，以及學習如何嵌入決策本身。

它提醒我們，所謂“理性”，并不意味著完美計算；所謂“學習”，也不意味著穩定收斂。在真實的大腦中，學習總是在有限信息、不確定環境和生物約束下展開。而正是在這種不完美中，行為才顯得如此真實。

在「神經現實 x Noetex Academy」新一期的決策神經科學課程中，你將進一步了解神經科學如何研究強化學習。在達特茅斯學院神經科學教授Alireza Soltani帶領下，你將進入生物、認知和計算三個層級，探尋決策機制的神經基礎，以及它如何啟發經濟學、認知科學和人工智能等領域的發展。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

2026年，大模型訓練的下半場屬于「強化學習云」

機器之心Pro 2026-01-12 14:03:47
0 跟貼 0
太瘋了！MIT博士在Transformer里造計算機，攻破LLM終極缺陷

新智元 2026-03-21 10:11:31
2 跟貼 2

AI編程元年：初級開發者被「團滅」？

新智元 2026-03-21 12:38:36
0 跟貼 0

硅谷500億巨頭翻車現場！Cursor被扒套殼Kimi，中國開源上大分

新智元 2026-03-21 12:38:50
0 跟貼 0
北航，清華，北大聯合發布：異構智能體協同強化學習！

機器之心Pro 2026-03-20 11:54:26
0 跟貼 0

對話越疆劉培超：春晚隱藏具身選手，卻是百億市值大玩家

量子位 2026-03-21 10:29:58
0 跟貼 0

模型飛機試飛，鏡頭一轉發現事不簡單，美女吃了熊心豹子膽

美妙一籮筐 2026-03-20 11:43:33
0 跟貼 0
VinciCoder：多模態統一代碼生成框架和視覺反饋強化學習

機器之心Pro 2025-11-17 14:12:38
0 跟貼 0

“媽，門口要錢，我們就不進去看你了”，游客在壺口瀑布外拍視頻被投訴侵權，山西壺口瀑布景區：事發地是陜西壺口瀑布，我們也是受害者

觀威海 2026-03-18 14:47:02
38488 跟貼 38488
豐田鉑智3X上市一周年迎OTA升級涉及Momenta R6強化學習大模型

太平洋汽車 2026-03-18 16:12:17
0 跟貼 0
重慶市市長胡衡華，被查

新京報政事兒 2026-03-20 14:09:55
789 跟貼 789
漲瘋了有商家暫停接單上海人慌了：最近正是剛需

上觀新聞 2026-03-20 15:10:07
459 跟貼 459
索尼大招來了！PS確認引入幀生成技術官方版更先進

游民星空 2026-03-21 11:04:11
1 跟貼 1
瑞士宣布暫停向美國出口戰爭物資

環球網資訊 2026-03-20 22:23:12
4841 跟貼 4841
導師朋友圈點贊后秒取消，研究生腦補一出大戲：是手滑還是故意的？

生物學霸 2025-10-12 17:12:27
0 跟貼 0
想玩機械模型？這個能發動！#金屬拼裝 #V12發動機

制造科技 2026-03-19 23:00:29
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
上海市中心知名醫院要“沒了”？網友感嘆曾經“早上5點去排隊搶號”；醫生發文“世上再無”，最新情況→

新民晚報 2026-03-20 19:27:19
969 跟貼 969
PS玩家的福音！PS5首席架構師官宣將推出等效幀生成庫技術

宗熙先生 2026-03-21 10:45:01
0 跟貼 0
新華社消息｜四部門印發指引規范平臺企業開展勞動規則和算法協商

新華社 2026-03-20 15:21:09
0 跟貼 0
陳翔六點半：原來，大腦是這么做出決策的！

呲花娛樂 2026-03-20 17:43:50
1 跟貼 1
攔無人機越攔越虧？這枚導彈直接改寫防空規則

看你像個寶 2026-03-21 11:09:27
1 跟貼 1
1101套房只有1人選房，深圳一安居房項目屢戰屢“冷”

南方都市報 2026-03-20 22:14:18
655 跟貼 655
男子講他的手辦模型都是幾十塊買的，于是老婆用豆包詢問價錢，網友：最后豆包還回一句“差不多”

重慶科教融媒體 2026-03-21 12:20:29
0 跟貼 0
拉里賈尼遇害，光有內鬼還不夠，以色列玩起“算法獵殺”？

谷火平 2026-03-18 18:56:25
0 跟貼 0
漲價！浙江姑娘腸子悔青，去年沒下單今年貴5000元！老板：可能還要漲

浙江之聲 2026-03-20 13:26:35
440 跟貼 440
看似平常現象背后，實則隱藏神秘機制，探究其中原理真相

趣味加工廠 2026-03-20 00:00:00
0 跟貼 0
馬筱梅產后一月，汪小菲三大決策，小玥兒擔憂成真

二凱訓猛犬 2026-03-21 10:37:57
0 跟貼 0
浙江一中學招聘競賽教練，最高200萬元年薪，學校：已有人致電咨詢

大風新聞 2026-03-20 22:27:03
69 跟貼 69
旅美博后研究員因竊取研究資料被判刑一年

生物學霸 2026-03-20 17:36:18
0 跟貼 0
河南這所高校！更名大學！

大象新聞 2026-03-21 07:45:19
17 跟貼 17
常州首富汪立平被留置：從技術員到千億液壓件龍頭創始人

澎湃新聞 2026-03-20 18:02:26
601 跟貼 601
4500萬美金，說沒就沒了。就因為肺上破了個洞

歲月有情1314 2026-03-21 11:39:02
1 跟貼 1
上海科技館一展板現多個錯別字？館方回應：屬實，已撤下重新制作

上游新聞 2026-03-20 14:04:10
321 跟貼 321
3.21世界睡眠日 | 睡不著別硬抗！快來對照自查，你失眠到哪種程度了

醫學界神經病學頻道 2026-03-21 10:00:42
1 跟貼 1
數字治理 | 算法治理的公共價值重塑

社會科學報 2026-03-21 12:06:55
0 跟貼 0
《人類科學技術史-230》經典力學體系的建立

地球生物與人類文明 2026-03-18 09:02:43
0 跟貼 0
日本面臨存亡危機，伊朗發出攻擊警告，高市需在24小時內決策

世界背后的秘密 2026-03-21 01:34:59
0 跟貼 0
歷史背后的細節（四）

大方看世界 2026-03-20 14:56:34
0 跟貼 0
微型發動機模型

制造科技 2026-03-19 14:44:11
0 跟貼 0

宇樹科技IPO獲受理，最新股東名單來了

宇樹科技IPO獲受理，最新股東名單來了

新浪財經

2026-03-20 22:53:33

曝雙頂流的孩子已經三周歲

聚焦最新動態

2026-03-21 08:06:03

不敢打仗，不想打仗，也打不了仗，革命衛隊軍心散了！

不敢打仗，不想打仗，也打不了仗，革命衛隊軍心散了！

知兵

2026-03-20 23:55:04

霍爾木茲海峽之戰

新民周刊

2026-03-21 09:08:51

85后花20萬租下農村老宅20年，用50萬打造理想的院子，一家三口從城市搬進鄉村：與其花大價錢買學區房，不如在鄉村給孩子更開闊的成長空間

85后花20萬租下農村老宅20年，用50萬打造理想的院子，一家三口從城市搬進鄉村：與其花大價錢買學區房，不如在鄉村給孩子更開闊的成長空間

大風新聞

2026-03-21 11:27:04

“這次穿得算保守了”，女老師短裙配蕾絲襪，學生上課頭都不敢抬

“這次穿得算保守了”，女老師短裙配蕾絲襪，學生上課頭都不敢抬

妍妍教育日記

2026-03-21 10:05:03

“媽，門口要錢，我們就不進去看你了”，游客在壺口瀑布外拍視頻被投訴侵權，山西壺口瀑布景區：事發地是陜西壺口瀑布，我們也是受害者

“媽，門口要錢，我們就不進去看你了”，游客在壺口瀑布外拍視頻被投訴侵權，山西壺口瀑布景區：事發地是陜西壺口瀑布，我們也是受害者

觀威海

2026-03-18 14:47:02

大反轉！油價直線跳水，以色列、美國接連發聲，全球市場迎震蕩

大反轉！油價直線跳水，以色列、美國接連發聲，全球市場迎震蕩

魏家東

2026-03-20 13:11:55

挨了伊朗的打，卻不敢吭聲：海灣國家詭異沉默的玄機！

挨了伊朗的打，卻不敢吭聲：海灣國家詭異沉默的玄機！

識局Insight

2026-03-20 21:05:47

小仙女直接抄家啊！安徽網友自爆相親經歷，豆包都憤怒高呼趕緊跑

小仙女直接抄家啊！安徽網友自爆相親經歷，豆包都憤怒高呼趕緊跑

火山詩話

2026-03-21 10:01:19

凌晨6點我軍編隊遇襲！兩艘不明軍艦突然逼近，南昌艦果斷亮劍

凌晨6點我軍編隊遇襲！兩艘不明軍艦突然逼近，南昌艦果斷亮劍

音樂時光的娛樂

2026-03-20 20:10:22

CMG電影盛典獲獎名單：章子怡高葉同獲影后！影帝影后都是雙黃蛋

CMG電影盛典獲獎名單：章子怡高葉同獲影后！影帝影后都是雙黃蛋

露珠聊影視

2026-03-21 11:21:32

庫克回應OpenClaw帶動Mac Mini大賣

庫克回應OpenClaw帶動Mac Mini大賣

界面新聞

2026-03-21 13:02:22

險逆轉27分！楊瀚森17+11下半場發威：打9人無中鋒陣容侵略性不足

險逆轉27分！楊瀚森17+11下半場發威：打9人無中鋒陣容侵略性不足

顏小白的籃球夢

2026-03-21 11:44:00

伊朗發動大規模打擊，還要全球追殺美以官員：在國外度假也“不再安全”！伊最高領袖新年致辭：發展“抵抗經濟”，增強國家韌性

伊朗發動大規模打擊，還要全球追殺美以官員：在國外度假也“不再安全”！伊最高領袖新年致辭：發展“抵抗經濟”，增強國家韌性

每日經濟新聞

2026-03-21 00:59:04

上海航交所：原油運價大幅回調

每日經濟新聞

2026-03-21 10:41:03

4S店蹭飯260次后續：男子已社死，被同學認出，博主調解反被追責

4S店蹭飯260次后續：男子已社死，被同學認出，博主調解反被追責

離離言幾許

2026-03-20 17:20:41

以色列：伊斯梅爾·艾哈邁迪已身亡

以色列：伊斯梅爾·艾哈邁迪已身亡

都市快報橙柿互動

2026-03-20 22:17:55

淚流滿面！網傳20歲女生倒追40歲副教授，半年拿下，倒貼12萬嫁妝

淚流滿面！網傳20歲女生倒追40歲副教授，半年拿下，倒貼12萬嫁妝

火山詩話

2026-03-20 06:32:04

警方追捕23年，人販子“梅姨”謝某某終落網

警方追捕23年，人販子“梅姨”謝某某終落網

界面新聞

2026-03-21 12:58:55

大腦，心智，認知

2475文章數 25495關注度

往期回顧全部

科技要聞

宇樹招股書拆解，人形機器人出貨量第一！

頭條要聞

81歲老人呼吸衰竭女兒曾拒絕插管：以為要失去爸爸了

頭條要聞

81歲老人呼吸衰竭女兒曾拒絕插管：以為要失去爸爸了

體育要聞

誰在決定字母哥未來？

娛樂要聞

CMG盛典獲獎名單：章子怡高葉同獲影后

財經要聞

通脹警報拉響，加息潮要來了？

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億全年營收767億

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

家居

房產

數碼

親子

藝術要聞

第四屆深圳大芬國際油畫雙年展 | 國際入選油畫選刊（二）

家居要聞

時空交織空間綺夢

奶棕撞色輕法輕奢風
復古格紋輕法森系風
侘寂美學無用之美

房產要聞

全城狂送1000杯咖啡！網易房產【早C計劃】，即刻啟動！

數碼要聞

小米NAS終于要來了！官方發布影像管理需求調研問卷

親子要聞

十萬火急，產婦在家突發急產，29 周早產男寶全身發紫！兒科醫院早產兒救援與時間賽跑

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<legend id="fh6fh"><track id="fh6fh"></track></legend>

<legend id="fh6fh"><track id="fh6fh"></track></legend>

<style id="fh6fh"></style>