Nat Neurosci丨學(xué)習(xí)為何從“瞎蒙”到“開竅”？馬克斯·普朗克團(tuán)隊揭示三階段學(xué)習(xí)動態(tài)機(jī)制

2026-01-01 00:20:26　來源: 腦聲常談

上海舉報

分享至

學(xué)習(xí)不是一蹴而就的，每個人都會以自己的節(jié)奏反復(fù)嘗試、調(diào)整策略。傳統(tǒng)方法很難同時捕捉“突然出現(xiàn)的新行為”和“緩慢漸進(jìn)的改進(jìn)”。

基于此，2025年12月30日，德國馬克斯·普朗克研究所Sebastian A. Bruijns研究團(tuán)隊在nature neuroscience雜志發(fā)表了“Infinite hidden Markov models can dissect the complexities of learning”，揭示了無限隱馬爾可夫模型可解析學(xué)習(xí)的復(fù)雜性。

學(xué)習(xí)任務(wù)中的關(guān)聯(lián)規(guī)則具有挑戰(zhàn)性，個體往往以獨(dú)特的方式不斷調(diào)整策略，在探索中反復(fù)修正行為。要定量刻畫這種復(fù)雜的學(xué)習(xí)過程，需要一個既能捕捉全新行為、又能描述已有行為漸進(jìn)變化的模型。為此，研究者提出了一種動態(tài)無限隱半馬爾可夫模型（dynamic infinite hidden semi-Markov model），其潛在狀態(tài)對應(yīng)行為的具體組成部分：通過新增狀態(tài)表征新行為，通過現(xiàn)有狀態(tài)的動態(tài)演化反映細(xì)微適應(yīng)。該模型在100多只小鼠學(xué)習(xí)對比度檢測任務(wù)的行為數(shù)據(jù)上得到驗(yàn)證。盡管個體間差異顯著，大多數(shù)小鼠仍呈現(xiàn)出三個清晰的任務(wù)理解階段；這一方法為全面、精細(xì)地解析學(xué)習(xí)過程中的行為動態(tài)提供了有力的新工具。

圖一對比度檢測任務(wù)

研究人員分析了134只小鼠在學(xué)習(xí)一項(xiàng)感知決策任務(wù)中的行為，共涵蓋超過3,200個訓(xùn)練和近200萬次試驗(yàn)。實(shí)驗(yàn)中，頭部固定的鼠面對屏幕左右兩側(cè)隨機(jī)出現(xiàn)的正弦光柵（對比度可控），需通過轉(zhuǎn)動方向盤將目標(biāo)移至中央。成功則獲得水獎勵，失敗則聽到噪音并暫停1秒。小鼠可自主控制試次節(jié)奏，只需保持轉(zhuǎn)輪靜止即可開始下一次。

訓(xùn)練采用漸進(jìn)式塑形協(xié)議：從高對比度（100%、50%）開始，此時任務(wù)無感知難度，僅需掌握基本規(guī)則；當(dāng)小鼠在這些刺激上表現(xiàn)達(dá)標(biāo)（最近50次正確率≥80%），逐步引入更低對比度（25%、12.5%、6.125%），最終加入0%對比度（隨機(jī)獎勵）。為防止小鼠形成固執(zhí)的左右偏好，系統(tǒng)在錯誤后會提高相同刺激重復(fù)的概率（“去偏置”策略），這雖可能使整體獎勵率低于50%，但有效抑制了刻板行為。

為了捕捉小鼠在感知決策任務(wù)中高度個性化且不斷變化的學(xué)習(xí)過程，研究者開發(fā)了一種新模型：動態(tài)無限隱半馬爾可夫模型（diHMM）。它把每只小鼠的行為拆解成多個“行為狀態(tài)”，每個狀態(tài)持續(xù)若干試次，還能在不同訓(xùn)練日重復(fù)出現(xiàn)。每個狀態(tài)根據(jù)三方面預(yù)測選擇：當(dāng)前左右視覺刺激的強(qiáng)弱、過去的選擇習(xí)慣（偏向重復(fù)，但不用“贏留輸換”策略），以及天生的左右偏好。

相比傳統(tǒng)模型，diHMM更靈活：自動決定需要多少狀態(tài)，適應(yīng)個體差異，并能識別突然的行為轉(zhuǎn)變（“快過程”）；允許同一狀態(tài)隨時間慢慢優(yōu)化（“慢過程”）；狀態(tài)持續(xù)時間更真實(shí)，不被固定模式限制。

通過貝葉斯方法對每只小鼠全程數(shù)據(jù)整體擬合，模型揭示出：盡管學(xué)習(xí)路徑各不相同，復(fù)雜行為仍可被系統(tǒng)解析。這為理解真實(shí)世界中的學(xué)習(xí)提供了強(qiáng)大而直觀的新工具。

圖二 diHMM 擬合小鼠 KS014 的學(xué)習(xí)過程

研究人員以小鼠 KS014 為例，展示了他們新模型如何細(xì)致描繪學(xué)習(xí)過程。這只小鼠在訓(xùn)練中經(jīng)歷了8種不同的“行為模式”（稱為狀態(tài)），每種只持續(xù)幾次訓(xùn)練，隨后被新模式取代。

一開始，它完全無視屏幕上的視覺線索，隨機(jī)亂選（狀態(tài)1）；第二天突然變得固執(zhí)地偏向一側(cè)（狀態(tài)2），但仍未真正理解任務(wù)。之后進(jìn)入狀態(tài)3：起初仍偏倚嚴(yán)重，但逐漸學(xué)會主要依賴左側(cè)信息做判斷，當(dāng)左側(cè)沒信號時就“聰明地隨機(jī)猜”，反而提高了獎勵率。有趣的是，它偶爾會在訓(xùn)練快結(jié)束時切換到一種更優(yōu)的模式（狀態(tài)4），能同時利用左右信息、正確率更高，卻始終不愿在整場訓(xùn)練中使用。

真正的突破出現(xiàn)在狀態(tài)6：小鼠突然能準(zhǔn)確處理左右兩側(cè)的刺激，學(xué)習(xí)明顯躍升。但進(jìn)步并非一帆風(fēng)順：中間還短暫陷入狀態(tài)7，表現(xiàn)出極端偏倚，研究者推測這可能是“走神”或挫敗導(dǎo)致的臨時退步。最后，它通過狀態(tài)8快速掌握高難度任務(wù)，完成訓(xùn)練階段。

腦聲常談建立了多個《動物模型構(gòu)建與行為評估》交流群，群內(nèi)分享各種經(jīng)典和前沿的行為范式，共同交流解決動物實(shí)驗(yàn)中遇到的棘手問題，避坑少走彎路！有需要的老師可以掃碼添加微信進(jìn)入討論群！

這個模型的優(yōu)勢在于：它不僅能捕捉突然的行為轉(zhuǎn)變和緩慢的能力提升，還能發(fā)現(xiàn)舊策略的重復(fù)使用（比如狀態(tài)3和6會隔幾天再次出現(xiàn)），這是以往方法做不到的。此外，在單次訓(xùn)練中，模型也能識別出小鼠因疲勞、分心或連續(xù)失敗而發(fā)生的短暫行為波動。整體來看，學(xué)習(xí)不是一條直線上升的曲線，而是一段充滿試探、反復(fù)、靈活調(diào)整甚至“開小差”的真實(shí)旅程。

圖三不同行為類型對應(yīng)的心理測量函數(shù)具有鮮明特征

研究人員根據(jù)小鼠在高對比度試次中的獎勵率，將學(xué)習(xí)過程客觀劃分為三個階段：

階段1（獎勵率<60%）的小鼠基本忽略視覺刺激位置，僅表現(xiàn)出隨機(jī)或偏向性選擇；階段2（60%–78%）以“單側(cè)感知”為主，能有效利用一側(cè)信息，但對另一側(cè)近乎瞎猜；階段3（>78%）則表現(xiàn)為雙側(cè)注意力的建立并通過持續(xù)減少簡單試次的錯誤來精煉行為，最終達(dá)標(biāo)。每只小鼠的學(xué)習(xí)階段由其首次在某次訓(xùn)練中超過半數(shù)試次使用某類狀態(tài)的最高類型決定，因此階段進(jìn)展是單調(diào)遞增的。

分析顯示，絕大多數(shù)小鼠都經(jīng)歷了全部三個階段，其中階段3耗時最長（占訓(xùn)練時間約60%），反映從“理解任務(wù)”到“穩(wěn)定高表現(xiàn)”的精細(xì)優(yōu)化過程；而階段2最短，說明一旦學(xué)會關(guān)注一側(cè)，小鼠很快就能擴(kuò)展到兩側(cè)。這一三階段模型揭示了感知決策學(xué)習(xí)的共性路徑：先跨越兩個關(guān)鍵認(rèn)知門檻，再進(jìn)行長期行為打磨。

圖四快變與慢變：學(xué)習(xí)中的策略躍遷與微調(diào)

研究發(fā)現(xiàn)，小鼠的學(xué)習(xí)既包含“慢慢改進(jìn)”（慢變化），也依賴“突然換策略”（快變化）。當(dāng)小鼠停留在同一種行為模式中時，它會逐漸提升對視覺刺激的敏感度，但它的基本偏向（比如更愛選左邊）和重復(fù)上一次選擇的傾向幾乎不變。而當(dāng)它切換到一個全新行為模式時，尤其是那些讓它進(jìn)入更高學(xué)習(xí)階段的關(guān)鍵轉(zhuǎn)變，各項(xiàng)決策參數(shù)會發(fā)生明顯更大的調(diào)整，遠(yuǎn)超緩慢改進(jìn)的幅度。

有趣的是，雖然小鼠在整個學(xué)習(xí)過程中始終有點(diǎn)“慣性”（傾向于重復(fù)上次動作），但隨著它越來越會看屏幕上的信號，這種慣性的影響就逐漸變小。

總的來說，真正的進(jìn)步往往不是一點(diǎn)點(diǎn)磨出來的，而是在某個時刻“靈光一現(xiàn)”、切換到新策略后實(shí)現(xiàn)的躍升，這說明學(xué)習(xí)既需要微調(diào)，更需要突破。

總結(jié)

該研究通過無限隱馬爾可夫模型，首次在個體水平上精細(xì)解析了學(xué)習(xí)過程中快變與慢變的動態(tài)交織，揭示了行為策略如何通過突現(xiàn)新狀態(tài)與漸進(jìn)優(yōu)化共同驅(qū)動認(rèn)知提升，為理解復(fù)雜學(xué)習(xí)機(jī)制提供了強(qiáng)大而普適的計算框架。

文章來源

https://doi.org/10.1038/s41593-025-02130-x

腦聲小店基于深度科研洞察，專注為動物實(shí)驗(yàn)提供"簡器械·精實(shí)驗(yàn)"解決方案。我們突破高精設(shè)備局限，開發(fā)手工定制化儀器及配件，通過科研巧思將基礎(chǔ)工具轉(zhuǎn)化為創(chuàng)新實(shí)驗(yàn)方案。產(chǎn)品涵蓋行為學(xué)裝置、操作輔助工具等，使實(shí)驗(yàn)室在保持操作簡效的同時，實(shí)現(xiàn)精細(xì)化數(shù)據(jù)采集，助力科研人員以創(chuàng)造性思維發(fā)掘簡易儀器的潛在科研價值。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.