人類擁有卓越的穩(wěn)定性和靈活性,即使面對突如其來的變化,也能迅速制定新的計劃并調(diào)整目標。然而,廣泛應用于機器人領(lǐng)域的“無模型強化學習”(AlphaGo 與李世石的著名對決便是其例證)卻難以同時具備這兩種能力。
韓國科學技術(shù)院 (KAIST) 的研究團隊發(fā)現(xiàn),秘密在于前額葉皮層內(nèi)獨特的信息處理方法,這一原理可以作為開發(fā)既靈活又穩(wěn)定的類腦人工智能的基礎(chǔ)。
由腦與認知科學系李相萬教授領(lǐng)導的研究團隊與 IBM 人工智能研究院合作,破譯了人類大腦如何在不確定情況下管理目標變化,為下一代強化學習指明了新的方向。
![]()
前額葉的秘密
研究團隊指出當前強化學習模型的一個關(guān)鍵局限性:它們無法在目標追求的靈活性和不確定環(huán)境下的穩(wěn)定性之間取得平衡。然而,人類卻能同時做到這兩點。該團隊假設(shè),這種差異源于前額葉皮層對信息的表征方式。
研究團隊利用功能磁共振成像(fMRI)實驗、強化學習模型和先進的人工智能分析,揭示了人類前額葉皮層具有獨特的嵌入結(jié)構(gòu),能夠將目標信息和不確定性信息分別表征,從而避免相互干擾。那些這兩個信息通道分離度更高的人,能夠在目標發(fā)生變化時調(diào)整策略,同時在環(huán)境不確定性下保持穩(wěn)定的判斷。
兩個通道,兩個功能
研究團隊將這種機制比作通信技術(shù)中的多路復用,即同時傳輸多個信號而不會相互干擾。
人類前額葉皮層通過兩個通道運作:一個通道能夠靈敏地跟蹤目標變化,以確保決策的靈活性;另一個通道能夠隔離環(huán)境的不確定性,以保持判斷的穩(wěn)定性。
有趣的是,前額葉皮層不僅僅是執(zhí)行由第一通道引導的控制;它還利用第二通道根據(jù)情況選擇使用哪種學習策略。
這表明大腦具有元學習能力,也就是說,它不僅學習學習什么,還學習如何學習——通過選擇合適的學習策略。這就是為什么人類能夠在不斷變化的環(huán)境中保持適應能力的原因。
這項研究的意義涵蓋多個領(lǐng)域,包括個體強化學習和元學習能力的分析、個性化教育設(shè)計、認知診斷以及人機交互(HCI)。此外,將類腦表征結(jié)構(gòu)嵌入人工智能,有望實現(xiàn)類腦思維的人工智能,使其更好地理解人類的意圖和價值觀,減少危險判斷,并促進與人類更安全的合作。
首席研究員李相完教授強調(diào)了研究結(jié)果的重要性:“這項研究從人工智能的角度闡明了大腦的基本運行原則——從靈活地適應不斷變化的目標到穩(wěn)定地制定計劃。這些原則將成為下一代人工智能的核心基礎(chǔ),使其能夠像人類一樣適應環(huán)境,并更安全、更智能地學習。”
新聞來源:Medical Press
論文參考:DOI: 10.1038/s41467-025-66677-w
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.