<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      自然·通訊:當環(huán)境“說謊”時,智能體如何做出可靠決策?

      0
      分享至


      導(dǎo)語

      盡管智能體在實驗環(huán)境中表現(xiàn)亮眼,但一旦進入真實世界,只要訓(xùn)練條件與環(huán)境稍有不一致,就可能出現(xiàn)“翻車”——輕則性能下降,重則做出災(zāi)難性決策。如何讓智能體在未知、變化的環(huán)境中依然穩(wěn)定可靠,是實現(xiàn)實際部署的關(guān)鍵難題。

      這篇論文提出了分布魯棒自由能模型(DR-FREE),將自由能原理與分布魯棒優(yōu)化相結(jié)合,把“應(yīng)對不確定性”的能力直接寫進智能體的決策機制中。實驗結(jié)果顯示,在存在噪聲和分布偏移(如高斯擾動)的環(huán)境下,DR-FREE 依然能夠順利完成任務(wù),而多種當前主流方法卻難以應(yīng)對。這一工作不僅展示了智能體在現(xiàn)實不確定環(huán)境中的應(yīng)用潛力,也為理解自然智能體如何在極少甚至沒有訓(xùn)練的情況下適應(yīng)復(fù)雜世界,提供了新的視角。

      關(guān)鍵詞:分布魯棒自由能(Distributionally robust free energy,DR-FREE),決策制定,魯棒性(Robustness),自主智能體(Autonomous agents),主動推理

      郭瑞東丨作者

      王璇丨審校



      論文題目:Distributionally robust free energy principle for decision-making 論文鏈接:https://www.nature.com/articles/s41467-025-67348-6 發(fā)表時間:2025年12月17日 論文來源:Nature Communications

      智能體在面對環(huán)境擾動時缺少魯棒性

      近年來,人工智能在諸多領(lǐng)域取得了突破性進展,然而,即便是性能最先進的 AI 智能體,在策略魯棒性方面仍與人類存在明顯差距。人類往往能夠在幾乎沒有、甚至完全沒有訓(xùn)練的情況下,,在復(fù)雜和充滿挑戰(zhàn)的環(huán)境中正常行動;相比之下,AI 智能體一旦脫離訓(xùn)練條件,就很容易“失靈”。

      造成這一差距的關(guān)鍵原因在于:AI 智能體學到的策略,通常高度依賴訓(xùn)練階段所假設(shè)的環(huán)境模型。一旦真實環(huán)境與訓(xùn)練模型之間存在哪怕很小的不匹配,策略性能就可能迅速下降,甚至完全失敗。例如,Atari游戲智能體假設(shè)訓(xùn)練期間與實際測試時環(huán)境一致,如果這個假設(shè)不成立,學習到的策略可能會失敗。

      這篇2025年12月17日發(fā)表在Nature Communication的論文,提出了DR-FREE模型,通過引入分布魯棒自由能原理和相應(yīng)的求解引擎,可使得訓(xùn)練出的智能體具有訓(xùn)練/環(huán)境模糊性的魯棒性,從而在與訓(xùn)練數(shù)據(jù)不同的環(huán)境中仍然能高效運行。

      方法核心:從自由能到分布魯棒自由能

      DR-FREE 的核心創(chuàng)新,建立在對經(jīng)典自由能原理(Free Energy Principle)的擴展之上。經(jīng)典自由能原理認為,智能體中的自適應(yīng)行為源于變分自由能的最小化,其中智能體基于其可用環(huán)境模型通過最小化自由能獲得策略。然而,這一框架隱含了一個強假設(shè)——智能體的內(nèi)部模型與真實環(huán)境是匹配的。在現(xiàn)實場景中,這一假設(shè)往往并不成立。DR-FREE 正是針對這一問題,對自由能原理進行了分布魯棒化擴展。

      而DR-FREE中,自由能不再只針對單一的訓(xùn)練模型進行最小化,而是在一個圍繞訓(xùn)練模型的“模糊性集合”中進行優(yōu)化。這一集合刻畫了訓(xùn)練模型周圍所有“可能但不完全可信”的環(huán)境,其大小由模型的統(tǒng)計復(fù)雜性所決定。智能體需要在這些可能環(huán)境中,找到在最壞情況下依然表現(xiàn)穩(wěn)健的策略。


      圖1:傳統(tǒng)方法和DR-FREE的對比。圖1a描繪了傳統(tǒng)智能體的決策流程框架。智能體在隨機環(huán)境中導(dǎo)航,目標是到達目的地同時避開障礙物。在特定時間步k-1,智能體基于其對環(huán)境的模型以及觀察結(jié)果/信念(統(tǒng)稱為狀態(tài)Xk?1)來確定動作。圖1b揭示了訓(xùn)練模型與智能體實際環(huán)境之間存在的不匹配問題,這種不匹配被定義為訓(xùn)練/環(huán)境模糊性。圖1c展示了經(jīng)典自由能最小化智能體的工作原理。在不考慮訓(xùn)練/環(huán)境模糊性的場景中,智能體所處的環(huán)境與其內(nèi)部模型完全匹配,智能體通過從最優(yōu)策略中采樣來確定策略。與之對比的圖1d描述了DR-FREE的分布魯棒自由能原理。該方法將經(jīng)典自由能原理擴展以考慮模型模糊性,通過在所有環(huán)境(屬于模糊性集合)上最小化最大自由能來識別魯棒策略。


      圖2:DR-FREE的求解引擎。圖2a為DR-FREE原理的數(shù)學表述,其優(yōu)化的目標函數(shù)分為統(tǒng)計復(fù)雜性項與期望損失項,這樣設(shè)計的目標函數(shù),使之能夠在無限維概率空間中進行貝葉斯最優(yōu)的不確定性和模糊性處理。圖2b詳細闡述了DR-FREE通過雙層優(yōu)化方法,用于計算DR-FREE原理導(dǎo)出策略的求解方法。在給定當前狀態(tài)xk?1,求解引擎首先使用生成模型和損失函數(shù),在所有模糊性集合中的可能環(huán)境上計算最大自由能,在獲得模糊性成本后,引擎在策略空間中最小化變分自由能,產(chǎn)生最優(yōu)策略和成本函數(shù)。圖2c揭示了DR-FREE策略的具體生成機制和函數(shù)形式,展示了如何從數(shù)學原理轉(zhuǎn)化為可執(zhí)行的決策規(guī)則。其中策略中的指數(shù)核包含三個關(guān)鍵成本組分,分別是動作成本,直接懲罰不同動作的代價;模糊性半徑ηk(xk?1,uk),量化對訓(xùn)練模型置信度的缺乏;模糊性成本:c(xk?1,uk),表示跨所有可能環(huán)境的最大自由能。

      DR-FREE求解引擎的核心突破在于將原本的無限維自由能最大化問題轉(zhuǎn)化為標量凸優(yōu)化問題,這使得算法可通過現(xiàn)有工具求解。

      實驗驗證:從機器人導(dǎo)航到復(fù)雜環(huán)境測試

      研究團隊在涉及真實機器人的實驗測試平臺上評估了DR-FREE(圖3a展示了實驗的物理平臺和智能體配置),這些機器人被訓(xùn)練要求在避免障礙物的同時到達期望目的地的任務(wù)。為了驗證DR-FREE在測試與訓(xùn)練數(shù)據(jù)不一致時的魯棒性,可用的訓(xùn)練模型是從有偏實驗數(shù)據(jù)中學習得到的,這些數(shù)據(jù)沒有充分捕捉真實環(huán)境并引入了模糊性。圖3b對應(yīng)導(dǎo)航任務(wù)中設(shè)計的非凸狀態(tài)獎勵函數(shù)。


      圖3.DR-FREE在導(dǎo)航場景下的表現(xiàn)。

      實驗表明,在模型存在顯著偏差的挑戰(zhàn)下,DR-FREE 是唯一能可靠完成導(dǎo)航任務(wù)的智能體,而忽視模糊性的傳統(tǒng)方法則普遍失?。▓D3c)。這一優(yōu)勢在真實機器人平臺上得到了直觀驗證(圖3d)。

      研究進一步揭示,DR-FREE 的決策邏輯具有可解釋的權(quán)衡機制:模糊性半徑如同一個“保守度”調(diào)節(jié)旋鈕。當模型可信時,策略會平衡目標與風險;當模型不確定時,策略則優(yōu)先規(guī)避認知風險,甚至可能忽略物理障礙(圖3e)。

      此外,DR-FREE 的數(shù)學形式還支持從行為反推其決策邏輯,能夠根據(jù)觀測數(shù)據(jù)重建出智能體內(nèi)在遵循的代價函數(shù)(圖3f),這為理解和解釋智能體行為提供了新工具。”

      “所有模型都是錯誤的,但有些是有用的?!盌R-FREE 正是對這一觀點的直接回應(yīng)。通過放松對訓(xùn)練階段精確建模的依賴,DR-FREE 使原本因偏差而“不可用”的模型重新具備決策價值。進一步地,將DR-FREE與深度強化學習相結(jié)合,可在多智能體架構(gòu)中引入更魯棒的異構(gòu)智能體。憑借魯棒自由能最小化原理和求解引擎,DR-FREE的框架讓智能體可以從因為環(huán)境改變或觀測帶有誤差而表現(xiàn)較差的模型中恢復(fù)魯棒策略。

      總結(jié)與未來方向

      總體來看,DR-FREE支持貝葉斯信念更新,隨著模糊性增加,DR-FREE會降低了智能體可用模型在模糊性上的權(quán)重。其提供的策略,不止適用于人工智能體,也可能被自然選擇挑中用于生命應(yīng)對異變且觀測模糊的環(huán)境,理論細菌可以在未知環(huán)境中導(dǎo)航,這種對生存至關(guān)重要的能力可在幾乎沒有訓(xùn)練的情況下實現(xiàn)的??紤]到模糊性是跨心理學、經(jīng)濟學和神經(jīng)科學等領(lǐng)域的關(guān)鍵主題,DR-FREE可能為生物學上合理的神經(jīng)解釋奠定基礎(chǔ),解釋自然智能體如何在沒有或幾乎沒有訓(xùn)練的情況下在挑戰(zhàn)性環(huán)境中魯棒地運行。

      自由能原理與強化學習讀書會

      自由能原理被認為是“自達爾文自然選擇理論后最包羅萬象的思想”,它試圖從物理、生物和心智的角度提供智能體感知和行動的統(tǒng)一性規(guī)律,從第一性原理出發(fā)解釋智能體更新認知、探索和改變世界的機制,從而對人工智能,特別是強化學習世界模型、通用人工智能研究具有重要啟發(fā)意義。

      集智俱樂部聯(lián)合北京師范大學系統(tǒng)科學學院博士生牟牧云,南京航空航天大學副教授何真,以及驥智智能科技算法工程師、公眾號 CreateAMind 主編張德祥,共同發(fā)起「」,希望探討自由能原理、強化學習世界模型,以及腦與意識問題中的預(yù)測加工理論等前沿交叉問題,探索這些不同領(lǐng)域背后蘊含的感知和行動的統(tǒng)一原理。讀書會已完結(jié),現(xiàn)在報名可加入社群并解鎖回放視頻權(quán)限。

      詳情請見:

      1.

      2.

      3.

      4.

      4.

      5.

      6.

      7.

      聲明:包含AI生成內(nèi)容

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      連發(fā)2道檄文,中港通告巴拿馬;港口保衛(wèi)戰(zhàn)已爆發(fā),后果不堪設(shè)想

      連發(fā)2道檄文,中港通告巴拿馬;港口保衛(wèi)戰(zhàn)已爆發(fā),后果不堪設(shè)想

      一善一待
      2026-02-05 09:27:18
      中國停運瓜達爾港!支持巴鐵放手去干,巴軍激戰(zhàn)四天,擊斃197人

      中國停運瓜達爾港!支持巴鐵放手去干,巴軍激戰(zhàn)四天,擊斃197人

      墨蘭史書
      2026-02-05 19:07:59
      時下我國龐大失業(yè)大軍都去哪里了?主要有6個去處,你認同嗎?

      時下我國龐大失業(yè)大軍都去哪里了?主要有6個去處,你認同嗎?

      慧翔百科
      2026-02-05 10:05:22
      搭載25顆“星鏈”衛(wèi)星,SpaceX“獵鷹9”火箭第二級出現(xiàn)異常狀況!公司此前申請部署100萬顆衛(wèi)星

      搭載25顆“星鏈”衛(wèi)星,SpaceX“獵鷹9”火箭第二級出現(xiàn)異常狀況!公司此前申請部署100萬顆衛(wèi)星

      每日經(jīng)濟新聞
      2026-02-03 17:23:12
      研究了幾萬顆恒星后,科學家發(fā)現(xiàn):太陽似乎被“精心設(shè)計”過

      研究了幾萬顆恒星后,科學家發(fā)現(xiàn):太陽似乎被“精心設(shè)計”過

      觀察宇宙
      2026-02-05 21:28:21
      訪華結(jié)束后,斯塔默果然變了!面對污蔑中國的反對黨,直接開懟

      訪華結(jié)束后,斯塔默果然變了!面對污蔑中國的反對黨,直接開懟

      銘記人類輝煌
      2026-02-04 23:01:32
      愛潑斯坦案再發(fā)酵,萬斯痛批精英墮落,特朗普喊翻篇,民主黨放話

      愛潑斯坦案再發(fā)酵,萬斯痛批精英墮落,特朗普喊翻篇,民主黨放話

      激發(fā)創(chuàng)新思維
      2026-02-06 00:26:18
      美國打完委內(nèi)瑞拉,連拉美小國都趁火打劫,張口就跟中國漫天要價

      美國打完委內(nèi)瑞拉,連拉美小國都趁火打劫,張口就跟中國漫天要價

      劉蕳愛下廚
      2026-02-04 17:08:38
      英皇娛樂酒店賣了地磚里79公斤黃金

      英皇娛樂酒店賣了地磚里79公斤黃金

      財聯(lián)社
      2026-02-05 14:42:06
      舊西藏老照片:貴族小姐容顏驚人,農(nóng)奴女孩衣衫破爛,命如草芥

      舊西藏老照片:貴族小姐容顏驚人,農(nóng)奴女孩衣衫破爛,命如草芥

      大運河時空
      2026-02-04 08:55:03
      萬斯:愛潑斯坦事件揭露美精英階層令人作嘔本質(zhì)!特朗普:該翻篇了!民主黨人:你等著

      萬斯:愛潑斯坦事件揭露美精英階層令人作嘔本質(zhì)!特朗普:該翻篇了!民主黨人:你等著

      紅星新聞
      2026-02-05 14:11:15
      東莞唐欣怡,你要出名了!

      東莞唐欣怡,你要出名了!

      東莞好生活
      2026-02-05 21:56:47
      柳州通報!這兩家機構(gòu),房屋安全鑒定涉嫌作假

      柳州通報!這兩家機構(gòu),房屋安全鑒定涉嫌作假

      南國今報
      2026-02-05 18:35:19
      所有人都喊房價要跌?2026年是你這輩子最后一次低成本上車的機會

      所有人都喊房價要跌?2026年是你這輩子最后一次低成本上車的機會

      維納斯的眼淚
      2026-01-23 14:44:29
      古巴人餓了,就有人給糧食,我不理解,沒有戰(zhàn)爭,沒有內(nèi)亂

      古巴人餓了,就有人給糧食,我不理解,沒有戰(zhàn)爭,沒有內(nèi)亂

      忠于法紀
      2026-01-26 18:44:10
      你無意中發(fā)現(xiàn)過別人哪些秘密?網(wǎng)友:這不是我一個單身狗能看的

      你無意中發(fā)現(xiàn)過別人哪些秘密?網(wǎng)友:這不是我一個單身狗能看的

      帶你感受人間冷暖
      2025-12-18 00:10:08
      現(xiàn)貨黃金重回5000美元上方

      現(xiàn)貨黃金重回5000美元上方

      每日經(jīng)濟新聞
      2026-02-05 07:54:12
      白邊的肌肉什么水平?

      白邊的肌肉什么水平?

      刺猬籃球
      2026-02-05 17:58:39
      1903年,30歲梁啟超和17歲王桂荃行房,兩人大汗淋漓

      1903年,30歲梁啟超和17歲王桂荃行房,兩人大汗淋漓

      南權(quán)先生
      2026-02-03 15:53:04
      交易達成?馬杜羅拿自由換石油,中方罕見撂重話,女總統(tǒng)光速掌權(quán)

      交易達成?馬杜羅拿自由換石油,中方罕見撂重話,女總統(tǒng)光速掌權(quán)

      奇思妙想生活家
      2026-02-05 14:16:38
      2026-02-06 02:48:49
      集智俱樂部 incentive-icons
      集智俱樂部
      科普人工智能相關(guān)知識技能
      5647文章數(shù) 4662關(guān)注度
      往期回顧 全部

      科技要聞

      美團買下叮咚買菜,防御還是進擊?

      頭條要聞

      與愛潑斯坦共舞嬉笑的神秘紅衣女子身份披露

      頭條要聞

      與愛潑斯坦共舞嬉笑的神秘紅衣女子身份披露

      體育要聞

      奇才:我學生……獨行俠:成交!

      娛樂要聞

      微博之夜卷入座位風波!楊冪超話淪陷

      財經(jīng)要聞

      中美"只會有好消息" 經(jīng)濟冷暖看房價

      汽車要聞

      李想為全新L9預(yù)熱 all in AI造更好的車

      態(tài)度原創(chuàng)

      家居
      房產(chǎn)
      親子
      手機
      公開課

      家居要聞

      簡雅序章 自然且閑適

      房產(chǎn)要聞

      新春三亞置業(yè),看過這個熱盤再說!

      親子要聞

      長大之后腸子都得悔青了

      手機要聞

      傳音Pova Curve 2手機亮相:天璣7100處理器,6.78英寸曲屏

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版