<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      活性物質的強化學習

      0
      分享至

      Reinforcement Learning for Active Matter

      活性物質的強化學習

      https://arxiv.org/pdf/2503.23308


      活性物質是指由自我驅動實體組成的系統,這些實體消耗能量以產生運動,表現出復雜的非平衡動力學,挑戰了傳統模型。隨著機器學習的快速發展,強化學習(RL)已成為應對活性物質復雜性的一個有前景的框架。這篇綜述系統地介紹了RL在引導和控制活性物質系統中的應用,重點關注兩個關鍵方面:單個活性粒子的最佳運動策略和活性群體集體動力學的調節。我們討論了使用RL來優化單個活性粒子的導航、覓食和運動策略。此外,還研究了RL在調節集體行為中的應用,強調了其在促進活性群體的自組織和目標導向控制中的作用。這項研究為RL如何推進對活性物質的理解、操控和控制提供了寶貴的見解,為生物系統、機器人技術和醫學科學等領域的未來開發鋪平了道路。

      I. 引言

      活性物質是指具有內在推進機制的系統,使它們能夠將能量轉化為運動。這些系統,從微觀的自我推進粒子(如細菌)到較大規模的動物群體和受生物啟發的機器人群體,表現出顯著偏離平衡系統的行為,這是由于持續的能量輸入。活性物質的理論模型,如活性布朗粒子(ABP)模型和連續理論方法,已被開發出來解釋這些異常行為。例如,單個活性粒子表現出短時間超擴散和長時間菲克擴散,這可以通過在朗之萬方程中引入持久速度項來捕捉。同樣,集體行為,如活性晶體的形成或運動誘導的相分離,可以通過ABP模型有效建模和描述。雖然這些模型為理解活性物質的豐富現象提供了框架,但它們主要側重于解釋觀察到的行為,而不是提供主動引導或控制這些動態的方法。

      基于對活性物質的理解,引導或控制其動態的能力在一系列應用中具有重要意義。控制單個活性粒子的運動允許在自主導航、資源搜索和高效運動等任務中進行精確操作,特別是在不確定性條件下。這些能力在微觀機器人技術、生物醫學工程和其他領域至關重要,其中控制單個粒子可以推動藥物輸送、納米級制造和環境感知的進步。在更大規模上,活性物質系統中集體行為的調節使群體動態能夠協調執行集體運輸、自適應材料和分布式計算等任務。這種控制可能導致機器人技術、環境監測甚至智能材料開發領域的創新,這些材料能夠適應不斷變化的外部條件。因此,實現對活性物質中個體和集體動態的有效控制對于推進各個科學領域的實際應用至關重要。

      鑒于活性物質非平衡性質帶來的挑戰,強化學習(RL)已成為優化和引導其行為的強大工具。RL提供了一個強大的框架,通過與環境的互動學習,使系統能夠適應并發現導航、任務分配和協調等任務的最優策略。與傳統控制方法不同,這些方法通常依賴于預定義的模型或外部輸入,RL通過試錯學習策略促進自主決策。這種實時適應和優化的能力使RL特別適合活性物質系統的復雜性,因為它允許它們不斷調整以適應動態和不可預測的環境。通過將RL應用于活性物質系統,研究人員可以開發策略,引導單個粒子通過不確定條件,并控制大規模活性群體在集體任務中的協調。因此,將RL整合到活性物質的研究中,不僅加深了我們的理解,而且為需要操控和優化復雜系統的實際應用提供了一條路徑。鑒于這些基礎,本綜述系統總結了RL技術在活性物質研究中的整合。本文組織如下: 第二節提供了活性物質和RL的概述。 第三節檢查單個活性粒子的最佳運動策略,涵蓋點對點導航問題、覓食策略和運動策略,說明RL如何在不確定環境中優化運動和決策。第四節專注于活性群體的集體動態調節,其中RL被應用于促進活性粒子的自組織和群體行為的目標導向控制。最后,我們在第五節結束綜述,突出關鍵見解并為這一新興領域的未來研究提出有希望的方向。

      II. 活性物質和強化學習的概述

      在探討將強化學習(RL)應用于活性物質系統之前,我們首先概述活性物質和RL的關鍵概念。II.A節介紹了活性物質的基礎方面,涵蓋其各種類型、非平衡行為和推進機制。II.B節隨后轉向RL,概述其核心概念以及它如何使系統通過與環境的互動學習最優行為。

      A. 活性物質

      活性物質指的是能夠將能量轉化為運動的系統,由內在的推進機制驅動。這些系統跨越了廣泛的規模和類型,從像自我推進的膠體粒子和細菌這樣的微觀實體,到動物群體和受生物啟發的機器人群體這樣的較大規模結構。與趨于達到平衡的被動系統不同,活性物質系統持續消耗能量并表現出非平衡行為,如自我推進、運動誘導的相分離和新興的集體動態。

      活性物質有多種類型,典型的例子如圖1所示。人工活性膠體,如Janus粒子和化學驅動的微型游泳者,通常在實驗室設計,并通過外部場或化學反應表現出受控運動。微生物系統,如細菌或藻類,依賴于自然推進機制,如鞭毛或纖毛,響應環境線索進行運動。在更大尺度上,動物群體,如魚群或鳥群,表現出由局部互動驅動的集體行為,導致沒有集中控制的協調運動。同樣,受生物啟發的機器人群體模仿這些自然系統,使用一系列自主代理集體執行任務。


      活性物質的行為本質上是非平衡的,由于持續的能量輸入。單個活性粒子經常表現出異常擴散。例如,活性粒子在短時間可以表現出超擴散,其中它們的位移隨時間線性增長得更快,而在長時間則表現出菲克擴散,其中它們的運動轉變為標準增強擴散。活性物質系統中的集體動態也表現出非平衡行為,如群體形成、模式創建和運動誘導的相分離,其中粒子或代理之間的局部互動產生全局模式。

      這些非平衡現象突顯了與平衡系統的關鍵區別,其中波動通常被平均化,系統趨于達到穩定狀態。相比之下,活性物質系統表現出持續波動,并可以自組織成由內部能量消耗驅動的動態結構或模式。

      B. 強化學習

      強化學習(RL)是一類強大的機器學習算法,使代理能夠通過與環境的互動學習最優行為。在RL中,代理在環境中采取行動,以獎勵或懲罰的形式接收反饋,并旨在最大化其隨時間的累積獎勵。與監督學習不同,監督學習中模型是在標記數據上進行訓練的,而RL在試錯范式下運行,其中代理不斷探索不同的行動以發現最有效的策略。

      RL通常使用馬爾可夫決策過程(MDP)進行建模,它為決策問題提供了一個數學框架。如圖2所示,MDP由一組狀態S、一組動作A、一個轉移函數P(s'|s, a),定義了在狀態s中采取動作a后轉移到狀態s'的概率,以及一個獎勵函數R(s, a),它給出了在狀態s中采取動作a后立即收到的獎勵。RL代理的目標是學習一個策略π(a|s),將狀態映射到動作,以一種最大化隨時間的累積獎勵,通常測量為回報。這個回報通常計算為未來獎勵的總和,通常由一個因子γ折現,表示代理對即時獎勵相對于遠期獎勵的偏好。

      RL算法通常可以分為基于價值、基于策略和演員-評論家方法。在基于價值的方法(如Q學習)中,代理學習一個價值函數,估計每對狀態-動作對的預期回報。深度Q網絡(DQN)通過使用深度神經網絡來近似Q值函數,使RL能夠應用于復雜、高維的狀態空間。在基于策略的方法中,代理直接學習一個策略函數,將狀態映射到動作,而無需學習顯式價值函數。一種流行的策略優化方法是近端策略優化(PPO),它確保更新不會偏離先前策略太遠,提高穩定性和樣本效率。另一方面,演員-評論家方法結合了基于價值和基于策略方法的優點。這里使用兩個模型:一個用于估計價值函數(評論家),另一個用于估計策略(演員)。例如,A2C(優勢演員-評論家)是一種常用的演員-評論家方法,通過考慮優勢函數來提高演員學習效率,該函數衡量在給定狀態下采取特定行動相對于平均行為的相對收益。

      這些RL算法為復雜環境中的學習提供了多種方法,并已成功應用于廣泛的科學任務。在接下來的章節中,我們將討論這些算法在活性物質系統中的應用。

      III. 單個活性粒子的最優運動策略

      在本節中,我們探討了如何應用RL來優化單個活性粒子的運動策略。如圖3所示,這包括檢查三個關鍵方面:點對點導航問題,專注于不確定環境中的最優路徑規劃;覓食策略,其中RL用于增強資源的搜索和收集;以及運動策略,旨在優化活性粒子的運動方式,包括速度、方向、粒子配置和其他因素的決策,以實現有效的門控規劃和對環境波動的適應性響應。


      A. 點對點導航問題

      點對點導航問題涉及引導代理從初始位置到環境中的目標位置的任務,該環境受到諸如洋流、風或其他動態因素的影響。該問題的目標是在考慮各種約束(如時間、能量消耗或系統穩定性)的情況下識別最有效路徑。解決此問題的傳統方法通常依賴于多種成熟技術,包括最優控制理論、動態規劃和幾何方法如芬勒幾何。這些方法旨在通過提供明確的控制策略來最小化旅行時間或能量消耗,指導代理在環境中的移動。

      然而,在活性物質系統中,這些傳統方法由于環境異質性、隨機擾動和活性粒子的非平衡性質而面臨局限性。這突顯了對能夠考慮活性物質系統中固有的不確定性和復雜性的更適應性方法的需求。

      鑒于傳統方法的局限性,RL為單個活性粒子的點對點導航問題提供了一個有前景的解決方案,因為它能夠適應動態和不確定的環境。與傳統方法不同,RL允許活性粒子通過試錯學習最優導航策略,根據實時反饋調整其動作。這種靈活性使RL能夠克服環境異質性和活性物質系統的特征非平衡動態帶來的挑戰。

      基于這些期望,S. Colabrese等人的開創性研究調查了RL在優化周期性渦流中重力微游動器導航策略中的應用。研究人員在數值實驗中應用Q學習算法,使微游動器能夠根據局部流動信息自主調整其游泳方向,允許它們最大化其垂直位移。結果表明,這些智能微游動器能夠通過試錯學習近優導航策略,有效逃避流動誘導的捕獲區域并利用“流體電梯”效應實現更高效的上升。這種基于RL的方法顯著優于傳統被動重力策略,后者通常無法克服強渦區域和剪切流區的挑戰。此外,研究表明,微游動器表現出對流場變化的適應性,突顯了RL在優化變化環境中的導航策略方面的多功能性。

      隨后,M. Nasiri等人引入了一種深度RL方法,使用A2C算法,在模擬的二維力場和流場中引導活性粒子朝向目標。通過將環境離散化為網格世界表示,他們的方法避免了獎勵塑造的需要,允許活性粒子僅從經驗中漸近學習近優路徑,并復制已知分析解的更簡單設置。此外,它成功處理了更具挑戰性的場景,包括高斯隨機勢場,其中經典路徑規劃算法經常失敗。在另一項代表性的模擬工作中,M. Putzke等人采用僅依賴于距離和目標方位的表格Q學習算法,展示了活性粒子通過勢壘、均勻流、泊肅葉流和渦流進行的時優導航。值得注意的是,他們的結果在中等方向噪聲下保持穩健,表明Q學習可以在現實條件下保持高性能。

      在這些進展之后,S. Mui?os-Landín等人通過在真實實驗條件下實施RL應用擴展了其應用。如圖4(b)所示,他們的研究展示了基于RL的導航控制在水環境中通過自熱泳推進的人工金納米粒子涂層微游動器的可行性。與模擬代理不同,這些微游動器面臨重大挑戰,包括布朗運動、反饋延遲和外部噪聲。為了解決這些問題,研究人員設計了一個離散網格世界框架,并采用Q學習算法引導微游動器通過激光誘導推進朝向設計目標。盡管其微觀環境的隨機性,微游動器成功地僅通過與環境的互動學習最優導航策略,顯示了RL在現實世界活性物質系統中的穩健性。這一實驗驗證標志著在現實世界中將強化學習與活性粒子控制整合的重要一步,彌合了理論模型與物理實現之間的差距。


      除了上述研究外,表I中還可以找到一系列其他基于RL的單個活性粒子點對點導航問題的工作。綜合來看,這些工作拓寬了RL在活性物質系統中導航的范圍,強調了RL處理非平衡環境復雜性的能力。現有算法的進一步細化和實驗反饋的更深入整合可能會進一步推進該領域。潛在的發展方向包括設計自適應獎勵結構以處理多目標任務(例如平衡速度和能量效率)以及擴展到多代理系統,其中大量活性粒子協調實現共享目標。這些發展對于實現RL驅動的導航在微觀和宏觀尺度上的穩健、現實世界應用至關重要。


      B. 覓食策略

      覓食策略指的是生物體為了從環境中定位和獲取資源而采用的一系列行為和決策過程。與通常涉及從已知起點到目標目的地的點對點導航問題不同,覓食要求個體尋找并收集通常分散、變化多端和不確定的資源。在自然界中,覓食行為可以在各種尺度上觀察到,從微生物尋找營養物質到動物在廣闊而復雜的環境中尋找食物。

      解決覓食問題的傳統方法通常依賴于諸如Lévy行走和基于布朗運動的方法等已建立模型,這些方法試圖模仿在生物體中觀察到的高效覓食模式。這些方法通常假設環境是靜態的,其性能依賴于預定義的運動規則,通常基于對資源分布的簡單假設。然而,在現實世界環境中,資源可能稀缺、短暫或動態變化。這突顯了對更靈活、適應性強的覓食策略的需求。

      特別是,RL從根本上解決了序列決策問題,其中代理通過試錯學習從反饋中逐步完善其行為。這一過程反映了生物體在提高覓食效率時采用的適應策略。在自然系統中,覓食者在探索(尋找新資源)和開發(利用已知資源)之間取得平衡,這與RL的核心原則緊密對齊。隨著環境動態變化,RL通過基于實時環境反饋不斷調整策略,相較于傳統方法提供了顯著優勢。

      在微觀尺度上,幾項研究已將RL應用于優化活性粒子的覓食策略。如圖5(a)所示,M. Nasiri等人采用深度Q學習訓練智能活性粒子在模擬環境中高效覓食營養物質。研究考慮了具有有限感官輸入的代理,特別是,它們只能感知局部營養物質濃度、它們的健康狀況和當前方向,而沒有對環境的全局知識。作者比較了兩種控制模型:隨機行走(RT)模型和方向控制(DC)模型。結果表明,經過RL訓練的代理表現優于傳統的隨機搜索策略,包括Lévy行走和趨化,通過學習利用最初未知的環境相關性。此外,訓練過的代理表現出強大的泛化能力,成功地將它們的覓食行為應用于不熟悉的、結構不同的環境。M. Caraglio等人進行的另一項工作專注于使用RL算法優化間歇性活性布朗粒子的目標搜索策略。在這項研究中,ABP能夠在兩種不同模式之間切換:被動布朗運動模式和主動布朗運動模式。采用投影模擬學習高效切換策略,其中粒子主要根據它們在當前階段停留的時間長度以及是否找到目標來決定它們在被動或主動階段停留多長時間。研究人員發現,目標搜索效率隨著活性階段的自推進而增加。有趣的是,被動階段的最佳持續時間隨著活動度的增加單調減少,而主動階段的最佳持續時間表現出非單調行為,在中間Péclet數達到峰值。


      另一方面,對于宏觀尺度的動物覓食,RL也顯示出模擬適應性搜索行為的巨大潛力。例如,G. Mu?oz-Gil等人開發了一種RL框架,通過模擬學習在隨機分布目標環境中覓食的代理來探索動物覓食策略。研究集中在非破壞性覓食模型,其中代理必須搜索可補充的目標。該模型采用投影模擬算法最大化搜索效率,代理在每一步選擇繼續在同一方向前進或轉向新隨機方向。數值實驗表明,RL代理學習的策略超過了Lévy行走和雙指數分布等已知模型的效率,為生物體的學習過程提供了寶貴的見解。同樣,N. J. Wispinski等人將深度RL應用于研究斑塊覓食,這是生態學和動物覓食中的基本優化問題。在這項工作中,代理通過RL在連續3D環境中學習適應性調整其斑塊保留行為。然后,他們的學習策略與邊際價值定理(MVT)進行比較,邊際價值定理是覓食的著名理論解決方案,以評估它們接近最優行為的程度。這里使用最大后驗策略優化算法在連續3D覓食環境中訓練代理。代理的任務是根據每個斑塊內衰減的獎勵決定何時離開一個斑塊并前往新斑塊。結果表明,代理根據斑塊之間的距離調整其覓食策略,與生物覓食者的行為一致。在考慮時間折現時,訓練過的代理接近MVT預測的最優覓食行為。

      此外,表I中提供了大量基于RL的活性粒子覓食策略的研究。這些工作共同突顯了RL在復雜、動態變化環境中學習適應性搜索策略的能力。重要的是,未來的研究將從增強的實驗驗證中受益,彌合數值結果與現實世界觀察之間的差距。這將涉及在實際環境中測試RL驅動的覓食策略,根據實驗反饋細化算法,并在不同的生物系統中驗證其泛化能力。

      C. 運動策略

      運動策略指的是活性粒子執行運動的模式,包括對速度、方向、粒子配置和其他因素的決策,目標是實現高效的步態規劃和對環境波動的適應性響應。與覓食或導航不同,后者關注的是達到特定目標或獲取資源,而運動策略專注于優化粒子在其環境中的運動方式。

      這涉及到對內部動態和外部互動的控制,使粒子能夠根據變化的條件調整其運動。研究運動策略對于設計具有有效、適應性行為的人工系統至關重要,這些系統能夠在現實世界中的動態環境中運行。理解和設計高效的運動模式在從微觀機器人到自主航空器的應用中尤為重要,因為它可以提高性能、能效和魯棒性。

      尋找最佳運動策略的傳統方法主要依賴于基于物理的模型,這些模型通過機械方程和運動學分析來描述粒子運動。例如,使用牛頓力學或拉格朗日動力學,研究人員可以模擬粒子在各種環境中的運動。雖然這些方法可以為簡單系統提供準確的預測,但在更復雜、動態的環境中它們會遇到限制。在實際場景中,粒子可能經歷非均勻流場、流體動力學效應或不可預測的環境變化,這使得傳統運動模型在應對這些復雜性方面無效。此外,這些方法通常依賴于預定義的運動模型或控制策略,這些模型受制于基礎假設的準確性和適應性。面對動態和不確定的環境時,傳統方法難以提供實時、適應性的運動決策。相比之下,由于RL不需要精確的物理模型,而是通過代理-環境互動優化行為,它為研究運動策略提供了一個有前景的替代方案,特別是在傳統方法無法考慮動態和隨機因素的情況下。

      活性物質的運動策略包括各種類別,包括具有可調節配置的活性粒子和滑翔飛行動力學。對于前者,最具代表性的例子是具有桿-球結構的微游動器,這是一個由桿和球形段連接而成的活性系統,允許凈運動。通過在運動過程中動態調整關節角度和耦合剛度等參數,這些微游動器可以在不同運動模式之間切換,實現在復雜環境中的靈活導航和魯棒控制。例如,在Z. Zou等人的工作中,采用深度RL方法使具有桿-球結構的微游動器自主學習在低雷諾數環境中有效的運動步態。通過使用PPO算法訓練系統,微游動器可以在不依賴預定義步態模式的情況下,在平移、旋轉和組合模式之間切換。值得注意的是,基于RL的運動策略允許微游動器遵循指定路徑并執行目標導航。這種穩健的路徑跟蹤能力突顯了微游動器的多功能性及其在生物醫學領域(如靶向藥物輸送和微手術)中的潛在應用。

      同樣,Y. Liu等人探索RL以優化具有三球鏈配置的桿-球微游動器的旋轉運動。他們的研究表明,無論球的數量如何,RL都會收斂到一種“行波策略”,該策略控制微游動器的旋轉。這種運動策略使系統能夠執行高效的旋轉運動,RL動態調整球的動作序列以確保最佳旋轉。結果表明,即使球的數量增加,系統仍可以通過RL開發有效的運動策略。在另一項工作中,L. Lin等人采用DQN優化彈性三球微游動器的運動。這項研究側重于通過利用RL控制球之間的彈簧動力學,為微游動器開發有效的運動策略。基于RL的系統自主學習了一種“等待策略”,其中微游動器在運動的某些點暫停,允許彈簧放松后再繼續運動。這種策略在高驅動速度下尤其重要,否則系統會因性能退化而掙扎。

      另一方面,滑翔飛行動力學代表了活性物質運動策略的另一個重要類別。滑翔動力學主要在滑翔機和鳥類中觀察到,側重于利用自然大氣現象(如熱氣流和上升氣流)以最小能量維持飛行。這種方法涉及自適應飛行控制,其中系統學習導航波動的環境條件,如風或熱梯度,以優化運動。最近的研究,特別是使用RL的研究,推進了能夠高效探索這些動力學的自主航空系統的發展。

      如圖6(b)所示,G. Reddy等人的代表性研究訓練了一架自主滑翔機利用Q學習算法在大氣熱氣流中導航。滑翔機配備了一個飛行控制系統,該系統調整傾斜角度和俯仰角,通過利用環境反饋,系統自主提高其爬升率,與隨機策略相比。研究強調了使用垂直風加速度和滾轉扭矩作為機械線索,這些線索引導滑翔機的運動并使其能夠有效地利用熱氣流進行持續飛行。通過重復試驗,滑翔機自主提高了其檢測熱氣流和其導航策略以保持在其中,展示了RL如何在動態、現實世界條件下實現最佳飛行策略。


      之后,Y. Flato等人使用深度強化學習來研究水平風條件下的熱氣流滑翔。利用深度確定性策略梯度算法,他們使滑翔機能夠自主學習如何定位并保持在熱氣流上升氣流中。該研究確定了兩個關鍵的學習挑戰:實現穩定飛行和靠近熱氣流中心。為了克服這些挑戰,使用獎勵塑造在訓練期間逐漸引入更復雜的風條件。學習到的策略反映了真實世界禿鷲的滑翔策略,展示了強化學習如何在復雜環境中復制和優化類似動物的飛行行為。

      除了討論的工作之外,表I中還總結了幾項基于強化學習的活性物質運動策略研究,包括那些專注于多足系統和受生物啟發的機器人技術。未來的研究可以通過開發基于強化學習的增強對不利環境的魯棒性的運動策略來推進該領域,確保系統即使在不可預測或不利條件下也能保持有效運動。此外,在不確定性下學習是改進運動策略的關鍵領域,因為代理通常需要通過嘈雜、不完整或變化的環境數據進行移動。克服這些挑戰對于擴展強化學習驅動的運動策略的應用至關重要,對環境監測和空間探索等自主領域具有重要意義。

      IV. 活性群體集體動態的調節

      在本節中,我們研究了RL如何調節和控制活性群體的集體動態,重點關注兩個互補的方面。首先,我們討論了活性群體的自組織,其中RL幫助個體行為優化局部互動,導致復雜模式的出現,如群體形成或聚集,無需直接集中控制或外部影響。其次,我們探索了群體行為的目標導向控制,其中RL通過外部影響或操控引導個體代理與預定義的集體目標對齊。

      A. 自組織

      活性群體中的自組織指的是活性粒子之間局部互動自發形成的有序集體行為,無需集中控制或直接外部影響。這些行為,如群體形成、聚集或模式形成,通過基于局部信息交換的去中心化決策過程產生。在自然系統中,這種自組織現象在生物系統中很常見,例如魚群、鳥群或昆蟲群體,簡單的個體規則可以導致高度復雜和協調的群體行為。

      傳統上,活性物質系統中自組織的研究依賴于基于物理的模型,如Vicsek模型,該模型基于局部互動和鄰域規則描述代理的對齊。這些模型通過簡化假設捕捉自組織行為的本質,例如代理之間的對齊或排斥,并為這種行為的出現提供了重要見解。然而,傳統方法在捕捉現實世界系統的全部復雜性時常常面臨重大挑戰。這些模型通常受限于固定或簡單的互動規則假設,難以考慮現實世界活性物質的動態和適應性。此外,這些模型可能在具有復雜或變化環境的系統中泛化不佳,其中代理之間的互動更加多樣且需要更靈活的策略。特別是,RL已成為研究活性群體自組織的一個廣泛使用的方法,因為它不依賴于預定義的互動規則。通過允許活性粒子基于局部互動自主調整其運動行為,RL促進了在更現實和復雜環境中出現現象的探索。

      最近的研究表明,RL在模擬微觀和宏觀活性物質系統中的自組織中發揮作用。在微觀尺度上,R. L ?offer等人和J. Grauer等人利用RL優化活性粒子的運動行為并發現出現的集體模式。如圖7(a)所示,L ?offer等人專注于光響應活性膠體粒子,應用PPO算法優化基于有限感官輸入(例如180°視覺錐)的個體覓食策略。盡管獎勵機制設計用于個體優化,粒子受限的感官信息導致群體行為如群體形成和磨坊自發出現。同樣,Grauer等人研究了在2D營養場中移動的“通信”自推進粒子,使用DQN優化其感官參數。訓練后的粒子表現出三種集體策略[圖7(b)]:在高營養區域聚集以最大化資源消耗,擴散以最小化競爭,以及基于營養分布動態在聚集和擴散之間切換的自適應策略。這兩項研究都展示了RL在沒有預定義互動規則的情況下揭示復雜自組織行為的能力,使活性粒子表現出模仿自然界中看到的出現的集體動態。


      在宏觀尺度上,RL也被用來調節動物群體中的自組織,如魚群和鳥群。T. Costa等人使用進化策略,RL中的黑盒優化方法,來模擬魚群運動,其中每條魚根據神經網絡處理的感官輸入學習局部互動規則。通過優化全局獎勵函數,代理自主發展出四種不同的集體運動模式:旋轉球、龍卷風、全核磨坊和空心磨坊行為[圖7(c)]。同樣,X. Wang等人使用平均場Q學習算法來模擬魚群中的集體運動。通過將感官輸入表示為多通道圖像并設計促進鄰居接近和避免碰撞的獎勵函數,他們的方法導致高度協調的行為出現,如全核磨坊和空心磨坊,這些模式在自然界的捕食或覓食事件中經常觀察到。此外,M. Durve等人應用RL研究群體行為,其中代理根據其鄰居的速度信息調整其速度,導致協調群體動態的自發出現。這些工作強調了RL在通過個體學習驅動自組織中的作用。此外,E. Nuzhin等人應用RL解釋動物群體中旋轉行為的出現,提出它源于護航策略,其中個體試圖與群體中心保持一定距離。他們的發現揭示了這種自組織策略增強了群體對外部干擾的韌性,突顯了集體運動的生存功能。

      綜上所述,這些研究表明RL在模擬從微觀粒子到大型動物群體的自組織集體行為的動態、適應性方面的強大能力。通過超越固定的互動規則,RL使探索更復雜、出現的行為成為可能,這些行為更準確地反映現實世界系統。

      展望未來,未來的研究可以集中于改進RL算法,以更好地處理更復雜環境中的高維感官輸入和互動,例如異質系統中代理具有不同能力或不完整信息。此外,納入環境因素和約束,如外部力量或資源可用性,可以進一步增強這些模型的現實性。隨著RL的不斷發展,它將越來越多地為自然和人工系統中自組織機制提供寶貴見解。

      B. 群體行為的目標導向控制

      群體行為的目標導向控制描述了故意引導和調節活性群體的集體動態以實現預定義目標的過程。與自組織不同,自組織中的行為是通過代理之間的局部互動自發出現的,沒有中央協調,而群體控制依賴于外部輸入或全局機制來引導系統朝向特定目標。這些干預可以采取多種形式,如影響活性粒子行為的外部場和光源。雖然自組織側重于個體層面優化產生的涌現模式,群體行為控制則以實現目標結果為中心,如協調運輸或物體操控。關于這一點,RL作為優化控制策略的強大工具,允許代理適應外部輸入,克服環境不確定性,并在最少人為干預下實現復雜任務,使其成為控制活性群體和使用它們操控外部物體的理想方法。

      首先關注活性粒子本身的控制,M. Falk等人使用RL引導自推進粒子群體朝向特定配置。利用類似Vicsek模型的自推進圓盤,作者通過聚光燈控制局部活動,該燈增加了特定空間區域的活動[圖8(a)]。RL代理根據系統的粗粒度狀態(包括粒子位置和速度)調整聚光燈的位置和大小。學習到的協議利用了弱耦合和強耦合狀態下出現的不同的物理行為,其中系統動態隨著粒子對齊性的增加而變化。此外,M. Schrage等人實施RL以定向控制超聲控制的微型機器人。他們的方法利用超聲的力量進行導航和操控,利用主要和次級聲輻射力引導微型群體。使用Q學習,他們訓練系統識別和跟蹤微型機器人,實時調整聲波力以實現有效控制。如圖8(b)所示,該研究成功地在流體環境中實現了自主集體運動,具有特定應用中微型機器人通過超聲引導運動協作拼寫出“ETH”。通過使用超過100,000張圖像,作者教會系統適應超聲環境的不可預測動態,增強了微型機器人在非結構化環境中自主導航的能力。


      此外,為了應對更精細的控制挑戰,一些研究不僅專注于活性群體本身的精確控制,還利用這些系統操控外部物體。例如,V. Heuthe等人探索了由激光點單獨控制的群體微型機器人如何協作執行復雜任務,例如旋轉和運輸大桿[圖8(c)]。RL代理負責調整激光點的位置,這些點控制微型機器人的運動,并使用多智能體RL框架中的反事實獎勵機制為每個微型機器人分配個體信用。通過這樣做,RL代理學習高效協調微型機器人的動作,使它們能夠與環境互動并克服熱噪聲和復雜的智能體間互動等挑戰。

      這種方法使系統能夠高效地學習旋轉和運輸物體,展示了活性物質系統在操控外部目標方面的潛力。另一項相關工作由J. Shen等人進行,他們引入了一個深度RL環境來探索粒子機器人的導航和物體操控任務。在這項研究中,每個機器人被表示為一個可以改變大小但缺乏自推進能力的盤形粒子。RL算法不是調整單個機器人,而是優化控制整個群體的超級代理的行為。超級代理負責通過切換機器人狀態來管理粒子機器人的集體運動。使用OpenAI Gym接口,他們為各種任務開發了一個2D模擬器,包括導航、障礙穿越和物體操控。通過應用DQN、A2C和PPO等算法,他們對粒子機器人在這些任務中的表現進行了基準測試,強調這些RL方法使粒子機器人能夠與外部物體互動并操控它們。

      總結來說,活性群體的目標導向控制,特別是通過RL,已顯示出在引導群體行為和促進操控外部物體方面的相當潛力。盡管取得了這些進展,但大多數研究僅限于2D環境,3D應用的全部潛力基本上還未被探索。因此,將這些系統擴展到3D環境提供了令人興奮的機會和挑戰。增加的空間維度將在粒子與外部物體之間的互動中引入更復雜的動態,進一步強調了對靈活和適應性控制策略的需求。在3D環境中操控物體的能力也可能為更復雜的現實世界應用打開大門,如醫療程序、自主裝配和先進材料處理。

      V. 結論

      總結來說,本綜述系統地探討了RL在引導和控制活性物質系統中的整合應用。我們討論了該領域的兩個關鍵領域:優化單個活性粒子的運動策略和調節活性群體的集體動態。對于單個粒子,RL在優化導航、覓食和運動策略方面顯示出相當大的潛力,使粒子能夠自主適應動態環境并執行諸如點對點導航和資源收集等任務。

      在集體層面,RL已被用于調節群體行為,促進群體動態的自組織和目標導向控制。特別是,RL能夠幫助活性粒子協調其動作以完成復雜任務,如在挑戰性條件下的物體操控和協調集體運輸。

      盡管這些進展充滿希望,但仍需進一步發展以增強RL算法在活性物質系統中的適應性和魯棒性。一個關鍵焦點應是完善RL算法以處理活性物質環境的復雜性。例如,將RL與多模態感知和反饋機制整合將使活性粒子能夠根據更廣泛的環境線索調整其行為,顯著擴展這些系統的潛在應用。另一個推進的關鍵領域是理解RL算法在不同活性物質系統間的泛化能力和可轉移性。研究RL策略如何有效應用于各種環境和任務,以及它們在系統間的轉移效果如何,對于拓寬其適用性至關重要。此外,開發更多可由RL控制的活性物質實驗系統的需求很大。通過應對這些挑戰,我們可以推進該領域并為活性物質系統解鎖更廣泛的應用,可能在生物物理學、機器人技術、醫學科學、環境監測和自主系統中取得突破。

      原文鏈接:https://arxiv.org/pdf/2503.23308

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      許利民賽后震怒,聲稱要切除膿包,指的是誰?球迷評論很有意思

      許利民賽后震怒,聲稱要切除膿包,指的是誰?球迷評論很有意思

      南海浪花
      2026-01-29 07:38:41
      視頻丨加拿大總理卡尼:現在的美國,幾乎什么都不正常

      視頻丨加拿大總理卡尼:現在的美國,幾乎什么都不正常

      澎湃新聞
      2026-01-28 17:24:31
      大連網約車新規2月15日施行

      大連網約車新規2月15日施行

      半島晨報
      2026-01-28 20:16:22
      誰還敢得罪中國?全球不再瘋搶芯片,而是中國20萬一臺的變壓器

      誰還敢得罪中國?全球不再瘋搶芯片,而是中國20萬一臺的變壓器

      王新喜
      2026-01-29 07:36:48
      李湘大瓜后續:富婆的老公全程裝死!

      李湘大瓜后續:富婆的老公全程裝死!

      深度知局
      2026-01-29 07:39:33
      汽車圈“大地震”!比亞迪大將投奔行業巨頭,叫囂:三年內沒對手

      汽車圈“大地震”!比亞迪大將投奔行業巨頭,叫囂:三年內沒對手

      長星寄明月
      2026-01-20 21:00:46
      全球瘋搶光刻機

      全球瘋搶光刻機

      錦緞研究院
      2026-01-29 08:12:31
      紀實:廣西刑警酒后開槍射殺孕婦案,夫妻因不提供服務,被打4槍

      紀實:廣西刑警酒后開槍射殺孕婦案,夫妻因不提供服務,被打4槍

      談史論天地
      2026-01-13 14:30:03
      深度長文:愛因斯坦是如何創建相對論的?不得不佩服他的天才大腦

      深度長文:愛因斯坦是如何創建相對論的?不得不佩服他的天才大腦

      宇宙時空
      2026-01-26 15:25:03
      特魯賓導演神劇情,賽前數據顯示馬賽晉級附加賽概率高達96%

      特魯賓導演神劇情,賽前數據顯示馬賽晉級附加賽概率高達96%

      懂球帝
      2026-01-29 07:42:05
      我國首款單片集成光電融合偏振、偏壓控制芯片研制成功

      我國首款單片集成光電融合偏振、偏壓控制芯片研制成功

      IT之家
      2026-01-28 16:53:07
      中國“英偉達”誕生!擁有100%全自研技術,國產替代即將崛起!

      中國“英偉達”誕生!擁有100%全自研技術,國產替代即將崛起!

      芳芳歷史燴
      2026-01-28 21:04:19
      266比199,日本政壇黑馬殺出?對華態度成亮點,特朗普或拋棄高市

      266比199,日本政壇黑馬殺出?對華態度成亮點,特朗普或拋棄高市

      回京歷史夢
      2026-01-27 21:08:38
      突發!字母哥將被交易!離開雄鹿!

      突發!字母哥將被交易!離開雄鹿!

      寒律
      2026-01-29 00:52:41
      貝克漢姆堅持兒子離婚,16億婚前協議導致和解困難

      貝克漢姆堅持兒子離婚,16億婚前協議導致和解困難

      君笙的拂兮
      2026-01-26 15:51:34
      侵華14年,日本一共來了多少部隊,被消滅了有多少?

      侵華14年,日本一共來了多少部隊,被消滅了有多少?

      泠泠說史
      2026-01-10 16:20:40
      四川成都一佳人好漂亮,身高168cm,體重47kg 美的讓人移不開眼

      四川成都一佳人好漂亮,身高168cm,體重47kg 美的讓人移不開眼

      東方不敗然多多
      2026-01-07 10:20:04
      不查不知道一查嚇一跳,坐擁北京60畝馬場的于謙,私下到底有多壕

      不查不知道一查嚇一跳,坐擁北京60畝馬場的于謙,私下到底有多壕

      小熊侃史
      2026-01-20 07:40:05
      湖南第一庸官,好面子導致政府負債1000億,為政績騙劉強東100億

      湖南第一庸官,好面子導致政府負債1000億,為政績騙劉強東100億

      芊芊子吟
      2026-01-15 10:20:03
      1985年,一場誤判讓中國付出了上萬億的代價,一代巨星抱憾而終!

      1985年,一場誤判讓中國付出了上萬億的代價,一代巨星抱憾而終!

      老范談史
      2025-12-23 20:30:25
      2026-01-29 08:35:01
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1185文章數 18關注度
      往期回顧 全部

      科技要聞

      它是神也是毒!Clawdbot改名卷入千萬詐騙

      頭條要聞

      俄方:可以邀請澤連斯基來莫斯科 保障他的安全

      頭條要聞

      俄方:可以邀請澤連斯基來莫斯科 保障他的安全

      體育要聞

      沒天賦的CBA第一小前鋒,秘訣只有一個字

      娛樂要聞

      金子涵拉黑蔡徐坤,蔡徐坤工作室回應

      財經要聞

      從萬科退休20天后,郁亮疑似失聯

      汽車要聞

      新手必看!冰雪路面不敢開?記住這4點 關鍵時刻真能保命

      態度原創

      旅游
      親子
      本地
      手機
      公開課

      旅游要聞

      “洋面孔” 成上海地鐵風景線,美國志愿者為游客提供 “情緒價值”

      親子要聞

      何穗稱沒有年齡焦慮,生命力是最重要的,自曝月子后做了二次手術

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      手機要聞

      蘋果macOS版iWork停更,用戶需下載Apple Creator Studio版

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版