Bio-Inspired Swarm Confrontation Algorithm for Complex Hilly Terrains
面向復雜山地地形的仿生集群對抗算法
https://www.mdpi.com/2313-7673/10/5/257
![]()
摘要
本文探討了一種受生物啟發的群體對抗算法,專為電子游戲中復雜的丘陵地形設計。所提出算法的新穎之處在于利用生物啟發策略,以促進動態環境中的自適應和高效決策制定。借鑒各種動物物種的集體狩獵行為,本文提煉出兩種關鍵對抗策略:集中火力用于目標選擇,以及側翼包圍用于運動協調和攻擊執行。這些策略嵌入一個去中心化的群體決策框架中,使代理能夠在復雜的游戲環境中表現出增強的響應能力和協調性。為了驗證其有效性,進行了廣泛的實驗,將所提出的方法與三種已建立的算法進行比較。結果表明,該方法實現了超過80%的對抗勝率,在交戰效率和生存能力方面均優于現有技術。此外,引入了兩個新的性能指標,即平均代理損失率和平均健康損失率,以提供對算法有效性的更全面評估。此外,還分析了關鍵算法參數對性能指標的影響,為所提出算法的適應性和魯棒性提供了見解。
關鍵詞:生物啟發算法;群體對抗算法;丘陵對抗場景;群體動物行為。
- 引言
隨著技術的進步,無人集群協同與對抗場景的應用需求日益增長,不僅體現在現實世界的機器人系統中,也廣泛存在于電子游戲等虛擬環境中。集群對抗代表了一種新型戰術范式,其依托多架無人機(UAV)的協同行為實現[1–5]。相關算法亦已廣泛應用于游戲仿真中,例如《星際爭霸II》[6],其中復雜的智能體協同與戰略規劃對游戲勝負起著決定性作用。
為提升智能體集群在復雜動態對抗環境中的任務執行效率與成功率,一系列集群對抗策略的仿真方法已被提出[7,8]。進化算法(如粒子群優化與差分進化)在此類研究中發揮關鍵作用:這些算法通過模擬生物進化機制(包括選擇、交叉與變異)迭代優化候選解,以逼近最優解。多智能體強化學習(MARL)作為強化學習的一個子領域[9],專注于多智能體共存并交互環境中的策略生成;每個智能體通過與其他智能體協作或對抗,學習執行最優動作以達成自身目標。
近年來,群體智能算法取得了顯著進展[10],并在集群對抗中扮演核心角色。文獻[11]提出了蜉蝣算法(mayfly algorithm)——一種受蜉蝣行為啟發的優化方法,融合了群體智能與進化原理;文獻[12]構建了一個數學模型,刻畫赤狐的覓食、捕獵、種群動態及躲避天敵等行為,并通過結合局部與全局優化策略及繁殖機制,形成了赤狐優化算法;文獻[13]提出了飛狐優化(Flying Foxes Optimization, FFO)算法,其靈感源自飛狐在熱浪中的適應性生存策略,并通過引入模糊邏輯實現參數的動態調整,使FFO成為一種自適應、免參數的優化技術;文獻[14]在集群機器人領域提出了一種創新方法:受魚群覓食行為啟發,結合仿生神經網絡與自組織映射,使集群復現類魚行為,包括無碰撞導航與動態子群形成;文獻[15]探討了無人機集群在當代世界中的關鍵作用,強調了具備攻防能力集群的迫切需求,并提出一種受自然群體捕獵行為啟發、基于MARL的無人機集群對抗決策方法,以應對集群規模增大導致訓練時間指數級增長的挑戰。
本文提出一種仿生對抗算法,旨在提升集群對抗(尤其在電子游戲背景下)的成功率。具體而言,在山地環境中,起伏地形遮擋了智能體的視野,使其無法完整獲取對手的實時信息。受獅群、野狗群等動物群體捕獵行為的啟發,本文探討了兩種對抗策略:集火打擊(focused-fire)策略與迂回包抄(flanking encirclement)策略,并將之與山地環境結合,構建了一種新型仿生集群對抗算法。
本文的主要貢獻如下:
- 與以往純2D或3D對抗環境的研究[15–21]不同,本文首次將半3D對抗環境(即山地地形)引入集群對抗問題研究,帶來了諸多挑戰:其一,智能體獲取對手信息的能力受限;其二,智能體發射的虛擬彈藥或執行的動作可能被地形遮擋;其三,地形約束了智能體的姿態,進一步增加了決策復雜性。
- 相較于采用質點模型運動的智能體[8,16,22–24],為適配半3D對抗環境,本文采用單輪車模型(unicycle model)作為智能體的運動學模型——該模型更具現實性,但也使對抗場景更復雜。此外,負責瞄準的旋轉模塊可在其支撐平面上自由轉動,而仰角單元具備垂直調節能力;因此,相較于標準單輪車模型,引入這些旋轉部件所增加的自由度,使整體運動學模型更為復雜。
- 借鑒獅群與野狗群捕獵過程中展現出的行為特征,本文提出了適用于集群對抗的關鍵算法。與基于強化學習或目標分配的算法[15,25,26]相比,本文方法聚焦于對抗過程中具體的、可解釋的行為模式,提升了算法的可解釋性與實際適用性——尤其適用于電子游戲等仿真環境。在與上述算法的直接對比中,本文方法勝率超過80%。
- 在對抗算法評估方面,除傳統勝率指標[24,25,27–29]外,本文額外引入兩項性能指標:智能體數量損耗率智能體健康值損耗率。這兩項指標從不同角度反映了集群為取勝所付出的代價;測試結果進一步凸顯了所提仿生集群對抗算法的優越性。
- 相關工作
2.1 優化算法
在進化算法方面,文獻[16]提出了一種基于進化算法(EA)的攻擊策略,用于在拒止環境(denied environments)中指導集群機器人行動,擺脫了對全球定位與通信的依賴。各機器人僅依靠局部感知優化自身運動,并通過EA驅動的適應度函數評估威脅與收益;結合內置的避障機制,該集群實現了有效的協同與對抗。
文獻[30]提出了一種基于協同行為的無人機任務分配進化方法,并配套設計了一種協作控制方法,使無人機群在任務執行過程中維持編隊。
文獻[31]針對復雜對抗場景,開發了一種優化的多無人機協同路徑規劃方法:構建了貼近實際的威脅模型,并將威脅等級與燃料消耗約束納入多目標優化框架中。
文獻[32]提出一種進化型專家系統樹,用于管理空戰中的突發情境;文獻[33]則提出一種改進型粒子群優化算法,在不增加計算復雜度的前提下提升了全局搜索能力。
文獻[34]基于策略演化博弈,在博弈論模型下研究了無人機的戰略選擇;文獻[35]提出一種進化優化算法,旨在克服粒子群優化的固有局限。
文獻[36]擴展了 torch 方法——一種異構–同構集群協同進化方法,旨在增強集群機器人的進化能力。為應對進化效率與策略性能平衡的挑戰,torch 采用集群協同進化機制以加速適應過程,并引入行為表達樹以拓展策略搜索空間,從而實現更靈活、高效的進化。
文獻[37]提出一種基于帕累托最優匹配的改進型差分進化方法,用于求解多目標二元優化問題。然而,該類方法在障礙物密集、多區域等復雜環境中的進一步優化仍有待研究,尤其在任務分配與協同控制的集成方面仍需完善。
2.2 多智能體強化學習
近年來,多智能體強化學習(MARL)取得了顯著進展[38,39]。文獻[40]提出了分層注意力行動者–評論家(HAAC)算法,以提升大規模無人機集群對抗中的決策能力:該算法將分層行動者策略與基于分層兩階段注意力網絡的集中式評論家網絡相結合,有效捕捉無人機間的交互關系并優化協同效果;其顯著降低了狀態與動作空間的復雜度,提升了可擴展性,并在大規模場景中優于現有方法。
文獻[41]提出了一種基于多智能體深度確定性策略梯度(MADDPG)的“一對一”視距內空戰策略生成算法:將空戰場景建模為二人零和馬爾可夫博弈,并引入目標位置預測方法以增強決策能力;為突破基礎戰斗機機動動作的限制,采用連續動作空間;此外,通過基于勢函數的獎勵塑形方法提升了學習效率。
文獻[42]提出了一種基于學習的無人機領地防御攔截策略,以應對來自不同方向與速度的入侵者:通過分析初始狀態對攔截成功率的影響,界定了可行的防御邊界;鑒于狀態與動作空間均為連續,傳統決策方法面臨維度災難問題,為此提出一種融合模糊邏輯的行動者–評論家算法,有效降低了計算復雜度。
為應對群體態勢的復雜性,文獻[43]提出將多智能體Transformer與虛擬對象網絡相結合的架構;文獻[44]則在多智能體深度強化學習框架下構建了兩個非合作博弈模型,并在5對5無人機對抗場景中成功實現了納什均衡。
文獻[45]在包含移動威脅與目標的仿真環境中驗證了任務分配與決策機制的有效性;文獻[28]提出一種融合宏觀動作(macro actions)與人類專家知識的MARL方法用于無人機集群決策:通過將集群建模為多智能體系統,并利用宏觀動作緩解稀疏獎勵與巨大狀態–動作空間帶來的挑戰,顯著提升了學習效率;人為設計的動作進一步優化了策略,使其在復雜對抗場景中表現出更優性能。
最后,文獻[46]探索了基于深度強化學習的追逃問題:多個同構智能體在單輪車運動學約束下追擊一個全向運動目標;該方法采用共享經驗的方式訓練固定數量追捕者的策略,并在運行時獨立執行。
相較于上述算法,本文所提算法將動物對抗中觀察到的行為模式無縫嵌入對抗過程本身,無需模型訓練與復雜的迭代計算,仍能實現高性能表現。
![]()
- 問題描述
本文研究的是兩個智能體集群在山地地形中的集群對抗問題。特別地,這兩個智能體集群具有相等的數量與能力。該設定尤其適用于電子游戲仿真場景,其中智能體常在地形豐富的環境中執行對稱性對抗任務。本節首先描述山地地形與智能體模型,隨后闡述集群對抗問題。
3.1 對抗環境
圖1展示了本研究用于電子游戲仿真的代表性山地地形示例。設 ?? 和 ?? 分別表示地圖的長度與寬度,? 表示地形的最大高度。需注意,智能體僅能沿山地地形表面移動,這帶來了三個前所未有的挑戰:第一,智能體獲取對手信息的能力受限,因為山丘可能遮擋其視野(如圖1所示);第二,智能體發射的炮彈可能被地形阻擋;第三,地形限制了智能體的姿態,使其難以瞄準。
![]()
3.2 智能體模型
在本文中,智能體被劃分為紅隊與藍隊。假設每支隊伍包含 N 個智能體。對于 i = 1, ..., N,r? 表示紅隊的第 i 個智能體,而 b? 表示藍隊的第 i 個智能體。默認情況下,紅隊配備本文提出的仿生集群對抗算法,而藍隊則配備其他現有的集群對抗算法。
3.2.1 運動學
智能體 r? 的運動學方程如下:
![]()
![]()
請注意,一方面,探測射線僅能在最大探測距離 d?? 內進行檢測;另一方面,射線可能被山丘遮擋。對于智能體 r?,其在時間 t 可獲取以下信息:
- 時間 t 時紅隊所有幸存智能體的位置。
- 屬于集合 N??(t) 的藍隊所有幸存智能體的位置。
藍隊智能體的信息獲取方法與此相同。
3.2.3 攻擊與傷害
![]()
3.3 對抗勝負判定
對抗開始時,紅隊與藍隊分別位于地圖的對角位置。在時間限制 t? 內,率先消滅對方全部智能體的一方被判為獲勝。若在 t? 時間內所有智能體均被摧毀,或雙方均未在 t? 內獲勝,則判定為平局。
3.4 算法性能指標
為評估算法性能,本文考慮三個算法性能指標:勝率、平均智能體數量損耗率及平均智能體生命值損耗率,具體定義如下。考慮紅隊與藍隊之間進行的一系列 M 場對抗比賽。對于紅隊,令 M?? 表示紅隊獲勝的比賽場數,H?? 表示紅隊全體成員的初始總生命值。對于 k = 1, ..., M??,定義 n?? 和 h??? 分別表示紅隊在第 k 場獲勝比賽中損失的智能體數量與損失的總生命值。則紅隊算法的性能指標定義如下:
- 勝率 W?:
![]()
- 仿生集群對抗算法設計
基于仿生算法,智能體在集群對抗過程中需主要解決兩個關鍵問題:攻擊目標的選擇與對抗過程中的運動決策。本章首先分析動物群體行為,歸納相應對抗策略,進而將這些策略與實際對抗場景相結合,實現算法落地。
4.1 仿生規則
我們采用以下分析來解決各智能體在對抗過程中目標選擇的問題。如圖4所示,一群野狗發現一群角馬后迅速逼近,試圖驅散其隊形;角馬起初聚集成群以抵御捕食者,但很快受驚開始逃散,野狗則緊追不舍。在追逐過程中,一只體型較小、脫離群體的個體凸顯出來,隨即成為野狗關注的焦點;整個狼群隨即集中力量,對這只脆弱的角馬發起圍攻。
![]()
對于野狗而言,每個個體體型較小、力量較弱,難以單獨對抗角馬。當角馬聚集在一起時,野狗很難對其造成傷害。因此,一旦角馬群中出現孤立個體,野狗會迅速轉移目標,形成“以多打少”的局面,從而高效完成捕獵。借鑒野狗群的協同狩獵行為,在山地地形對抗中,智能體可根據對手位置動態切換攻擊目標:若某對手遠離其群體,則優先將其鎖定為攻擊目標。該策略可制造局部數量優勢,使智能體快速消滅目標。我們將此行為稱為集火打擊策略。
高效的對抗算法必須在對抗過程中審慎選擇目標,并根據局勢實時調整運動方向。本節進一步分析動物群體攻擊行為。如圖5所示,三只獅子抓住時機圍攻一頭水牛,呈三角形陣型逼近:中間的獅子正面迎擊水牛,兩側的獅子則迂回包抄,形成鉗形攻勢;待完成合圍后,獅子群發起總攻并完成捕獵。
![]()
如果獅群以正面集群方式攻擊,水牛在感知到危險后很可能進行反擊或逃跑,這可能導致獅子傷亡或讓水牛逃脫。獅群通過從多個方向發起攻擊,可顯著提升狩獵成功率。在基于智能體的對抗中,若兩個或更多智能體鎖定同一對手,其中一個智能體可正面牽制對手,其余智能體則從側翼包抄,高效消滅目標。我們將此行為稱為迂回包抄策略。
4.2 集群對抗算法設計
在分析并適配仿生規則后,這些原則需應用于實際的對抗算法中。對抗算法的設計主要分為三部分:目標選擇、運動規劃與自動瞄準。以下以紅隊智能體 r? 為例,詳細說明這三個組件的設計。
4.2.1 目標選擇
受自然界野狗捕獵行為啟發,目標選擇算法采用集火打擊策略。定義 d????(t) = || p??(t) ? p??(t) ||。令 n????(t) 表示智能體 r? 可探測到的幸存對手數量,p????(t) 表示這些對手的中心位置。令 I???(t) 表示距離 r? 第 x 近的幸存對手的標簽,T??(t) 表示 r? 所選攻擊目標的標簽。令 c? 為正整數,df 為正實數。目標選擇算法由算法1描述。
![]()
根據算法1,n????(t) 和 p????(t) 作為輸入參數,而 T??(t) 作為輸出參數。目標選擇算法遵循一個多層級決策過程:首先,在獲得 I???(t) 后,r? 評估其可見對手的空間分布;若 b? 與可見對手中心之間的距離超過 df,則認為 b? 已偏離其團隊陣型,r? 將優先攻擊 b?。
其次,如算法1第10至27步所示,這些步驟涉及一個迭代計算過程,其中 c? 在迭代中起關鍵作用:若 b? 的位置更靠近其自身隊伍,r? 將根據其與 b? 的接近程度確定其在隊伍中的相對排名;若 r? 的排名超出 c?,則必須重新計算 I???(t) 并重復該過程,直至其排名落入 c? 范圍內。此設計有助于防止紅方智能體過度集中攻擊同一目標,從而減少資源浪費。
最后,若 r? 視野內沒有任何對手滿足上述條件,則選擇最近的對手作為攻擊目標,記為 I1??(t)。如上所述,該算法不僅可避免過多智能體攻擊同一目標(從而減少彈藥不必要的集中發射),還能制造局部數量優勢。這體現了本文所提出的集火打擊策略,算法流程圖見圖6。
![]()
4.2.2 運動規劃
將生物群體的競爭行為融入智能體的對抗過程,主要涉及對其軌跡的規劃。鑒于地形呈起伏狀且無復雜障礙物,我們采用人工勢場法實現智能體的路徑規劃。考慮到智能體還需規避環境中隊友所構成的障礙,其運動方向可分解為兩個向量之和。
(1)考慮在無障礙環境下 r? 的運動規劃。當 T??(t) = null 時,r? 選擇最近的山頂點 p???(t) 作為其移動目標,以輔助搜索對手;反之,當 T??(t) ≠ null 時,r? 選擇根據算法1分配的目標對手 T?? 所對應的位置 p????(t) 作為其移動目標。此處,p????(t) 表示被標記為 T?? 的對手的位置。朝向目標的運動方向定義如下:
![]()
在狩獵過程中,獅群通常會從多個方向攻擊獵物。前方的獅子常佯攻以分散獵物注意力,而側翼的獅子則伺機發起致命一擊。受此行為啟發,智能體可在對抗中通過設定不同的運動方向,采用迂回包抄策略。
以下部分介紹確定 r? 在團隊內相對位置的方法。令 ρ??(t) 表示與 r? 共享同一對手的友方團隊中,r? 的相對位置:當 ρ??(t) = 0 時,r? 位于中間;當 ρ??(t) = 1 時,r? 位于左側;當 ρ??(t) = -1 時,r? 位于右側。獲取 ρ??(t) 的方法如下:
![]()
其中,p???(t) 表示在共享同一攻擊目標的智能體群中,距離 p????(t) 最近的智能體的位置。同時,d??(t) 表示 r? 在團隊內的投影偏移量,ε? 是用于確定位置區間范圍的參考值,lz 表示沿 z 軸的單位方向向量。在無障礙環境中,r? 的實際運動方向 G??(t) 通過將 ρ??(t) 乘以旋轉角 θ?,并將所得旋轉矩陣作用于 G???(t) 得到;當 T??(t) = null 時,G??(t) 直接等同于 G???(t)。
(2)計算隊友 p??(t) 與 p??(t) 之間在避障范圍 d? 內的向量 X???(t)。由于距離更近的隊友需要更強的避障力,因此該向量應相應放大。為此,有必要對該向量進行歸一化并施加權重。本算法選擇 1/d???(t) 作為每個向量的權重,最終所有向量之和記為 X??(t),即:
![]()
其中,k? 和 k? 表示分配給各向量的權重系數。
令 t??? 表示 r? 自上次發射炮彈以來所經過的時間。d??? 表示 r? 執行后撤式包抄策略的最大距離閾值,而 d??? 表示 r? 執行側翼機動的最小距離閾值。
在推進過程中,以及當 t??? < tc? 時執行側翼后撤的最小后退距離。d? 表示用于規避隊友的距離。θ???(t) 表示 F??(t) 的航向角。ε1??(t) 和 ε2??(t) 分別表示當前運動方向與最終目標方向在順時針和逆時針方向上的偏差角。詳細實現見算法2。
![]()
根據算法2,當 r? 檢測到對手時,首先計算 G???(t),然后確定其在共享同一攻擊目標的隊友中的相對位置 ρ??(t)。基于 ρ??(t),r? 調整 G???(t) 的方向:若 r? 位于編隊右側,則 G???(t) 順時針旋轉 θ? 度;若位于左側,則逆時針旋轉 θ? 度;若 r? 處于編隊中央,其運動方向保持不變。
在僅有兩個紅方智能體共享同一攻擊目標的情形下,只需確定距離目標更遠的那個智能體的相對位置,并為其分配合適的運動方向即可。
當 r? 與攻擊目標的距離小于 d???,或其射擊冷卻時間處于激活狀態且距離目標小于 d??? 時,其運動方向被設定為后撤。
基于上述步驟,智能體可被分配至正面直接對抗或側翼機動,從而實現從多個角度攻擊對手。該方法被稱為迂回包抄策略。此策略的關鍵步驟詳見算法2的第6至10步。由此,G??(t) 得以確定。隨后,結合避障向量 X??(t),得到最終運動方向 F??(t)。該算法對應的流程圖如圖7所示。
![]()
4.2.3 自動瞄準算法
以下以 r? 為例,介紹在確定攻擊目標 T??(t) 后,旋轉模塊與仰角單元的運動過程。當識別出目標 T??(t) 后,r? 根據目標與其自身位置之間的相對角度,調整 θ??(t) 和 σ??(t),從而實現對目標的瞄準。
當 r? 計算出從自身指向對手的向量 u???(t) 后,它接著計算該向量 u???(t) 與旋轉模塊方向向量 u?????(t) 在 XOY 平面上的夾角 θ?????(t),并左右旋轉旋轉模塊,使 θ?????(t) 趨近于 0。
此外,r? 還會計算 u???(t) 與仰角單元單位方向向量 u?????(t) 之間的夾角 θ?????(t),同時上下旋轉仰角單元,使 θ?????(t) 趨近于 0。ε? 表示目標角度與實際角度之間的偏差范圍。f???(t) 是一個標志位,用于指示 r? 是否正在主動瞄準對手。具體實現過程如算法3所示。
![]()
4.2.4 仿生集群對抗算法
對抗開始時,各智能體首先利用算法1確定其攻擊目標;隨后,通過算法2計算其實際運動方向;最后,執行算法3以精確對準目標。在運動過程中,智能體持續評估是否滿足開火條件,并在適當時機發起攻擊。若所有對手均被消滅,則對抗結束;否則,重新執行算法1–3,對策略進行動態重計算。
通過整合上述討論的算法設計,最終建立了仿生集群對抗算法的偽代碼與流程圖,并分別在算法4和圖8中呈現。分別表示紅隊與藍隊在時刻 t 的幸存智能體總數。此外,整個過程在時間步 t 內按順序依次執行。![]()
4.3 算法復雜度分析
本文提出的仿生對抗算法主要由三個部分組成:目標選擇、運動規劃與自動瞄準。其中,自動瞄準算法的計算復雜度為 O(1),其余各部分的復雜度如下:
1)目標選擇:計算距離智能體最近的對手,其復雜度為 O(N);基于局部原則重新計算對手的復雜度為 O(mN),其中 m 表示所需重計算的次數,m ∈ [1, N];計算智能體視野內對手的質心,其復雜度為 O(N)。
(2)運動規劃:確定智能體相對于同一對手群體的位置,其復雜度為 O(N);計算用于隊友避障的合成向量,其復雜度也為 O(N);同理,計算用于對手避障的合成向量,其復雜度同樣為 O(N)。
整體算法復雜度為 O(N)(最佳情況)至 O(N2)(最壞情況)。
- 結果分析
為評估本文所提集群對抗算法的有效性,需在當前環境中引入并適配對比算法。所選對比算法包括:基于仿生動作空間的多智能體強化學習算法[15]、基于共識的拍賣(CBA)算法[25]以及最近分配(AN)算法[26]。
5.1 單場對抗結果分析
為更直觀地展示智能體在對抗過程中所采用的仿生算法,本文選用 AN 算法作為對手,并選取 10 對 10 的對抗規模進行詳細過程分析。事件序列如圖9所示。
![]()
![]()
在圖9d中,藍方智能體 b? 在對抗過程中脫離其隊伍,促使紅方智能體 r?、r? 和 r? 優先對其發起協同攻擊。該過程體現了仿生方法中所采用的集火打擊策略。類似地,在圖9e中,藍方智能體 b? 也被孤立,導致紅方智能體 r?、r? 和 r?? 根據相同的集火攻擊策略將其作為目標。
在圖9a、b中,由于不了解對手位置,紅方隊伍分散陣型,為從多個方向發起攻擊做準備。在圖9c–f中,處于不同位置的紅方智能體展現出不同的后撤方向,形成正面牽制與側翼包抄的機動組合。此外,紅方智能體主動移動以包抄對手,如圖9c、d中的智能體 r? 和 r??,以及圖9d、e中的智能體 r? 和 r? 所示。這些來自不同方向的協同攻擊展示了迂回包抄策略。
5.2. 不同場景下結果分析
![]()
5.2.1. 在不同算法參數下的結果分析
![]()
![]()
![]()
![]()
5.2.2 不同對抗規模下的結果分析
不同對抗規模下的結果如圖11所示。從不同規模的對抗結果可見,規模越大,算法勝率越高,這一趨勢在對手為AN時尤為明顯。在5對5場景中,隊伍總生命值相對較低,參與側翼包抄和局部集火打擊的智能體數量也較少;因此,即使形成包抄陣型,若一側智能體正面遭遇對手且處于劣勢,可能迅速被消滅,導致整個迂回包抄策略崩潰,此時勝率僅為0.81。然而,隨著規模擴大,仿生策略可構建更完整的隊形:每方智能體數量增加,容錯空間更大,火力點更多,能更快消滅目標。在20對20規模下,勝率持續穩定超過95%。
![]()
該算法的各項指標也隨對抗規模變化而變化。面對AN和CBAA算法時,隨著對抗規模擴大,本算法的指標表現有所提升。這兩種算法均基于目標選擇機制,因此本文提出的迂回包抄策略效果顯著。對抗規模增大后,攻擊位置增多,稀釋了對手的進攻強度,從而加速對手淘汰并減輕己方隊伍損失。從5對5到20對20,ζ? 和 λ? 均下降超過10倍。然而,面對RL算法時,從5對5到20對20,ζ? 和 λ? 反而上升超過30%。這是因為RL算法默認優先鎖定最近的對手,一旦選定目標,使用RL的智能體傾向于激進沖鋒。假設配備BIO算法的智能體未能及時形成合理陣型,將導致集群聚集,增加智能體與生命值損耗,從而降低算法整體性能。
5.2.3 不同地圖下的結果分析
除當前對抗地圖外,我們還在另一張地圖上進行了測試。與前一張地圖相比,新地圖坡度更緩,具體地形如圖12所示。此外,在另一張地圖中引入了一種額外的對比算法——基于進化算法的攻擊(EABA)策略[16]。對抗規模為10對10,d??? = 100米,d??? = 500米。對抗結果如圖13所示。
![]()
從結果可以看出,本文算法的勝率始終保持在90%以上。面對AN和CBAA對手時,ζ? 和 λ? 均略有上升。例如,在對抗AN時,ζ? 從0.46升至0.61,λ? 從0.61升至0.73。由于地形更平坦,炮彈在飛行中被地面阻擋的概率降低,這增加了紅方智能體在展開形成包抄陣型時被對手炮彈命中的可能性,從而導致己方損失增加。相反,面對RL對手時,ζ? 和 λ? 均略有下降,這可歸因于RL模型對新地圖的適應性較弱,導致其對抗表現下降。在對抗EABA算法時,本文方法取得更低的 w?,但性能指標 ζ? 和 λ? 均出現明顯上升。這一現象主要源于更平坦的地形——它提高了獲取對手位置信息的可能性;借助增強的視野,EABA算法可通過迭代優化更好地發揮其適應度函數,從而強化其對抗能力,對本文算法的性能產生負面影響。綜上所述,本文算法在新對抗地圖上仍保持高勝率,并在 ζ? 和 λ? 指標上優于對手,充分展現了該算法在不同環境中的優勢。
- 結論
從電子游戲場景的視角出發,本文探索了一種面向復雜山地地形的集群對抗算法。構建了一個高度動態的山地對抗環境,其中紅藍雙方智能體集群數量相等、能力相同,且每個智能體的運動均受運動學約束限制。借鑒自然界中野狗群與獅群的捕獵對抗行為,本文提出了兩種關鍵策略:用于目標選擇的“集火打擊策略”和用于運動規劃的“迂回包抄策略”。前者通過聚合智能體行為朝向共同目標,提升局部表現;后者則通過協同移動與布陣,提升整體對抗效率。為全面評估該算法性能,本文將其與三種現有對抗算法進行基準對比。共進行了100次對抗測試,涵蓋不同算法參數、對抗規模及環境條件。實驗結果表明,所提算法在對抗基線算法時勝率超過80%,同時保持更低的平均智能體損失率與平均生命值損耗率。綜上,這種仿生對抗算法不僅提供了一種直接且實用的解決方案,還在基于集群的對抗任務中展現出卓越性能。
對于未來工作,我們建議深入探索在信息受限環境中對手搜索機制,以增強算法在能見度有限條件下的對抗能力。此外,考察通信約束(如延遲與丟包)對集群協同與整體性能的影響將是至關重要的。開發魯棒算法以應對這些挑戰,將成為未來研究的重點方向。
原文鏈接:https://www.mdpi.com/2313-7673/10/5/257
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.