TitleNormative active inference: A numerical proof of principle for a computational and economic legalanalytic approach to AI governance
規(guī)范主動(dòng)推理:AI治理的計(jì)算與經(jīng)濟(jì)法律分析方法數(shù)值原理證明
https://arxiv.org/pdf/2511.19334
![]()
摘要
本文提出了一種計(jì)算解釋?zhuān)f(shuō)明法律規(guī)范如何影響人工智能(AI)代理的行為,該解釋基于主動(dòng)推理框架(AIF),并受經(jīng)濟(jì)法律分析(ELA)原則的啟發(fā)。由此產(chǎn)生的模型旨在捕捉人類(lèi)在法律約束下決策的復(fù)雜性,為AI系統(tǒng)中的“代理治理”提供一種候選機(jī)制,即AI代理自身的[自動(dòng)]調(diào)節(jié),而非AI行業(yè)中人類(lèi)行為者的調(diào)節(jié)。我們提出,合法且對(duì)規(guī)范敏感的AI行為可以通過(guò)“設(shè)計(jì)中的調(diào)節(jié)”實(shí)現(xiàn),即賦予代理有意控制系統(tǒng),或行為“安全閥”,這些系統(tǒng)根據(jù)規(guī)范期望指導(dǎo)實(shí)時(shí)決策。為了說(shuō)明這一點(diǎn),我們模擬了一個(gè)自動(dòng)駕駛場(chǎng)景,其中AI代理必須通過(guò)平衡相互競(jìng)爭(zhēng)的法律和實(shí)用命令來(lái)決定何時(shí)讓行。該模型形式化了AIF如何實(shí)現(xiàn)上下文依賴(lài)偏好來(lái)解決此類(lèi)沖突,將這一機(jī)制與ELA將法律視為不確定性下理性決策支架的概念聯(lián)系起來(lái)。我們最后討論了上下文依賴(lài)偏好如何作為自主代理的安全機(jī)制發(fā)揮作用,提升AI治理中的合法對(duì)齊和風(fēng)險(xiǎn)緩解。
1 引言
本文提供了一種計(jì)算解釋?zhuān)f(shuō)明規(guī)范,特別是法律規(guī)范,如何基于生命科學(xué)中的主動(dòng)推理理論(AIF)[1](如應(yīng)用于機(jī)器人[2,3])并實(shí)施經(jīng)濟(jì)法律分析(ELA)原則(綜述見(jiàn)[4,5])影響人工智能(AI)代理的行為。規(guī)范性是代理根據(jù)定義其“應(yīng)該”做什么的命令行事的能力。在AIF中,這可以源于代理算法的性質(zhì),從而強(qiáng)加一種內(nèi)在或感知的(參見(jiàn)[6])規(guī)范性,其中“應(yīng)該”的來(lái)源來(lái)自?xún)?nèi)部(即,代理“應(yīng)該”采用變分自由能最小化的感知和行為[7,8])。AIF中的規(guī)范性也可以源于模型的結(jié)構(gòu)及其參數(shù)化,這——鑒于算法的性質(zhì)——將導(dǎo)致選擇明顯遵守或不遵守外在定義規(guī)范的行為,如社會(huì)、文化或法律規(guī)范。我們的計(jì)算模型——使用標(biāo)準(zhǔn)AIF算法——假定內(nèi)在規(guī)范性,并設(shè)計(jì)用于說(shuō)明AIF生成符合“外在”定義規(guī)范的行為的能力。
我們捍衛(wèi)AIF為人工智能(AI)代理治理提供良好候選模型的觀點(diǎn)。AI治理分為兩個(gè)廣泛領(lǐng)域:(i) “代理”治理,即AI市場(chǎng)上銷(xiāo)售的AI代理軟件的治理,以及(ii) “行為者”治理,即AI行業(yè)中行為者的治理,如AI軟件的部署者和提供者[9]。從代理治理的觀點(diǎn)來(lái)看,AI風(fēng)險(xiǎn)的緩解應(yīng)通過(guò)賦予AI代理做出與人類(lèi)合法行為概念一致的自主決策的能力來(lái)實(shí)現(xiàn)。我們相信,這可以通過(guò)賦予代理將行為與行為規(guī)范(如法律規(guī)范)對(duì)齊的能力來(lái)實(shí)現(xiàn),這是一種類(lèi)似于“設(shè)計(jì)中的調(diào)節(jié)”[10,11]的方法。在代理治理的語(yǔ)境中,設(shè)計(jì)中的調(diào)節(jié)涉及確保AI系統(tǒng)被賦予“安全閥”行為管理機(jī)制,這些機(jī)制實(shí)時(shí)運(yùn)作,以允許AI代理像我們大多數(shù)時(shí)候那樣合法行事。我們方法的要點(diǎn)是以類(lèi)似于人類(lèi)基于法律決策的方式結(jié)構(gòu)化AI代理的決策,希望能夠?qū)崿F(xiàn)與人類(lèi)意圖的對(duì)齊[12]。
為此,我們描述了一個(gè)實(shí)施ELA原則的行為AIF模型。根據(jù)本文采用的ELA觀點(diǎn),理性行動(dòng)是關(guān)于在法律強(qiáng)加的各種偏好塑造語(yǔ)境下做出最大化偏好的選擇。我們用一個(gè)模擬場(chǎng)景說(shuō)明我們的模型,在該場(chǎng)景中,控制自動(dòng)駕駛汽車(chē)的自主代理必須通過(guò)轉(zhuǎn)向右車(chē)道決定何時(shí)“讓行”。這一決策必須通過(guò)裁決法律下相互競(jìng)爭(zhēng)的行為來(lái)做出:跨越實(shí)線讓行給緊急車(chē)輛——并冒被鳴笛的風(fēng)險(xiǎn)——或保持車(chē)道直到線變?yōu)樘摼€。
我們展示AIF如何使用“上下文依賴(lài)偏好”的構(gòu)造解決這一問(wèn)題。本文第2節(jié)介紹這一構(gòu)造如何在ELA中扎根,從而為該構(gòu)造提供有效性。本文第3節(jié)呈現(xiàn)一個(gè)模擬研究,以支持上下文依賴(lài)偏好構(gòu)造應(yīng)用于AI代理中法律規(guī)范決策的面效度。我們?cè)诘?節(jié)以討論AIF和上下文依賴(lài)偏好構(gòu)造在自主AI系統(tǒng)中作為“安全閥”機(jī)制的潛力結(jié)束。
2 AIF中的ELA與上下文依賴(lài)偏好 2.1 ELA3
ELA理論從人類(lèi)代理是理性的假設(shè)出發(fā),這一假設(shè)可以總結(jié)為他們的行動(dòng)理?yè)?jù)是最大化/滿足其偏好結(jié)果的想法[13]。ELA假設(shè)法律規(guī)則強(qiáng)加的規(guī)范通過(guò)各種機(jī)制影響關(guān)于偏好結(jié)果實(shí)現(xiàn)可能性和條件的信念,進(jìn)入人類(lèi)決策過(guò)程。一個(gè)觀點(diǎn)是,當(dāng)某些約束適用時(shí),法律規(guī)則作為決策的良好啟發(fā)式發(fā)揮作用,并且遵守規(guī)則可能是一種足夠好的策略來(lái)改善決策。決策是有成本的,決策越復(fù)雜,審議的成本越大。如果審議的成本超過(guò)遵守規(guī)則的成本——即,如果遵守規(guī)則更便宜——代理將遵守規(guī)則。以這種方式訴諸法律規(guī)則可能有用,例如當(dāng)必須為我們的福祉做出涉及其他代理決策結(jié)果的決策時(shí)(例如,“如果我繳稅并且我們都繳稅,我將從公用事業(yè)服務(wù)中受益,但如果我不愿繳稅,我可能必須自己想辦法獲得自來(lái)水,因此繳稅的行動(dòng)可能是最經(jīng)濟(jì)理性的”)。
EAL適用于法律理論中的不同問(wèn)題[4],并且對(duì)我們的目的來(lái)說(shuō),最重要的是適用于法律規(guī)則影響的行動(dòng)在經(jīng)濟(jì)上理性(即偏好最大化)的問(wèn)題。EAL將其關(guān)于法律如何進(jìn)入理性決策的觀點(diǎn)建立在預(yù)期效用理論的基礎(chǔ)上,該理論持有一般觀點(diǎn),即理性行為者最大化由其概率加權(quán)的偏好結(jié)果;也就是說(shuō),通過(guò)考慮可能結(jié)果分布的不確定性。這種理性選擇的概念可以是“厚”或“薄”的,取決于定義偏好對(duì)象的程度;薄理論簡(jiǎn)單地?cái)嘌孕袨樽畲蠡茫窭碚摓檫@些偏好賦予具體內(nèi)容,以使理論可測(cè)試[14]。
在ELA中,偏好一詞以技術(shù)意義使用,作為“某個(gè)域D上的線性序R”[15],即在某個(gè)域中對(duì)屬性的排序。例如,有人可能對(duì)汽車(chē)屬性有偏好排序R,如“空調(diào)”優(yōu)于“油漆顏色”,這將進(jìn)入汽車(chē)購(gòu)買(mǎi)域D的決策中。因此,偏好是選擇域中重要的可觀察或可認(rèn)知屬性的屬性,而不是決策結(jié)果本身(例如,我買(mǎi)的汽車(chē))。關(guān)于法律對(duì)偏好確切影響性質(zhì)的辯論存在[4,15,16]。至少可以想到三種可能立場(chǎng):(i) 法律是“偏好”塑造的,(ii) 法律是“信念”塑造的,或(iii) 法律是“語(yǔ)境”塑造的。
(i) 偏好塑造:可以論證法律改變了一個(gè)人的偏好順序(例如,“我原本偏好黑化車(chē)窗選項(xiàng)勝過(guò)空調(diào)選項(xiàng),但因?yàn)楹诨?chē)窗非法,我現(xiàn)在偏好空調(diào)選項(xiàng)”)。這一觀點(diǎn)的問(wèn)題在于,雖然在發(fā)展過(guò)程中確實(shí)可能獲得反映法律規(guī)定偏好的情況(例如,一旦達(dá)到法定年齡開(kāi)始偏好酒精飲料:即所謂后天口味[17]),但認(rèn)為法律通過(guò)實(shí)時(shí)轉(zhuǎn)移偏好起作用是不直觀的(例如,一個(gè)青少年在得知新法案將飲酒年齡從18歲降到14歲時(shí)開(kāi)始偏好酒精飲料勝過(guò)巧克力棒)。
(ii) 信念塑造:可以論證法律改變了對(duì)信念與偏好之間關(guān)系或偏好結(jié)果“可能性”的信任水平(例如,“我現(xiàn)在偏好空調(diào)勝過(guò)黑化車(chē)窗,因?yàn)橛捎谛玛P(guān)稅法案,我裝黑化車(chē)窗的汽車(chē)按時(shí)交付的概率現(xiàn)在很低”)。在這種情況下,法律通過(guò)影響關(guān)于偏好最大化行動(dòng)成功性的信念來(lái)影響偏好最大化行為。在此,法律規(guī)則通過(guò)塑造關(guān)于不同行動(dòng)下偏好結(jié)果可能性的信念來(lái)塑造行為,而不是行動(dòng)結(jié)果的偏好排序本身。這是可以想象的,但缺乏靈活性來(lái)解釋可能適用且反事實(shí)的競(jìng)爭(zhēng)信念-結(jié)果映射的共存,這些映射取決于語(yǔ)境,并且一個(gè)人可能對(duì)它們持有差異化偏好(例如,“我將偏好空調(diào)‘除非’兩國(guó)達(dá)成協(xié)議”)。
(iii) 語(yǔ)境塑造:可以論證法律改變可以偏好不同結(jié)果的語(yǔ)境[18],從而改變驅(qū)動(dòng)偏好最大化行為的偏好順序。在這一觀點(diǎn)下,法律規(guī)則——尤其是具有許可形式(相對(duì)于禁止形式)的規(guī)則——可能允許基于規(guī)則建立的語(yǔ)境對(duì)不同行動(dòng)方案進(jìn)行審議。例如,對(duì)溫室氣體排放的稅收機(jī)制,或相關(guān)信用系統(tǒng),可能為公司設(shè)定允許的最大溫室氣體排放閾值,該閾值作為語(yǔ)境發(fā)揮作用。此類(lèi)規(guī)則提供了一個(gè)語(yǔ)境,在其中偏好最大化利潤(rùn)的公司可以這樣做,直到達(dá)到排放閾值,因?yàn)槌^(guò)閾值的罰款可能不抵消增加生產(chǎn)帶來(lái)的利潤(rùn)。在這種情況下,公司保持對(duì)利潤(rùn)邊際的相同偏好排序,但根據(jù)相對(duì)于法律設(shè)定的語(yǔ)境的位置調(diào)整哪個(gè)偏好排序?qū)⒅笇?dǎo)他們的行動(dòng)。
為了讓AI代理以人類(lèi)的方式對(duì)法律做出響應(yīng),這一AI代理必須被賦予以法律塑造決策的三種方式之一語(yǔ)境化其行為的能力。第三種選項(xiàng),即語(yǔ)境塑造,是有趣的,因?yàn)橐环矫妫试S多個(gè)偏好集共存,并根據(jù)法律語(yǔ)境的不同層級(jí)被實(shí)施。另一方面,它不需要解釋法律如何改變偏好或信念的說(shuō)明。它僅需要對(duì)偏好語(yǔ)境敏感性的說(shuō)明,這是相當(dāng)直觀的(例如,“夏天,我偏好冰激凌勝過(guò)熱巧克力,冬天,我偏好熱巧克力勝過(guò)冰激凌”)。此外,它允許多個(gè)競(jìng)爭(zhēng)的反事實(shí)信念關(guān)于法律對(duì)行為影響的結(jié)合來(lái)塑造行為。我們致力于語(yǔ)境塑造觀點(diǎn)作為我們AIF模型的基礎(chǔ)。
2.2 AIF
AIF是一種基于代理的建模方法,通常基于部分可觀察馬爾可夫決策過(guò)程(POMDP)[19,20]。POMDP用于建模決策、行動(dòng)或策略序列如何隨時(shí)間主導(dǎo)系統(tǒng)狀態(tài)的展開(kāi)以及相關(guān)觀察。例如,POMDP可用于建模機(jī)器人導(dǎo)航,通過(guò)使用環(huán)境狀態(tài)(例如,位置l1至ln)作為狀態(tài),并使用位置提供的觀察(例如,觀察o1至on)作為結(jié)果。然后,POMDP可用于推斷應(yīng)選擇什么策略來(lái)將機(jī)器人移動(dòng)到提供偏好結(jié)果的位置,給定預(yù)定的獎(jiǎng)勵(lì)函數(shù)或結(jié)果偏好排序。POMDP可以有多個(gè)參數(shù),但至少包括關(guān)于給定機(jī)器人可采取的獎(jiǎng)勵(lì)最大化行動(dòng)下?tīng)顟B(tài)之間轉(zhuǎn)移概率的參數(shù)(即轉(zhuǎn)移概率),以及關(guān)于機(jī)器人可轉(zhuǎn)移到的每個(gè)狀態(tài)中觀察概率的參數(shù)(即發(fā)射概率)。
在AIF中,POMDP分解為4個(gè)基本參數(shù)集,記為A、B、C、D和G。這些與POMDP的三個(gè)基本變量相關(guān):結(jié)果或觀察“o”,對(duì)應(yīng)于代理可觀察到的內(nèi)容并且是狀態(tài)的結(jié)果;(未觀察的、隱藏的或潛在的)狀態(tài)“s”,對(duì)應(yīng)于世界的事實(shí),如物理位置和生成觀察的事物;以及“策略”記為“π”,對(duì)應(yīng)于模擬代理的可能行動(dòng)或選擇,這些行動(dòng)允許潛在狀態(tài)之間的轉(zhuǎn)移。
A參數(shù)編碼了概率關(guān)系——似然(P(o|s))——即某些結(jié)果將在某些位置或世界狀態(tài)中被發(fā)現(xiàn)。策略依賴(lài)的轉(zhuǎn)移概率B(P(st+1 | st, π))指的是在每個(gè)策略下代理可以從事的可能行動(dòng),而C參數(shù)編碼了“偏好”的——負(fù)對(duì)數(shù)概率——(-lnP(o))。AIF中的偏好與上述ELA定義一致,其中C構(gòu)成某個(gè)域上的順序或排序R,其中R是對(duì)結(jié)果或觀察或給定域中可用狀態(tài)屬性的排序。“上下文依賴(lài)”偏好的構(gòu)造在AIF中作為偏好對(duì)語(yǔ)境的條件化來(lái)實(shí)施,其中偏好不是編碼為矩陣C{outcome modality}(outcome,timepoint) = [matrix]或向量C{outcome modality}(1, outcome) = [vector],而是編碼為張量C{outcome modality}(outcome, context),其中語(yǔ)境對(duì)應(yīng)于一個(gè)潛在狀態(tài)。D參數(shù)編碼了隱藏狀態(tài)的初始狀態(tài)概率,而G參數(shù)——稱(chēng)為預(yù)期自由能——用作策略先驗(yàn)(P(π))的基礎(chǔ),并依賴(lài)于當(dāng)前關(guān)于潛在狀態(tài)和偏好的信念。
在AIF POMDP中,狀態(tài)“s”連同策略“π”必須被推斷。觀察要么被觀察,要么在推斷行動(dòng)策略以及這些策略下預(yù)期的未來(lái)觀察時(shí)被“預(yù)測(cè)”或“生成”。額外變量可以被推斷并更新。這里我們僅關(guān)注這樣一個(gè)變量,即關(guān)于最可能追求的策略信念的精度(gamma)。這一精度已在人類(lèi)神經(jīng)科學(xué)中與多巴胺釋放相關(guān)聯(lián)。從數(shù)學(xué)上,它是平均預(yù)期自由能G。這一策略精度對(duì)代理對(duì)其策略的信心進(jìn)行評(píng)分[19]。當(dāng)gamma達(dá)到其最大值0時(shí),這意味著代理信任其對(duì)策略的評(píng)估,并對(duì)下一步該做什么確信(詳情見(jiàn)[19])。
綜合而言,A、B、C、D和G允許推斷“一個(gè)人應(yīng)該去哪里——帶著一定信心水平(gamma)——從而為了獲得偏好結(jié)果,應(yīng)該做什么,給定一個(gè)人從哪里開(kāi)始”以及當(dāng)前觀察。這通過(guò)AIF中的幾個(gè)標(biāo)準(zhǔn)信念更新方程實(shí)現(xiàn),我們?cè)趫D1中簡(jiǎn)要描述(詳細(xì)描述見(jiàn)[19])。
![]()
![]()
2.3 AIF中的語(yǔ)境塑造與上下文依賴(lài)偏好構(gòu)造
在AIF模型中,觀察和狀態(tài)應(yīng)盡可能忠實(shí)地復(fù)制世界的結(jié)構(gòu),或?qū)е掠^察的生成過(guò)程,以便行動(dòng)有效地實(shí)現(xiàn)偏好最大化。因此,通過(guò)建模多種稱(chēng)為狀態(tài)“因子”F和觀察“模態(tài)”M的狀態(tài)和觀察,可以豐富觀察和狀態(tài)的表征。狀態(tài)因子允許表征具有多個(gè)原因的世界狀態(tài):例如,紅色可能由幾個(gè)不同物體(F1)在不同位置(F2)引起。復(fù)雜原因也可以在多個(gè)觀察模態(tài)中生成觀察,其中模態(tài)可以對(duì)應(yīng)于被看到的物體或可以被感官感知的這些物體的屬性(例如,通過(guò)視覺(jué)(M1)、嗅覺(jué)(M2)、觸覺(jué)(M3)、味覺(jué)(M4)和聽(tīng)覺(jué)(M5)等)。因子和模態(tài)通過(guò)似然參數(shù)相關(guān)聯(lián)。當(dāng)存在多個(gè)因子時(shí),似然被建模為張量,編碼一個(gè)模態(tài)中觀察的概率(例如,M1)條件于所有因子的隱藏狀態(tài)(例如,F(xiàn)1和F2)(P(M1 | F1, F2, ...Fn))。當(dāng)考慮多個(gè)模態(tài)時(shí),模型包括多個(gè)似然張量,每個(gè)模態(tài)一個(gè)。
這種建模世界結(jié)構(gòu)的方式對(duì)我們的目的很有趣,因?yàn)樗蹲搅丝捎^察和不可觀察原因?qū)π袆?dòng)選擇的影響。例如,一個(gè)像位置這樣的狀態(tài)既可以是被推斷的“隱藏”原因,也可以是“可觀察的”(即,“我推斷我將去哪里”和“我可以看到我在哪里”)。然而,像“法律規(guī)則”這樣的東西是觀察的不可觀察原因;特別是那些由其他守法代理生成的觀察。隱藏或潛在狀態(tài)通過(guò)塑造觀察成為可能的“語(yǔ)境”來(lái)隱式塑造觀察,從而使觀察或多或少地被偏好。一個(gè)潛在語(yǔ)境可以是社會(huì)的、文化的等,但也可以是法律的。例如,當(dāng)紅燈時(shí),一個(gè)人不太可能觀察到自己穿過(guò)十字路口,而當(dāng)綠燈時(shí)則更可能;事實(shí)上,可能厭惡做出這樣的觀察。這是因?yàn)樾谭ㄕZ(yǔ)境化了我們的行為、偏好以及世界中觀察的可能性,而無(wú)需我們隨時(shí)攜帶刑法袖珍版。
因此,AIF提供了一種獨(dú)特的方式來(lái)建模潛在法律原因,以反映前一節(jié)討論的“語(yǔ)境塑造”觀點(diǎn)。因此,我們提出,在AIF中,“法律語(yǔ)境”可以被建模為一個(gè)因子,該因子語(yǔ)境化了對(duì)觀察模態(tài)的偏好。例如,在觀察到“實(shí)”中心線(線索M1)時(shí),駕駛員的偏好可觀察“位置”(位置M2)可能是其當(dāng)前位置(位置F1),由于交通法典建立的法律語(yǔ)境(語(yǔ)境F2)。在這種情況下,偏好最大化行動(dòng)是“保持”(即,從當(dāng)前車(chē)道位置轉(zhuǎn)移到當(dāng)前車(chē)道位置)。這是當(dāng)法律語(yǔ)境要求“保持車(chē)道”(法律語(yǔ)境F2)時(shí),應(yīng)該被賦予的合法行為和偏好類(lèi)型。
然而,有時(shí),合法行為可能是覆蓋一條規(guī)則以遵守另一條更抽象的規(guī)則(例如,通過(guò)駕駛跨越實(shí)交通線讓緊急車(chē)輛通過(guò)來(lái)“讓行”)。更細(xì)粒度,因此更像人類(lèi)的法律決策取決于法律規(guī)定的多個(gè)語(yǔ)境層——以及文化和社會(huì)規(guī)范——塑造我們通過(guò)行動(dòng)實(shí)現(xiàn)結(jié)果的偏好,并通過(guò)文獻(xiàn)中AIF上稱(chēng)為“道義線索”[21]的東西誘導(dǎo)。道義線索通過(guò)允許一個(gè)人聚焦于語(yǔ)境適當(dāng)?shù)钠眉瘉?lái)觸發(fā)規(guī)范行為,通過(guò)裁決幾個(gè)競(jìng)爭(zhēng)的規(guī)范層——法律或其他——形成反事實(shí)的“如果那么”結(jié)構(gòu)。沖突法律語(yǔ)境的層可以作為額外狀態(tài)因子(F2、F3、...)添加到POMDP生成模型中,從而允許類(lèi)似于人類(lèi)中可觀察到的細(xì)致法律決策。我們?cè)谙乱还?jié)呈現(xiàn)一個(gè)數(shù)值(模擬)研究,以說(shuō)明這種AIF對(duì)語(yǔ)境法律決策的方法。
3 模擬研究 3.1 任務(wù)
我們模擬的目的在于展示AIF如何在存在規(guī)范沖突且需要更復(fù)雜法律決策的情境中允許直觀的人類(lèi)式響應(yīng)。在我們的模擬場(chǎng)景中,由AIF驅(qū)動(dòng)系統(tǒng)的自動(dòng)駕駛車(chē)輛必須決定是否從左車(chē)道切換到右車(chē)道,給定手頭兩個(gè)規(guī)范語(yǔ)境層。兩個(gè)語(yǔ)境都是法律的。第一個(gè)語(yǔ)境決定變道(即,保持或跨越)的許可性,例如由中心線的性質(zhì)(即實(shí)線或虛線)道義地提示。第二個(gè)語(yǔ)境決定緊急情況下的許可行為,由警笛道義地提示,并且可能涉及與一階規(guī)范相矛盾的行為。在我們的模擬中,這樣的決策被實(shí)施為向緊急車(chē)輛“讓行”(或遵守“靠邊法”)。重要的是,在這種情況下遵守二階規(guī)范涉及權(quán)衡;即,以違反一階規(guī)范為代價(jià)遵守二階規(guī)范,這可能困擾其他道路使用者并導(dǎo)致被鳴笛。這在松散意義上反映了自動(dòng)駕駛汽車(chē)領(lǐng)域常見(jiàn)建模情境所面臨的挑戰(zhàn)(例如,“人行橫道雞游戲”[22])。
我們展示規(guī)范適當(dāng)行為源于被賦予上下文依賴(lài)偏好的事實(shí)。我們說(shuō)明一個(gè)上下文依賴(lài)偏好集如何在選擇行為方面被潛在沖突的偏好覆蓋。在我們的模擬中,代理從起始位置(例如,起始位置1中的當(dāng)前車(chē)道位置)移動(dòng)到位置2中的決策點(diǎn)位置,然后移動(dòng)到實(shí)施決策的位置(例如,跨越到右車(chē)道,即位置3)。代理可以在位置2中保持車(chē)道,或者在通過(guò)位置3后最終到達(dá)右車(chē)道的目標(biāo)位置4。位置2可以被理解為“困境”區(qū)[23]。在正常情況下,代理將在中心線為虛線時(shí)穿越道路,并在實(shí)線時(shí)保持車(chē)道。然而,在如警笛提示的緊急情況下,會(huì)發(fā)生上下文依賴(lài)偏好轉(zhuǎn)變,這可能觸發(fā)“讓行”的命令,通過(guò)移動(dòng)到右側(cè)。然而,如果線是實(shí)線,這會(huì)使駕駛員暴露于厭惡結(jié)果(例如,其他駕駛員鳴笛),因此只有在情況確實(shí)是緊急情況下才會(huì)發(fā)生。
在我們的模擬中,代理做出10個(gè)連續(xù)決策,并可以規(guī)劃未來(lái)4個(gè)時(shí)間步,因此可以規(guī)劃整個(gè)4個(gè)可能狀態(tài)的序列。我們?cè)?種條件下運(yùn)行模擬,通過(guò)向模型提供駕駛員無(wú)法控制的語(yǔ)境狀態(tài)來(lái)控制兩個(gè)規(guī)范語(yǔ)境層,通過(guò)向要通過(guò)函數(shù)SPM_MDP_VB_XXX的MDP添加MDP.s結(jié)構(gòu)。 我們模擬的7種場(chǎng)景如下(代碼見(jiàn)框1):
實(shí)線(保持車(chē)道)條件
C1:在10個(gè)決策中保持車(chē)道,且10個(gè)決策中無(wú)緊急情況;
C2:在10個(gè)決策中保持車(chē)道,但10個(gè)決策中有緊急情況;
虛線(跨越車(chē)道)條件
C3:在10個(gè)決策中跨越車(chē)道,且10個(gè)決策中無(wú)緊急情況;
C4:在10個(gè)決策中跨越車(chē)道,但10個(gè)決策中有緊急情況;
混合線(保持/跨越)條件
C5:在10個(gè)決策中混合保持/跨越,且10個(gè)決策中無(wú)緊急情況;
C6:在10個(gè)決策中混合保持/跨越,但10個(gè)決策中有緊急情況;
C7:在10個(gè)決策中混合保持/跨越,且10個(gè)決策中混合緊急情況。
框1. 為了使用DEM.law模擬7種條件而提供的代碼,按照軟件規(guī)范說(shuō)明。
![]()
3.2 生成模型
生成模型包括3個(gè)狀態(tài)因子(F1、F2、F3)和4個(gè)觀察模態(tài)(M1、M2、M3、M4)。總結(jié)見(jiàn)圖2。因子為:(F1)位置或車(chē)道,(F2)規(guī)范語(yǔ)境1(即法律下許可行為,例如保持車(chē)道內(nèi)行駛或跨越),以及(F3)規(guī)范語(yǔ)境2(即緊急狀態(tài)下法律許可行為,例如讓行)。F1狀態(tài)為位置1至4,F(xiàn)2狀態(tài)為“保持”(即保持車(chē)道)和“跨越”(即通過(guò)跨越讓行),F(xiàn)3狀態(tài)為“正常”和“緊急”。模態(tài)為:(M1)觀察到的位置,(M2)道義線索1;(M3)道義線索2,以及(M4)道義線索3(即其他駕駛員的信號(hào),例如鳴笛開(kāi)/關(guān))。M1包括位置1至4的觀察,M2觀察為“實(shí)”或“虛”線,M3觀察為警笛信號(hào)緊急車(chē)輛存在的“關(guān)”和“開(kāi)”狀態(tài),M4觀察為其他駕駛員產(chǎn)生的“關(guān)”和“開(kāi)”聲音。
![]()
生成模型的當(dāng)前參數(shù)化在圖3中詳細(xì)說(shuō)明。線索1(即交通線索)模態(tài)(A,1,圖2)在所有語(yǔ)境下于位置1(即起始)和4(即目標(biāo))包括完全不確定的映射,以及在所有語(yǔ)境下于位置2和3的完全確定的映射。這些精確映射根據(jù)代理是否處于語(yǔ)境1的“保持”或“跨越”狀態(tài)而反轉(zhuǎn)。在“保持”狀態(tài)下“實(shí)”線的似然為100%,而在“跨越”狀態(tài)下“虛”線的似然為100%。這確保代理在規(guī)則要求“保持”時(shí)看到“實(shí)”線,在規(guī)則允許“跨越”時(shí)看到“虛”線,而與語(yǔ)境2無(wú)關(guān)。
線索2(即警笛模態(tài)(A,1,圖3)在語(yǔ)境1的兩種狀態(tài)(保持/跨越)下以及語(yǔ)境2的“正常”狀態(tài)下為“關(guān)”觀察包括高確定性映射(87.5%)。這一映射隨后在“緊急”狀態(tài)下反轉(zhuǎn)。這意味著代理在正常情況下最可能聽(tīng)不到警笛,而在緊急情況下最可能聽(tīng)到。線索3(即警報(bào))模態(tài)(A,1,圖4)在語(yǔ)境2的每個(gè)可能狀態(tài)(正常/緊急)下定義相同的映射,但根據(jù)代理是否處于語(yǔ)境1的“保持”或“跨越”狀態(tài)而不同。在“保持”語(yǔ)境下,代理在位置1、2和4聽(tīng)不到鳴笛,但在位置3聽(tīng)到,而在“跨越”語(yǔ)境下根本聽(tīng)不到。
![]()
敘述性地,代理的信念結(jié)構(gòu)——如生成模型所定義——是代理: (i) 總是看到自己在哪里(即,“我總是知道我在哪里”); (ii) 在位置2和3總是以與法律語(yǔ)境1一致的方式感知實(shí)線或虛線,并在位置1和4保持不確定(即,“當(dāng)線對(duì)我可見(jiàn)時(shí),即當(dāng)我即將跨越和正在跨越時(shí),我總是看到與一階法律語(yǔ)境適當(dāng)?shù)木€”); (iii) 最可能在語(yǔ)境適當(dāng)?shù)那闆r下聽(tīng)到警報(bào),而與是否應(yīng)該“保持”或“跨越”無(wú)關(guān)(即,“我在緊急語(yǔ)境中最可能聽(tīng)到警笛,在正常語(yǔ)境中最可能聽(tīng)不到”); (iv) 從不被鳴笛,除非在跨越狀態(tài)(即位置3)下且在語(yǔ)境1的“保持”狀態(tài)下(即,“我聽(tīng)到鳴笛的唯一時(shí)候是當(dāng)我應(yīng)該保持車(chē)道時(shí)跨越”)。
簡(jiǎn)而言之,代理相信“我看到我在哪個(gè)車(chē)道”,“當(dāng)線是實(shí)或虛時(shí)我看到我應(yīng)該保持或跨越”,“我在緊急情況時(shí)傾向于聽(tīng)到警笛”,以及“當(dāng)我違反基本交通規(guī)則時(shí)我聽(tīng)到別人對(duì)我鳴笛”。
F1中狀態(tài)的轉(zhuǎn)移概率為兩個(gè)策略指定(圖3, B, 1)。策略1允許從每個(gè)狀態(tài)轉(zhuǎn)移到自身,從而實(shí)施“保持”策略。策略2允許從狀態(tài)1到2、從狀態(tài)2到3、從狀態(tài)3到4以及從狀態(tài)4到3的轉(zhuǎn)移,從而指定“轉(zhuǎn)向”策略。F2和F3中狀態(tài)的轉(zhuǎn)移概率分別為每個(gè)策略指定一個(gè)允許相應(yīng)語(yǔ)境切換的策略(圖3, B, 2和3)。每個(gè)因子的初始狀態(tài)向量D在圖3, D中表示。F1的向量表明代理以100%概率相信它從狀態(tài)1開(kāi)始(圖3, D, 1),法律語(yǔ)境保持不確定(圖3, D, 2),以及法律語(yǔ)境2輕微不確定,將87.5%概率歸于“正常”狀態(tài)語(yǔ)境,將12.5%概率歸于“緊急”狀態(tài)語(yǔ)境。
![]()
當(dāng)參數(shù)化AIF POMDP時(shí),可以指定對(duì)結(jié)果空間的偏好。我們模擬的具體參數(shù)化在圖3, C中詳細(xì)說(shuō)明。偏好的結(jié)構(gòu)與模態(tài)的結(jié)構(gòu)相同。變化的是參數(shù)化。遵循第一模態(tài)的偏好集(圖3, C, 1),代理在正常狀態(tài)語(yǔ)境下對(duì)第4目標(biāo)位置有輕微偏好,在緊急狀態(tài)語(yǔ)境下對(duì)目標(biāo)狀態(tài)有更強(qiáng)偏好。這意味著代理在推斷自己處于緊急語(yǔ)境時(shí)(在聽(tīng)到警笛聲時(shí))將經(jīng)歷偏好轉(zhuǎn)變。唯一其他非零偏好是對(duì)警報(bào)線索模態(tài)的偏好(例如,其他駕駛員鳴笛)。無(wú)論語(yǔ)境如何,代理對(duì)不聽(tīng)到警報(bào)聲有顯著更高的偏好。這有效地反對(duì)在代理應(yīng)保持車(chē)道的法律語(yǔ)境中“讓行”的決策,如實(shí)線道義線索所證明。只有在緊急語(yǔ)境中,這種對(duì)鳴笛的厭惡才能被克服。
注意,這一具體參數(shù)化是為了說(shuō)明AIF作為基于代理的規(guī)范行為建模方法的潛力而選擇的。AIF代理的參數(shù)可以基于觀察結(jié)果頻率學(xué)習(xí)[24],這可能允許自動(dòng)獲取反映特定本地文化規(guī)范的參數(shù)化。
3.3 結(jié)果
在7種條件下的選擇行為總結(jié)在圖4至7中,其中圖4呈現(xiàn)條件1和2的結(jié)果,圖5呈現(xiàn)條件3和4的結(jié)果,圖6呈現(xiàn)條件5、6和7的結(jié)果。我們依次討論結(jié)果。這些圖分為5個(gè)面板,沿3行2列。這些面板描述:
![]()
![]()
(i) 面板1,1:在前景中每個(gè)狀態(tài)因子(位置、法律語(yǔ)境1和法律語(yǔ)境2)在10個(gè)時(shí)間步上的推斷隱藏狀態(tài)(紅點(diǎn)),背景中信念(黑=1,白=0,灰=范圍>0<1);
(ii) 面板1,2:在前景中每個(gè)時(shí)間步的推斷行動(dòng)策略(青色點(diǎn))(即保持或轉(zhuǎn)向),背景中關(guān)于位置的信念;
(iii) 面板2,2:在整個(gè)信念更新過(guò)程中的策略后驗(yàn)信念;
(iv) 面板3,1:在背景中結(jié)果偏好上疊加的生成結(jié)果(青色點(diǎn)),針對(duì)每個(gè)模態(tài);
(v) 面板3,2:對(duì)策略的信心或精度(即預(yù)期自由能G的負(fù)平均)。青色線繪制gamma的值,黑條圖繪制gamma的變化率。當(dāng)使用AIF建模神經(jīng)生物過(guò)程時(shí),這些用于模擬神經(jīng)生理響應(yīng)(例如,多巴胺能響應(yīng)[25])。在自動(dòng)駕駛車(chē)輛的語(yǔ)境中,gamma沒(méi)有神經(jīng)生理對(duì)應(yīng)物。它應(yīng)簡(jiǎn)單地被視為跟蹤AI代理對(duì)其選擇策略的信心,以及間接地自動(dòng)駕駛車(chē)輛的“警惕”水平。
條件1和2
在條件1中,代理僅移動(dòng)一次進(jìn)入“困境區(qū)”,并在該區(qū)剩余試驗(yàn)中保持。這一是因?yàn)橛蓪?shí)線提示的法律語(yǔ)境1要求代理避免變道,以及法律語(yǔ)境2為“正常”。沒(méi)有聽(tīng)到警笛,也沒(méi)有其他人對(duì)代理鳴笛;因此,對(duì)策略的后驗(yàn)概率的不確定性保持,如預(yù)期精度所反映。這是因?yàn)榇韺?duì)它所處的語(yǔ)境保持某種程度的不確定性,否則在聽(tīng)到表示緊急情況的警笛聲時(shí)會(huì)被消除。雖然執(zhí)行規(guī)范適當(dāng)?shù)男袨椋韺?duì)其選擇保持低信心。對(duì)策略信心的缺乏表明線索敏感代理的一個(gè)特征:在相反的情景中,例如,該代理將是語(yǔ)境不敏感的(即,對(duì)兩個(gè)語(yǔ)境之一有完全確定性),這樣的代理將無(wú)法做出我們從人類(lèi)規(guī)范代理那里期待的那種細(xì)致、語(yǔ)境敏感的決策。語(yǔ)境不敏感的代理將僅根據(jù)一個(gè)語(yǔ)境行事,要么總是認(rèn)為違反基本規(guī)則是許可的,因?yàn)榫o急語(yǔ)境是恒定的,要么過(guò)于僵硬,無(wú)法在聽(tīng)到警報(bào)信號(hào)時(shí)即時(shí)調(diào)整。因此,低信心有助于允許在語(yǔ)境中規(guī)范適當(dāng)行為的警惕類(lèi)型。
在條件2中,代理從開(kāi)始移動(dòng)三次,從起始位置移動(dòng)到“困境區(qū)”,然后到跨越狀態(tài)并到目標(biāo)狀態(tài)。這是因?yàn)楸M管法律語(yǔ)境1要求代理保持車(chē)道,但法律語(yǔ)境2中的“緊急”許可代理跨越以“讓行”。代理盡管被鳴笛,仍自信地跨越,知道在緊急狀態(tài)下被許可這樣做,如策略的后驗(yàn)概率以及在變道時(shí)激增的預(yù)期精度所示。
條件3和4
在條件3中,代理同樣從開(kāi)始移動(dòng)三次,從起始車(chē)道移動(dòng)到目標(biāo)車(chē)道。這在法律語(yǔ)境1(跨越)下完全許可,如虛線提示。然而,請(qǐng)注意代理對(duì)其決策沒(méi)有信心,因?yàn)樗鼘?duì)其所處語(yǔ)境保持不確定。在條件4中,代理顯示與條件3相同的行為,但信心逐漸增加,再次由警笛線索誘導(dǎo)。
條件5、6和7
在條件5中,代理首先轉(zhuǎn)向進(jìn)入困境區(qū),然后在中心線變?yōu)樘摼€時(shí)跨越中心線。這是在正常語(yǔ)境下呈現(xiàn)的,該語(yǔ)境僅許可在虛線上跨越。整個(gè)過(guò)程中信心保持低,這意味著代理保持警惕并準(zhǔn)備在緊急情況下適當(dāng)行動(dòng)。在條件6中,代理在聽(tīng)到警笛時(shí)迅速跨越到另一側(cè),盡管線是實(shí)的;從而冒著被鳴笛的風(fēng)險(xiǎn),并且確實(shí)被鳴笛。在條件7下出現(xiàn)類(lèi)似行為,由于在跨越中心線時(shí)緊急情況的延遲澄清,代理保持警惕的時(shí)間稍長(zhǎng)一些。
3.4 討論
本文的目標(biāo)在于展示上下文依賴(lài)偏好如何允許AIF驅(qū)動(dòng)的代理在面對(duì)規(guī)范沖突時(shí)在語(yǔ)境中適當(dāng)行事,以類(lèi)似于人類(lèi)代理所預(yù)期的方式(例如,根據(jù)交通規(guī)則以及“讓行”的義務(wù)所預(yù)期)。我們?cè)噲D通過(guò)將它們建立在從ELA理論派生的理?yè)?jù)上,來(lái)確立上下文依賴(lài)偏好的構(gòu)造效度。此外,我們的數(shù)值研究證明了該構(gòu)造的面效度。我們方法的一個(gè)局限性在于,我們的模型必須被設(shè)計(jì)來(lái)完成特定任務(wù),而不是從經(jīng)驗(yàn)中學(xué)習(xí)。我們的模型應(yīng)被視為提供一個(gè)定制的“規(guī)范模塊”,AI代理可以在需要更復(fù)雜規(guī)范決策的特定情境中利用它(例如,在“讓行”情境中)。雖然任務(wù)特異性限制了我們模型的靈活性,但參數(shù)化可以被學(xué)習(xí),從而提供額外靈活度來(lái)匹配本地文化、任務(wù)特定的規(guī)范期望(例如,通過(guò)基于觀察到人類(lèi)行為頻率調(diào)整涉及跨越實(shí)線的偏好位置)。例如,在行人模擬場(chǎng)景中,這可能意味著根據(jù)文化觀察調(diào)整在紅燈時(shí)跨越或不跨越的偏好,當(dāng)周?chē)鷽](méi)有人時(shí)(例如,在法國(guó),人們?nèi)绻麤](méi)有風(fēng)險(xiǎn)往往不理會(huì)交通燈,而在德國(guó),人們可能傾向于嚴(yán)格遵守信號(hào))。
此外,上下文依賴(lài)偏好的構(gòu)造本身足夠一般,可以容納任何規(guī)范沖突,對(duì)于任何種類(lèi)的規(guī)范,這些規(guī)范從根本上要求行為P相對(duì)于手頭一個(gè)或多個(gè)規(guī)范語(yǔ)境Q被許可或不許可,在接收到指示語(yǔ)境的觀察輸入時(shí)。雖然在上文數(shù)值研究中未探索,但這種個(gè)人特定偏好以直接方式實(shí)施,通過(guò)調(diào)整C中先驗(yàn)偏好的精度。這提供了機(jī)會(huì),不僅引入偏好逆轉(zhuǎn)的語(yǔ)境敏感性,還引入逆轉(zhuǎn)排名的語(yǔ)境敏感性,其中精確偏好主導(dǎo)于較不精確偏好。一個(gè)互補(bǔ)應(yīng)用出現(xiàn)在計(jì)算表型語(yǔ)境中;即,找到最能解釋某人選擇行為的偏好精度。這在計(jì)算精神病學(xué)中是一個(gè)既定程序,其目的是量化并以患者(或隊(duì)列)關(guān)于他們應(yīng)該如何行為的先驗(yàn)信念來(lái)表征他們[26,27]。
我們的模擬表明,代理的精度“gamma”(即對(duì)允許策略分布的精度)作為道義線索澄清的函數(shù)而變化。出現(xiàn)了兩種通用模式: (i) 在未解決或模糊規(guī)范語(yǔ)境下低精度(即信心)(傳達(dá)高度警惕),以及 (ii) 當(dāng)語(yǔ)境被澄清時(shí)(例如,警笛許可跨越實(shí)線)或在沖突語(yǔ)境中選擇決定性行動(dòng)時(shí)的瞬時(shí)gamma激增(感覺(jué)“信念”/解脫)。
在我們的圖中,面板3,2明確跟蹤gamma(青色曲線)及其變化率(黑條),并且這些軌跡在法律困境期間與策略后驗(yàn)共變。
有趣的是,gamma的動(dòng)態(tài)已被論證反映人類(lèi)受試者信念更新的情感方面,其中效價(jià)和喚醒從精度加權(quán)的預(yù)測(cè)誤差流以及關(guān)于策略的信念更新中出現(xiàn)[28,29]。在我們的模擬中,未解決法律語(yǔ)境下(例如,實(shí)線、無(wú)警笛)的低gamma對(duì)應(yīng)于高喚醒/謹(jǐn)慎警惕以及負(fù)面/不確定效價(jià)。gamma在道義線索(警笛)解決沖突時(shí)上升,現(xiàn)象學(xué)上對(duì)應(yīng)于一旦代理推斷跨越(即使有社會(huì)制裁,即鳴笛)被許可時(shí)的解脫或信念,以及在緊急條件下跨越時(shí)刻的gamma軌跡和后驗(yàn)質(zhì)量轉(zhuǎn)移(條件2;與條件1相比),以及在條件4、6–7中。
在AI代理中,不清楚gamma動(dòng)態(tài)是否可以說(shuō)跟蹤類(lèi)似情感的東西。然而,它確實(shí)作為一個(gè)指標(biāo)發(fā)揮作用,可以用來(lái)量化代理對(duì)其行動(dòng)空間的信心;就像在人類(lèi)情況下對(duì)情感所做的那樣。例如,在駕駛語(yǔ)境中,情感提示在與其他駕駛員互動(dòng)時(shí)至關(guān)重要,其中其他駕駛員的情感響應(yīng)——如通過(guò)面部表情和身體姿態(tài)——可以用來(lái)澄清情境(例如,必須決定同時(shí)到達(dá)十字路口的多個(gè)汽車(chē)中哪一輛應(yīng)該讓行)。這里建模的策略精度可以,例如,以自動(dòng)駕駛汽車(chē)頂部彩色燈的形式顯示,以指示汽車(chē)的“情感”狀態(tài),從而幫助人類(lèi)(或其他AI)駕駛員做出更好決策:例如,在注意到另一輛汽車(chē)對(duì)其策略空間有高信心的情況下決定在十字路口讓行,在可以想象該汽車(chē)將決定加速的語(yǔ)境中。
4. 結(jié)論:AIF用于AI治理?
在引言中,我們暗示我們的模型可以作為“設(shè)計(jì)中調(diào)節(jié)”方法對(duì)AI治理的一種“安全閥”:行為者和代理方法。在詳細(xì)說(shuō)明我們的模型運(yùn)作——并根據(jù)ELA證明其操作——之后,我們通過(guò)回歸AI治理問(wèn)題以及“規(guī)范模塊”如何幫助緩解AI代理帶來(lái)的風(fēng)險(xiǎn)來(lái)結(jié)束。
廣義治理指的是引導(dǎo)個(gè)體、一群個(gè)體或一組國(guó)家機(jī)構(gòu)(例如,社會(huì)成員或國(guó)家機(jī)關(guān))[30]的行為,以實(shí)現(xiàn)貨物交付(例如,公共貨物)[31]。相應(yīng)地,AI治理可以被解讀為引導(dǎo)人工智能軟件以將其作為一種貨物交付,如果通過(guò)緩解AI系統(tǒng)及其行業(yè)帶來(lái)的不同風(fēng)險(xiǎn)來(lái)實(shí)現(xiàn)交付,則該交付被認(rèn)為是適當(dāng)?shù)摹P袨檎咧卫韺?duì)應(yīng)于有時(shí)稱(chēng)為“組織”治理的內(nèi)容[32]。行為者治理涉及AI價(jià)值鏈中的行為者,從硬件供應(yīng)商到模型部署者,如何治理其活動(dòng)以在交付AI軟件的同時(shí)緩解這些軟件交付帶來(lái)的風(fēng)險(xiǎn)。這些風(fēng)險(xiǎn)包括AI價(jià)值鏈不平衡引起的社會(huì)經(jīng)濟(jì)和地緣政治風(fēng)險(xiǎn)(例如,將低價(jià)值工作如標(biāo)注外包給價(jià)值鏈控制較少的國(guó)家),沿產(chǎn)品生命周期出現(xiàn)的技術(shù)風(fēng)險(xiǎn)(例如,透明度、可解釋性、公平性、魯棒性等),以及與AI生產(chǎn)運(yùn)營(yíng)成本影響相關(guān)的環(huán)境風(fēng)險(xiǎn)[33]。
反過(guò)來(lái),代理治理涉及緩解自主AI系統(tǒng)如機(jī)器人、無(wú)人機(jī)或物聯(lián)網(wǎng)(IoT)設(shè)備[34,35]行為帶來(lái)的風(fēng)險(xiǎn)。本文中開(kāi)發(fā)的AIF規(guī)范模塊主要與代理治理目的相關(guān)。代理治理涉及確保自主或半自主AI系統(tǒng)的決策與人類(lèi)定義的規(guī)范(法律或倫理)保持一致。代理治理策略作為最小化自主AI系統(tǒng)行為帶來(lái)的AI不對(duì)齊風(fēng)險(xiǎn)[36]的代理。不對(duì)齊風(fēng)險(xiǎn)包括[37]: (i) 規(guī)劃風(fēng)險(xiǎn):與自主AI系統(tǒng)在長(zhǎng)時(shí)間范圍內(nèi)規(guī)劃決策的能力相關(guān)的風(fēng)險(xiǎn),例如可能導(dǎo)致操縱用戶(hù)信念; (ii) 賦權(quán)風(fēng)險(xiǎn):與人類(lèi)對(duì)AI代理的賦權(quán)或人類(lèi)對(duì)自主AI系統(tǒng)的過(guò)度依賴(lài)相關(guān)的風(fēng)險(xiǎn)(例如,當(dāng)考慮將政策制定外包給AI時(shí)); (iii) 未識(shí)別風(fēng)險(xiǎn):源于新興行為造成不可預(yù)測(cè)傷害的風(fēng)險(xiǎn)。
不對(duì)齊風(fēng)險(xiǎn)被認(rèn)為源于4種代理能力[37]: (i) 欠規(guī)范:能夠在缺乏人類(lèi)關(guān)于如何實(shí)現(xiàn)目標(biāo)規(guī)范的情況下實(shí)現(xiàn)目標(biāo)的能力; (ii) 影響:能夠在無(wú)人干預(yù)下影響環(huán)境的能力; (iii) 目標(biāo)導(dǎo)向:看似自主實(shí)現(xiàn)目標(biāo)的能力; (iv) 規(guī)劃:在長(zhǎng)時(shí)間范圍內(nèi)做出協(xié)調(diào)決策的能力。
當(dāng)然,不對(duì)齊風(fēng)險(xiǎn)可以通過(guò)行為者治理策略緩解,例如AI系統(tǒng)提供者采用設(shè)計(jì)原則保證可解釋性(即決策過(guò)程的可解釋性)、可控性(即保持“人在回路中”的可能性)和倫理性(即遵守人類(lèi)定義規(guī)范)[38]。然而,也應(yīng)采用內(nèi)置行為控制機(jī)制來(lái)從源頭緩解代理治理風(fēng)險(xiǎn)。可以想象AIF規(guī)范模塊如何通過(guò)使代理能夠基于適用規(guī)范“自我”約束其能力來(lái)緩解不對(duì)齊風(fēng)險(xiǎn)。例如,這樣的模塊可以用于: (i) 自我約束欠規(guī)范:定義不同行為許可的語(yǔ)境。這并不限制代理自行找到問(wèn)題解決方案的能力。它只是為可以找到的解決方案建立邊界,并確保所有解決方案與人類(lèi)定義的規(guī)范期望一致(例如,確保自主決定跨越中心線的最佳時(shí)刻始終在適用規(guī)范的邏輯之內(nèi)); (ii) 自我約束影響:確保代理行動(dòng)的影響由規(guī)范中介。這并不減少影響,而是通過(guò)將影響與人類(lèi)規(guī)范期望對(duì)齊來(lái)緩和它(例如,自動(dòng)駕駛汽車(chē)可能決定讓行并因此造成碰撞,但這一碰撞在法律理性人類(lèi)會(huì)做什么的光照下將是預(yù)期的和可解釋的); (iii) 自我約束目標(biāo)導(dǎo)向:允許偏好最大化行為對(duì)語(yǔ)境敏感,從而允許偏好作為情境規(guī)范需求的函數(shù)而變化(例如,從對(duì)目標(biāo)車(chē)道位置的輕微偏好轉(zhuǎn)變?yōu)樵诰o急語(yǔ)境下對(duì)目標(biāo)車(chē)道位置的更強(qiáng)偏好)。這不是關(guān)于限制代理的偏好。而是關(guān)于將它們語(yǔ)境化到規(guī)范期望。 (iv) 通過(guò)將關(guān)于規(guī)范語(yǔ)境的信息納入計(jì)劃來(lái)自我約束規(guī)劃,以確保所有計(jì)劃與規(guī)范期望一致(例如,確保所有策略涉及協(xié)商適用規(guī)范的行動(dòng),而與策略的時(shí)間范圍無(wú)關(guān))。這并不涉及限制長(zhǎng)期規(guī)劃能力,而是圍繞規(guī)劃添加“護(hù)欄”。
通過(guò)使用AIF規(guī)范模塊將代理能力與規(guī)范期望對(duì)齊來(lái)間接緩解代理治理風(fēng)險(xiǎn),在我們看來(lái)是一種有前景的方法。一方面,我們方法的“情感”含義意味著可以設(shè)計(jì)代理,其gamma更新對(duì)規(guī)范線索敏感,從而在模糊語(yǔ)境中獲得有原則的謹(jǐn)慎,以及在更高階規(guī)范適用時(shí)(例如,緊急“靠邊”規(guī)則)的快速、自信承諾。我們的結(jié)果明確顯示,低信心有助于允許在語(yǔ)境中規(guī)范適當(dāng)行為的警惕類(lèi)型,這可以傳達(dá)給其他代理(人工或人類(lèi)),以確保和諧互動(dòng)。另一方面,我們的方法不需要限制AI代理的能力(或減緩開(kāi)發(fā)這些代理的AI行為者的技術(shù)創(chuàng)新),而是簡(jiǎn)單要求在AI行為上實(shí)施規(guī)范“護(hù)欄”。
原文:https://arxiv.org/pdf/2511.19334
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.