Trustworthy AI: From Principles to Practices
可信AI:從原則到實踐
https://dl.acm.org/doi/epdf/10.1145/3555803
![]()
人工智能(AI)技術的快速發(fā)展已經使得各種基于AI的系統得以部署。然而,許多當前的AI系統被發(fā)現容易受到不可察覺攻擊的影響、對代表性不足的群體存在偏見、缺乏用戶隱私保護。這些缺陷降低了用戶體驗,并侵蝕了人們對所有AI系統的信任。在本綜述中,我們?yōu)锳I從業(yè)者提供了一個構建可信AI系統的全面指南。我們首先介紹AI可信性的重要方面的理論框架,包括魯棒性、泛化能力、可解釋性、透明度、可重復性、公平性、隱私保護以及問責制。為了統一當前可用但碎片化的可信AI方法,我們將它們組織成一個系統化的方法,該方法考慮AI系統的整個生命周期,從數據獲取到模型開發(fā),再到系統開發(fā)和部署,最終到持續(xù)監(jiān)測和治理。在這個框架中,我們?yōu)閺臉I(yè)者和利益相關者(例如研究人員、工程師和監(jiān)管者)提供了具體的行動項,以提升AI的可信性。最后,我們指出了可信AI系統未來發(fā)展的關鍵機遇和挑戰(zhàn),其中我們強調了向全面可信AI系統進行范式轉變的必要性。
CCS 概念:? 計算方法論 → 人工智能;機器學習;? 一般與參考 → 綜述和概述;
附加關鍵詞和短語:可信AI、魯棒性、泛化能力、可解釋性、透明度、可重復性、公平性、隱私保護、問責制
1 引言
人工智能(AI)的快速發(fā)展持續(xù)為社會帶來顯著的經濟和社會效益。隨著AI在交通、金融、醫(yī)療、安全和娛樂等領域的廣泛應用,社會越來越意識到這些系統需要值得信賴。這是因為,鑒于這些AI系統的普遍性,利益相關者的信任一旦被破壞,可能會導致嚴重的社會后果。這種信任的破壞可能包括自動化系統在招聘和貸款決策中的偏見處理[49, 146],甚至可能導致人類生命的喪失[52]。相比之下,AI從業(yè)者,包括研究人員、開發(fā)人員和決策者,傳統上一直將系統性能(即準確性)視為其工作流程中的主要指標。這一指標遠遠不足以反映AI系統的可信度。為了提高AI系統的可信度,應該考慮系統性能之外的多個方面,包括但不限于其魯棒性、算法公平性、可解釋性和透明度。
盡管大多數關于AI可信度的學術研究都集中在模型的算法屬性上,但僅靠算法研究的進步是不足以構建值得信賴的AI產品的。從工業(yè)角度來看,一個AI產品的生命周期包括多個階段,包括數據準備、算法設計、開發(fā)和部署以及運營、監(jiān)控和治理。在生命周期的多個階段(例如數據清理、魯棒算法、異常監(jiān)控和風險審計)中做出努力,才能在任何一個方面(例如魯棒性)提高可信度。相反,任何一個環(huán)節(jié)或方面的信任受損都可能破壞整個系統的可信度。因此,應該在整個AI系統的生命周期中系統地建立和評估AI可信度。
除了從其生命周期的所有階段全面看待AI系統的可信度外,了解AI可信度不同方面的全貌也很重要。除了通過為每個具體方面建立要求來追求AI可信度外,我們還關注這些方面的組合和相互作用,這些是構建值得信賴的真實世界AI系統的重要且尚未得到充分研究的主題。例如,對數據隱私的需求可能會干擾詳細解釋系統輸出的愿望,而追求算法公平性可能會損害某些群體所經歷的準確性和魯棒性[284, 361]。因此,簡單地將系統組合起來分別提高每個方面的可信度,并不能保證最終結果更值得信賴和有效。相反,需要對可信度的多個方面進行精心的聯合優(yōu)化和權衡[47, 158, 331, 361, 380]。
這些事實表明,需要一種系統化的方法來將當前的AI范式轉向可信度。這需要多學科利益相關者的意識和合作,他們從事可信度的不同方面和系統生命周期的不同階段的工作。我們最近見證了關于可信AI的多學科研究的重要發(fā)展。從技術角度來看,可信AI推動了對抗學習、隱私學習以及機器學習(ML)的公平性和可解釋性的發(fā)展。一些最近的研究從研究[182, 218, 357]或工程[57, 62, 199, 338, 353]的角度對這些發(fā)展進行了梳理。非技術領域的進展也在少數研究中得到了回顧,包括指南[145, 178, 294]、標準化[210]和管理流程[31, 274, 301]。我們在附錄的A.2節(jié)中對各種綜述(包括算法研究、工程實踐和制度化)進行了詳細分析。這些分散的綜述大多集中在可信AI的具體觀點上。為了以一種系統化的視角同步這些多樣化的進展,我們以一種易于獲取的方式組織多學科知識,為AI從業(yè)者提供行動指南,并在工業(yè)系統的生命周期背景下提供系統化的指導,以構建可信的AI系統。我們的主要貢獻如下:
我們剖析了AI系統在工業(yè)應用中的整個開發(fā)和部署生命周期,并討論了如何在每個階段——從數據到AI模型,從系統部署到其運行——增強AI的可信度。我們提出了一個系統化的框架,以組織多學科和分散的方法來實現可信AI,并建議將其作為一個連續(xù)的工作流程來追求,以便在AI系統生命周期的每個階段納入反饋。
我們剖析了AI系統在工業(yè)應用中的整個開發(fā)和部署生命周期,并討論了如何在每個階段增強AI的可信度——從數據到AI模型,從系統部署到其運行。我們提出了一個系統化的框架,以組織多學科和分散的方法來實現可信AI,并進一步建議將其作為一個連續(xù)的工作流程來追求,以便在AI系統生命周期的每個階段納入反饋。我們還分析了實踐中可信度不同方面之間的關系(相互增強,有時是權衡)。目標是為AI系統的各個利益相關者,如研究人員、開發(fā)者、操作者和法律專家,提供一個易于訪問和全面的指南,以便他們能夠快速理解實現AI可信度的方法(第3節(jié))。
我們討論了研究界和工業(yè)實踐者在不久的將來應該關注的可信AI面臨的突出挑戰(zhàn)。我們確定了幾個關鍵問題,包括需要更深入和根本地理解AI可信度的幾個方面(例如,魯棒性、公平性和可解釋性),用戶意識的重要性,以及促進跨學科和國際合作(第4節(jié))。
通過這些貢獻,我們旨在為AI系統的實踐者和利益相關者不僅提供一個關于AI可信度的基礎和未來的全面介紹,而且還提供一個關于如何構建可信AI系統的操作指南。
2 AI可信度:超越預測準確性
過去幾十年中,機器學習(ML)技術的成功在很大程度上得益于基于準確性的性能測量。通過基于定量準確性或損失來評估任務性能,訓練AI模型在優(yōu)化的意義上變得可行。同時,預測準確性被廣泛采用來表明一個AI產品優(yōu)于其他產品。然而,隨著AI的廣泛應用,僅依賴準確性測量的局限性已經被一系列新挑戰(zhàn)所暴露,這些挑戰(zhàn)從針對AI系統的惡意攻擊到違反人類價值觀的AI濫用。為了解決這些問題,AI社區(qū)在過去十年中意識到,在構建AI系統時應該考慮并改進超出準確性的因素。一些企業(yè)[57, 62, 136, 166, 254, 338]、學術界[122, 199, 218, 301, 322]、公共部門和組織[9, 210, 334]最近已經識別了這些因素,并將它們總結為AI可信度的原則。這些原則包括魯棒性、安全性、透明度、公平性和安全性[178]。在參考文獻[145, 178]中提供了與這些原則相關的全面統計數據和比較。在本文中,我們研究了最近引起廣泛興趣且與實際應用密切相關的代表性原則。這些原則可以分為以下幾類:
我們考慮了與當前AI系統面臨的技術挑戰(zhàn)相關的代表性要求。我們回顧了最近技術研究中引起廣泛興趣的方面,包括魯棒性、可解釋性、透明度、可重復性和泛化能力。
我們考慮了在最近文獻[9, 57, 121, 145, 178, 199, 218, 301, 334]中廣泛關注的倫理要求,包括公平性、隱私和責任。
在本節(jié)中,我們闡述了每個要求的動機和定義。我們還調查了評估每個要求的方法。同時需要注意的是,所選擇的要求并不是相互獨立的,其中一些要求之間存在密切的相關性。在本節(jié)中,我們解釋了與相應要求的關系。我們還使用圖1來可視化各個方面之間的關系,包括權衡、貢獻和表現。
![]()
2.1 魯棒性
一般來說,魯棒性指的是算法或系統處理執(zhí)行錯誤、錯誤輸入或未見過的數據的能力。魯棒性是影響AI系統在實證環(huán)境中性能的重要因素。缺乏魯棒性也可能導致系統出現意外或有害的行為,從而降低其安全性和可信度。在機器學習系統的背景下,魯棒性一詞適用于多種情況。在這篇綜述中,我們非窮盡地總結了AI系統的魯棒性,分別從數據、算法和系統層面對漏洞進行分類。
數據。隨著AI系統的廣泛應用,AI模型部署的環(huán)境變得更加復雜和多樣化。如果AI模型在訓練時沒有考慮到不同場景中數據分布的多樣性,那么它的性能可能會受到顯著影響。對抗分布偏移的魯棒性在各種AI應用中一直是一個常見問題[19]。在高風險應用中,由于對安全性和安全性的負面影響,這個問題更加關鍵。例如,在自動駕駛領域,除了開發(fā)在晴朗場景下工作的感知系統外,學術界和工業(yè)界還在使用眾多的開發(fā)和測試策略來增強車輛在夜間/雨天場景下的感知性能,以確保系統在各種天氣條件下的可靠性[318, 382]。
算法。人們普遍認為,AI模型可能容易受到惡意攻擊者的攻擊。在各種形式的攻擊中,對抗性攻擊及其防御近年來在學術界和工業(yè)界引起了關注。文獻已經從幾個典型方面對對抗性攻擊的威脅進行了分類,并提出了各種防御方法[12, 69, 213, 304, 373]。例如,在參考文獻[340]中,根據攻擊時間對對抗性攻擊進行了分類。決策時攻擊通過擾動輸入樣本來誤導給定模型的預測,以便攻擊者能夠逃避安全檢查或冒充受害者。訓練時攻擊將精心設計的樣本注入訓練數據中,以改變系統對特定模式的響應,也被稱為投毒攻擊。考慮到攻擊的實用性,還應注意攻擊在執(zhí)行空間上的差異。傳統研究主要集中在特征空間攻擊上,這些攻擊直接作為模型的輸入特征生成。在許多實際場景中,對手只能修改輸入實體來間接產生與攻擊相關的特征。例如,有人很容易戴上對抗性圖案眼鏡來逃避面部驗證系統,但很難修改內存中的圖像數據。最近,產生可實現的基于實體的攻擊(問題空間攻擊)的研究越來越受到關注[325, 358]。除了直接誤導AI模型之外,算法層面的威脅可能以各種形式存在。模型竊取(也稱為探索性攻擊)試圖竊取有關模型的知識。雖然它不會直接改變模型行為,但竊取的知識對于生成對抗樣本具有重要價值[329]。
系統。在現實的AI產品中,還應仔細考慮系統級對非法輸入的魯棒性。在實際情況下,非法輸入的情況可能極其多樣。例如,一個分辨率非常高的圖像可能會使一個不完美的圖像識別系統掛起。自動駕駛車輛的激光雷達感知系統可能會感知到其他車輛發(fā)出的激光束,并產生損壞的輸入。呈現攻擊[275](也稱為欺騙攻擊)是近年來引起廣泛關注的另一個例子。它通過例如照片或面具來偽造輸入,以欺騙生物識別系統。
已經探索了各種方法來防止AI系統中的漏洞。防御的目標可以是主動的或被動的[227]。主動防御試圖優(yōu)化AI系統,使其對各種輸入更加魯棒,而被動防御旨在檢測潛在的安全問題,如分布變化或對抗樣本。在第3節(jié)中介紹了提高AI系統魯棒性的代表性方法。
評估。評估AI系統的魯棒性是避免漏洞和控制風險的重要手段。我們簡要描述了兩組評估:魯棒性測試和數學驗證。
魯棒性測試。測試一直是評估和增強傳統軟件以及AI系統魯棒性的基本方法。傳統的功能測試方法,如猴子測試[115],為評估系統級魯棒性提供了有效的方法。此外,正如將在第3.3.1節(jié)介紹的,軟件測試方法最近已被擴展到評估對抗對抗攻擊的魯棒性[226, 260]。與功能測試相比,性能測試,即基準測試,在機器學習領域更廣泛地用于評估系統性能的各個維度。在機器學習研究中,使用各種分布的測試數據集來評估數據的魯棒性。在對抗攻擊的背景下,最小的對抗擾動是魯棒性的核心指標,其經驗上界,即經驗魯棒性,在測試數據集上已被廣泛使用[65, 312]。從攻擊者的角度來看,攻擊的成功率也直觀地衡量了系統的魯棒性[312]。
數學驗證。繼承自形式化方法理論,對AI模型的對抗魯棒性的認證驗證引起了越來越多的興趣。例如,對抗魯棒性可以通過推導出對AI模型攻擊的最小失真非平凡且經過認證的下界來反映[51, 379]。我們將在第3.2.1節(jié)介紹這個方向。
2.2 泛化能力
泛化能力一直是機器學習模型關注的焦點。它代表了從有限的訓練數據中提取知識,對未見數據進行準確預測的能力[133]。盡管在可信AI的背景下泛化不是一個經常提及的方向,我們發(fā)現它對AI可信度的影響不容忽視,值得特別討論。一方面,泛化要求AI系統對現實數據進行預測,即使在它們未經訓練的領域或分布上也是如此[133]。這顯著影響了實際系統的可靠性和風險。另一方面,AI模型應該能夠在不需要為各種領域詳盡地收集和標注大量數據的情況下進行泛化[343, 391],從而使AI系統在廣泛的應用中部署更加經濟和可持續(xù)。
在機器學習領域,關于泛化理論的經典研究集中在對未見數據的預測上,這些數據通常與訓練數據具有相同的分布[133]。盡管AI模型在訓練數據集上可以達到合理的準確性,但已知它們在訓練和測試準確性之間存在差距(即泛化差距)。從統計學習到深度學習的不同領域的研究方法已經被研究來分析這個問題并增強模型的泛化能力。許多機器學習教科書中可以找到典型的代表方法,如交叉驗證、正則化和數據增強[133]。
創(chuàng)建現代數據驅動的AI模型需要在訓練階段大量數據和標注。這導致制造商和用戶在為每個任務重新收集和重新標注數據以訓練模型時成本高昂。這種成本突出了將模型知識泛化到不同任務的必要性,這不僅減少了數據成本,而且在許多情況下還提高了模型性能。在遷移學習范式下,已經探索了各種研究方向來解決不同場景和配置下的知識泛化問題[255, 350]。我們將在第3.2.2節(jié)回顧代表性方法。
泛化能力的包容性概念與AI可信度的其他方面密切相關,特別是魯棒性。在機器學習的背景下,對抗分布偏移的魯棒性(第2.1節(jié))也被認為是泛化問題。這意味著魯棒性和泛化的要求有一些重疊的方面。對抗魯棒性和泛化之間的關系更為復雜。正如參考文獻[362]所展示的,對抗小擾動具有魯棒性的算法具有更好的泛化能力。然而,最近的研究表明[271, 331],通過對抗訓練提高魯棒性可能會降低測試準確性并導致更差的泛化。為了解釋這一現象,參考文獻[116]認為對抗魯棒性對應于可能損害模型泛化能力的不同數據分布。
評估。在具有各種分布的測試數據集上進行基準測試是評估AI模型在現實場景中泛化能力的常用方法。參考文獻[391]總結了常用數據集和領域泛化基準測試,并涵蓋了對象識別、動作識別、分割和面部識別等任務。
在理論評估方面,過去的機器學習研究已經開發(fā)了豐富的方法來衡量模型泛化誤差的界限。例如,拉德馬赫復雜性[35]通常用于確定模型能夠多好地適應類標簽的隨機分配。此外,瓦普尼克-切爾諾文斯基(VC)維數[337]是可學習函數集的容量/復雜性的度量。VC維數越多,表示容量越高。
深度神經網絡(DNN)的進步導致了泛化理論的新發(fā)展。參考文獻[377]觀察到,盡管現代深度學習模型具有巨大的容量,但它們仍然可以實現泛化差距。這一現象引發(fā)了關于深度神經網絡(DNN)泛化的學術討論[23, 39]。例如,參考文獻[39]從偏差-方差權衡的角度檢查泛化,以解釋和評估DNN的泛化能力。
2.3 可解釋性和透明度
復雜AI系統的不透明性在學術界、工業(yè)界以及整個社會引起了廣泛關注。深度神經網絡(DNN)如何超越其他傳統機器學習方法的問題一直令研究人員感到困惑[24]。從實際系統的角度來看,用戶需要了解AI產品的意圖、商業(yè)模式和技術機制[9, 135]。多項研究從可解釋性、可解釋性和透明度等術語的角度來解決這些問題,并深入探討了不同的定義[5, 24, 47, 141, 216, 250]。為了使我們的討論更加簡潔和針對性,我們將可解釋性和透明度的范圍縮小到分別解決理論研究和實際系統中的上述問題。
可解釋性解決的是如何理解AI模型做出決策的問題[24]。
透明度將AI視為一個軟件系統,并尋求披露有關其整個生命周期的信息(參見參考文獻[9]中的“操作透明”)。
2.3.1 可解釋性。可解釋性,即理解AI模型如何做出決策,處于現代AI研究的核心位置,并作為決定對AI技術信任的基本因素。對AI可解釋性的需求來自多個方面[24, 25]。從科學研究的角度來看,理解AI系統中數據、參數、程序和結果的所有內在機制是有意義的。這些機制也從根本上決定了AI的可信度。從構建AI產品的角度來看,對可解釋性存在各種實際要求。對于銀行高管等操作者來說,可解釋性有助于理解AI信用系統,以防止?jié)撛诘娜毕輀25, 184]。像貸款申請者這樣的用戶想知道為什么他們被模型拒絕,以及他們可以做些什么來獲得資格[25]。詳見參考文獻[25]對可解釋性的各種動機的詳細分析。
解釋機器學習模型一直是過去五年中機器學習研究以及心理學研究中的一個活躍話題[5, 24, 47, 141, 216, 250]。盡管AI模型的可解釋性的定義仍然是一個開放性問題,但研究已經從AI[141, 285]和心理學[144, 245]的角度嘗試解決這個問題。總結起來,相關研究將可解釋性分為兩個層次來解釋:
模型設計時的可解釋性。在過去半個世紀的機器學習研究中,已經設計了一系列完全或部分可解釋的機器學習模型。代表包括線性回歸、樹、k最近鄰(KNN)、基于規(guī)則的學習器、廣義加性模型和貝葉斯模型[24]。可解釋模型的設計仍然是機器學習中的一個活躍領域。
事后模型可解釋性。盡管上述傳統模型具有良好的可解釋性,但更復雜的模型如深度神經網絡(DNN)或梯度提升決策樹(GDBT)在最近的工業(yè)AI系統中表現出更好的性能。由于相關方法仍然無法全面解釋這些復雜模型,研究人員轉向事后解釋。它通過分析模型的輸入、中間結果和輸出來解決模型的行為。在這方面的一個代表性類別是通過使用可解釋的機器學習模型(即解釋器),如線性模型[225, 279]和規(guī)則[140, 280],來全局或局部近似決策面。對于像卷積神經網絡(CNN)或變換器這樣的深度學習模型,檢查中間特征是解釋模型行為的廣泛使用手段[332, 366]。
可解釋性的方法在機器學習中是一個活躍的研究領域,并已在多種研究中得到了全面的調查[24, 47, 141, 250]。在第3.2.3節(jié)中回顧了實現上述兩個層面可解釋性的代表性算法。評估。除了解釋AI模型的問題外,可解釋性的統一評估被認為是一個挑戰(zhàn)。這的主要原因在于可解釋性在心理學上的界定不明確。為了規(guī)避這個問題,多種研究已經使用定性指標來評估可解釋性,并有人類的參與。代表性的方法包括:
主觀人類評估。在這種情況下的評估方法包括訪談、自我報告、問卷調查和案例研究,這些方法測量例如用戶滿意度、心理模型和信任[144, 155, 267]。
人-AI任務表現。在人-AI協作執(zhí)行的任務中,協作表現受到人類對AI協作者理解的顯著影響,可以被視為解釋質量的反映[249]。這種評估已被用于開發(fā)例如推薦系統[198]和數據分析[132]。
此外,如果可解釋性可以通過解釋器實現,那么后者的表現,例如在近似精度(保真度[140, 279, 280])方面,可以用來間接和定量地評估可解釋性[16]。
盡管有上述評估,可解釋性的直接定量測量仍然是一個問題。一些模型復雜性的簡單測量,如樹深度[46]和規(guī)則集的大小[202],已經被研究作為先前工作中的替代可解釋性指標。我們認為,統一的定量指標是基礎AI研究的核心。最近關于機器學習模型復雜性[162]及其認知功能復雜性[347]的研究可能會激發(fā)未來關于統一定量評估指標的研究。
2.3.2 透明度。透明度要求披露系統的信息,并且在軟件工程中早已被認為是一個要求[89, 207]。在AI行業(yè)中,這一要求自然涵蓋了AI系統的生命周期,并幫助利益相關者確認適當的設計原則在其中得到體現。以一個用于識別的生物識別系統為例。用戶通常關心他們的生物識別信息被收集的目的以及如何使用。業(yè)務運營者關心準確性和對攻擊的魯棒性,以便他們可以控制風險。政府部門關心AI系統是否遵循指導方針和法規(guī)。總的來說,透明度是建立公眾對AI系統信任的基本要求[22, 178, 189]。
為了使AI系統的生命周期透明化,需要披露有關其創(chuàng)建的各種信息,包括設計目的、數據來源、硬件要求、配置、工作條件、預期用途和系統性能。一系列研究已經通過適當的文檔檢查披露這些信息[22, 129, 156, 246, 265]。這在第3.5.1節(jié)中討論。最近開源系統的趨勢也顯著地促進了AI系統的算法透明度。
由于AI系統的內部程序復雜且動態(tài),關于其創(chuàng)建的事實不足以完全揭示其機制。因此,在各種場景中,還應考慮運行時過程和決策的透明度。對于一個交互式AI系統,適當設計的用戶界面是披露底層決策程序的重要手段[10]。在許多安全關鍵系統中,如自動駕駛車輛,日志系統[29, 261, 369]被廣泛采用來追蹤和分析系統執(zhí)行。
評估。盡管統一的定量評估尚不可用,但透明度的定性評估在AI行業(yè)中最近已經取得了進展。評估清單[10, 292]被視為評估和增強系統透明度的有效手段。在用戶或公眾心理學的背景下,用戶研究或A/B測試可以基于用戶滿意度提供有用的評估[249]。
近年來,人們還探索了AI文檔的質量評估。一些研究[22, 129, 156, 246, 273]提出了標準實踐來指導和評估AI系統的文檔。參考文獻[265]總結了更具體評估的一般定性維度。
2.4 可重復性
現代AI研究涉及數學推導和計算實驗。這些計算過程的可重復性是驗證AI研究的關鍵步驟。在AI可信度方面,這種驗證有助于檢測、分析和減輕AI系統中潛在風險,例如特定輸入的漏洞或意外的偏見。隨著AI研究社區(qū)開放合作生態(tài)系統的逐步建立,可重復性正成為研究人員和開發(fā)者關注的問題。除了使研究得到有效驗證外,可重復性還允許社區(qū)快速將最新方法轉化為實踐或進行后續(xù)研究。
AI研究社區(qū)出現了一種新趨勢,即在公布研究時將可重復性視為一項要求[142]。我們看到了主要會議,如神經信息處理系統會議(NeurIPS)、國際機器學習會議(ICML)和ACM多媒體會議(ACMMM),引入了與可重復性相關的政策或程序[263],以鼓勵工作的可重復性。為了獲得清晰的評估,ACM Artifact Review和參考文獻[106, 143]等作品中研究了可重復性的程度。例如,在參考文獻[143]中,最低程度的可重復性要求使用相同的實現和數據完全復制實驗,而更高程度的要求使用不同的實現或數據。除了基本的研究驗證外,更高程度的可重復性通過區(qū)分影響效果的關鍵因素,促進了對研究的更好理解。
一些最近開發(fā)的大規(guī)模預訓練AI模型,如生成預訓練變換器3(GPT-3)和雙向編碼器表示從變換器(BERT),代表了AI研究可重復性的挑戰(zhàn)。這些模型的創(chuàng)建涉及專門設計的數據收集策略、大數據的有效存儲、分布式集群之間的通信和調度、算法實現、適當的軟件和硬件環(huán)境以及其他類型的專業(yè)知識。這種模型的可重復性應該在其整個生命周期中考慮。在最近關于機器學習可重復性的研究中,這一要求被分解為數據、方法和實驗的可重復性[142, 143, 169],后者涵蓋了代碼、文檔、軟件、硬件和部署配置等一系列生命周期工件。基于這種方法,越來越多的機器學習平臺正在開發(fā)中,以幫助研究人員和開發(fā)者更好地以可重復的方式跟蹤生命周期[169, 374]。
評估。可重復性清單最近在機器學習會議中被廣泛采用,以評估提交的可重復性[263]。除了在出版物中復制實驗外,參考文獻[142, 143]還指定了在不同程度上評估可重復性的清單。除了清單外,還采用了可重復性挑戰(zhàn)和可重復性論文軌道等機制來評估出版物的可重復性[118, 263]。為了在挑戰(zhàn)的背景下定量評估可重復性,已經研究了一系列定量指標。例如,參考文獻[53, 118]設計了指標來量化信息檢索系統可以被復制到其原始狀態(tài)的程度。
2.5 公平性
當AI系統在招聘、金融風險評估和面部識別等領域幫助我們時,它們決策中的系統性不公平可能對社會產生負面影響(例如,弱勢群體可能在招聘決策中經歷系統性劣勢[49],或在犯罪風險分析中受到不成比例的影響[104, 146, 161])。這不僅損害了各利益相關者對AI的信任,也阻礙了AI技術為更大利益的發(fā)展和應用。因此,實踐者必須牢記AI系統的公平性,以避免植入或加劇社會偏見[66, 105, 242]。
AI系統中公平性的一個共同目標是減輕偏見的影響。減輕偏見并非易事,因為偏見可以采取多種形式,如數據偏見、模型偏見和程序偏見,在開發(fā)和應用AI系統的過程中[242]。偏見通常表現為基于人們的受保護信息(例如,性別、種族和民族)對不同群體的不公平對待。因此,群體身份(有時也稱為敏感變量)和系統響應(預測)是影響偏見的兩個因素。在某些情況下,評估系統公平性時還應考慮給定任務的客觀真實情況,例如,一個人的語言是否被正確識別或他們的面部是否被正確識別。
公平性可以適用于系統行為的多個粒度級別[66, 242, 339]。在每個粒度級別,我們可能關心分配公平或結果公平,或程序公平或過程公平(我們請讀者參閱參考文獻[137]以獲得更詳細的討論)。在每種情況下,我們通常關心AI系統的聚合行為及其中的偏見,這被稱為統計公平或群體公平。在某些應用中,考慮個體公平或反事實公平也很有幫助,特別是當敏感變量可以更容易地與其他應合理決定系統預測的特征分離時[242]。雖然前者更廣泛地適用于各種機器學習任務,例如語音識別和面部識別,后者在諸如簡歷審查以篩選候選人[44]的情況下可能至關重要。
在群體層面,研究人員已經確定了三個抽象原則來分類不同類型的公平性[66]。我們用一個簡單的招聘申請者的例子來說明它們,申請者來自一個由50%男性和50%女性申請者組成的群體,其中性別是敏感變量(例子改編自參考文獻[339, 388]):
獨立性。這要求系統結果在統計上獨立于敏感變量。在我們的示例中,這要求男性和女性申請者的錄取率相等(稱為人口統計奇偶校驗[376];另見不同影響[117])。
分離性。獨立性沒有考慮到真實情況與敏感變量之間的合理相關性(例如,可能更少的女性申請者比男性申請者更容易舉起100磅的貨物)。因此,分離性要求在給定潛在真實情況的條件下,獨立性原則成立。也就是說,如果工作要求體力資格,那么合格男性和女性申請者的錄取率應該相等(稱為平等機會[147];另見平等機會[43]和準確性公平[95])。
充分性。充分性同樣考慮了真實情況,但要求在給定相同系統預測的條件下,真實結果和敏感變量獨立。也就是說,鑒于模型預測的相同招聘決策,我們希望男性和女性申請者中合格申請者的比例相同(稱為測試公平[80, 147])。這與模型校準密切相關[266]。
請注意,這些原則在某些情況下是相互排斥的(例如,當敏感變量與真實情況相關時,獨立性和分離性不能同時成立)。參考文獻[187]討論了各種公平性指標之間的權衡。此外,參考文獻[84]提倡了這些原則的擴展視圖,其中預測和真實結果的效用被納入考慮(例如,暴力犯罪再犯的風險和成本與拘留成本相比),并且可以與敏感變量相關聯。我們請讀者參閱這項工作以獲得更詳細的討論。
評估。盡管上一節(jié)概述的抽象標準很簡單,但公平性可以根據這些原則以許多不同形式表現(參見參考文獻[66, 356]進行全面調查,以及參考文獻[228]關于AI倫理的清單)。我們根據模型和任務的屬性對公平性指標進行分類,以幫助讀者為他們的應用選擇合適的指標:
離散變量與連續(xù)變量。任務輸出、模型預測和敏感變量都可以是離散的(例如,分類和國籍)、排序的(例如,搜索引擎、推薦系統)或連續(xù)的(例如,回歸、分類器分數、年齡等)。可以使用標準統計工具(如相關系數(皮爾遜/肯德爾/斯皮爾曼)和方差分析(ANOVA))評估離散變量的經驗相關性,而連續(xù)變量通常還需要進行分箱、量化或損失函數來評估公平性[66]。
損失函數。由于經驗數據的限制,公平性標準通常無法完全滿足(例如,在只招聘三名候選人時,群體之間的人口統計奇偶校驗)。在這種情況下,損失函數很有用,可以衡量我們離經驗公平性有多遠。損失函數的選擇可以由所關注變量的性質來指導:如果變量代表概率,那么似然比更有意義(例如,不同影響[117]);對于實值回歸,可以使用每個群體聚合到真實值的平均距離差異來表示我們是否對一個群體的建模顯著優(yōu)于另一個群體[59]。
多個敏感變量。在許多應用中,理想的AI系統應該對多個敏感變量公平(例如,貸款風險的預測應該在性別和種族方面都公平;此外,推薦系統理想情況下應該對用戶和被推薦者都公平)。可以分別評估每個變量的公平性,并結合損失函數進行最終評估,或者探索所有變量的完整笛卡爾積[307]以實現聯合公平,這通常需要更多的經驗觀察,但傾向于滿足更強的倫理要求。
2.6 隱私保護
隱私保護主要指的是防止未經授權使用能夠直接或間接識別個人或家庭的數據。這些數據涵蓋了廣泛的信息,包括姓名、年齡、性別、面部圖像、指紋等。對隱私保護的承諾被視為決定AI系統可信度的一個重要因素。最近發(fā)布的AI倫理指南也強調隱私是關鍵關注點之一[9, 178]。政府機構正在制定越來越多的政策來規(guī)范數據隱私。《通用數據保護條例》(GDPR)就是一個代表性的法律框架,它推動企業(yè)采取有效措施保護用戶隱私。
除了企業(yè)內部的隱私保護之外,最近在AI利益相關者之間進行數據交換的發(fā)展為隱私保護帶來了新的挑戰(zhàn)。例如,在訓練一個醫(yī)學AI模型時,每個醫(yī)療機構通常只有來自當地居民的數據,這可能不足以滿足需求。這導致了與其他機構合作并聯合訓練模型的需求[299],同時不泄露機構間的私人信息。
現有的保護技術貫穿AI系統的整個生命周期,以解決日益增長的隱私問題。在第3節(jié)中,我們簡要回顧了在數據收集和處理、模型訓練(第3.2.5節(jié))以及模型部署(第3.4.4節(jié))中保護隱私的技術。隱私保護的實現也與可信AI的其他方面相關。例如,透明度原則在AI系統中被廣泛使用。它告知用戶個人數據收集情況,并啟用隱私設置。在開發(fā)隱私保護機器學習軟件(如聯邦學習,例如FATE和PySyft)時,開源是一種常見的做法,以增加透明度并證明系統的保護性。
評估。像GDPR這樣的數據隱私保護法律要求,如果任何數據處理對數據隱私構成風險,則必須進行數據保護影響評估(DPIA)。必須采取措施解決與風險相關的擔憂,并證明遵守法律[10]。需要讓數據隱私保護專業(yè)人士和其他利益相關者參與評估。
以前的研究已經設計了各種數學方法來正式驗證隱私保護方法的保護性。典型的驗證可以在半誠實安全等假設下進行,這意味著所有參與方都遵循協議執(zhí)行計算任務,但可能試圖從計算的中間結果中推斷其他方的數據(例如,參考文獻[215])。更嚴格的假設是惡意攻擊假設,其中每個參與方不需要遵循給定的協議,并且可以采取任何可能的措施來推斷數據[214]。
在實際場景中,通常會考慮隱私泄露風險的實證評估[283, 360]。例如,參考文獻[283]表明,15個人口統計屬性足以使99%的參與者具有唯一性。在設計數據收集計劃時,對這種數據重新識別的評估直觀地反映了保護性。
2.7 責任性:對上述要求的全面評估
我們已經描述了一系列建立可信AI的要求。責任性涉及對AI系統遵循這些要求的規(guī)范。隨著AI治理的法律和制度規(guī)范的逐步完善,責任性成為AI以可信度持續(xù)造福社會的關鍵因素[100]。
責任性貫穿AI系統的整個生命周期,并要求AI系統的利益相關者有義務證明他們的設計、實施和運營與人類價值觀一致。在執(zhí)行層面,這種證明通過考慮周到的產品設計、可靠的技術架構、對潛在影響的負責任評估以及對這些方面的信息披露來實現[209]。請注意,在信息披露方面,透明度為促進AI系統的責任性提供了基本機制[94, 100]。
從責任性還衍生出可審計性的概念,它要求對系統的證明進行審查、評估和審計[209]。算法審計是確保AI系統責任性并評估其對多維度人類價值觀影響的一種公認方法[272]。另見第3.5.2節(jié)。
評估。基于清單的評估已被研究用于定性評估責任性和可審計性[10, 315]。如本節(jié)所述,我們將責任性視為對可信AI每個具體要求的全面證明。其實現由對AI系統生命周期中這些要求的評估組成[272]。因此,責任性的評估反映了這些可信度要求及其影響在多大程度上可以被評估。
3 可信AI:系統化方法
我們在第2節(jié)介紹了與可信AI相關的概念。自2010年代初以來,不同的AI利益相關者一直在努力提高AI的可信度。在我們的附錄A中,我們簡要回顧了他們在多學科領域的最新實踐,包括研究、工程和監(jiān)管,以及在人臉識別、自動駕駛和自然語言處理(NLP)等工業(yè)應用中的示例研究。這些實踐在提高AI可信度方面取得了重要進展。然而,我們發(fā)現,從工業(yè)角度來看,這項工作仍然不足。如第1節(jié)和圖2所示,AI行業(yè)處于連接多學科領域以建立可信AI的位置。這一位置要求工業(yè)利益相關者學習和組織這些多學科方法,并確保AI在其生命周期中的可信度。
![]()
在本節(jié)中,我們簡要回顧了用于構建可信AI產品的技術,并從工業(yè)角度將其組織到產品開發(fā)的生命周期中。如圖2中的實線框所示,典型AI產品的開發(fā)生命周期可以分為數據準備、算法設計、開發(fā)-部署和管理[26]。我們回顧了在每個生命周期階段與AI產品可信度密切相關的幾個關鍵算法、指南和政府法規(guī),旨在為來自不同背景的實踐者提供系統化的方法和易于遵循的指南,以建立可信AI。本節(jié)中提到的方法和文獻總結在圖3和表1中。
![]()
![]()
3.1 數據準備
當前的AI技術在很大程度上是由數據驅動的。數據的適當管理和利用不僅提高了AI系統的性能,還影響了其可信度。在本節(jié)中,我們考慮數據準備的兩個主要方面,即數據收集和數據預處理。我們還討論了與可信AI相對應的要求。
3.1.1 數據收集
數據收集是AI系統生命周期的基礎階段。精心設計的數據收集策略可以提高AI可信度,例如在公平性和可解釋性方面。
偏見緩解:訓練和評估數據被認為是AI系統的常見偏見來源。可能存在許多類型的偏見,并困擾數據收集中的公平性,需要不同的過程和技術來對抗它(參見參考文獻[242]進行全面調查)。
在數據收集期間的偏見緩解技術可以分為兩大類:去偏見采樣和去偏見標注。前者涉及識別要使用或標注的數據點,而后者側重于選擇合適的標注者。
在采樣數據點進行標注時,我們注意到反映用戶群體的數據集并不能保證公平性,因為統計方法和指標可能偏向多數群體。如果多數群體在任務上更同質(例如,由于數據稀缺,識別較少聽說的口音的語音可能自然更困難[191]),這種偏見可能會進一步放大。因此,系統開發(fā)人員在開發(fā)和評估公平的AI系統時應考慮任務難度。然而,為代表性不足的數據選擇合適的標注者尤其重要(例如,在標注語音識別數據時,大多數人也難以識別很少聽到的口音)。因此,在為代表性不足的群體標注數據時,必須注意選擇合適的專家,以防止人為偏見滲入標注數據。
解釋收集:除了模型設計和開發(fā)外,數據收集對于構建可解釋的AI系統也至關重要。如將在第3.2.3節(jié)中提到的,向AI模型添加解釋任務可以幫助解釋模型的中間特征。這種策略在基于NLP的閱讀理解任務中使用,通過生成支持句子[332, 366]。為了訓練解釋任務,考慮收集可能不是最終任務一部分的解釋或信息是有幫助的,可以直接從標注者[354]那里收集,或者借助自動化方法[185]。
數據來源:數據來源要求記錄數據血統,包括來源、依賴關系、上下文和處理步驟[306]。通過以最高分辨率跟蹤數據血統,數據來源可以提高AI系統的透明度、可重復性和責任性[154, 172]。此外,最近的研究表明,數據來源可以用來緩解數據投毒[33],從而增強AI系統的魯棒性和安全性。數據來源的技術實現已在參考文獻[154]中提供。針對涉及AI系統的具體場景,也研究了工具鏈[293]和文檔[129]指南。
為確保來源的防篡改性,最近區(qū)塊鏈被認為是證明AI中數據來源的有前途的工具[15, 96]。
3.1.2 數據預處理
在將數據輸入AI模型之前,數據預處理有助于去除可能損害模型行為和可能危害用戶隱私的不一致污染。
異常檢測:異常檢測(也稱為離群點檢測)一直是機器學習[70, 81, 257, 316]中的活躍領域。由于機器學習模型對離群數據的敏感性,通過異常檢測進行數據清洗是提高性能的有效方法。在最近的研究中,異常檢測已被證明在滿足AI可信度的一些要求方面是有用的。例如,欺詐性數據可能挑戰(zhàn)銀行和保險等領域系統的魯棒性和安全性。為解決這一問題,已提出了各種方法,使用異常檢測[70]。檢測和緩解對抗性輸入也被認為是防御規(guī)避攻擊和數據投毒攻擊的一種手段[12, 213, 304]。值得注意的是,在高維度(例如,圖像)中檢測的有效性仍然有限[64]。對抗性攻擊的緩解也被稱為數據凈化[71, 87, 258]。
數據匿名化(DA):DA修改數據,使得受保護的私人信息無法恢復。已經開發(fā)了不同的定量數據匿名化原則,如k-匿名性[288],(c, k)-安全性[236],和δ-存在性[253]。特定于數據格式的DA方法已經研究了幾十年[171, 372, 386]。例如,社交網絡圖數據中的私人信息可能包含在圖的頂點屬性、鏈接關系、權重或其他圖度量中[390]。文獻中已經考慮了匿名化此類數據的方法[37, 220]。還為關系數據[262]、集合值數據[151, 320]和圖像數據[97, 239]設計了特定的DA方法。已經制定了數據匿名化的指南和標準,如美國HIPAA和英國ISB1523。數據假名化[251]也是GDPR推廣的相關技術。它用非識別性引用替換私人信息。
理想的數據匿名化應該能夠免疫于試圖從匿名化數據中恢復私人信息的數據去匿名化或重新識別攻擊[111, 175]。
例如,參考文獻[176]介紹了幾種用于從圖數據中去匿名化用戶信息的方法。為了降低隱私泄露的風險,參考文獻[174]提供了一個開源平臺,用于評估圖數據匿名化算法在面對去匿名化攻擊時的隱私保護相關性能。
差分隱私(DP)。差分隱私在保留數據集中群體信息的同時,隱藏個體樣本的信息[108–110]。典型的差分隱私可以通過ε-差分隱私來正式定義。它衡量一個(隨機化的)統計函數在數據集上反映是否移除一個元素的程度[108]。差分隱私已經在各種數據發(fā)布任務中被探索,例如日志數據[159, 385]、集合值數據[76]、相關網絡數據[75]和眾包數據[278, 344]。它還被應用于單機和多機計算環(huán)境,并與機器學習模型集成以保護模型隱私[2, 120, 349]。像蘋果這樣的企業(yè)已經使用差分隱私將用戶數據轉換成無法還原真實數據的形式[21]。在參考文獻[113]中,研究人員提出了滿足差分隱私定義的RAPPOR算法。該算法用于眾包用戶軟件的統計分析。差分隱私還被用于提高人工智能模型對抗對抗樣本的魯棒性[204]。
3.2 算法設計
在人工智能研究的背景下,可信人工智能的許多方面已經被視為算法問題,并引起了廣泛的關注。我們根據人工智能可信性的相應方面對最近的技術方法進行分類,包括魯棒性、可解釋性、公平性、泛化能力和隱私保護,以便為從業(yè)者提供快速參考。
3.2.1 對抗魯棒性 人工智能模型的魯棒性受到訓練數據和所使用算法的顯著影響。我們在本節(jié)中描述了幾個代表性方向。可以在文獻中找到全面的綜述,例如參考文獻[12, 19, 45, 69, 213, 304, 373]。
對抗訓練。自發(fā)現對抗攻擊以來,人們認識到通過在訓練數據中添加對抗樣本是防御對抗攻擊的一種直觀方法。這通常被稱為對抗訓練[134, 211, 346]。可以通過在訓練過程中同時輸入原始數據和對抗樣本以暴力方式實現數據增強[201],也可以通過使用正則化項來隱式表示對抗樣本[134]。傳統的對抗訓練針對特定攻擊增強數據。它可以防御相應的攻擊,但對其他類型的攻擊存在漏洞。已經研究了各種改進方法以增強這種防御[45, 229, 304]。參考文獻[328]通過從其他模型轉移對抗擾動來增強訓練數據。研究表明,這可以進一步防御不需要模型參數知識的黑盒攻擊。這有助于防御不需要模型參數知識的黑盒攻擊。參考文獻[231]將多種類型的擾動結合到對抗訓練中,以增強模型對多種攻擊類型的魯棒性。
對抗正則化。除了隱式表示對抗樣本的正則化項外,最近的研究進一步探索網絡結構或正則化,以克服深度神經網絡對對抗攻擊的漏洞。這種正則化的直觀動機是防止網絡輸出在小輸入擾動的情況下發(fā)生劇烈變化。例如,參考文獻[139]通過懲罰每一層的較大偏導數來提高其輸出的穩(wěn)定性。參考文獻[286]采用了類似的梯度正則化。Parseval網絡[82]通過在每一層施加Lipschitz常數的正則化來訓練網絡。
認證魯棒性。對抗訓練和正則化在實踐中提高了人工智能模型的魯棒性,但無法從理論上保證這些模型能夠可靠地工作。這個問題促使研究正式驗證模型的魯棒性(即認證魯棒性)。最近關于認證魯棒性的研究集中在處理輸入擾動的魯棒訓練上。例如,CNN-Cert[51]、CROWN[379]、Fast-lin和Fast-lip[352]旨在最小化在給定輸入擾動下最壞情況損失的上界。參考文獻[152]則推導出改變分類器決策所需的輸入操作的下界,并將其作為魯棒訓練的正則化項。為了應對在大型網絡中精確計算這些界限的計算不可行性問題,各種松弛或近似方法,如參考文獻[352, 378],已被提出作為正則化的替代方案。需要注意的是,上述研究主要僅在給定訓練數據附近局部優(yōu)化魯棒性。為了在未見輸入上實現認證魯棒性,全局魯棒性最近引起了人工智能界的關注[77, 206]。
值得注意的是,認證魯棒性與形式化驗證視角的交叉研究的最新趨勢,其目標是為軟件正確性保證開發(fā)嚴格的數學規(guī)范和驗證技術[83]。參考文獻[335]最近的一項綜述對神經網絡的形式化驗證進行了全面回顧。
投毒防御。典型的投毒或后門攻擊通過污染訓練數據來誤導模型行為。除了在數據清理階段避免可疑數據外,針對投毒數據的防御算法是一個活躍的研究領域[213]。這種防御已經在深度神經網絡模型的不同階段進行了研究。例如,基于觀察到與后門相關的神經元通常對良性樣本處于非激活狀態(tài),參考文獻[219]提出從網絡中剪枝這些神經元以移除隱藏的后門。Neural Cleanse[342]積極發(fā)現模型中的后門模式。然后可以通過從數據中早期檢測后門模式或重新訓練模型以減輕后門來避免后門。還可以通過對模型在特別設計的基準輸入上的預測進行分析來檢測后門攻擊[194]。
3.2.2 模型泛化 模型泛化技術不僅旨在提高模型性能,還探索在有限數據和有限成本下訓練人工智能模型。我們回顧了模型泛化的代表性方法,分為經典泛化和領域泛化。
經典泛化機制。作為模型泛化理論的一個基本原則,偏差-方差權衡表明,一個泛化的模型應該在欠擬合和過擬合之間保持平衡[39, 124]。對于一個過擬合的模型,降低復雜性/容量可能會導致更好的泛化。以神經網絡為例,向其中添加瓶頸層(該層的神經元數量少于上下層)可以幫助降低模型復雜性并減少過擬合。
除了調整模型的架構外,還可以通過各種顯式或隱式正則化來減輕過擬合,以獲得更好的泛化,例如提前停止[370]、批量歸一化[167]、Dropout[309]、數據增強和權重衰減[196]。這些正則化是當訓練數據的規(guī)模遠小于模型參數數量時提高模型泛化的標準技術[337]。它們旨在將學習推向具有可管理復雜性的假設子空間,并降低模型復雜性[377]。然而,[377]還觀察到,顯式正則化可能提高泛化性能,但不足以降低泛化誤差。因此,深度神經網絡的泛化仍然是一個開放性問題。
領域泛化。現代深度神經網絡面臨的挑戰(zhàn)之一是它們對分布外數據的泛化。這一挑戰(zhàn)源于各種實際人工智能任務[343, 391],在遷移學習領域[255, 350]中尤為突出。領域適應[343, 391]旨在找到領域不變的特征,使得算法能夠在不同領域實現類似的性能。另一個例子是,少樣本學習的目標是僅使用少量樣本將模型泛化到新任務[78, 348, 371]。元學習[336]嘗試從多個相似任務中學習泛化的先驗知識。特征相似性[190, 308]已被用作知識先驗的代表性類型,例如在模型無關元學習(MAML)[119]、強化學習[212]和記憶增強神經網絡[38, 291]等工作中。
模型預訓練是一種利用其他領域所學知識的流行機制,并在學術界和工業(yè)界都取得了日益成功的成果。例如,在計算機視覺中,一個成功的范式是在大規(guī)模數據集(如ImageNet)上預訓練模型,然后在目標任務上微調,這些目標任務的訓練數據較少[131, 224, 375]。這是因為預訓練的特征表示可以用于將信息轉移到目標任務[375]。無監(jiān)督預訓練最近在語言處理(例如BERT[92]和GPT[269])和計算機視覺任務(例如Momentum Contrast(MoCo)[150]和序列對比學習(SeCo)[368])中取得了巨大成功。此外,自監(jiān)督學習為學習跨模態(tài)特征表示提供了一個良好的機制。這些包括視覺和語言模型VL-BERT[313]和Auto-CapTIONs[256]。為了說明無監(jiān)督預訓練的有效性,[112]進行了一系列實驗,說明它可以驅動學習進入產生更好泛化的最小值盆地。
3.2.3 可解釋的機器學習 在本節(jié)中,我們回顧了第2.3.1節(jié)中提到的機器學習可解釋性的兩個方面的代表性方法及其在不同任務中的應用。
可解釋機器學習模型設計。盡管被認為在性能方面存在劣勢,但可解釋模型近年來得到了積極研究,并且研究了各種完全或部分可解釋的機器學習模型,以推動它們的性能極限。
自解釋機器學習模型。多年來,機器學習領域研究了許多自解釋模型。其中的代表性模型包括KNN、線性/邏輯回歸、決策樹/規(guī)則以及概率圖模型[24, 47, 141, 250]。需要注意的是,這些模型的自解釋性有時會因其復雜性而受到損害。例如,非常復雜的樹結構或規(guī)則結構有時可能被認為難以理解或無法解釋。
除了傳統模型外,一些其他學習范式也被認為是可解釋的,例如因果推斷[197, 259]和知識圖譜[345]。這些方法也有望為解決機器學習的可解釋性問題提供寶貴的啟示。
超越自解釋機器學習模型。與深度神經網絡(DNN)等黑盒模型相比,傳統自解釋模型在復雜任務(如圖像分類和文本理解)上的性能較差。為了在可解釋性和性能之間取得平衡,提出了自解釋模型和黑盒模型的混合組合。一種典型的設計是將可解釋的瓶頸模型嵌入到DNN中。例如,先前的研究已經將線性模型和原型選擇嵌入到DNN中[16, 20, 73]。在著名的類別激活映射[389]中,DNN末端的平均池化層也可以被視為一個可解釋的線性瓶頸。注意力機制[30, 363]也引起了最近的關注,并在一些研究中被視作DNN中的可解釋瓶頸[79, 237]。然而,這一觀點仍在爭論之中,因為代表不同解釋的注意力權重可能會產生類似的最終預測結果[170, 355]。
事后模型解釋。除了設計自解釋模型外,理解黑盒模型是如何做出特定決策的也是一個重要問題。針對這一問題的研究大部分集中在事后模型解釋的方法論上,并提出了各種方法。
解釋器近似旨在用可解釋的模型來模仿給定模型的行為。這也可以被稱為模型的全局解釋。為了近似機器學習模型,已經提出了多種方法,例如隨機森林[317, 392]和神經網絡[28, 86, 393]。隨著過去十年深度學習的興起,DNN上的解釋器近似已經發(fā)展為樹等解釋器上的知識蒸餾問題[125, 384]。
3.2.4 算法公平性。在算法開發(fā)過程中減少人工智能模型偏見的方法可以在數據輸入模型之前(預處理)、模型訓練時(中處理)或模型訓練后對模型預測進行干預(后處理)。
預處理方法。除了對數據收集過程進行去偏見處理外,我們還可以在模型訓練之前對數據進行去偏見處理。常見方法包括:
調整樣本重要性。如果對數據收集過程去偏見不足或不再可能,這將特別有幫助。常見方法包括重采樣[6],涉及選擇數據的一個子集;重加權[60],涉及為數據樣本分配不同的重要性值;以及對抗學習[229],可以通過借助訓練有素的模型進行重采樣或重加權來實現,以找到違規(guī)案例。除了有助于平衡分類準確性外,這些方法還可以應用于平衡分類錯誤的成本,以提高某些群體的性能[163](例如,在篩查高度傳染性和嚴重疾病時,假陰性可能比假陽性代價更高;參見成本敏感學習[321])。
調整特征重要性。特征與敏感變量之間的偶然相關性可能導致不公平。去偏見的常見方法包括表示轉換[61],可以幫助調整特征的相對重要性;以及屏蔽[74],省略與敏感變量直接相關的特征。
數據增強。除了直接使用現有的數據樣本外,還可以引入額外的樣本,通常涉及對現有樣本進行更改,包括通過擾動和重新標記[60, 85]。
自解釋機器學習模型。多年來,機器學習領域研究了許多自解釋模型。其中的代表性模型包括KNN、線性/邏輯回歸、決策樹/規(guī)則以及概率圖模型[24, 47, 141, 250]。需要注意的是,這些模型的自解釋性有時會因其復雜性而受到損害。例如,非常復雜的樹結構或規(guī)則結構有時可能被認為難以理解或無法解釋。
除了傳統模型外,一些其他學習范式也被認為是可解釋的,例如因果推斷[197, 259]和知識圖譜[345]。這些方法也有望為解決機器學習的可解釋性問題提供寶貴的啟示。
超越自解釋機器學習模型。與深度神經網絡(DNN)等黑盒模型相比,傳統自解釋模型在復雜任務(如圖像分類和文本理解)上的性能較差。為了在可解釋性和性能之間取得平衡,提出了自解釋模型和黑盒模型的混合組合。一種典型的設計是將可解釋的瓶頸模型嵌入到DNN中。例如,先前的研究已經將線性模型和原型選擇嵌入到DNN中[16, 20, 73]。在著名的類別激活映射[389]中,DNN末端的平均池化層也可以被視為一個可解釋的線性瓶頸。注意力機制[30, 363]也引起了最近的關注,并在一些研究中被視作DNN中的可解釋瓶頸[79, 237]。然而,這一觀點仍在爭論之中,因為代表不同解釋的注意力權重可能會產生類似的最終預測結果[170, 355]。
事后模型解釋。除了設計自解釋模型外,理解黑盒模型是如何做出特定決策的也是一個重要問題。針對這一問題的研究大部分集中在事后模型解釋的方法論上,并提出了各種方法。
解釋器近似旨在用可解釋的模型來模仿給定模型的行為。這也可以被稱為模型的全局解釋。為了近似機器學習模型,已經提出了多種方法,例如隨機森林[317, 392]和神經網絡[28, 86, 393]。隨著過去十年深度學習的興起,DNN上的解釋器近似已經發(fā)展為樹等解釋器上的知識蒸餾問題[125, 384]。
中處理方法。預處理技術在模型訓練期間并不一定能達到預期的效果,因為不同的模型可能會以不同的方式利用特征和樣本。這正是中處理技術可以發(fā)揮作用的地方:
調整樣本重要性。與預處理方法類似,重加權[195]和對抗學習[68]可以用于中處理,有可能利用尚未完全優(yōu)化的模型參數或預測,更直接地對模型進行去偏見處理。
與優(yōu)化相關的技術。或者,可以通過優(yōu)化技術更直接地強制模型公平性。例如,可以使用定量的公平性指標作為正則化[7]或模型參數優(yōu)化的約束條件[67]。
后處理方法。即使在數據策劃和模型訓練方面采取了所有預防措施,最終的模型可能仍然表現出意想不到的偏見。后處理技術可以用于去偏見,通常借助輔助模型或超參數來調整模型輸出。例如,可以應用優(yōu)化技術(例如,約束優(yōu)化)來訓練一個較小的模型,以轉換模型輸出或校準模型置信度[186]。對多個模型的預測結果進行重加權也有助于減少偏見[168]。
3.2.5 隱私計算。除了在第3.1.2節(jié)中介紹的隱私保護數據處理方法外,另一類方法在模型學習期間保護數據隱私。在這一部分中,我們簡要回顧了這類算法的兩個流行類別:安全多方計算和聯邦學習。
安全多方計算(SMPC)處理的是多個數據所有者計算一個函數的任務,同時保護數據的隱私,且沒有可信的第三方作為協調者。一個典型的SMPC協議滿足隱私性、正確性、輸入獨立性、保證輸出交付和公平性等屬性[114, 387]。混淆電路是安全兩方計算的一個代表性范例[244, 367]。無意識傳輸是其中的關鍵技術之一。它保證發(fā)送方不知道接收方從傳輸的消息中獲得了什么信息。對于多方條件,秘密共享是其中一個通用框架[181]。每個數據實例被視為一個秘密,并被分割成多個份額。然后將這些份額分配給多個參與方。函數值的計算被分解為基本操作,這些操作按照給定的協議進行計算。
在模型特定的學習任務(例如,線性回歸[128]和邏輯回歸[300])以及通用模型學習任務[247]的背景下,SMPC在機器學習任務中的使用已經被研究。安全推理是一個新興的話題,它為機器學習定制了SMPC。其在機器學習中的應用是作為一種服務,服務器持有模型,而客戶端持有私有數據。為了降低SMPC的計算和通信成本,參考文獻[8, 32]中將參數量化和函數近似與密碼學協議一起使用。一些工具已經被開源,例如MP2ML[48]、CryptoSPN[330]、CrypTFlow[200, 276]和CrypTen[188]。
聯邦學習(FL)最初被提出作為一種安全方案,用于在用戶與其設備交互的數據上協作訓練機器學習模型[241]。它迅速在學術界和工業(yè)界引起了廣泛興趣,作為一種利用多方數據進行協作模型訓練任務的解決方案。它旨在解決阻礙機器學習算法適當使用多個數據源的數據隱私問題。它已經被應用于許多領域,如醫(yī)療保健[282, 299]和金融[223]。
現有的聯邦學習算法可以分為橫向聯邦學習、縱向聯邦學習和聯邦遷移學習算法[365]。橫向聯邦學習指的是每個參與方擁有不同的樣本,但樣本共享相同的特征空間的情況。一個訓練步驟被分解為首先在每個客戶端上計算優(yōu)化更新,然后在中心服務器上聚合這些更新,而無需了解客戶端的私有數據[241]。縱向聯邦學習指的是所有參與方共享相同的樣本ID空間,但具有不同特征的設置。參考文獻[148]使用同態(tài)加密進行基于垂直邏輯回歸的模型學習。在參考文獻[138]中,提出了一種高效的核學習方法。聯邦遷移學習適用于在樣本或特征空間中沒有任何一方重疊的情況[222]。參考文獻[180]討論了聯邦學習與其他研究主題(如多任務學習、元學習和公平學習)之間的聯系。為了加快聯邦學習相關的研究和開發(fā),許多開源庫已經被發(fā)布,例如FATE、FedML[149]和FedlearnAlgo[217]。
3.3 開發(fā)制造可靠的產品需要在軟件工程方面付出相當大的努力,而這一點有時會被人工智能開發(fā)者忽視。這種缺乏嚴謹性的行為,例如測試和監(jiān)控不足,可能會在人工智能產品的后續(xù)生命周期中(即所謂的技術債務[296])帶來長期成本。軟件工程在開發(fā)和部署階段最近引起了廣泛關注,被認為是可靠人工智能系統的一個基本條件[17, 203]。此外,針對這一階段研究的各種技術可以為人工智能系統的可信性做出貢獻[17]。在本節(jié)中,我們對代表性技術進行了調查。
3.3.1 功能測試從經典軟件工程的工作流程繼承而來,測試方法在人工智能系統的開發(fā)中受到了越來越多的關注。在人工智能可信性方面,測試是一種有效的方法,用于證明系統是否滿足特定要求。最近的研究探索了如何將功能測試適應于人工智能系統。這一內容已在文獻中進行了回顧,例如參考文獻[164, 235, 381]。我們從文獻中描述了兩個有助于增強人工智能系統可信性的適應方面。
測試標準與經典軟件工程中測試系統實際輸出與預期輸出之間的精確等價性不同,人工智能系統通常通過其在特定測試數據集上的預測準確性進行測試。除了準確性之外,還研究了各種測試標準,以進一步反映和測試人工智能系統的更復雜屬性。軟件測試中的測試覆蓋概念已被移植到深度神經網絡(DNN)模型中[226, 260]。一個代表性指標的名稱——神經元覆蓋[260]——形象地說明了它測量DNN中激活神經元的覆蓋范圍,類似于經典軟件測試中的代碼分支。這種覆蓋標準對于證明DNN對抗對抗性攻擊的魯棒性非常有效[226]。
測試用例生成人工標注的數據集不足以徹底測試人工智能系統,大規(guī)模自動生成的測試用例被廣泛使用。與經典軟件測試類似,自動生成預期真實值的問題(稱為“預言機問題”[34])也出現在人工智能軟件測試場景中。手工制作的測試用例模板是在自然語言處理(NLP)應用中的一種直觀但有效的方法[281]。形態(tài)測試也是一種實用的方法,將輸入/輸出對轉換為新的測試用例。例如,[382]使用生成對抗網絡(GAN)將白天拍攝的道路場景圖像轉換為雨天圖像作為新的測試用例,并重新使用原始的、不變的標注來測試自動駕駛系統。這些測試用例對于評估人工智能模型的泛化性能非常有用。類似的方法通過在正常圖像中添加對抗性模式來測試對抗性魯棒性[226]。模擬環(huán)境也被廣泛用于測試計算機視覺和強化學習等應用。我們將在第3.3.3節(jié)中進一步回顧這一主題。
3.3.2 性能基準測試
與傳統軟件不同,人工智能系統的功能往往不能僅通過功能測試輕易捕捉。為了確保系統在不同方面的可信性,基準測試(即軟件工程中的性能測試)通常被應用于確保系統性能和穩(wěn)定性,當這些特性可以自動測量時。
魯棒性是可信性的一個重要方面,相對容易進行自動評估。參考文獻[88, 153]介紹了一系列黑盒和白盒攻擊,用于自動評估人工智能系統的魯棒性。這可以在這些系統部署前影響數百萬用戶之前作為一項基本檢查。軟件公平性自傳統軟件測試以來一直是一個問題[56, 127]。已研究了人工智能系統的標準,通過調查敏感屬性、系統結果和真實標簽(如果適用)之間的相關性,以發(fā)現不公平問題,特別是在精心設計的診斷數據集上[327]。文獻中提出了精心策劃的數據集和指標,以評估對不同任務感興趣的公平性指標的性能[40, 123, 307]。
最近,隨著模型在自然語言處理(NLP)應用中輸出解釋,對可解釋性的基準測試越來越感興趣。例如,參考文獻[238]要求眾包工人標注導致他們認為文本是仇恨或冒犯性的突出文本片段,并檢查模型預測的重要性與人類標注的契合程度。相反,參考文獻[93]向人類標注者引入文本的部分擾動,并觀察系統的解釋是否與改變人類決策的擾動相匹配。與此同時,參考文獻[267]報告稱,可解釋性基準測試仍然相對困難,因為視覺刺激是高維且連續(xù)的。
3.3.3 基于模擬的開發(fā)
雖然基準測試用于評估人工智能系統在靜態(tài)數據下的預測行為,但許多系統的動態(tài)行為與其與世界的交互密切相關。例如,僅在靜態(tài)場景中對自動駕駛車輛系統進行基準測試是不足以幫助我們評估其在動態(tài)道路上的表現的。對于這些系統,模擬在部署前確保其可信性方面通常發(fā)揮著重要作用。
機器人技術是人工智能的一個子領域,其中模擬最為常用。機器人的控制系統可以在模擬環(huán)境中進行比較和基準測試,例如Gazebo[192]、MuJoCo[324]和VerifAI[103]。類似地,自動駕駛車輛的模擬器已被廣泛使用,包括CARLA[102]、TORCS[359]、CarSim[42]和PRESCAN[323]。這些軟件平臺模擬了機器人和車輛運行的環(huán)境以及對模擬機器人或汽車的控制操作。在自然語言處理(尤其是對話式人工智能)中,模擬器被廣泛用于模擬用戶行為,以通過對話測試系統能力并滿足用戶需求[205]。這些模擬器可以幫助在交互環(huán)境中自動確保人工智能系統的性能,并在部署前診斷問題。
盡管軟件模擬器提供了效率、靈活性和可復制性,但它們通常仍然無法完美模擬人工智能系統在部署時面臨的約束以及環(huán)境屬性或其中的變化。對于部署在嵌入式或其他封裝硬件上的人工智能系統,了解它們在實際場景中使用的硬件上運行時的行為至關重要。硬件在環(huán)(HIL)模擬可以幫助開發(fā)人員了解系統在模擬環(huán)境中運行在芯片、傳感器和執(zhí)行器上的性能表現,對于自動駕駛系統等對延遲和功耗敏感的系統尤其有幫助[50, 54]。通過將真實世界模擬進一步推進一步,還可以構建受控的真實世界環(huán)境,讓完全集成的人工智能系統在其中運行(例如,為自動駕駛汽車設置帶有路標和假障礙物的測試軌道)。這可以在向用戶發(fā)布這些系統之前提供更現實的性能測量和保證。
3.4 部署
在開發(fā)完成后,人工智能系統會被部署到實際產品中,并與環(huán)境和用戶進行交互。為了確保這些系統是可信的,在部署階段應該考慮許多方法,例如增加額外的組件來監(jiān)控異常,以及開發(fā)特定的人工智能交互機制以增強透明度和可解釋性。
3.4.1 異常監(jiān)控
異常監(jiān)控已經成為軟件工程中一種成熟的方法。對于人工智能系統而言,監(jiān)控的范圍進一步擴展到覆蓋數據異常值、數據漂移和模型性能。作為人工智能系統成功運行的關鍵保障,監(jiān)控提供了增強系統在多個方面可信性的手段。以下討論一些代表性示例。
攻擊監(jiān)控已在傳統的SaaS(軟件即服務)中被廣泛采用,例如在電子商務系統中的欺詐檢測[3]。對于最近出現的對抗性攻擊,檢測和監(jiān)控此類攻擊輸入也被認為是確保系統魯棒性的重要手段[243]。數據漂移監(jiān)控[268]為在動態(tài)環(huán)境(如市場變化[289])導致的概念變化[394]下維持人工智能系統的泛化能力提供了重要手段。濫用監(jiān)控最近也在幾項云人工智能服務[173]中被采用,以避免不當使用,例如未經授權的人群監(jiān)控或通過人臉識別進行個人跟蹤,這有助于確保倫理價值的正確對齊。
3.4.2 人機交互
作為人機交互(HCI)的延伸,人機交互在人工智能行業(yè)引起了廣泛關注[4, 18]。有效的人機交互在多個方面影響人工智能系統的可信性。我們簡要闡述兩個主題。
用戶界面是最直接影響用戶體驗的因素。它是人工智能系統向用戶披露其內部信息和決策過程的主要媒介,因此對系統的透明度和可解釋性具有重要影響[301, 351]。為了增強人工智能的可解釋性,已經研究了各種交互方法,包括機器學習模型的可視化[72]和交互式參數調整[351]。除了透明度和可解釋性外,界面的可訪問性也顯著影響用戶對可信性的體驗。基于人工智能的交互技術已經實現了各種新型人
機界面,例如聊天機器人、語音識別和手勢識別,這些技術可能會導致殘疾人面臨可訪問性問題。減輕這種不公平性在最近的研究中引起了關注[179, 326]。
人為干預,例如通過監(jiān)控故障或參與決策[295],已被應用于各種人工智能系統,以彌補性能的不足。高級駕駛輔助系統(ADAS)可以被視為涉及人為干預的系統的典型例子,其中人工智能負責低級駕駛任務,而人類負責高級決策。除了彌補決策能力外,人為干預在許多場景中為訓練或微調人工智能系統提供了信息監(jiān)督,例如自動駕駛汽車的影子模式[319]。為了在這些人機交互中最小化并充分利用人力,在人機交互(HCI)和人工智能的跨學科工作中,高效設計人機協作模式是一個新興主題,并在文獻中被稱為“人在回路”或交互式機器學習[157]。
3.4.3 故障安全機制
考慮到當前人工智能系統的不完美性,在系統在特殊情況下失敗時避免造成傷害非常重要。通過借鑒傳統的實時自動化系統,人工智能社區(qū)意識到,如果人工智能系統的失敗可能導致傷害或損失,那么故障安全機制或備用計劃應該是人工智能系統設計的一個基本組成部分。
這種機制也作為一項重要要求出現在最近的人工智能指導方針中,例如參考文獻[9]。在過去的幾年中,故障安全設計已在機器人技術的多個領域得到應用。在無人機(UAV)領域,故障安全算法已被長期研究,以避免四旋翼飛行器的頻繁碰撞[126],并確保在系統故障時安全著陸[252]。在安全至關重要的自動駕駛領域,像靜止不動這樣的故障安全機制已成為高級駕駛輔助系統(ADAS)產品中不可或缺的組成部分[160],并且正在更高水平的自動化中進行研究[230]。
3.4.4 硬件安全
人工智能系統被廣泛部署在各種硬件平臺上,以應對從計算中心的服務器到手機和嵌入式系統的多樣化場景。對操作系統和硬件的攻擊導致了新的風險,例如數據篡改或竊取,這些風險威脅到人工智能系統的魯棒性、安全性和隱私性。已經研究了各種方法來應對這一新威脅[364]。從硬件安全的角度來看,可信執(zhí)行環(huán)境(TEE)的概念是一種最近被許多硬件制造商采用的代表性技術[287]。TEE的一般機制是為數據和代碼提供一個安全區(qū)域。該區(qū)域不受標準操作系統的干擾,使得受保護的程序不會受到攻擊。ARM處理器使用TrustZone設計[264]支持TEE的實現。它們在單個內核上同時運行一個安全操作系統和一個普通操作系統。安全部分為敏感信息提供了一個安全的環(huán)境。英特爾軟件保護擴展通過基于硬件的內存加密實現TEE[240]。其飛地機制允許分配受保護的內存來存儲私有信息。這些安全機制已被用于保護敏感信息,如生物識別ID和金融賬戶密碼,并且適用于其他人工智能用例。
3.5 管理
研究人員和開發(fā)人員等人工智能從業(yè)者已經在數據、算法、開發(fā)和部署階段研究了各種技術,以提高人工智能的可信性。除了這些具體方法外,適當的管理和治理為人工智能系統的整個生命周期中可信性的一致對齊提供了全面的保證。在本節(jié)中,我們介紹幾種可執(zhí)行的方法,以幫助人工智能社區(qū)改進對人工智能可信性的管理和治理。
3.5.1 文檔化
傳統軟件工程在利用文檔協助開發(fā)方面積累了豐富的經驗。代表性文檔類型包括需求文檔、產品設計文檔、架構文檔、代碼文檔和測試文檔[11]。除了傳統軟件工程外,還提出了多種新類型的文檔以適應機器學習的訓練和測試機制。其范圍可能包括模型的目的和特性[246]、數據集[41, 129, 156]和服務[22]。正如第2.3.2節(jié)和第2.7節(jié)中提到的,文檔是一種有效且重要的方法,通過跟蹤、指導和審計系統的整個生命周期來增強系統的透明度和問責性[272],并作為構建可信人工智能系統的基石。
3.5.2 審計
借鑒了金融和航空航天等安全關鍵行業(yè)的經驗教訓,審計最近被公認為是一種有效的機制,用于檢查人工智能系統是否符合特定原則[58, 356]。就審計人員的立場而言,審計過程可以分為內部審計或外部審計。內部審計使制造商能夠進行自我評估和迭代改進,以遵循可信性的原則。它可以覆蓋系統的整個生命周期,而不會泄露商業(yè)機密[272]。然而,由獨立方進行的外部審計在獲得公眾信任方面更為有效[58]。
審計可能涉及人工智能系統整個生命周期或其部分環(huán)節(jié)。可以在參考文獻[272]中找到一個全面的內部審計框架。審計的手段可能包括訪談、文檔記錄、清單、代碼審查、測試和影響評估。例如,像產品需求文檔、模型卡片[246]和數據表[129]這樣的文檔是理解開發(fā)過程中原則對齊的重要參考。清單被廣泛用作一種直接的定性方法來評估公平性[228]、透明度[292]和可重復性[263]。定量測試也是一種強大的方法,并已成功用于審計公平性,例如在“性別陰影”研究[58]中。受歐盟數據保護影響評估(DPIA)的啟發(fā),提出了算法影響評估的概念,以評估可信性的主張并發(fā)現負面影響[277]。除了上述代表性內容外,算法審計方法的設計可以在參考文獻[290, 356]中找到。
3.5.3 合作與信息共享
如圖2所示,建立可信人工智能需要利益相關者之間的合作。從行業(yè)角度來看,與學術界的合作能夠使新技術快速應用于產品,提升產品性能并降低其帶來的風險。與監(jiān)管機構的合作則可以證明產品是否適當遵循了可信性的原則。此外,工業(yè)企業(yè)之間的合作有助于解決基于共識的問題,例如數據交換、標準化和生態(tài)系統建設[27]。人工智能利益相關者近期的實踐表明,合作在多個維度上是有效的。我們在以下方面總結了這些實踐。
合作研究與開發(fā)
合作一直是人工智能技術發(fā)展的強大動力。為了推動人工智能可信性的研究,利益相關者正在建立各種形式的合作,例如可信人工智能的研究研討會和DARPA可解釋人工智能(XAI)[144]等合作項目。可信的數據交換
數據日益增長的商業(yè)價值提高了在各種場景下(例如第2.6節(jié)中的醫(yī)療人工智能系統)跨公司交換數據的需求。除了基于隱私的計算技術外,數據所有者、技術提供商和監(jiān)管機構之間的合作正在推進數據交換生態(tài)系統的建立,并解決數據定價和數據授權等問題。合作制定法規(guī)
積極參與標準和法規(guī)的制定是學術界、行業(yè)和監(jiān)管機構對齊要求和情況的重要手段。事件共享
人工智能社區(qū)最近認識到事件共享是一種有效的方法,可以突出并預防人工智能系統的潛在風險[57]。人工智能事件數據庫[91]為利益相關者共享負面人工智能事件提供了一個啟發(fā)性的例子,以便行業(yè)能夠避免類似問題。
3.6 TrustAIOps:邁向可信性的持續(xù)工作流
可信人工智能的問題源于人工智能技術的快速發(fā)展及其新興應用。人工智能的可信性并非是一個可以通過某些特定解決方案達到的靜態(tài)標準。可信性的建立是一個動態(tài)過程。在過去十年中,我們見證了可信性在不同維度上的演變[178]。例如,對抗性攻擊的研究增加了對對抗魯棒性的關注。安全關鍵場景的應用使得人工智能系統的問責性要求更加嚴格。人工智能研究的發(fā)展、人工智能產品形式的演變以及社會視角的變化意味著可信性要求及其解決方案需要持續(xù)重新制定。因此,我們認為,除了人工智能產品的要求外,人工智能行業(yè)應該將可信性視為其運營常規(guī)的一部分,并準備好持續(xù)提升其產品的可信性。
人工智能可信性的持續(xù)提升對人工智能行業(yè)提出了新的工作流要求。最近對工業(yè)人工智能工作流的研究將DevOps[36]的機制擴展到MLOps[233],以實現機器學習產品的改進。DevOps的概念已被現代軟件開發(fā)采用,以持續(xù)部署軟件功能并提高其質量。MLOps[233]及其變體(如ModelOps[165]和SafetyOps[303])將DevOps擴展到工作流中,涵蓋機器學習生命周期的數據準備、訓練、驗證和部署。MLOps的工作流為構建可信人工智能的工作流提供了起點。通過整合機器學習生命周期,MLOps將研究、實驗和產品開發(fā)聯系起來,以便快速利用可信人工智能的理論發(fā)展。最近,大量的MLOps工具鏈被發(fā)布,用于跟蹤數據、模型和元數據等人工智能工件,以提高產品的可問責性和可重復性[165]。最近的研究試圖進一步將可信性整合到人工智能工作流中。例如,[303]通過將安全工程擴展到MLOps中,為自動駕駛開發(fā)了SafetyOps。
正如我們在本節(jié)中所闡述的,建立可信性需要持續(xù)和系統地升級人工智能生命周期。通過擴展MLOps,我們將這種實踐的升級總結為一個新的工作流——TrustAIOps,它專注于在整個人工智能生命周期中施加可信性的要求。這個新的工作流具有以下特點:
跨學科角色之間的緊密合作。建立可信人工智能需要組織不同的角色,如機器學習研究人員、軟件工程師、安全工程師和法律專家。緊密合作可以減輕專業(yè)知識形式之間的知識差距(例如,參考文獻[208],參見第3.5.3節(jié)和附錄A.2)。
統一的可信性原則。人工智能系統的生命周期的每個階段都存在不可信的風險。減輕這些風險需要人工智能行業(yè)的所有利益相關者意識到并統一于可信性原則(例如,參考文獻[301],參見附錄A.2)。
廣泛的工件管理。工業(yè)人工智能系統是基于各種工件構建的,如數據、代碼、模型、配置、產品設計和操作手冊。這些工件的精心管理有助于評估風險,并提高可重復性和可審計性(參見第3.5.1節(jié))。
持續(xù)的反饋循環(huán)。經典的持續(xù)集成和持續(xù)開發(fā)(CI/CD)工作流提供了通過反饋循環(huán)改進軟件的有效機制。在一個可信的人工智能系統中,這些反饋循環(huán)應該連接并迭代改進其生命周期的五個階段,即數據、算法、開發(fā)、部署和管理(例如,參考文獻[272, 310])。
人工智能工業(yè)工作流的演變是建立其可信性的動態(tài)過程的自然反映。通過系統地組織人工智能生命周期的階段和跨學科從業(yè)者,人工智能行業(yè)能夠從技術、法律和社會等多個角度理解可信性的要求,并持續(xù)提供改進。
4 結論、挑戰(zhàn)與機遇
在本綜述中,我們概述了我們認為對人工智能系統至關重要的可信性的關鍵方面。我們介紹了如何在這些方面對人工智能系統進行評估和評估,并回顧了行業(yè)在這一方向上的當前努力。我們進一步提出了一種系統化的方法,以在現實世界中的人工智能系統的整個生命周期中考慮這些可信性的方面,為開發(fā)和使用這些系統的每一步提供建議。我們認識到,完全采用這種系統化的方法來構建可信的人工智能系統,需要從業(yè)者接受我們所確定的關鍵方面的基本概念。更重要的是,它需要從以性能驅動的人工智能轉向以可信性驅動的人工智能。
在短期內,這種轉變不可避免地會帶來一些副作用,例如更長的學習時間、開發(fā)速度減慢和/或構建人工智能系統的成本增加。然而,我們鼓勵從業(yè)者關注獲得所有利益相關者信任的長期利益,以實現這些系統的持續(xù)使用和發(fā)展。在本節(jié)中,我們通過討論可信人工智能未來發(fā)展的一些開放性挑戰(zhàn)和潛在機遇來結束本文。
4.1 人工智能可信性作為長期研究
我們對人工智能可信性的理解遠非完整或普遍,并且隨著我們開發(fā)新的AI技術以及更清晰地了解其對社會的影響,它將不可避免地發(fā)展。這一過程需要在人工智能的多個關鍵領域進行長期研究。在本節(jié)中,我們討論了一些我們認為對人工智能可信性未來發(fā)展至關重要的開放性問題。
4.1.1 可信性方法的不成熟性
如第2節(jié)所述,人工智能可信性的幾個方面,如可解釋性和魯棒性,解決了當前人工智能技術的局限性。盡管人工智能研究引起了廣泛關注,但令人滿意的解決方案仍然遙不可及。以可解釋性為例。盡管這是一個活躍的人工智能研究領域,但目前仍不被充分理解。當前的解釋模型和事后模型解釋技術有一些共同的問題,例如:(1)解釋對擾動很脆弱[130];(2)解釋并不總是與人類解釋一致[47];(3)很難判斷解釋是否正確或忠實[250]。這些問題在可解釋性的研究中提出了重要的問題,并為人工智能理論研究提供了有價值的研究方向。
另一個例子是魯棒性。對抗性攻擊和防御之間的軍備競賽反映了我們對人工智能魯棒性理解的不成熟。與其他安全領域一樣,攻擊隨著防御的發(fā)展而演變。傳統的對抗訓練[134]已被證明很容易被隨后開發(fā)的攻擊所欺騙[328]。相應的防御[328]后來被證明對新攻擊[99]存在漏洞。這不僅要求從業(yè)者在長期和持續(xù)的發(fā)展過程中靈活采用防御技術,以減輕新攻擊的風險,而且也對理論研究提出了長期挑戰(zhàn)[270]。
4.1.2 可信性方面的摩擦影響
如我們在第2節(jié)中所展示的,可信性的不同方面之間存在著豐富的聯系和支持。然而,研究表明,在某些情況下,這些方面之間存在摩擦或權衡,我們在此進行回顧。
增加透明度可以通過信息披露來增強人工智能系統的信任。然而,披露不適當的信息可能會增加潛在風險。例如,對數據集和算法的過度透明可能會泄露私人數據和商業(yè)知識產權。披露詳細的算法機制也可能導致有針對性的黑客攻擊風險[12]。然而,不適當的解釋也可能導致用戶過度依賴系統并遵循人工智能的錯誤決策[311]。因此,人工智能系統的透明度程度應根據公眾用戶、運營商和審計師的角色...
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.