<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      具有依賴數據的差分隱私 Differential Privacy with Dependent Data

      0
      分享至

      Differential Privacy with Dependent Data

      具有依賴數據的差分隱私

      https://arxiv.org/pdf/2511.18583



      摘要
      依賴數據是社會科學和健康科學中許多統計研究的基礎,而這些研究通常涉及敏感或私密信息。差分隱私(DP),特別是用戶級差分隱私(user-level DP),為處理依賴數據提供了一種自然的隱私需求形式化方法,其中每個個體向數據集中提供多個觀測值。然而,例如通過重復測量引入的依賴性,對現有在DP約束下的統計理論構成了挑戰。在獨立同分布(i.i.d.)設定下,帶噪聲的Winsorized均值估計器已被證明在標準(項級)和用戶級DP下對均值 μ ∈ ?? 的估計具有極小極大最優性。然而,其在潛在依賴觀測值上的行為此前尚未被研究。我們填補了這一空白,證明Winsorized均值估計器在弱依賴條件下同樣適用于有界和無界數據,并可獲得類似于其i.i.d.情形下的漸近與有限樣本保證。為此,我們通過觀測值聯合分布上的對數Sobolev不等式(log-Sobolev inequalities)來形式化依賴結構。這使我們能夠將Karwa與Vadhan(2018)提出的穩定直方圖方法推廣至非i.i.d.設定,并用于估計Winsorized估計器的私有投影區間。我們所提出的項級均值估計器的保證可進一步推廣至用戶級均值估計,并通過隨機響應直方圖遷移至本地模型(local model)。以這些均值估計器為基礎,我們進一步將其擴展至隨機效應模型、縱向線性回歸和非參數回歸。因此,本工作構成了對依賴數據下差分隱私系統性研究的第一步。

      1 引言
      差分隱私(DP)工具已在工業界和政府機構的眾多應用中大規模部署(Erlingsson等,2014;Ding等,2017;Tang等,2017;Garfinkel等,2019)。標準DP框架旨在發布統計量的同時保護單個數據點,其假設每個個體僅向大小為n的數據集貢獻一個數據點。我們將遵循文獻,稱這種標準方法為項級DP(item-level DP)。在此框架下,隱私通過發布經過校準的隨機化輸出來實現,使得任何單個數據點對輸出計算的影響被隨機化所掩蓋(Dwork等,2006;Dwork與Roth,2014)。

      近期被稱為用戶級差分隱私(user-level differential privacy, uDP)的一系列工作研究了每個用戶向數據集貢獻多個觀測值的情形(Liu等,2020;Levy等,2021;Narayanan等,2022;Acharya等,2023;Bassily與Sun,2023;Ghazi等,2023;Asi與Liu,2024)。為簡化起見,我們假設每位用戶貢獻T個數據點。此時,自然目標是保護某用戶貢獻的所有T個數據點。挑戰在于,標準DP技術僅保護單個數據點,若直接應用,要么導致隱私保證隨用戶貢獻點數增加而退化,要么在利用DP的群組性質(group property)構建算法時,為獲得正確隱私保證而添加過多噪聲(Dwork與Roth,2014,定理2.2)。

      本文引入了適用于依賴數據的DP工具,特別關注縱向數據(也常稱為面板數據),即在一段時間內從相同個體收集的多個依賴觀測值。縱向數據在社會科學和醫學應用中極為重要(Diggle,2002;Baltagi,2008;Fitzmaurice等,2012;Hsiao,2022)。盡管用戶級DP似乎是縱向數據的自然隱私定義,但這一聯系在文獻中尚未被充分挖掘。事實上,在差分隱私約束下對依賴數據建模的研究相對較少。

      我們的工作主要受Karwa與Vadhan(2018)的啟發,他們的算法構成了我們所有方法的基礎,同時也受到新興uDP領域近期工作的激勵,特別是Levy等(2021)和Kent等(2024)的研究。

      我們的主要貢獻可概括為以下關鍵點:

      (a) 依賴且無界數據的DP:我們的工作似乎是首個研究多個DP算法在依賴觀測值上表現的工作。具體而言,我們引入了“對數Sobolev依賴”(log-Sobolev dependence)——一種通過對觀測值聯合分布施加對數Sobolev不等式來刻畫依賴性的概念,用以替代典型的i.i.d.假設。我們方法的核心是一個受Karwa與Vadhan(2018)啟發的Winsorized均值估計算法,該算法最初為高斯i.i.d.數據設計。在額外處理依賴性的同時,我們的算法繼承了其兩項優點:支持無界觀測值的估計,且無需事先了解未知均值。

      (b) 縱向數據的DP:我們提出了多種適用于依賴數據(尤其是縱向數據)的用戶級DP估計算法,允許用戶之間及時間維度上的依賴。這顯著偏離了絕大多數DP算法理論分析所依賴的i.i.d.假設,即便在uDP設定下亦如此(Levy等,2021;Kent等,2024;Agarwal等,2025)。在對數Sobolev依賴條件下,我們的算法被證明能達到最優的有限樣本誤差率。該條件足夠通用,涵蓋了一系列此前文獻中未被研究的有趣統計模型,包括非參數回歸、簡單隨機效應模型,以及具有依賴誤差項的縱向線性回歸。

      (c) 直方圖學習:我們利用Bobkov與G?tze(2010)提出的Dvoretzky–Kiefer–Wolfowitz型不等式,將Vadhan(2017)的直方圖估計器分析擴展至對數Sobolev依賴數據。這是構建我們均值估計的關鍵中間結果,因為在Winsorized均值估計器中,需首先粗略估計一個長度為O(log n)的私有投影區間的中點,而該步驟調用了私有直方圖。這一微小調整顯著拓展了Vadhan(2017)所引入技術的適用范圍,使其不僅限于i.i.d.高斯數據,甚至在項級設定下也能處理依賴數據。

      (d) 項級與用戶級DP:一個概念上有趣的貢獻在于闡明了所有現有uDP算法均基于某個已知的項級DP算法構建。這一聯系使我們能更深入地理解現有的期望意義下的極小極大DP與uDP下界。為此,我們對Karwa–Vadhan型投影估計器進行了期望分析,該分析即使對i.i.d.高斯數據而言似乎也是新穎的。該界表明,uDP中一個不可能性結果(即當每位用戶的觀測數T → ∞時無法學習,Levy等,2021,定理8)與項級設定下當方差過快趨于零時的學習不可能性相關聯。由此,我們識別出現有項級與用戶級下界之間的脫節(Cai等,2021;Levy等,2021)。

      (e) 本地DP(Local DP):盡管本文主要聚焦于假設存在可信數據管理者的中心化DP模型,我們將所有結果擴展至本地DP模型——在此模型中,中央服務器不可信,隱私機制在數據收集階段即被強制執行(Kasiviswanathan等,2011;Duchi等,2018)。具體而言,我們展示了如何將中心化DP算法中的直方圖替換為其本地對應版本,從而在本地模型下獲得近似最優的估計器,同時保留前述所有優良性質。這意味著,在用戶級本地DP(uLDP)框架下,我們仍可處理無界觀測值,以及用戶間及其觀測值之間的依賴關系。

      1.1 相關工作

      對均值、中位數等位置參數的私有估計是差分隱私(DP)文獻中頻繁研究的核心統計問題。首個DP均值估計器可追溯至Dwork等(2006)中對帶噪聲求和的應用,而Dwork與Lei(2009)則獲得了私有截尾均值和中位數估計器的漸近保證。Smith(2011)似乎是最早提出并研究一種帶噪聲的兩階段Winsorized均值估計器漸近性質的工作,該估計器與我們所考慮的類似:即首先粗略估計均值,將數據投影到圍繞該估計值的一個區間內,然后添加與所得有限敏感度相匹配的噪聲以實現隱私保護。Bun等(2013)、Steinke與Ullman(2017)、Foygel Barber與Duchi(2014)、Bun與Steinke(2019)以及Cai等(2021)推導了均值估計的下界。特別是,Cai等(2021)針對一種缺乏數據驅動投影區間的Winsorized均值估計器,給出了期望意義下的極小極大上下界,其收斂速率與Steinke與Ullman(2017)的結果一致。相比之下,Karwa與Vadhan(2018)開啟了一條研究Winsorized均值估計器“概率意義下”(in-probability)保證的新方向,該方法既不要求觀測值有界,也不要求均值有界。他們的算法基于一個(ε, δ)-DP的“穩定”直方圖估計器,用于為一維高斯分布的均值尋找一個私有置信區間。隨后,Kamath等(2019)將該方法推廣至協方差矩陣未知的多元高斯分布,Kamath等(2020)進一步將其擴展至重尾分布。

      我們注意到,還有大量其他工作研究私有均值和中位數估計問題,尤其致力于避免假設樣本空間有界,并在許多情況下與統計學界關于魯棒性的研究建立聯系(Avella-Medina與Brunel,2020;Avella-Medina,2020,2021;Avella-Medina等,2023;Li等,2023;Yu等,2024;Ramsay等,2022),以及計算機科學領域的相關研究(Tzamos等,2020;Liu等,2021,2022;Hopkins等,2023;Alabi等,2023;Chhor與Sentenac,2023)。這些構造與我們的工作關聯較弱。

      用戶級DP最早由McMahan等(2017)提出,用于保障聯邦學習中語言模型訓練的隱私。此后,該定義被推廣至該背景下的其他工作(Wang等,2019;Augenstein等,2020)以及SQL數據庫中的用戶級私有數據聚合(Wilson等,2020)。在經驗風險最小化背景下,Amin等(2019)、Epasto等(2020)、Levy等(2021)、Narayanan等(2022)以及Kent等(2024)研究了用戶數量n、每位用戶的觀測數T與實現用戶級隱私所需噪聲量之間的相互作用,并得出了相應的統計結果。近期,Agarwal等(2025)和Zhao等(2024)在中心化模型中首次提出了適用于獨立用戶且具有獨立無界觀測值的用戶級均值估計器。

      本地差分隱私(local differential privacy)下的估計問題已在廣泛的統計任務中被探索,包括均值估計、密度估計、非參數回歸和假設檢驗等(僅舉幾例:Wasserman與Zhou,2010;Duchi等,2018;Gaboardi與Rogers,2018;Butucea等,2020;Berrett與Butucea,2020;Berrett等,2021;Sart,2023;Pensia等,2024)。特別是,用戶級本地差分隱私近期在Girgis等(2022)、Acharya等(2023)以及Kent等(2024)的研究中得到了探討。

      最后,我們注意到已有一些初步文獻研究具有特定時間結構的差分隱私問題。這包括變點檢測(Zhang等,2021;Berrett與Yu,2021;Li等,2022)和多臂老虎機(Mishra與Thakurta,2015;Sajed與Sheffet,2019;Hu與Hegde,2022;Ou等,2024)等問題,這些問題通常在項級DP和獨立觀測假設下進行研究。此外,也有一些關于時間序列的DP初步工作,同樣從項級DP視角切入。例如,Zhang等(2022)考慮了具有序列AR(1)結構的參數化方法,Amorino等(2025)研究了擴散過程,而Kroll(2024)及Butucea等(2025)則探討了非參數譜密度估計問題。

      2 預備知識
      我們首先介紹本文通篇所使用的記號,并給出差分隱私與對數Sobolev不等式的基本背景。在本節末尾,我們將引入用于建模依賴數據(尤其是縱向數據)的主要依賴性假設。

      2.1 記號


      2.2 差分隱私

      存在若干種相互競爭的差分隱私(DP)定義(參見 Mironov (2017);Dong 等 (2022);Dwork 和 Rothblum (2016);Bun 和 Steinke (2016);Dwork 等 (2006)),但我們將采用最常用的定義——由 Dwork 等 (2006) 引入的 (ε, δ)-DP。在下文的定義中,我們用 (??) 表示 ?? 上的 Borel σ-代數。



      上述拉普拉斯機制以及Dwork和Roth(2014)中提出的其他機制構成了差分隱私(DP)的基礎。它們可以通過組合簡單DP算法的輸出,構建出更復雜的DP算法。一個輸出多個DP算法組合結果的算法,其有效隱私預算可通過以下組合定理進行量化。


      2.3 對數Sobolev不等式



      建立對數Sobolev不等式的一種通用方法是通過其與概率測度密度(相對于Lebesgue測度)的曲率之間的關系。具體而言,強對數凹性(strong log-concavity)通過Bakry–émery準則可直接推出對數Sobolev不等式,該準則見附錄A;參見定理A.1。

      以下的Lipschitz集中不等式將成為我們在依賴性條件下推導算法的主要概率工具。


      2.4 對數Sobolev依賴性

      據我們所知,現有所有針對項級差分隱私估計器的理論分析均依賴于簡化版的獨立同分布(i.i.d.)假設,該假設與我們接下來將陳述的假設類似或更強。


      請注意,假設2.7并未像差分隱私文獻中常見的那樣,要求數據具有已知的有界定義域。我們將看到,我們的估計器允許這種放寬后的i.i.d.假設,并表明對現有方法稍作修改即可在無界數據域下表現良好。這是本分析的一個有趣的副產品。然而,我們的主要貢獻在于明確允許數據存在依賴性。





      3 直方圖估計器



      3.1 隱私性與效用性保證

      我們注意到,盡管算法2的隱私性在文獻中已有記載,但為完整性起見,我們在連續設定下提供了該結果的證明;參見引理C.1。事實上,這一情形并未被Vadhan(2017)的定理7.3.5正式涵蓋。

      Karwa與Vadhan(2018)似乎是最早將穩定直方圖用于差分隱私均值估計的作者。更具體地說,他們利用這一思想對獨立同分布高斯隨機變量的均值和方差進行私有估計。他們的結果依賴于以下直方圖效用性保證。


      我們對基于穩定性的直方圖估計器的分析,將Karwa和Vadhan(2018)的工作推廣至依賴觀測值的情形。具體而言,我們沿用其證明策略,將他們的引理2.3擴展至滿足對數Sobolev不等式的觀測值 X n ∈ R n 。這導出了以下引理3.2,其證明見附錄C。



      3.2 尋找私有的數據驅動投影區間

      我們直方圖學習算法的主要應用是找到數據驅動的投影區間,供我們的主均值估計器使用。其思路是尋找一個緩慢發散的區間,以高概率包含所有觀測值。這一方法遵循Karwa和Vadhan(2018)的設計藍圖。投影區間將由包含大部分質量的區間及其兩個相鄰區間組成。這一簡單算法屬于更廣泛的私有中點算法家族,此類算法廣泛應用于中心化與本地化的項級及用戶級DP均值估計文獻中(Smith, 2011; Kamath等, 2020; Levy等, 2021; Kent等, 2024; Agarwal等, 2025)。



      算法3返回一個區間,其區間中點是具有最大估計質量的穩定直方圖區間的中心(參見Karwa和Vadhan(2018),算法1)。我們的創新之處在于對該算法的分析,這導致了以下引理3.4(證明見附錄C.2)。該引理利用 ( τ , γ ) ∞ ∞ -集中性和由Bobkov與G?tze(2010)提出的DKW型不等式所支持的引理3.2,推廣了Karwa和Vadhan(2018)的定理3.1。最重要的是,這允許在對數Sobolev依賴模型內存在觀測值之間的依賴關系,同時也允許觀測值非同分布。此外,若使用原始的DKW不等式,我們的證明策略還可將Karwa和Vadhan(2018)針對獨立同分布高斯數據的分析推廣至一般的獨立同分布及 ( τ , γ ) ∞ -集中觀測值。


      4 依賴數據下的項級差分隱私估計

      我們已準備好介紹我們的主要算法。我們的方案遵循私有均值估計中一種流行的思想:計算一個Winsorized均值估計器,并通過拉普拉斯機制使其滿足隱私性。這一方法在項級和用戶級均值估計的文獻中都很常見(參見,例如,Smith (2011);Karwa 和 Vadhan (2018);Levy 等 (2021);Kent 等 (2024);Agarwal 等 (2025))。



      我們的主要理論結果是定理4.2和4.3中給出的有限樣本誤差界與期望意義下的均方誤差(MSE)界。這些主要結果以及為中間算法推導出的所有保證,均是在對數Sobolev依賴性假設下獲得的。我們分析的一個有趣副產品是:即使在獨立同分布(i.i.d.)設定下,我們也推廣了一些已知結果,允許數據域和參數空間均為無界。

      4.1 均值估計器

      算法4展示了我們的主要均值估計流程。它是一個一維的帶噪聲Winsorized均值估計器,在對數Sobolev依賴性下被證明表現良好。該估計器依賴于算法3提供的私有范圍
      對數據進行投影。






      4.2 理論保證
      4.2.1 高概率界

      我們將定理D.1中的效用性保證轉化為算法5中估計器均方誤差(MSE)的有限樣本上界。以下定理4.2中的估計誤差由兩項之和來刻畫:統計誤差與隱私代價。該定理的證明見附錄D.1.1。



      4.2.2 期望意義下的分析

      雖然本工作的主要關注點在于非漸近界(如定理4.2的有限樣本保證及其在第5節中的具體應用),我們也在定理4.3中提供了一個期望意義下的MSE上界。這樣做的目的是為了使我們的估計器分析能夠與現有文獻中的上下界相比較,特別是用戶級DP文獻中的推論5(Levy等,2021),以及項級DP文獻中的定理3.1或定理3.2(Cai等,2021)。這使得我們可以直接與已知的獨立同分布情形下的結果進行比較;特別地,如定理4.3所示,在弱依賴條件下,我們能夠匹配獨立同分布情形下的收斂速率。




      4.3 極小極大最優性

      為評估我們均值估計器的最優性,我們將我們的上界與Cai等(2021)給出的統計極小極大下界進行比較。他們的結果是在項級DP設定下針對每個元素均為獨立同分布ρ-次高斯變量的觀測值
      得到的。為便于闡述,我們在下方重述他們的定理。我們將看到,該下界意味著我們的均值估計器在項級DP的獨立同分布設定下是極小極大最優的。





      4.4 非參數回歸的擴展


      我們注意到,私有非參數回歸問題已在中心化DP模型下針對獨立同分布數據被研究過(參見Awan等,2020;Golowich,2021;Cai等,2023),也在本地DP模型下被研究過(參見Berrett等,2021;Gy?rfi與Kroll,2025)。我們允許觀測值之間存在相關性,并希望關注其對估計的影響。為簡化起見,我們將函數空間 F F 限制為有界利普希茨函數空間。該設定在定義4.7中形式化給出。


      給定觀測值后,底層函數 f f 通常使用經典的核方法估計器進行估計,例如最近鄰法、Priestley-Chao法、Nadaraya-Watson法、Gasser-Müller法或局部多項式估計器。或者,該任務也可轉化為利用傅里葉變換或小波變換進行均值估計,或通過光滑樣條進行線性回歸(參見Tsybakov,2008)。在差分隱私下的非參數估計主要依賴于這些重新表述方法,這可見于Duchi等(2018)第5.2.2節、Cai等(2025)或Cai等(2023)第6節。在此,我們表明,在我們的固定設計設定下,可以基于經典非參數Priestley-Chao回歸估計器(定義4.8中引入,由Priestley與Chao于1972年提出)構建最優逐點DP估計器。






      5 依賴數據下的用戶級差分隱私估計器

      請記住,在用戶級差分隱私(DP)設定中,每個 n n 名用戶貢獻的 T T 個觀測值需作為一個整體受到保護。盡管我們所知的所有用戶級DP理論工作均假設用戶間及時間維度上的數據獨立且有界,但我們的結果同時覆蓋無界觀測值,并允許在 n n 名用戶及其各自的 T T 個觀測值之間存在依賴性。


      5.1 用戶級均值估計







      5.1.1 期望意義下的分析




      5.2 隨機效應位置模型

      隨機效應模型常用于聚類數據或相關數據的分析(Pinheiro 和 Bates,2000;Fahrmeir 和 Tutz,2001;Demidenko,2013)。在此,我們將討論限定于定義5.8中所給出的一維用戶級隨機效應位置模型。我們這樣做是為了完全聚焦于由隨機效應所引入的用戶之間的依賴性,并考察這種依賴性對我們Winsorized均值估計器收斂速率的影響。然而需要注意的是,第4節中的理論保證足夠強大,也能夠處理如第5.3小節所述線性回歸設定中的隨機效應。


      除了在同組 g g 內用戶之間引入依賴性的隨機效應外,定義5.8中的模型還包含用戶之間相互獨立、但在同一用戶隨時間變化的觀測值之間存在相關性的噪聲。因此,該模型同時包含了用戶間(inter-user)和用戶內(intra-user)的依賴性。
      盡管如此,我們將看到定義5.8中模型的分析是簡單的,因為它可被視為第5.1小節所涵蓋的用戶級均值估計問題的一個特例。因此,我們只需證明由此得到的用戶級數據矩陣滿足對數Sobolev依賴性。我們在以下引理中完成這一證明。




      5.3 面向縱向數據的用戶級差分隱私線性回歸

      盡管關于項級差分隱私線性回歸的文獻正在不斷增長(Wang, 2018;Alabi 等, 2020;Liu 等, 2023;Avella-Medina 等, 2023;Brown 等, 2024;Bombari 等, 2025),但極少有工作涉及用戶級DP下的線性回歸問題,且尚未有任何研究針對依賴型縱向數據。在此,我們應用我們的Winsorized均值估計器,證明其可用于估計定義5.13中所形式化的用戶級線性回歸模型中的回歸系數



      由于我們所考慮的uDP估計器的非私有對應版本已不再是標準最小二乘估計器,因此很自然會思考該估計器相對于標準最小二乘和廣義最小二乘方法的效率如何。下一個引理澄清了這一點,其證明見附錄E.3。




      6 本地差分隱私的擴展

      截至目前所討論的中心化DP模型要求數據項/用戶信任一個中央服務器來聚合并私有化他們的數據。當這種信任不存在時,數據項或用戶自身必須對數據進行私有化處理。這種設定被稱為本地差分隱私(local model of DP)(Kasiviswanathan 等,2011;Duchi 等,2018)。


      算法6中的隨機響應機制是首個用于確保這種本地數據隱私概念的隨機化算法。它早在本地DP被形式化之前,就由 Warner(1965)在調查抽樣背景下提出。眾所周知,隨機響應機制是 (ε, 0)-LDP;參見 Dwork 和 Roth(2014,第3.2節)。


      在本節其余部分,我們將隨機響應機制與算法1中的拉普拉斯機制結合使用,將迄今為止所發展的依賴數據下Winsorized均值估計理論推廣至本地模型——盡管需在稍強一些的假設下進行。除了要求數據滿足 ( τ , γ ) ∞
      -集中性以及數據矩陣滿足對數Sobolev依賴性或行獨立同分布(i.i.d.)之外,我們還需假設 ∥ μ ∥ ∞ ≤ B 。這是因為我們將原先用于構建私有中點的穩定直方圖替換為基于隨機響應的直方圖估計器,而后者無法處理無限多個區間(bins)。除這一替換外,我們的方法保持不變,因此相較于現有技術具有顯著更強的通用性,因為我們允許無界且依賴的數據。特別地,在有界獨立同分布觀測的情形下,我們可復現Kent等(2024)定理6中的上界。除了直方圖估計部分外,我們在中心化模型和本地模型下的結果證明均基于一系列通用陳述,這些陳述隨后被分別實例化到兩種情形中。

      6.1 直方圖估計器

      我們的本地直方圖估計器同樣適用于依賴觀測值。算法7中的估計器是一種直方圖估計器,它在本地模型中也通過隨機響應機制來保障隱私。該直方圖的構造與Kent等(2024)所采用的方法類似。然而,我們無需合并多個相鄰的區間,并且引入了一個去偏步驟以確保其一致性。與專為中心化模型設計的算法2不同,該直方圖僅能處理有限多個不相交的區間,但它是 ( ε , 0 )LDP 的。需注意,穩定直方圖是 ( ε , δ ) ) -DP 的,其中 δ > 0 。



      6.2 均值估計器

      我們的本地均值估計器的構造與第4節中的中心化模型對應版本類似。此處唯一的不同在于:我們在估計投影區間的私有中點時使用隨機化直方圖,并且每個數據項或用戶在將投影后的觀測值發送至中央服務器之前,需添加拉普拉斯噪聲以實現隱私保護。算法8形式化了這一協議。請注意,隨機化直方圖僅能處理有限個區間,因此該算法要求輸入一個 B ∈ ( 0 , ∞ ) ,使得 ∥ μ ∥ ∞ ≤ B 。






      6.2.1 超出項級均值估計的擴展

      實例化定理6.4可立即得到項級非參數回歸、用戶級均值估計、隨機效應位置估計以及縱向數據線性回歸的有限樣本風險界。以下簡要概述這些結果,從非參數回歸開始(見推論6.7)。該結果是推論4.11的本地DP對應版本。


      附錄F.6中推論6.7所示的逐點誤差率,與Gy?rfi和Kroll(2025)利用基變換估計器所獲得的定理3.1和定理4.1中近乎最優的期望意義下積分誤差率相似。我們的結果對定義4.8中的Priestley-Chao回歸估計器進行了私有化,從而補充了他們的方法(另見Kent等(2024)第2.2.3小節)。

      接下來的三個結果涉及用戶級估計,分別針對均值估計、位置隨機效應模型和縱向回歸。我們首先給出一個通用的用戶級均值估計結果,該結果是推論5.4在本地模型下的對應版本。



      7 仿真

      我們通過實證方法檢驗我們帶噪聲的Winsorized均值估計器的有限樣本保證。雖然我們的仿真主要關注中心化模型下的項級均值估計,但我們也會簡要討論用戶級均值估計以及本地差分隱私(DP)模型下的均值估計。

      7.1 項級均值估計


      7.1.1 小樣本下的隱私代價



      7.1.2 理論與實證改進常數





      7.1.3 小樣本下的依賴代價



      7.1.4中央與地方模式



      7.1.5 插入式方差估計




      7.2 用戶級均值估計



      8 結論

      我們為依賴數據提供了一些初步的差分隱私估計工具。核心方法是一種基于帶噪聲Winsorized均值的均值估計算法,該算法最初由Karwa和Vadhan(2018)在單變量獨立同分布高斯數據的項級差分隱私背景下提出。我們的工作表明,該算法的簡單變體不僅能夠處理依賴數據,而且在用戶級DP和本地DP框架下,針對非參數回歸、隨機效應模型和縱向線性回歸等多種估計問題,均可實現最優的估計速率。從這個意義上說,我們的工作也為一系列通常被分別研究的差分隱私問題提供了一個簡潔而統一的估計框架。

      從技術角度看,允許對數Sobolev依賴觀測值的關鍵工具是Bobkov與G?tze(2010)提出的DKW型不等式。它使我們能夠控制中間直方圖估計器的性能——這些估計器對于自適應地確定Winsorized均值估計器所需的投影區間至關重要。若要進一步放松對數Sobolev依賴性假設,則需要在更弱條件下成立的DKW型不等式。

      本工作開啟了諸多自然的未來研究方向。其中在實踐中最緊迫的問題或許是開發適用于中等樣本量且在依賴性條件下具有良好表現的統計推斷工具。為此,開發優良的私有方差估計器將至關重要,我們認為基于Biswas等(2020)提出的CoinPress方法的思想頗具前景。最后,許多重要的統計問題天然涉及依賴數據,包括多臂老虎機、在線學習、聯邦學習,以及一般的含噪差分隱私優化過程。我們希望在未來的工作中探討其中部分問題。

      原文鏈接: https://arxiv.org/pdf/2511.18583

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      許利民賽后震怒,聲稱要切除膿包,指的是誰?球迷評論很有意思

      許利民賽后震怒,聲稱要切除膿包,指的是誰?球迷評論很有意思

      南海浪花
      2026-01-29 07:38:41
      視頻丨加拿大總理卡尼:現在的美國,幾乎什么都不正常

      視頻丨加拿大總理卡尼:現在的美國,幾乎什么都不正常

      澎湃新聞
      2026-01-28 17:24:31
      大連網約車新規2月15日施行

      大連網約車新規2月15日施行

      半島晨報
      2026-01-28 20:16:22
      誰還敢得罪中國?全球不再瘋搶芯片,而是中國20萬一臺的變壓器

      誰還敢得罪中國?全球不再瘋搶芯片,而是中國20萬一臺的變壓器

      王新喜
      2026-01-29 07:36:48
      李湘大瓜后續:富婆的老公全程裝死!

      李湘大瓜后續:富婆的老公全程裝死!

      深度知局
      2026-01-29 07:39:33
      汽車圈“大地震”!比亞迪大將投奔行業巨頭,叫囂:三年內沒對手

      汽車圈“大地震”!比亞迪大將投奔行業巨頭,叫囂:三年內沒對手

      長星寄明月
      2026-01-20 21:00:46
      全球瘋搶光刻機

      全球瘋搶光刻機

      錦緞研究院
      2026-01-29 08:12:31
      紀實:廣西刑警酒后開槍射殺孕婦案,夫妻因不提供服務,被打4槍

      紀實:廣西刑警酒后開槍射殺孕婦案,夫妻因不提供服務,被打4槍

      談史論天地
      2026-01-13 14:30:03
      深度長文:愛因斯坦是如何創建相對論的?不得不佩服他的天才大腦

      深度長文:愛因斯坦是如何創建相對論的?不得不佩服他的天才大腦

      宇宙時空
      2026-01-26 15:25:03
      特魯賓導演神劇情,賽前數據顯示馬賽晉級附加賽概率高達96%

      特魯賓導演神劇情,賽前數據顯示馬賽晉級附加賽概率高達96%

      懂球帝
      2026-01-29 07:42:05
      我國首款單片集成光電融合偏振、偏壓控制芯片研制成功

      我國首款單片集成光電融合偏振、偏壓控制芯片研制成功

      IT之家
      2026-01-28 16:53:07
      中國“英偉達”誕生!擁有100%全自研技術,國產替代即將崛起!

      中國“英偉達”誕生!擁有100%全自研技術,國產替代即將崛起!

      芳芳歷史燴
      2026-01-28 21:04:19
      266比199,日本政壇黑馬殺出?對華態度成亮點,特朗普或拋棄高市

      266比199,日本政壇黑馬殺出?對華態度成亮點,特朗普或拋棄高市

      回京歷史夢
      2026-01-27 21:08:38
      突發!字母哥將被交易!離開雄鹿!

      突發!字母哥將被交易!離開雄鹿!

      寒律
      2026-01-29 00:52:41
      貝克漢姆堅持兒子離婚,16億婚前協議導致和解困難

      貝克漢姆堅持兒子離婚,16億婚前協議導致和解困難

      君笙的拂兮
      2026-01-26 15:51:34
      侵華14年,日本一共來了多少部隊,被消滅了有多少?

      侵華14年,日本一共來了多少部隊,被消滅了有多少?

      泠泠說史
      2026-01-10 16:20:40
      四川成都一佳人好漂亮,身高168cm,體重47kg 美的讓人移不開眼

      四川成都一佳人好漂亮,身高168cm,體重47kg 美的讓人移不開眼

      東方不敗然多多
      2026-01-07 10:20:04
      不查不知道一查嚇一跳,坐擁北京60畝馬場的于謙,私下到底有多壕

      不查不知道一查嚇一跳,坐擁北京60畝馬場的于謙,私下到底有多壕

      小熊侃史
      2026-01-20 07:40:05
      湖南第一庸官,好面子導致政府負債1000億,為政績騙劉強東100億

      湖南第一庸官,好面子導致政府負債1000億,為政績騙劉強東100億

      芊芊子吟
      2026-01-15 10:20:03
      1985年,一場誤判讓中國付出了上萬億的代價,一代巨星抱憾而終!

      1985年,一場誤判讓中國付出了上萬億的代價,一代巨星抱憾而終!

      老范談史
      2025-12-23 20:30:25
      2026-01-29 08:35:01
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1185文章數 18關注度
      往期回顧 全部

      科技要聞

      它是神也是毒!Clawdbot改名卷入千萬詐騙

      頭條要聞

      俄方:可以邀請澤連斯基來莫斯科 保障他的安全

      頭條要聞

      俄方:可以邀請澤連斯基來莫斯科 保障他的安全

      體育要聞

      沒天賦的CBA第一小前鋒,秘訣只有一個字

      娛樂要聞

      金子涵拉黑蔡徐坤,蔡徐坤工作室回應

      財經要聞

      從萬科退休20天后,郁亮疑似失聯

      汽車要聞

      新手必看!冰雪路面不敢開?記住這4點 關鍵時刻真能保命

      態度原創

      游戲
      親子
      藝術
      房產
      公開課

      歷史首次!LCK決賽落地中國香港,門票離譜定價惹眾怒:割韭菜?

      親子要聞

      何穗稱沒有年齡焦慮,生命力是最重要的,自曝月子后做了二次手術

      藝術要聞

      梵高全集(高清350張)震撼……

      房產要聞

      實景兌現在即!綠城,在海棠灣重新定義終極旅居想象!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版