<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      具有依賴數(shù)據(jù)的差分隱私 Differential Privacy with Dependent Data

      0
      分享至

      Differential Privacy with Dependent Data

      具有依賴數(shù)據(jù)的差分隱私

      https://arxiv.org/pdf/2511.18583



      摘要
      依賴數(shù)據(jù)是社會(huì)科學(xué)和健康科學(xué)中許多統(tǒng)計(jì)研究的基礎(chǔ),而這些研究通常涉及敏感或私密信息。差分隱私(DP),特別是用戶級(jí)差分隱私(user-level DP),為處理依賴數(shù)據(jù)提供了一種自然的隱私需求形式化方法,其中每個(gè)個(gè)體向數(shù)據(jù)集中提供多個(gè)觀測(cè)值。然而,例如通過(guò)重復(fù)測(cè)量引入的依賴性,對(duì)現(xiàn)有在DP約束下的統(tǒng)計(jì)理論構(gòu)成了挑戰(zhàn)。在獨(dú)立同分布(i.i.d.)設(shè)定下,帶噪聲的Winsorized均值估計(jì)器已被證明在標(biāo)準(zhǔn)(項(xiàng)級(jí))和用戶級(jí)DP下對(duì)均值 μ ∈ ?? 的估計(jì)具有極小極大最優(yōu)性。然而,其在潛在依賴觀測(cè)值上的行為此前尚未被研究。我們填補(bǔ)了這一空白,證明Winsorized均值估計(jì)器在弱依賴條件下同樣適用于有界和無(wú)界數(shù)據(jù),并可獲得類似于其i.i.d.情形下的漸近與有限樣本保證。為此,我們通過(guò)觀測(cè)值聯(lián)合分布上的對(duì)數(shù)Sobolev不等式(log-Sobolev inequalities)來(lái)形式化依賴結(jié)構(gòu)。這使我們能夠?qū)arwa與Vadhan(2018)提出的穩(wěn)定直方圖方法推廣至非i.i.d.設(shè)定,并用于估計(jì)Winsorized估計(jì)器的私有投影區(qū)間。我們所提出的項(xiàng)級(jí)均值估計(jì)器的保證可進(jìn)一步推廣至用戶級(jí)均值估計(jì),并通過(guò)隨機(jī)響應(yīng)直方圖遷移至本地模型(local model)。以這些均值估計(jì)器為基礎(chǔ),我們進(jìn)一步將其擴(kuò)展至隨機(jī)效應(yīng)模型、縱向線性回歸和非參數(shù)回歸。因此,本工作構(gòu)成了對(duì)依賴數(shù)據(jù)下差分隱私系統(tǒng)性研究的第一步。

      1 引言
      差分隱私(DP)工具已在工業(yè)界和政府機(jī)構(gòu)的眾多應(yīng)用中大規(guī)模部署(Erlingsson等,2014;Ding等,2017;Tang等,2017;Garfinkel等,2019)。標(biāo)準(zhǔn)DP框架旨在發(fā)布統(tǒng)計(jì)量的同時(shí)保護(hù)單個(gè)數(shù)據(jù)點(diǎn),其假設(shè)每個(gè)個(gè)體僅向大小為n的數(shù)據(jù)集貢獻(xiàn)一個(gè)數(shù)據(jù)點(diǎn)。我們將遵循文獻(xiàn),稱這種標(biāo)準(zhǔn)方法為項(xiàng)級(jí)DP(item-level DP)。在此框架下,隱私通過(guò)發(fā)布經(jīng)過(guò)校準(zhǔn)的隨機(jī)化輸出來(lái)實(shí)現(xiàn),使得任何單個(gè)數(shù)據(jù)點(diǎn)對(duì)輸出計(jì)算的影響被隨機(jī)化所掩蓋(Dwork等,2006;Dwork與Roth,2014)。

      近期被稱為用戶級(jí)差分隱私(user-level differential privacy, uDP)的一系列工作研究了每個(gè)用戶向數(shù)據(jù)集貢獻(xiàn)多個(gè)觀測(cè)值的情形(Liu等,2020;Levy等,2021;Narayanan等,2022;Acharya等,2023;Bassily與Sun,2023;Ghazi等,2023;Asi與Liu,2024)。為簡(jiǎn)化起見,我們假設(shè)每位用戶貢獻(xiàn)T個(gè)數(shù)據(jù)點(diǎn)。此時(shí),自然目標(biāo)是保護(hù)某用戶貢獻(xiàn)的所有T個(gè)數(shù)據(jù)點(diǎn)。挑戰(zhàn)在于,標(biāo)準(zhǔn)DP技術(shù)僅保護(hù)單個(gè)數(shù)據(jù)點(diǎn),若直接應(yīng)用,要么導(dǎo)致隱私保證隨用戶貢獻(xiàn)點(diǎn)數(shù)增加而退化,要么在利用DP的群組性質(zhì)(group property)構(gòu)建算法時(shí),為獲得正確隱私保證而添加過(guò)多噪聲(Dwork與Roth,2014,定理2.2)。

      本文引入了適用于依賴數(shù)據(jù)的DP工具,特別關(guān)注縱向數(shù)據(jù)(也常稱為面板數(shù)據(jù)),即在一段時(shí)間內(nèi)從相同個(gè)體收集的多個(gè)依賴觀測(cè)值。縱向數(shù)據(jù)在社會(huì)科學(xué)和醫(yī)學(xué)應(yīng)用中極為重要(Diggle,2002;Baltagi,2008;Fitzmaurice等,2012;Hsiao,2022)。盡管用戶級(jí)DP似乎是縱向數(shù)據(jù)的自然隱私定義,但這一聯(lián)系在文獻(xiàn)中尚未被充分挖掘。事實(shí)上,在差分隱私約束下對(duì)依賴數(shù)據(jù)建模的研究相對(duì)較少。

      我們的工作主要受Karwa與Vadhan(2018)的啟發(fā),他們的算法構(gòu)成了我們所有方法的基礎(chǔ),同時(shí)也受到新興uDP領(lǐng)域近期工作的激勵(lì),特別是Levy等(2021)和Kent等(2024)的研究。

      我們的主要貢獻(xiàn)可概括為以下關(guān)鍵點(diǎn):

      (a) 依賴且無(wú)界數(shù)據(jù)的DP:我們的工作似乎是首個(gè)研究多個(gè)DP算法在依賴觀測(cè)值上表現(xiàn)的工作。具體而言,我們引入了“對(duì)數(shù)Sobolev依賴”(log-Sobolev dependence)——一種通過(guò)對(duì)觀測(cè)值聯(lián)合分布施加對(duì)數(shù)Sobolev不等式來(lái)刻畫依賴性的概念,用以替代典型的i.i.d.假設(shè)。我們方法的核心是一個(gè)受Karwa與Vadhan(2018)啟發(fā)的Winsorized均值估計(jì)算法,該算法最初為高斯i.i.d.數(shù)據(jù)設(shè)計(jì)。在額外處理依賴性的同時(shí),我們的算法繼承了其兩項(xiàng)優(yōu)點(diǎn):支持無(wú)界觀測(cè)值的估計(jì),且無(wú)需事先了解未知均值。

      (b) 縱向數(shù)據(jù)的DP:我們提出了多種適用于依賴數(shù)據(jù)(尤其是縱向數(shù)據(jù))的用戶級(jí)DP估計(jì)算法,允許用戶之間及時(shí)間維度上的依賴。這顯著偏離了絕大多數(shù)DP算法理論分析所依賴的i.i.d.假設(shè),即便在uDP設(shè)定下亦如此(Levy等,2021;Kent等,2024;Agarwal等,2025)。在對(duì)數(shù)Sobolev依賴條件下,我們的算法被證明能達(dá)到最優(yōu)的有限樣本誤差率。該條件足夠通用,涵蓋了一系列此前文獻(xiàn)中未被研究的有趣統(tǒng)計(jì)模型,包括非參數(shù)回歸、簡(jiǎn)單隨機(jī)效應(yīng)模型,以及具有依賴誤差項(xiàng)的縱向線性回歸。

      (c) 直方圖學(xué)習(xí):我們利用Bobkov與G?tze(2010)提出的Dvoretzky–Kiefer–Wolfowitz型不等式,將Vadhan(2017)的直方圖估計(jì)器分析擴(kuò)展至對(duì)數(shù)Sobolev依賴數(shù)據(jù)。這是構(gòu)建我們均值估計(jì)的關(guān)鍵中間結(jié)果,因?yàn)樵赪insorized均值估計(jì)器中,需首先粗略估計(jì)一個(gè)長(zhǎng)度為O(log n)的私有投影區(qū)間的中點(diǎn),而該步驟調(diào)用了私有直方圖。這一微小調(diào)整顯著拓展了Vadhan(2017)所引入技術(shù)的適用范圍,使其不僅限于i.i.d.高斯數(shù)據(jù),甚至在項(xiàng)級(jí)設(shè)定下也能處理依賴數(shù)據(jù)。

      (d) 項(xiàng)級(jí)與用戶級(jí)DP:一個(gè)概念上有趣的貢獻(xiàn)在于闡明了所有現(xiàn)有uDP算法均基于某個(gè)已知的項(xiàng)級(jí)DP算法構(gòu)建。這一聯(lián)系使我們能更深入地理解現(xiàn)有的期望意義下的極小極大DP與uDP下界。為此,我們對(duì)Karwa–Vadhan型投影估計(jì)器進(jìn)行了期望分析,該分析即使對(duì)i.i.d.高斯數(shù)據(jù)而言似乎也是新穎的。該界表明,uDP中一個(gè)不可能性結(jié)果(即當(dāng)每位用戶的觀測(cè)數(shù)T → ∞時(shí)無(wú)法學(xué)習(xí),Levy等,2021,定理8)與項(xiàng)級(jí)設(shè)定下當(dāng)方差過(guò)快趨于零時(shí)的學(xué)習(xí)不可能性相關(guān)聯(lián)。由此,我們識(shí)別出現(xiàn)有項(xiàng)級(jí)與用戶級(jí)下界之間的脫節(jié)(Cai等,2021;Levy等,2021)。

      (e) 本地DP(Local DP):盡管本文主要聚焦于假設(shè)存在可信數(shù)據(jù)管理者的中心化DP模型,我們將所有結(jié)果擴(kuò)展至本地DP模型——在此模型中,中央服務(wù)器不可信,隱私機(jī)制在數(shù)據(jù)收集階段即被強(qiáng)制執(zhí)行(Kasiviswanathan等,2011;Duchi等,2018)。具體而言,我們展示了如何將中心化DP算法中的直方圖替換為其本地對(duì)應(yīng)版本,從而在本地模型下獲得近似最優(yōu)的估計(jì)器,同時(shí)保留前述所有優(yōu)良性質(zhì)。這意味著,在用戶級(jí)本地DP(uLDP)框架下,我們?nèi)钥商幚頍o(wú)界觀測(cè)值,以及用戶間及其觀測(cè)值之間的依賴關(guān)系。

      1.1 相關(guān)工作

      對(duì)均值、中位數(shù)等位置參數(shù)的私有估計(jì)是差分隱私(DP)文獻(xiàn)中頻繁研究的核心統(tǒng)計(jì)問(wèn)題。首個(gè)DP均值估計(jì)器可追溯至Dwork等(2006)中對(duì)帶噪聲求和的應(yīng)用,而Dwork與Lei(2009)則獲得了私有截尾均值和中位數(shù)估計(jì)器的漸近保證。Smith(2011)似乎是最早提出并研究一種帶噪聲的兩階段Winsorized均值估計(jì)器漸近性質(zhì)的工作,該估計(jì)器與我們所考慮的類似:即首先粗略估計(jì)均值,將數(shù)據(jù)投影到圍繞該估計(jì)值的一個(gè)區(qū)間內(nèi),然后添加與所得有限敏感度相匹配的噪聲以實(shí)現(xiàn)隱私保護(hù)。Bun等(2013)、Steinke與Ullman(2017)、Foygel Barber與Duchi(2014)、Bun與Steinke(2019)以及Cai等(2021)推導(dǎo)了均值估計(jì)的下界。特別是,Cai等(2021)針對(duì)一種缺乏數(shù)據(jù)驅(qū)動(dòng)投影區(qū)間的Winsorized均值估計(jì)器,給出了期望意義下的極小極大上下界,其收斂速率與Steinke與Ullman(2017)的結(jié)果一致。相比之下,Karwa與Vadhan(2018)開啟了一條研究Winsorized均值估計(jì)器“概率意義下”(in-probability)保證的新方向,該方法既不要求觀測(cè)值有界,也不要求均值有界。他們的算法基于一個(gè)(ε, δ)-DP的“穩(wěn)定”直方圖估計(jì)器,用于為一維高斯分布的均值尋找一個(gè)私有置信區(qū)間。隨后,Kamath等(2019)將該方法推廣至協(xié)方差矩陣未知的多元高斯分布,Kamath等(2020)進(jìn)一步將其擴(kuò)展至重尾分布。

      我們注意到,還有大量其他工作研究私有均值和中位數(shù)估計(jì)問(wèn)題,尤其致力于避免假設(shè)樣本空間有界,并在許多情況下與統(tǒng)計(jì)學(xué)界關(guān)于魯棒性的研究建立聯(lián)系(Avella-Medina與Brunel,2020;Avella-Medina,2020,2021;Avella-Medina等,2023;Li等,2023;Yu等,2024;Ramsay等,2022),以及計(jì)算機(jī)科學(xué)領(lǐng)域的相關(guān)研究(Tzamos等,2020;Liu等,2021,2022;Hopkins等,2023;Alabi等,2023;Chhor與Sentenac,2023)。這些構(gòu)造與我們的工作關(guān)聯(lián)較弱。

      用戶級(jí)DP最早由McMahan等(2017)提出,用于保障聯(lián)邦學(xué)習(xí)中語(yǔ)言模型訓(xùn)練的隱私。此后,該定義被推廣至該背景下的其他工作(Wang等,2019;Augenstein等,2020)以及SQL數(shù)據(jù)庫(kù)中的用戶級(jí)私有數(shù)據(jù)聚合(Wilson等,2020)。在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化背景下,Amin等(2019)、Epasto等(2020)、Levy等(2021)、Narayanan等(2022)以及Kent等(2024)研究了用戶數(shù)量n、每位用戶的觀測(cè)數(shù)T與實(shí)現(xiàn)用戶級(jí)隱私所需噪聲量之間的相互作用,并得出了相應(yīng)的統(tǒng)計(jì)結(jié)果。近期,Agarwal等(2025)和Zhao等(2024)在中心化模型中首次提出了適用于獨(dú)立用戶且具有獨(dú)立無(wú)界觀測(cè)值的用戶級(jí)均值估計(jì)器。

      本地差分隱私(local differential privacy)下的估計(jì)問(wèn)題已在廣泛的統(tǒng)計(jì)任務(wù)中被探索,包括均值估計(jì)、密度估計(jì)、非參數(shù)回歸和假設(shè)檢驗(yàn)等(僅舉幾例:Wasserman與Zhou,2010;Duchi等,2018;Gaboardi與Rogers,2018;Butucea等,2020;Berrett與Butucea,2020;Berrett等,2021;Sart,2023;Pensia等,2024)。特別是,用戶級(jí)本地差分隱私近期在Girgis等(2022)、Acharya等(2023)以及Kent等(2024)的研究中得到了探討。

      最后,我們注意到已有一些初步文獻(xiàn)研究具有特定時(shí)間結(jié)構(gòu)的差分隱私問(wèn)題。這包括變點(diǎn)檢測(cè)(Zhang等,2021;Berrett與Yu,2021;Li等,2022)和多臂老虎機(jī)(Mishra與Thakurta,2015;Sajed與Sheffet,2019;Hu與Hegde,2022;Ou等,2024)等問(wèn)題,這些問(wèn)題通常在項(xiàng)級(jí)DP和獨(dú)立觀測(cè)假設(shè)下進(jìn)行研究。此外,也有一些關(guān)于時(shí)間序列的DP初步工作,同樣從項(xiàng)級(jí)DP視角切入。例如,Zhang等(2022)考慮了具有序列AR(1)結(jié)構(gòu)的參數(shù)化方法,Amorino等(2025)研究了擴(kuò)散過(guò)程,而Kroll(2024)及Butucea等(2025)則探討了非參數(shù)譜密度估計(jì)問(wèn)題。

      2 預(yù)備知識(shí)
      我們首先介紹本文通篇所使用的記號(hào),并給出差分隱私與對(duì)數(shù)Sobolev不等式的基本背景。在本節(jié)末尾,我們將引入用于建模依賴數(shù)據(jù)(尤其是縱向數(shù)據(jù))的主要依賴性假設(shè)。

      2.1 記號(hào)


      2.2 差分隱私

      存在若干種相互競(jìng)爭(zhēng)的差分隱私(DP)定義(參見 Mironov (2017);Dong 等 (2022);Dwork 和 Rothblum (2016);Bun 和 Steinke (2016);Dwork 等 (2006)),但我們將采用最常用的定義——由 Dwork 等 (2006) 引入的 (ε, δ)-DP。在下文的定義中,我們用 (??) 表示 ?? 上的 Borel σ-代數(shù)。



      上述拉普拉斯機(jī)制以及Dwork和Roth(2014)中提出的其他機(jī)制構(gòu)成了差分隱私(DP)的基礎(chǔ)。它們可以通過(guò)組合簡(jiǎn)單DP算法的輸出,構(gòu)建出更復(fù)雜的DP算法。一個(gè)輸出多個(gè)DP算法組合結(jié)果的算法,其有效隱私預(yù)算可通過(guò)以下組合定理進(jìn)行量化。


      2.3 對(duì)數(shù)Sobolev不等式



      建立對(duì)數(shù)Sobolev不等式的一種通用方法是通過(guò)其與概率測(cè)度密度(相對(duì)于Lebesgue測(cè)度)的曲率之間的關(guān)系。具體而言,強(qiáng)對(duì)數(shù)凹性(strong log-concavity)通過(guò)Bakry–émery準(zhǔn)則可直接推出對(duì)數(shù)Sobolev不等式,該準(zhǔn)則見附錄A;參見定理A.1。

      以下的Lipschitz集中不等式將成為我們?cè)谝蕾囆詶l件下推導(dǎo)算法的主要概率工具。


      2.4 對(duì)數(shù)Sobolev依賴性

      據(jù)我們所知,現(xiàn)有所有針對(duì)項(xiàng)級(jí)差分隱私估計(jì)器的理論分析均依賴于簡(jiǎn)化版的獨(dú)立同分布(i.i.d.)假設(shè),該假設(shè)與我們接下來(lái)將陳述的假設(shè)類似或更強(qiáng)。


      請(qǐng)注意,假設(shè)2.7并未像差分隱私文獻(xiàn)中常見的那樣,要求數(shù)據(jù)具有已知的有界定義域。我們將看到,我們的估計(jì)器允許這種放寬后的i.i.d.假設(shè),并表明對(duì)現(xiàn)有方法稍作修改即可在無(wú)界數(shù)據(jù)域下表現(xiàn)良好。這是本分析的一個(gè)有趣的副產(chǎn)品。然而,我們的主要貢獻(xiàn)在于明確允許數(shù)據(jù)存在依賴性。





      3 直方圖估計(jì)器



      3.1 隱私性與效用性保證

      我們注意到,盡管算法2的隱私性在文獻(xiàn)中已有記載,但為完整性起見,我們?cè)谶B續(xù)設(shè)定下提供了該結(jié)果的證明;參見引理C.1。事實(shí)上,這一情形并未被Vadhan(2017)的定理7.3.5正式涵蓋。

      Karwa與Vadhan(2018)似乎是最早將穩(wěn)定直方圖用于差分隱私均值估計(jì)的作者。更具體地說(shuō),他們利用這一思想對(duì)獨(dú)立同分布高斯隨機(jī)變量的均值和方差進(jìn)行私有估計(jì)。他們的結(jié)果依賴于以下直方圖效用性保證。


      我們對(duì)基于穩(wěn)定性的直方圖估計(jì)器的分析,將Karwa和Vadhan(2018)的工作推廣至依賴觀測(cè)值的情形。具體而言,我們沿用其證明策略,將他們的引理2.3擴(kuò)展至滿足對(duì)數(shù)Sobolev不等式的觀測(cè)值 X n ∈ R n 。這導(dǎo)出了以下引理3.2,其證明見附錄C。



      3.2 尋找私有的數(shù)據(jù)驅(qū)動(dòng)投影區(qū)間

      我們直方圖學(xué)習(xí)算法的主要應(yīng)用是找到數(shù)據(jù)驅(qū)動(dòng)的投影區(qū)間,供我們的主均值估計(jì)器使用。其思路是尋找一個(gè)緩慢發(fā)散的區(qū)間,以高概率包含所有觀測(cè)值。這一方法遵循Karwa和Vadhan(2018)的設(shè)計(jì)藍(lán)圖。投影區(qū)間將由包含大部分質(zhì)量的區(qū)間及其兩個(gè)相鄰區(qū)間組成。這一簡(jiǎn)單算法屬于更廣泛的私有中點(diǎn)算法家族,此類算法廣泛應(yīng)用于中心化與本地化的項(xiàng)級(jí)及用戶級(jí)DP均值估計(jì)文獻(xiàn)中(Smith, 2011; Kamath等, 2020; Levy等, 2021; Kent等, 2024; Agarwal等, 2025)。



      算法3返回一個(gè)區(qū)間,其區(qū)間中點(diǎn)是具有最大估計(jì)質(zhì)量的穩(wěn)定直方圖區(qū)間的中心(參見Karwa和Vadhan(2018),算法1)。我們的創(chuàng)新之處在于對(duì)該算法的分析,這導(dǎo)致了以下引理3.4(證明見附錄C.2)。該引理利用 ( τ , γ ) ∞ ∞ -集中性和由Bobkov與G?tze(2010)提出的DKW型不等式所支持的引理3.2,推廣了Karwa和Vadhan(2018)的定理3.1。最重要的是,這允許在對(duì)數(shù)Sobolev依賴模型內(nèi)存在觀測(cè)值之間的依賴關(guān)系,同時(shí)也允許觀測(cè)值非同分布。此外,若使用原始的DKW不等式,我們的證明策略還可將Karwa和Vadhan(2018)針對(duì)獨(dú)立同分布高斯數(shù)據(jù)的分析推廣至一般的獨(dú)立同分布及 ( τ , γ ) ∞ -集中觀測(cè)值。


      4 依賴數(shù)據(jù)下的項(xiàng)級(jí)差分隱私估計(jì)

      我們已準(zhǔn)備好介紹我們的主要算法。我們的方案遵循私有均值估計(jì)中一種流行的思想:計(jì)算一個(gè)Winsorized均值估計(jì)器,并通過(guò)拉普拉斯機(jī)制使其滿足隱私性。這一方法在項(xiàng)級(jí)和用戶級(jí)均值估計(jì)的文獻(xiàn)中都很常見(參見,例如,Smith (2011);Karwa 和 Vadhan (2018);Levy 等 (2021);Kent 等 (2024);Agarwal 等 (2025))。



      我們的主要理論結(jié)果是定理4.2和4.3中給出的有限樣本誤差界與期望意義下的均方誤差(MSE)界。這些主要結(jié)果以及為中間算法推導(dǎo)出的所有保證,均是在對(duì)數(shù)Sobolev依賴性假設(shè)下獲得的。我們分析的一個(gè)有趣副產(chǎn)品是:即使在獨(dú)立同分布(i.i.d.)設(shè)定下,我們也推廣了一些已知結(jié)果,允許數(shù)據(jù)域和參數(shù)空間均為無(wú)界。

      4.1 均值估計(jì)器

      算法4展示了我們的主要均值估計(jì)流程。它是一個(gè)一維的帶噪聲Winsorized均值估計(jì)器,在對(duì)數(shù)Sobolev依賴性下被證明表現(xiàn)良好。該估計(jì)器依賴于算法3提供的私有范圍
      對(duì)數(shù)據(jù)進(jìn)行投影。






      4.2 理論保證
      4.2.1 高概率界

      我們將定理D.1中的效用性保證轉(zhuǎn)化為算法5中估計(jì)器均方誤差(MSE)的有限樣本上界。以下定理4.2中的估計(jì)誤差由兩項(xiàng)之和來(lái)刻畫:統(tǒng)計(jì)誤差與隱私代價(jià)。該定理的證明見附錄D.1.1。



      4.2.2 期望意義下的分析

      雖然本工作的主要關(guān)注點(diǎn)在于非漸近界(如定理4.2的有限樣本保證及其在第5節(jié)中的具體應(yīng)用),我們也在定理4.3中提供了一個(gè)期望意義下的MSE上界。這樣做的目的是為了使我們的估計(jì)器分析能夠與現(xiàn)有文獻(xiàn)中的上下界相比較,特別是用戶級(jí)DP文獻(xiàn)中的推論5(Levy等,2021),以及項(xiàng)級(jí)DP文獻(xiàn)中的定理3.1或定理3.2(Cai等,2021)。這使得我們可以直接與已知的獨(dú)立同分布情形下的結(jié)果進(jìn)行比較;特別地,如定理4.3所示,在弱依賴條件下,我們能夠匹配獨(dú)立同分布情形下的收斂速率。




      4.3 極小極大最優(yōu)性

      為評(píng)估我們均值估計(jì)器的最優(yōu)性,我們將我們的上界與Cai等(2021)給出的統(tǒng)計(jì)極小極大下界進(jìn)行比較。他們的結(jié)果是在項(xiàng)級(jí)DP設(shè)定下針對(duì)每個(gè)元素均為獨(dú)立同分布ρ-次高斯變量的觀測(cè)值
      得到的。為便于闡述,我們?cè)谙路街厥鏊麄兊亩ɡ怼N覀儗⒖吹剑撓陆缫馕吨覀兊木倒烙?jì)器在項(xiàng)級(jí)DP的獨(dú)立同分布設(shè)定下是極小極大最優(yōu)的。





      4.4 非參數(shù)回歸的擴(kuò)展


      我們注意到,私有非參數(shù)回歸問(wèn)題已在中心化DP模型下針對(duì)獨(dú)立同分布數(shù)據(jù)被研究過(guò)(參見Awan等,2020;Golowich,2021;Cai等,2023),也在本地DP模型下被研究過(guò)(參見Berrett等,2021;Gy?rfi與Kroll,2025)。我們?cè)试S觀測(cè)值之間存在相關(guān)性,并希望關(guān)注其對(duì)估計(jì)的影響。為簡(jiǎn)化起見,我們將函數(shù)空間 F F 限制為有界利普希茨函數(shù)空間。該設(shè)定在定義4.7中形式化給出。


      給定觀測(cè)值后,底層函數(shù) f f 通常使用經(jīng)典的核方法估計(jì)器進(jìn)行估計(jì),例如最近鄰法、Priestley-Chao法、Nadaraya-Watson法、Gasser-Müller法或局部多項(xiàng)式估計(jì)器。或者,該任務(wù)也可轉(zhuǎn)化為利用傅里葉變換或小波變換進(jìn)行均值估計(jì),或通過(guò)光滑樣條進(jìn)行線性回歸(參見Tsybakov,2008)。在差分隱私下的非參數(shù)估計(jì)主要依賴于這些重新表述方法,這可見于Duchi等(2018)第5.2.2節(jié)、Cai等(2025)或Cai等(2023)第6節(jié)。在此,我們表明,在我們的固定設(shè)計(jì)設(shè)定下,可以基于經(jīng)典非參數(shù)Priestley-Chao回歸估計(jì)器(定義4.8中引入,由Priestley與Chao于1972年提出)構(gòu)建最優(yōu)逐點(diǎn)DP估計(jì)器。






      5 依賴數(shù)據(jù)下的用戶級(jí)差分隱私估計(jì)器

      請(qǐng)記住,在用戶級(jí)差分隱私(DP)設(shè)定中,每個(gè) n n 名用戶貢獻(xiàn)的 T T 個(gè)觀測(cè)值需作為一個(gè)整體受到保護(hù)。盡管我們所知的所有用戶級(jí)DP理論工作均假設(shè)用戶間及時(shí)間維度上的數(shù)據(jù)獨(dú)立且有界,但我們的結(jié)果同時(shí)覆蓋無(wú)界觀測(cè)值,并允許在 n n 名用戶及其各自的 T T 個(gè)觀測(cè)值之間存在依賴性。


      5.1 用戶級(jí)均值估計(jì)







      5.1.1 期望意義下的分析




      5.2 隨機(jī)效應(yīng)位置模型

      隨機(jī)效應(yīng)模型常用于聚類數(shù)據(jù)或相關(guān)數(shù)據(jù)的分析(Pinheiro 和 Bates,2000;Fahrmeir 和 Tutz,2001;Demidenko,2013)。在此,我們將討論限定于定義5.8中所給出的一維用戶級(jí)隨機(jī)效應(yīng)位置模型。我們這樣做是為了完全聚焦于由隨機(jī)效應(yīng)所引入的用戶之間的依賴性,并考察這種依賴性對(duì)我們Winsorized均值估計(jì)器收斂速率的影響。然而需要注意的是,第4節(jié)中的理論保證足夠強(qiáng)大,也能夠處理如第5.3小節(jié)所述線性回歸設(shè)定中的隨機(jī)效應(yīng)。


      除了在同組 g g 內(nèi)用戶之間引入依賴性的隨機(jī)效應(yīng)外,定義5.8中的模型還包含用戶之間相互獨(dú)立、但在同一用戶隨時(shí)間變化的觀測(cè)值之間存在相關(guān)性的噪聲。因此,該模型同時(shí)包含了用戶間(inter-user)和用戶內(nèi)(intra-user)的依賴性。
      盡管如此,我們將看到定義5.8中模型的分析是簡(jiǎn)單的,因?yàn)樗杀灰暈榈?.1小節(jié)所涵蓋的用戶級(jí)均值估計(jì)問(wèn)題的一個(gè)特例。因此,我們只需證明由此得到的用戶級(jí)數(shù)據(jù)矩陣滿足對(duì)數(shù)Sobolev依賴性。我們?cè)谝韵乱碇型瓿蛇@一證明。




      5.3 面向縱向數(shù)據(jù)的用戶級(jí)差分隱私線性回歸

      盡管關(guān)于項(xiàng)級(jí)差分隱私線性回歸的文獻(xiàn)正在不斷增長(zhǎng)(Wang, 2018;Alabi 等, 2020;Liu 等, 2023;Avella-Medina 等, 2023;Brown 等, 2024;Bombari 等, 2025),但極少有工作涉及用戶級(jí)DP下的線性回歸問(wèn)題,且尚未有任何研究針對(duì)依賴型縱向數(shù)據(jù)。在此,我們應(yīng)用我們的Winsorized均值估計(jì)器,證明其可用于估計(jì)定義5.13中所形式化的用戶級(jí)線性回歸模型中的回歸系數(shù)



      由于我們所考慮的uDP估計(jì)器的非私有對(duì)應(yīng)版本已不再是標(biāo)準(zhǔn)最小二乘估計(jì)器,因此很自然會(huì)思考該估計(jì)器相對(duì)于標(biāo)準(zhǔn)最小二乘和廣義最小二乘方法的效率如何。下一個(gè)引理澄清了這一點(diǎn),其證明見附錄E.3。




      6 本地差分隱私的擴(kuò)展

      截至目前所討論的中心化DP模型要求數(shù)據(jù)項(xiàng)/用戶信任一個(gè)中央服務(wù)器來(lái)聚合并私有化他們的數(shù)據(jù)。當(dāng)這種信任不存在時(shí),數(shù)據(jù)項(xiàng)或用戶自身必須對(duì)數(shù)據(jù)進(jìn)行私有化處理。這種設(shè)定被稱為本地差分隱私(local model of DP)(Kasiviswanathan 等,2011;Duchi 等,2018)。


      算法6中的隨機(jī)響應(yīng)機(jī)制是首個(gè)用于確保這種本地?cái)?shù)據(jù)隱私概念的隨機(jī)化算法。它早在本地DP被形式化之前,就由 Warner(1965)在調(diào)查抽樣背景下提出。眾所周知,隨機(jī)響應(yīng)機(jī)制是 (ε, 0)-LDP;參見 Dwork 和 Roth(2014,第3.2節(jié))。


      在本節(jié)其余部分,我們將隨機(jī)響應(yīng)機(jī)制與算法1中的拉普拉斯機(jī)制結(jié)合使用,將迄今為止所發(fā)展的依賴數(shù)據(jù)下Winsorized均值估計(jì)理論推廣至本地模型——盡管需在稍強(qiáng)一些的假設(shè)下進(jìn)行。除了要求數(shù)據(jù)滿足 ( τ , γ ) ∞
      -集中性以及數(shù)據(jù)矩陣滿足對(duì)數(shù)Sobolev依賴性或行獨(dú)立同分布(i.i.d.)之外,我們還需假設(shè) ∥ μ ∥ ∞ ≤ B 。這是因?yàn)槲覀儗⒃扔糜跇?gòu)建私有中點(diǎn)的穩(wěn)定直方圖替換為基于隨機(jī)響應(yīng)的直方圖估計(jì)器,而后者無(wú)法處理無(wú)限多個(gè)區(qū)間(bins)。除這一替換外,我們的方法保持不變,因此相較于現(xiàn)有技術(shù)具有顯著更強(qiáng)的通用性,因?yàn)槲覀冊(cè)试S無(wú)界且依賴的數(shù)據(jù)。特別地,在有界獨(dú)立同分布觀測(cè)的情形下,我們可復(fù)現(xiàn)Kent等(2024)定理6中的上界。除了直方圖估計(jì)部分外,我們?cè)谥行幕P秃捅镜啬P拖碌慕Y(jié)果證明均基于一系列通用陳述,這些陳述隨后被分別實(shí)例化到兩種情形中。

      6.1 直方圖估計(jì)器

      我們的本地直方圖估計(jì)器同樣適用于依賴觀測(cè)值。算法7中的估計(jì)器是一種直方圖估計(jì)器,它在本地模型中也通過(guò)隨機(jī)響應(yīng)機(jī)制來(lái)保障隱私。該直方圖的構(gòu)造與Kent等(2024)所采用的方法類似。然而,我們無(wú)需合并多個(gè)相鄰的區(qū)間,并且引入了一個(gè)去偏步驟以確保其一致性。與專為中心化模型設(shè)計(jì)的算法2不同,該直方圖僅能處理有限多個(gè)不相交的區(qū)間,但它是 ( ε , 0 )LDP 的。需注意,穩(wěn)定直方圖是 ( ε , δ ) ) -DP 的,其中 δ > 0 。



      6.2 均值估計(jì)器

      我們的本地均值估計(jì)器的構(gòu)造與第4節(jié)中的中心化模型對(duì)應(yīng)版本類似。此處唯一的不同在于:我們?cè)诠烙?jì)投影區(qū)間的私有中點(diǎn)時(shí)使用隨機(jī)化直方圖,并且每個(gè)數(shù)據(jù)項(xiàng)或用戶在將投影后的觀測(cè)值發(fā)送至中央服務(wù)器之前,需添加拉普拉斯噪聲以實(shí)現(xiàn)隱私保護(hù)。算法8形式化了這一協(xié)議。請(qǐng)注意,隨機(jī)化直方圖僅能處理有限個(gè)區(qū)間,因此該算法要求輸入一個(gè) B ∈ ( 0 , ∞ ) ,使得 ∥ μ ∥ ∞ ≤ B 。






      6.2.1 超出項(xiàng)級(jí)均值估計(jì)的擴(kuò)展

      實(shí)例化定理6.4可立即得到項(xiàng)級(jí)非參數(shù)回歸、用戶級(jí)均值估計(jì)、隨機(jī)效應(yīng)位置估計(jì)以及縱向數(shù)據(jù)線性回歸的有限樣本風(fēng)險(xiǎn)界。以下簡(jiǎn)要概述這些結(jié)果,從非參數(shù)回歸開始(見推論6.7)。該結(jié)果是推論4.11的本地DP對(duì)應(yīng)版本。


      附錄F.6中推論6.7所示的逐點(diǎn)誤差率,與Gy?rfi和Kroll(2025)利用基變換估計(jì)器所獲得的定理3.1和定理4.1中近乎最優(yōu)的期望意義下積分誤差率相似。我們的結(jié)果對(duì)定義4.8中的Priestley-Chao回歸估計(jì)器進(jìn)行了私有化,從而補(bǔ)充了他們的方法(另見Kent等(2024)第2.2.3小節(jié))。

      接下來(lái)的三個(gè)結(jié)果涉及用戶級(jí)估計(jì),分別針對(duì)均值估計(jì)、位置隨機(jī)效應(yīng)模型和縱向回歸。我們首先給出一個(gè)通用的用戶級(jí)均值估計(jì)結(jié)果,該結(jié)果是推論5.4在本地模型下的對(duì)應(yīng)版本。



      7 仿真

      我們通過(guò)實(shí)證方法檢驗(yàn)我們帶噪聲的Winsorized均值估計(jì)器的有限樣本保證。雖然我們的仿真主要關(guān)注中心化模型下的項(xiàng)級(jí)均值估計(jì),但我們也會(huì)簡(jiǎn)要討論用戶級(jí)均值估計(jì)以及本地差分隱私(DP)模型下的均值估計(jì)。

      7.1 項(xiàng)級(jí)均值估計(jì)


      7.1.1 小樣本下的隱私代價(jià)



      7.1.2 理論與實(shí)證改進(jìn)常數(shù)





      7.1.3 小樣本下的依賴代價(jià)



      7.1.4中央與地方模式



      7.1.5 插入式方差估計(jì)




      7.2 用戶級(jí)均值估計(jì)



      8 結(jié)論

      我們?yōu)橐蕾嚁?shù)據(jù)提供了一些初步的差分隱私估計(jì)工具。核心方法是一種基于帶噪聲Winsorized均值的均值估計(jì)算法,該算法最初由Karwa和Vadhan(2018)在單變量獨(dú)立同分布高斯數(shù)據(jù)的項(xiàng)級(jí)差分隱私背景下提出。我們的工作表明,該算法的簡(jiǎn)單變體不僅能夠處理依賴數(shù)據(jù),而且在用戶級(jí)DP和本地DP框架下,針對(duì)非參數(shù)回歸、隨機(jī)效應(yīng)模型和縱向線性回歸等多種估計(jì)問(wèn)題,均可實(shí)現(xiàn)最優(yōu)的估計(jì)速率。從這個(gè)意義上說(shuō),我們的工作也為一系列通常被分別研究的差分隱私問(wèn)題提供了一個(gè)簡(jiǎn)潔而統(tǒng)一的估計(jì)框架。

      從技術(shù)角度看,允許對(duì)數(shù)Sobolev依賴觀測(cè)值的關(guān)鍵工具是Bobkov與G?tze(2010)提出的DKW型不等式。它使我們能夠控制中間直方圖估計(jì)器的性能——這些估計(jì)器對(duì)于自適應(yīng)地確定Winsorized均值估計(jì)器所需的投影區(qū)間至關(guān)重要。若要進(jìn)一步放松對(duì)數(shù)Sobolev依賴性假設(shè),則需要在更弱條件下成立的DKW型不等式。

      本工作開啟了諸多自然的未來(lái)研究方向。其中在實(shí)踐中最緊迫的問(wèn)題或許是開發(fā)適用于中等樣本量且在依賴性條件下具有良好表現(xiàn)的統(tǒng)計(jì)推斷工具。為此,開發(fā)優(yōu)良的私有方差估計(jì)器將至關(guān)重要,我們認(rèn)為基于Biswas等(2020)提出的CoinPress方法的思想頗具前景。最后,許多重要的統(tǒng)計(jì)問(wèn)題天然涉及依賴數(shù)據(jù),包括多臂老虎機(jī)、在線學(xué)習(xí)、聯(lián)邦學(xué)習(xí),以及一般的含噪差分隱私優(yōu)化過(guò)程。我們希望在未來(lái)的工作中探討其中部分問(wèn)題。

      原文鏈接: https://arxiv.org/pdf/2511.18583

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      北京93歲老人終身未娶、無(wú)兒無(wú)女,去世前將千萬(wàn)財(cái)產(chǎn)贈(zèng)與照顧其12年的鄰居,法院判了

      北京93歲老人終身未娶、無(wú)兒無(wú)女,去世前將千萬(wàn)財(cái)產(chǎn)贈(zèng)與照顧其12年的鄰居,法院判了

      大風(fēng)新聞
      2026-02-24 23:13:12
      2歲的兒媳婦自己找上門!驚呆了!生活里那些驚人的巧合

      2歲的兒媳婦自己找上門!驚呆了!生活里那些驚人的巧合

      另子維愛讀史
      2026-02-05 23:23:06
      240萬(wàn)轉(zhuǎn)錯(cuò)賬戶,浙江女子崩潰:對(duì)方欠銀行700萬(wàn),還是被執(zhí)行人,錢一直拿不回來(lái)

      240萬(wàn)轉(zhuǎn)錯(cuò)賬戶,浙江女子崩潰:對(duì)方欠銀行700萬(wàn),還是被執(zhí)行人,錢一直拿不回來(lái)

      犀利辣椒
      2026-01-12 06:40:13
      比電子布還猛!光纖價(jià)格飆漲80%   這7大寡頭迎戴維斯雙擊

      比電子布還猛!光纖價(jià)格飆漲80% 這7大寡頭迎戴維斯雙擊

      元芳說(shuō)投資
      2026-02-26 06:00:08
      1942年潛伏在日偽心臟的中共特工送來(lái)手繪圖,粟裕:槍斃電報(bào)科長(zhǎng)

      1942年潛伏在日偽心臟的中共特工送來(lái)手繪圖,粟裕:槍斃電報(bào)科長(zhǎng)

      讓時(shí)間說(shuō)真話
      2024-05-13 22:06:58
      135km/h剎停、永不收費(fèi):比亞迪“天神之眼5.0”,掀翻賽道

      135km/h剎停、永不收費(fèi):比亞迪“天神之眼5.0”,掀翻賽道

      汽車網(wǎng)評(píng)
      2026-02-25 21:25:04
      有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

      有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

      夜深愛雜談
      2026-02-18 20:55:58
      歐冠獎(jiǎng)金曝光 小組賽踢完拜仁就拿1億歐 倒數(shù)第一也超2000萬(wàn)歐

      歐冠獎(jiǎng)金曝光 小組賽踢完拜仁就拿1億歐 倒數(shù)第一也超2000萬(wàn)歐

      智道足球
      2026-02-25 20:05:49
      申京高效三雙,傳球帶動(dòng)射手群,火箭隊(duì)第六人28+2,有實(shí)力爭(zhēng)首發(fā)

      申京高效三雙,傳球帶動(dòng)射手群,火箭隊(duì)第六人28+2,有實(shí)力爭(zhēng)首發(fā)

      替補(bǔ)席看球
      2026-02-26 11:18:34
      統(tǒng)治百年卻同化失敗?俄遠(yuǎn)東多地加速漢化,為何非華夏文明不可!

      統(tǒng)治百年卻同化失敗?俄遠(yuǎn)東多地加速漢化,為何非華夏文明不可!

      殘夢(mèng)重生來(lái)
      2026-02-19 07:57:05
      俄羅斯警告:核大國(guó)可能發(fā)生直接沖突

      俄羅斯警告:核大國(guó)可能發(fā)生直接沖突

      參考消息
      2026-02-25 15:19:05
      畸形審美?這4位男演員長(zhǎng)相平平,卻總當(dāng)主角演帥哥,實(shí)在不理解

      畸形審美?這4位男演員長(zhǎng)相平平,卻總當(dāng)主角演帥哥,實(shí)在不理解

      淚滿過(guò)眼
      2026-02-25 05:03:57
      亞洲第一帥又胖了!香港頂流姜濤過(guò)完年演出,腿粗肚子大跳舞笨拙

      亞洲第一帥又胖了!香港頂流姜濤過(guò)完年演出,腿粗肚子大跳舞笨拙

      冷紫葉
      2026-02-25 18:19:24
      最讓大齡剩女崩潰的是什么?網(wǎng)友:為啥我一個(gè)單身狗看的津津有味

      最讓大齡剩女崩潰的是什么?網(wǎng)友:為啥我一個(gè)單身狗看的津津有味

      帶你感受人間冷暖
      2026-02-22 16:13:39
      當(dāng)年舉報(bào)畢福劍的那位告密者竟然變成這樣了!誰(shuí)能想到啊?

      當(dāng)年舉報(bào)畢福劍的那位告密者竟然變成這樣了!誰(shuí)能想到啊?

      霹靂炮
      2026-02-06 13:48:54
      8人上雙+37次助攻,殘陣勇士狂勝21分!控制變量法讓追夢(mèng)徹底露餡

      8人上雙+37次助攻,殘陣勇士狂勝21分!控制變量法讓追夢(mèng)徹底露餡

      鍋?zhàn)踊@球
      2026-02-26 11:37:44
      能源耗盡遍地垃圾,古巴外長(zhǎng)將訪俄求助

      能源耗盡遍地垃圾,古巴外長(zhǎng)將訪俄求助

      昊軒看世界
      2026-02-19 14:48:01
      若遭降級(jí),熱刺恐面臨19名球員離隊(duì)的巨變

      若遭降級(jí),熱刺恐面臨19名球員離隊(duì)的巨變

      星耀國(guó)際足壇
      2026-02-25 23:16:59
      官媒曝光68歲閻維文處境,李雙江預(yù)言成真

      官媒曝光68歲閻維文處境,李雙江預(yù)言成真

      余塩搞笑段子
      2026-01-14 13:04:37
      海歸光環(huán)徹底消失?49.5萬(wàn)留學(xué)生涌回國(guó),殘酷真相:企業(yè)只認(rèn)這個(gè)

      海歸光環(huán)徹底消失?49.5萬(wàn)留學(xué)生涌回國(guó),殘酷真相:企業(yè)只認(rèn)這個(gè)

      南權(quán)先生
      2025-12-23 16:16:33
      2026-02-26 11:52:49
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1240文章數(shù) 18關(guān)注度
      往期回顧 全部

      科技要聞

      單季營(yíng)收681億凈利429億!英偉達(dá)再次炸裂

      頭條要聞

      "霍金與比基尼女性同游照"現(xiàn)愛潑斯坦檔案 曾被"辟謠"

      頭條要聞

      "霍金與比基尼女性同游照"現(xiàn)愛潑斯坦檔案 曾被"辟謠"

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂(lè)要聞

      尼格買提撒貝寧滑雪被偶遇 17年老友情

      財(cái)經(jīng)要聞

      短劇市場(chǎng)風(fēng)云突變!有人投百萬(wàn)賠得精光

      汽車要聞

      第五代宏光MINIEV煥新 四門玩趣代步車來(lái)襲

      態(tài)度原創(chuàng)

      教育
      旅游
      時(shí)尚
      親子
      公開課

      教育要聞

      儲(chǔ)殷:反對(duì)孩子刷題,未來(lái)20年經(jīng)歷最大變化

      旅游要聞

      長(zhǎng)春冰雪新天地將于2月28日關(guān)園,現(xiàn)可免費(fèi)入園

      倫敦時(shí)裝周|2026秋冬流行趨勢(shì)早知道

      親子要聞

      媽媽吃得好,寶寶才健康。孕期關(guān)鍵營(yíng)養(yǎng)清單

      公開課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版