定义 2.4 (差分隐私) 对于所有的S⊆Range(M) 且所有的 x,y∈N∣X∣ 有 ∥x−y∥1≤1,如果满足下列关系:
Pr[M(x)∈S]≤exp(ε)Pr[M(y)∈S]+δ 则将这个域在 N∣X∣ 的随机算法 M 称为 (ε,δ) 差分隐私( (ε,δ)- Differentially private)。其中概率空间在算法M的硬币翻转上。
特别的,如果 δ=0 ,则将 M 称为 ε 差分隐私(即 ε–Differentially private)。
通常,我们对 δ 的值感兴趣,该值小于多项式数据库大小的倒数。 特别是,δ 值接近 1/∥x∥1 是非常危险(因为在第1节中讨论“少数人”原则):这种做法通过发布少量数据库参与者的完整记录来“保护隐私”(以获得可用性)。
但是,即使 δ 可以忽略不计,ε- 差分隐私和 (ε,δ)- 差分隐私之间也存在理论上的区别。 其中最主要的是量化顺序的转换。 ε- 差分隐私可确保对于机制 M(x) 的每次运行,在每个相邻数据库上同时观察到的输出的可能性几乎相同。相反,从事后观察值得出结论, (ε,δ)- 差分隐私对于每对相邻数据库x, y,可能出现这样一种情况:值 M(x) 更可能由 x 产生。但是,给定一个输出 ξ∽M(x),也可能会找到一个数据库y,使得 ξ 在 y 上产生的概率比数据库为 x 时的概率大得多。 即,分布 M(y) 中的 ξ 的概率可以实质上大于分布 M(x) 中的 ξ 的概率。
所以,机制质量:
LM(x)∥M(y)(ξ)=ln(Pr[M(y)=ξ]Pr[M(x)=ξ]) 对我们至关重要。我们将其称为:当机制输出为 ξ 时的隐私损失。 这种损失可能是正的(当事件在x之下比在y之下更有可能发生),也可能是负的(当事件在y之下比x之下更有可能)。正如我们将在引理3.17看到,(ε,δ)- 差分隐私确保对于所有相邻的x、y,隐私损失的绝对值小于等于 ε的概率至少为 1−δ。 与前文一样,概率空间位于机制M的硬币上。
差分隐私不受后处理的影响:在没有其他有关私有数据库的知识的情况下,数据分析人员无法计算私有算法M的输出函数,也无法使其差分隐私程度降低。 就是说,如果算法保护了个人的隐私,那么无论是在正式定义下,还是在任何直观的意义上,数据分析师都无法仅仅通过坐在角落里思考算法的输出来增加隐私损失。 形式上,具有((ε,δ)- 差分隐私算法M的数据独立映射 f 的合成也具有((ε,δ)- 差分隐私:
命题 2.1(后处理) 令 M:N∣X∣→R 是 (ε,δ)- 差分隐私随机算法。 令 f:R→R′为任意随机映射。 则 f∘M:N∣X∣→R′ 是 (ε,δ)- 差分隐私。
【证明】 我们证明了一个确定性函数f:R→R′的命题。结果如下,因为任何随机映射都可以分解为确定性函数的凸组合,而差分隐私机制的凸组合是差分隐私的。
设任意一对相邻数据库 x,y 的 ∥x−y∥1≤1,且任意事件 S⊆R′,设 T={r∈R:f(r)∈S} ,则:
Pr[f(M(x))∈S]=Pr[M(x)∈T]≤exp(ε)Pr[M(y)∈T]+δ=exp(ε)Pr[f(M(y))∈S]+δ 【命题 2.1 证毕】。
从定义2.4可以立即得出 (ε,0)- 差分隐私的合成很简单:两个(ε,0)- 差分隐私机制的合成是 (2ε,0)- 差分隐私。这个定理再进一步拓展(即 定理3.16): 设有 k 个差分隐私机制的合成,其中第 i 个机制为 (εi,δi)- 差分隐私。易知,当 1≤i≤k时,k 个差分隐私机制合成的结果是 (∑i=1kεi,∑i=1kδi)- 差分隐私。
【补充举例:
许多机器学习算法(例如,随机梯度下降)可以描述为对数据集中进行低敏感度查询序列,并且可以容忍查询得到的带噪声回答(“统计查询模型”。)
通过合成和后处理,训练的模型是差分隐私的且可以安全输出。
】
(个人理解:由定义可知,机制的叠加不能增加差分隐私的隐私保护程度,相反会以线性方式增加 ε,进而增大隐私泄露的可能。详细的推导证明见 3.5节 )
群隐私:(ε,0)- 差分隐私机制的群隐私也遵循从定义2.4,隐私保证的强度随群的大小线性下降。
定理2.2 任意一个大小为 k 的群体,这个群体的机制 M 是 (ε,0)- 差分隐私,则这个机制 M 会变成 (kε,0)- 差分隐私。也就是说,对于所有 ∥x−y∥1≤k 和所有 S⊆Range(M) 有:
Pr[M(x)∈S]≤exp(kε)Pr[M(y)∈S] 概率空间在机制 M 的硬币翻转上。
例如,这解决了包括多个群体成员的调查中的隐私问题 [1]。
更普遍的说,差分隐私的合成和群体隐私不是同一回事,第3.5.2节(定理3.20) 中改善了机制合成之后的隐私预算退化程度(实质上改善了 k 因子)。但是这个定理不适用于改善群体隐私造成的隐私预算增大,即使 δ=0。
(原文注[1]:然而,随着群体的扩大,隐私保障也随之恶化,这正是我们想要的:很明显,如果我们替换一个完全不同的调查群体,比如健康的青少年,来代替整个被调查的癌症患者群体。在这种替换下,如果我们查询哪部分人每天经常跑三英里,我们应该得到不同的答案。虽然与 (ε,δ) 差分隐私保密性类似,但近似项 δ 受到了很大的冲击,我们只得到大小为 k 的群体是(kε,ke(k−1)ε)-差分隐私。注意,此处与隐私参数合成相加定理不同。)
(个人理解:多个群体共用一个隐私保护机制,那么随着群体个数的增加,这个隐私保护机制的保护能力会随之下降。上文说明了,ε 会线性增加。比如,青少年、老年人、健康人、患不同疾病人等等共同使用一个差分隐私机制。显然各个群体有各个群体的特点,其结果必然会有差异,可想而知这种差异会对隐私保护机制参数造成影响。如上文所述,会呈现线性变化。详细的解释见后文差分隐私定义补充说明)