在本节的剩余部分,我们将证明一个更复杂的合成定理。为此,我们需要一些定义和引理,用分布之间的距离度量重新表述差异隐私。在下面的分数量中,如果分母为零,那么我们将分数的值定义为无穷大(分子总是正的)。
定义3.5(KL散度) KL-散度(Kullback-Leibler divergence),又称为 相对熵。两个随机变量 Y 和 Z(取同一域的值)之间的 KL-散度定义为:
D(Y∣∣Z)=Ey∽Y[lnPr[Z=y]Pr[Y=y]]=y∽Y∑Pr(y)lnPr[Z=y]Pr[Y=y]=∫−∞∞pY(y)lnpZ(y)pY(y)dy (译者注:增加离散和连续的两种相对熵等价定义)
已知 D(Y∣∣Z)≥0 ,且当且仅当 Y 和 Z 分布相同时具有相等性。然而,D 是非对称的,不满足三角不等式,甚至可以是无限的,特别是当 Supp(Y) 不包含在 Supp(Z) 中时。
(译者注:支撑集 Supp():其实就是函数的非零部分子集,比如 ReLU 函数的支撑集就是 (0,+∞),一个概率分布的支撑集就是所有概率密度非零部分的集合。具体定义见 维基百科)
定义3.6(最大散度) 取自同一域的两个随机变量 Y 和 Z 之间的最大散度定义为:
D∞(Y∣∣Z)=S⊆Supp(Y)max[lnPr[Z∈S]Pr[Y∈S]] Y 和 Z 之间的 δ-近似最大散度定义为:
D∞δ(Y∣∣Z)=S⊆Supp(Y):Pr[Y∈S]≥δmax[lnPr[Z∈S]Pr[Y∈S]−δ] 我们将根据确切的最大散度和统计距离重新制定最大散度公式:
引理 3.17
【证明】 略
【引理 3.18 证毕】
【补充:该证明过程省略许多步骤,会造成迷惑,这边对证明过程加以补充。首先第一步的推导,由定义可得:
且由两式相减必小于等于两式相减的绝对值,故:
】
备注3.1 请注意,机制 M 为:
1.当且仅当在每对相邻数据库 x,y,D∞(M(x)∣∣M(y))≤ε,D∞(M(y)∣∣M(x))≤ε时,机制为 ε -差分隐私。
2.当且仅当在每两个相邻的数据库 x,yD∞δ(M(x)∣∣M(y))≤εD∞δ(M(y)∣∣M(x))≤ε 时,机制为 (ε,δ) -差分隐私。
另一个有用的距离度量是两个随机变量 Y 和 Z 之间的统计距离,定义为:
Δ(Y,Z)=defSmax∣Pr[Y∈S]−Pr[Z∈S]∣ 如果 Δ(Y,Z)≤δ,我们说 Y,Z 是δ-接近(原文“δ-close”)的,
1.当且仅当存在一个随机变量 Y′ 满足 Δ(Y,Y′)≤δ,D∞(Y′∣∣Z)≤ε 时,D∞δ(Y∣∣Z)≤ε 成立
2.当且仅当存在随机变量 Y′,Z′ 满足 Δ(Y,Y′)≤δ/(eε+1),Δ(Z,Z′)≤δ/(eε+1),D∞(Y′∣∣Z′)≤ε 时,D∞δ(Y∣∣Z)≤ε,D∞δ(Z∣∣Y)≤ε 成立。
引理 3.18 假设随机变量 Y,Z 满足 D∞(Y∣∣Z)≤εD∞(Z∣∣Y)≤ε,则 D(Y∣∣Z)≤ε⋅(eε−1)。
【证明】 由KL散度性质可知:任意 Y,Z 有 D(Y∣∣Z)≥0,所以 D(Y∣∣Z) 可以被 D(Y∣∣Z)+D(Z∣∣Y) 约束:
D(Y∣∣Z)≤D(Y∣∣Z)+D(Z∣∣Y)=y∑Pr[Y=y]⋅(lnPr[Z=y]Pr[Y=y]+lnPr[Y=y]Pr[Z=y])+(Pr[Z=y]−Pr[Y=y])⋅(lnPr[Y=y]Pr[Z=y])≤y∑[0+∣Pr[Z=y]−Pr[Y=y]∣⋅ε]=ε⋅y∑[max{Pr[Y=y],Pr[Z=y]}−min{Pr[Y=y],Pr[Z=y]}]≤ε⋅y∑[(eε−1)⋅min{Pr[Y=y],Pr[Z=y]}]≤ε(eε−1) D(Y∣∣Z)+D(Z∣∣Y)=y∑Pr[Y=y]⋅lnPr[Z=y]Pr[Y=y]+y∑Pr[Z=y]⋅lnPr[Y=y]Pr[Z=y]=y∑Pr[Y=y]⋅lnPr[Z=y]Pr[Y=y]+y∑{Pr[Z=y]+Pr[Y=y]−Pr[Y=y]}⋅lnPr[Y=y]Pr[Z=y]=y∑[Pr[Y=y]⋅(lnPr[Z=y]Pr[Y=y]+lnPr[Y=y]Pr[Z=y])+(Pr[Z=y]−Pr[Y=y])⋅(lnPr[Y=y]Pr[Z=y])] 由于 D∞(Z∣∣Y)≤ε ,由 最大散度 的定义可知:
lnPr[Y=y]Pr[Z=y]≤D∞(Z∣∣Y)=S⊆Supp(Y)max[lnPr[Y=y]Pr[Z=y]]≤ε D(Y∣∣Z)≤y∑[0+∣Pr[Z=y]−Pr[Y=y]∣⋅ε] 又因绝对值公式 max{f(x),g(x)}−min{f(x),g(x)}=∣f(x)−g(x)∣,可以得到:
y∑[0+∣Pr[Z=y]−Pr[Y=y]∣⋅ε]=ε⋅y∑[max{Pr[Y=y],Pr[Z=y]}−min{Pr[Y=y],Pr[Z=y]}] 当 Pr[Y=y]>Pr[Z=y] 时,max{Pr[Y=y],Pr[Z=y]}=Pr[Y=y],由给定条件和 最大散度 定义可知:
lnPr[Z=y]Pr[Y=y]≤D∞(Y∣∣Z)=S⊆Supp(Y)max[lnPr[Z=y]Pr[Y=y]]≤ε⟹Pr[Y=y]≤eε⋅Pr[Z=y]⟹max{Pr[Y=y],Pr[Z=y]}≤eε⋅Pr[Z=y] 反之:Pr[Y=y]<Pr[Z=y] 亦然,max{Pr[Y=y],Pr[Z=y]}≤eε⋅Pr[Y=y],所以两者中的最大值必然小于等于两者最小值乘上 eε,形式化表示为: max{Pr[Y=y],Pr[Z=y]}≤eε⋅min{Pr[Y=y],Pr[Z=y]} 故有:
ε⋅y∑[max{Pr[Y=y],Pr[Z=y]}−min{Pr[Y=y],Pr[Z=y]}]≤ε⋅y∑[(eε−1)⋅min{Pr[Y=y],Pr[Z=y]}] 引理3.19(Azuma不等式) 令 C1,...Ck 为实值变量满足任意一个 i∈[k],Pr[∣Ci∣≤α]=1,且对于每一个 (c1,...,ci−1)∈Supp(C1,...Ci−1) 我们有:
E[Ci∣C1=c1,...,Ci−1=ci−1]≤β Pr[i=1∑kCi>kβ+zk⋅α]≤e−z2/2