Last updated 5 years ago
在信息论中,基于相同事件测度的两个概率分布ppp和qqq的交叉熵是指,当基于一个“非自然”(相对于“真实”分布ppp而言)的概率分布qqq进行编码时,在事件集合中唯一标识一个事件所需要的平均比特数。
基于概率分布ppp和qqq的交叉熵定义为:
对于离散分布ppp和qqq:
或:
特别地,当随机变量只取两个值时,P(X=1)=pP(X=1)=pP(X=1)=p,P(X=0)=1−pP(X=0)=1-pP(X=0)=1−p,0⩽p⩽10\leqslant p \leqslant 10⩽p⩽1,则
相对熵(relative entropy)又称KL散度(Kullback-Leibler divergence),KL距离,是两个随机分布间距离的度量,记为DKL(p∣∣q)D_{KL}(p||q)DKL(p∣∣q)。它度量当真实分布为ppp时,假设分布qqq的无效性。
其中Hp(q)H_p(q)Hp(q)即是交叉熵。
当p=qp=qp=q时,两者之间的相对熵DKL(p∣∣q)=0D_{KL}(p||q)=0DKL(p∣∣q)=0。
因此DKL(p∣∣q)D_{KL}(p||q)DKL(p∣∣q)的含义就是:真实分布为ppp的前提下,使用qqq分布进行编码相对于使用真实分布ppp进行编码所多出来的比特数。