交叉熵
在信息论中,基于相同事件测度的两个概率分布p和q的交叉熵是指,当基于一个“非自然”(相对于“真实”分布p而言)的概率分布q进行编码时,在事件集合中唯一标识一个事件所需要的平均比特数。
基于概率分布p和q的交叉熵定义为:
H(p,q)=Ep[−logq] 对于离散分布p和q:
H(p,q)=−x∈X∑p(x)logq(x) 或:
H(p,q)=x∈X∑p(x)logq(x)1 特别地,当随机变量只取两个值时,P(X=1)=p,P(X=0)=1−p,0⩽p⩽1,则
H(p,q)=−x∈X∑p(x)logq(x) =−[Pp(x=1)logPq(x=1)+Pp(x=0)logPq(x=0)] =−[plogq+(1−p)logq] 相对熵
相对熵(relative entropy)又称KL散度(Kullback-Leibler divergence),KL距离,是两个随机分布间距离的度量,记为DKL(p∣∣q)。它度量当真实分布为p时,假设分布q的无效性。
DKL(p∣∣q)=Ep[logq(x)p(x)]=x∈X∑p(x)logq(x)p(x) =x∈X∑[p(x)logp(x)−p(x)logq(x)] =x∈X∑p(x)logp(x)−x∈X∑p(x)logq(x) =−H(p)−−x∈X∑p(x)logq(x) =−H(p)−Ep[logq(x)] =Hp(q)−H(p) 其中Hp(q)即是交叉熵。
当p=q时,两者之间的相对熵DKL(p∣∣q)=0。
因此DKL(p∣∣q)的含义就是:真实分布为p的前提下,使用q分布进行编码相对于使用真实分布p进行编码所多出来的比特数。