相对熵和交叉熵

交叉熵

在信息论中,基于相同事件测度的两个概率分布ppqq的交叉熵是指,当基于一个“非自然”(相对于“真实”分布pp而言)的概率分布qq进行编码时,在事件集合中唯一标识一个事件所需要的平均比特数。

基于概率分布ppqq的交叉熵定义为:

H(p,q)=Ep[logq]H(p,q)=E_p[-\mathrm{log}q]

对于离散分布ppqq

H(p,q)=xXp(x)logq(x)H(p,q)=-\displaystyle\sum_{x\in \mathcal{X}}p(x)\mathrm{log}q(x)

或:

H(p,q)=xXp(x)log1q(x)H(p,q)=\displaystyle\sum_{x\in \mathcal{X}}p(x)\mathrm{log}\frac{1}{q(x)}

特别地,当随机变量只取两个值时,P(X=1)=pP(X=1)=pP(X=0)=1pP(X=0)=1-p0p10\leqslant p \leqslant 1,则

H(p,q)=xXp(x)logq(x)H(p,q)=-\displaystyle\sum_{x\in \mathcal{X}}p(x)\mathrm{log}q(x)
=[Pp(x=1)logPq(x=1)+Pp(x=0)logPq(x=0)]= -[P_p(x=1)\mathrm{log}P_q(x=1) + P_p(x=0)\mathrm{log}P_q(x=0)]
=[plogq+(1p)logq]= -[p\mathrm{log}q + (1-p)\mathrm{log}q]

相对熵

相对熵(relative entropy)又称KL散度(Kullback-Leibler divergence),KL距离,是两个随机分布间距离的度量,记为DKL(pq)D_{KL}(p||q)。它度量当真实分布为pp时,假设分布qq的无效性。

DKL(pq)=Ep[logp(x)q(x)]=xXp(x)logp(x)q(x)D_{KL}(p||q)=E_p[\mathrm{log}\frac{p(x)}{q(x)}]=\displaystyle\sum_{x\in \mathcal{X}}p(x)\mathrm{log}\frac{p(x)}{q(x)}
=xX[p(x)logp(x)p(x)logq(x)]=\displaystyle\sum_{x\in \mathcal{X}}[p(x)\mathrm{log}p(x)-p(x)\mathrm{log}q(x)]
=xXp(x)logp(x)xXp(x)logq(x)=\displaystyle\sum_{x\in \mathcal{X}}p(x)\mathrm{log}p(x)-\displaystyle\sum_{x\in \mathcal{X}}p(x)\mathrm{log}q(x)
=H(p)xXp(x)logq(x)= -H(p)--\displaystyle\sum_{x\in \mathcal{X}}p(x)\mathrm{log}q(x)
=H(p)Ep[logq(x)]=-H(p)-E_p[\mathrm{log}q(x)]
=Hp(q)H(p)=H_p(q)-H(p)

其中Hp(q)H_p(q)即是交叉熵。

p=qp=q时,两者之间的相对熵DKL(pq)=0D_{KL}(p||q)=0

因此DKL(pq)D_{KL}(p||q)的含义就是:真实分布为pp的前提下,使用qq分布进行编码相对于使用真实分布pp进行编码所多出来的比特数。

Last updated