参考 https://zh.wikipedia.org/wiki/条件熵
假设有随机变量(X,Y),其联合概率分布为:P(X=xi,Y=yi)=pij
P(X=xi,Y=yj)=pij,i=1,2,...,n;j=1,2,...,m
条件熵描述了在已知随机变量X的值的前提下,随机变量Y 的信息熵还有多少。同其它的信息熵一样,条件熵也用Sh、nat、Hart等信息单位表示。基于X 条件的Y 的信息熵,用H(Y∣X)表示。
H(Y∣X=x)为随机变量Y在X取特定值x下的熵,那么H(Y∣X)就是H(Y∣X=x)在X取遍所有可能x后取平均期望的结果。
给定随机变量X∈X,Y∈Y,在给定X条件下Y的条件熵定义为:
H(Y∣X)=x∈X∑p(x)H(Y∣X=x) =−x∈X∑p(x)y∈Y∑p(y∣x)logp(y∣x) =−x∈X∑y∈Y∑p(x,y)logp(y∣x) =−x∈X,y∈Y∑p(x,y)logp(x)p(x,y)