Machine Learning
  • Introduction
  • 机器学习
    • 前言
      • 符号表
    • 监督式学习
      • 感知机
        • 感知机模型
        • 感知机学习算法
        • 算法python实现
      • Logistic回归
        • Logistic分布
        • Logistic回归模型
        • 算法python实现
      • 线性回归
        • 线性回归模型
        • 算法python实现
      • K近邻法
        • k近邻模型
        • kd树方法
        • kd树python实现
        • knn实例
      • 朴素贝叶斯法
        • 模型和原理
        • 参数估计
        • 算法和实现
      • 决策树
        • 模型与学习
        • 特征选择
        • 生成算法和剪枝
        • python实现
      • 支持向量机
    • 神经网络
      • 神经元模型和感知机
      • 神经网络
      • 神经网络的矩阵表达
      • 反向传播算法
        • 算法证明
        • 算法代码
        • 基于矩阵的计算
      • 改进神经网络的学习方法
        • 交叉熵代价函数
        • softmax
        • regularization
        • 权重初始化
      • 卷积神经网络
        • 基本介绍
    • 数学基础
      • 线性代数
        • 特征值和特征向量
      • 概率统计
        • 随机变量的特征
        • 样本统计量
        • 先验后验概率
      • 微积分
        • 向量内积
        • 方向导数和梯度
        • 梯度下降法
      • 信息论
        • 熵
        • 相对熵和交叉熵
        • 条件熵
        • 互信息
Powered by GitBook
On this page
  1. 机器学习
  2. 数学基础
  3. 信息论

条件熵

Previous相对熵和交叉熵Next互信息

Last updated 7 years ago

参考

假设有随机变量(X,Y)(X,Y)(X,Y),其联合概率分布为:P(X=xi,Y=yi)=pijP(X=x_i, Y=y_i)=p_{ij}P(X=xi​,Y=yi​)=pij​

P(X=xi,Y=yj)=pijP(X=x_i, Y=y_j)=p_{ij}P(X=xi​,Y=yj​)=pij​,i=1,2,...,n;j=1,2,...,mi=1,2,...,n; j=1,2,...,mi=1,2,...,n;j=1,2,...,m

条件熵描述了在已知随机变量XXX的值的前提下,随机变量YYY 的信息熵还有多少。同其它的信息熵一样,条件熵也用Sh、nat、Hart等信息单位表示。基于XXX 条件的YYY 的信息熵,用H(Y∣X)H(Y|X)H(Y∣X)表示。

H(Y∣X=x)H(Y|X=x)H(Y∣X=x)为随机变量YYY在XXX取特定值xxx下的熵,那么H(Y∣X)H(Y|X)H(Y∣X)就是H(Y∣X=x)H(Y|X=x)H(Y∣X=x)在XXX取遍所有可能xxx后取平均期望的结果。

给定随机变量X∈XX \in \mathcal{X}X∈X,Y∈YY\in \mathcal{Y}Y∈Y,在给定XXX条件下YYY的条件熵定义为:

H(Y∣X)=∑x∈Xp(x)H(Y∣X=x)H(Y|X)=\displaystyle\sum_{x\in \mathcal{X}}p(x)H(Y|X=x)H(Y∣X)=x∈X∑​p(x)H(Y∣X=x)
=−∑x∈Xp(x)∑y∈Yp(y∣x)logp(y∣x)=-\displaystyle\sum_{x\in \mathcal{X}}p(x)\displaystyle\sum_{y\in \mathcal{Y}}p(y|x)\mathrm{log}p(y|x)=−x∈X∑​p(x)y∈Y∑​p(y∣x)logp(y∣x)
=−∑x∈X∑y∈Yp(x,y)logp(y∣x)=-\displaystyle\sum_{x\in \mathcal{X}}\displaystyle\sum_{y\in \mathcal{Y}}p(x,y)\mathrm{log}p(y|x)=−x∈X∑​y∈Y∑​p(x,y)logp(y∣x)
=−∑x∈X,y∈Yp(x,y)logp(x,y)p(x)=-\displaystyle\sum_{x\in \mathcal{X},y\in \mathcal{Y}}p(x,y)\mathrm{log}\dfrac{p(x,y)}{p(x)}=−x∈X,y∈Y∑​p(x,y)logp(x)p(x,y)​
=−∑x∈X,y∈Yp(x,y)logp(x,y)p(x)=-\displaystyle\sum_{x\in \mathcal{X},y\in \mathcal{Y}}p(x,y)\mathrm{log}\dfrac{p(x,y)}{p(x)}=−x∈X,y∈Y∑​p(x,y)logp(x)p(x,y)​
=∑x∈X,y∈Y−p(x,y)logp(x,y)−∑x∈X−p(x)logp(x)=\displaystyle\sum_{x\in \mathcal{X},y\in \mathcal{Y}}-p(x,y)\mathrm{log}p(x,y)-\displaystyle\sum_{x\in \mathcal{X}}-p(x)\mathrm{log}p(x)=x∈X,y∈Y∑​−p(x,y)logp(x,y)−x∈X∑​−p(x)logp(x)
=H(X,Y)−H(X)=H(X,Y)-H(X)=H(X,Y)−H(X)

即H(Y∣X)=H(X,Y)−H(X)H(Y|X)=H(X,Y)-H(X)H(Y∣X)=H(X,Y)−H(X),同样H(X∣Y)=H(X,Y)−H(Y)H(X|Y)=H(X,Y)-H(Y)H(X∣Y)=H(X,Y)−H(Y)

https://zh.wikipedia.org/wiki/条件熵