Machine Learning
  • Introduction
  • 机器学习
    • 前言
      • 符号表
    • 监督式学习
      • 感知机
        • 感知机模型
        • 感知机学习算法
        • 算法python实现
      • Logistic回归
        • Logistic分布
        • Logistic回归模型
        • 算法python实现
      • 线性回归
        • 线性回归模型
        • 算法python实现
      • K近邻法
        • k近邻模型
        • kd树方法
        • kd树python实现
        • knn实例
      • 朴素贝叶斯法
        • 模型和原理
        • 参数估计
        • 算法和实现
      • 决策树
        • 模型与学习
        • 特征选择
        • 生成算法和剪枝
        • python实现
      • 支持向量机
    • 神经网络
      • 神经元模型和感知机
      • 神经网络
      • 神经网络的矩阵表达
      • 反向传播算法
        • 算法证明
        • 算法代码
        • 基于矩阵的计算
      • 改进神经网络的学习方法
        • 交叉熵代价函数
        • softmax
        • regularization
        • 权重初始化
      • 卷积神经网络
        • 基本介绍
    • 数学基础
      • 线性代数
        • 特征值和特征向量
      • 概率统计
        • 随机变量的特征
        • 样本统计量
        • 先验后验概率
      • 微积分
        • 向量内积
        • 方向导数和梯度
        • 梯度下降法
      • 信息论
        • 熵
        • 相对熵和交叉熵
        • 条件熵
        • 互信息
Powered by GitBook
On this page
  • 期望:
  • 方差
  • 协方差
  • 协方差矩阵
  1. 机器学习
  2. 数学基础
  3. 概率统计

随机变量的特征

Previous概率统计Next样本统计量

Last updated 7 years ago

期望:

1. 定义:

设离散型随机变量XXX的分布律为:P{X=xi}=pk,k=1,2,...P\{X=x_i\}=p_k, k=1,2,...P{X=xi​}=pk​,k=1,2,...,若级数∑k=1∞xkpk\displaystyle\sum_{k=1}^{\infty} x_k p_kk=1∑∞​xk​pk​绝对收敛,则称该级数的和为随机变量XXX的数学期望(mean),记为E(X)E(X)E(X)。即

E(X)=∑k=1∞xkpkE(X)=\displaystyle\sum_{k=1}^{\infty} x_k p_kE(X)=k=1∑∞​xk​pk​

设连续型随机变量XXX的概率密度为f(x)f(x)f(x),若积分∫−∞∞xf(x)dx\textstyle{\Large\int}_{-\infty}^{\infty}xf(x)dx∫−∞∞​xf(x)dx绝对收敛,则称该积分的值为随机变量XXX的数学期望,记为E(x)E(x)E(x),即

E(x)=∫−∞∞xf(x)dxE(x)=\textstyle{\Large\int}_{-\infty}^{\infty}xf(x)dxE(x)=∫−∞∞​xf(x)dx

数学期望简称为期望,又称为均值。

数学期望E(x)E(x)E(x)完全由随机变量XXX的概率密度所确定,若XXX服从某一分布,也称E(X)E(X)E(X)是这一分布的数学期望。

2. 期望的性质

  • 设CCC是常数,则有E(C)=CE(C)=CE(C)=C

  • 设XXX是一个随机变量,CCC是常数,则有E(CX)=CE(X)E(CX)=CE(X)E(CX)=CE(X)

  • 设XXX,YYY是两个随机变量,则有E(X+Y)=E(x)+E(Y)E(X+Y)=E(x)+E(Y)E(X+Y)=E(x)+E(Y)

  • 设XXX,YYY是相互独立的随机变量,则有E(XY)=E(X)E(Y)E(XY)=E(X)E(Y)E(XY)=E(X)E(Y)

方差

1. 定义

对于离散型随机变量,

对于连续型的随机变量,

2. 方差的性质

协方差

1. 定义

而

方差也可以表达成

2. 协方差的性质

3. 相关系数的性质

4. “不相关”和“相互独立”

协方差矩阵

定义

设XXX是一个随机变量,若E{[X−E(X)]2}E\{[X-E(X)]^2\}E{[X−E(X)]2}存在,则称其为XXX的方差(variance)记为D(X)D(X)D(X)或Var(X)Var(X)Var(X),即:

D(X)=Var(X)=E{[X−E(X)]2}D(X)=Var(X)=E\{[X-E(X)]^2\}D(X)=Var(X)=E{[X−E(X)]2}

在应用上还引入量D(X)\sqrt{D(X)}D(X)​,记为σ(X)\sigma(X)σ(X),称为标准差或均方差。

随机变量XXX的方差表达了XXX的取值与其数学期望的偏离程度,若D(X)D(X)D(X)较小意味着XXX的取值比较集中在E(X)E(X)E(X)附近;反之若D(X)D(X)D(X)较大则意味着XXX的取值比较分散。因此D(X)D(X)D(X)是刻画XXX取值分散度的一个量,它是衡量XXX取值分散程度的一个尺度。

D(X)=∑k=1∞[xk−E(X)]2pkD(X)=\displaystyle\sum_{k=1}^{\infty}[x_k-E(X)]^2 p_kD(X)=k=1∑∞​[xk​−E(X)]2pk​

其中P{X=xi}=pk,k=1,2,...P\{X=x_i\}=p_k, k=1,2,...P{X=xi​}=pk​,k=1,2,...是XXX的分布律

D(X)=∫−∞∞[x−E(X)]2f(x)dxD(X)=\textstyle{\Large\int}_{-\infty}^{\infty}[x-E(X)]^2f(x)dxD(X)=∫−∞∞​[x−E(X)]2f(x)dx

其中f(x)f(x)f(x)是XXX的概率密度。

随机变量XXX的方差也可以按照下列公式计算:

D(X)=E(X2)−[E(X)]2D(X)=E(X^2)-[E(X)]^2D(X)=E(X2)−[E(X)]2

设CCC是常量,则D(C)=0D(C)=0D(C)=0

设XXX是随机变量,CCC是常数,则D(CX)=C2D(X)D(CX)=C^2D(X)D(CX)=C2D(X),D(X+C)=D(X)D(X+C)=D(X)D(X+C)=D(X)

设XXX,YYY是随机变量,则有

D(X+Y)=D(X)+D(Y)+2E{[X−E(X)][Y−E(Y)]}D(X+Y)=D(X)+D(Y)+2E\{[X-E(X)][Y-E(Y)]\}D(X+Y)=D(X)+D(Y)+2E{[X−E(X)][Y−E(Y)]}

特别地,如果XXX,YYY相互独立,则有

D(X+Y)=D(X)+D(Y)D(X+Y)=D(X)+D(Y)D(X+Y)=D(X)+D(Y)

量E{[X−E(X)][Y−E(Y)]E\{[X-E(X)][Y-E(Y)]E{[X−E(X)][Y−E(Y)]称为随机变量XXX和YYY的协方差(Covariance)。记为Cov(X,Y)Cov(X,Y)Cov(X,Y),即

Cov(X,Y)=E{[X−E(X)][Y−E(Y)]Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]Cov(X,Y)=E{[X−E(X)][Y−E(Y)]
ρXY=Cov(X,Y)D(X)D(Y)\rho_{XY}=\dfrac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}ρXY​=D(X)​D(Y)​Cov(X,Y)​

称为随机变量XXX与YYY的相关系数。

由定义可知:Cov(X,Y)=Cov(Y,X)Cov(X,Y)=Cov(Y,X)Cov(X,Y)=Cov(Y,X),Cov(X,X)=D(X)Cov(X,X)=D(X)Cov(X,X)=D(X)

D(X+Y)=D(X)+D(Y)+2Cov(X,Y)D(X+Y)=D(X)+D(Y)+2Cov(X,Y)D(X+Y)=D(X)+D(Y)+2Cov(X,Y)

Cov(aX,bY)=abCov(X,Y)Cov(aX,bY)=abCov(X,Y)Cov(aX,bY)=abCov(X,Y),a,ba,ba,b是常数

Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)Cov(X1​+X2​,Y)=Cov(X1​,Y)+Cov(X2​,Y)

∣ρXY∣⩽1|\rho_{XY}|\leqslant 1∣ρXY​∣⩽1

∣ρXY∣=1|\rho_{XY}|= 1∣ρXY​∣=1的充要条件是存在常数a,ba,ba,b使得P{Y=a+bX}=1P\{Y=a+bX\}=1P{Y=a+bX}=1,即当∣ρXY∣=1|\rho_{XY}|= 1∣ρXY​∣=1时,XXX,YYY之间以概率1存在着线性关系。

∣ρXY∣=0|\rho_{XY}|=0∣ρXY​∣=0时,称XXX和YYY不线性相关。

ρXY\rho_{XY}ρXY​是一个可以用来表征XXX,YYY之间线性关系紧密程度的量,当∣ρXY∣|\rho_{XY}|∣ρXY​∣较大时,二者的线性相关程度较好,当∣ρXY∣|\rho_{XY}|∣ρXY​∣较小时,二者的线性相关程度较差。

XXX和YYY不线性相关,并不表示XXX和YYY相互独立,二者直接可能存在非线性关系,比如平方的关系。相关是就线性关系来说的。

特殊地,对于服从正态分布的随机变量,XXX和YYY不相关和相互独立是等价的。

nnn维随机变量(X1,X2,...,Xn)(X_1,X_2,...,X_n)(X1​,X2​,...,Xn​),任意二维随机变量的协方差

cij=Cov(Xi,Xj)=E{[Xi−E(Xi)][Xj−E(Xj)]c_{ij}=Cov(X_i,X_j)=E\{[X_i-E(X_i)][X_j-E(X_j)]cij​=Cov(Xi​,Xj​)=E{[Xi​−E(Xi​)][Xj​−E(Xj​)]

其中i,j=1,2,...,ni,j=1,2,...,ni,j=1,2,...,n,都存在,则称矩阵:

C=[c11c12...c1nc21c22...c2n⋮⋮⋮cn1cn2...cnn]C=\begin{bmatrix} c_{11} & c_{12} & ... & c_{1n} \\ c_{21} & c_{22} & ... & c_{2n} \\ \vdots & \vdots & & \vdots \\ c_{n1} & c_{n2} & ... & c_{nn} \end{bmatrix}C=​c11​c21​⋮cn1​​c12​c22​⋮cn2​​.........​c1n​c2n​⋮cnn​​​

为nnn维随机变量的协方差矩阵。由于cij=cjic_{ij}=c_{ji}cij​=cji​,因此协方差矩阵是一个对称矩阵。