# 模型和原理

朴素贝叶斯（native Bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法。

对于给定的训练集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对于给定的输入$$x$$，利用贝叶斯定理求出后验概率最大的输出$$y$$。

## 1. 基本方法

假设输入空间$$\mathcal{X}\subseteq R^n$$为$$n$$维向量的集合，输出空间为类标记集合$$\mathcal{Y}={c\_1, c\_2,...,c\_K}$$。输入为特征向量$$x\in \mathcal{X}$$，输出为类标记$$y\in \mathcal{Y}$$。$$X$$是定义在输入空间$$\mathcal{X}$$上的随机向量，$$Y$$是定义在输出空间$$\mathcal{Y}$$上的随机变量。$$P(X,Y)$$是$$X$$和$$Y$$的联合概率分布。训练数据集$$T={(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m)},y^{(m)})}$$是由$$P(X,Y)$$独立同分布产生的，其中每个$$x=(x\_1, x\_2,...,x\_n)$$是$$n$$维向量。

朴素贝叶斯法通过对给定的输入$$x$$，通过学习到的模型计算**后验概率分布**$$P(Y=c\_k|X=x)$$，然后将**后验概率最大**的类作为$$x$$的输出。计算后验概率：

$$
P(Y=c\_k|X=x)=\dfrac{P(Y=c\_k, X=x)}{P(X=x)}=\dfrac{P(X=x|Y=c\_k)P(Y=c\_k)}{\displaystyle\sum\_{k=1}^KP(X=x|Y=c\_k)P(Y=c\_k)}
$$

其中$$k=1,2,...,K$$，可以看到分母对于所有的类标记$$c\_k$$都是相同的，则可以得到输出

$$
y=\arg \max\_{c\_k}P(X=x|Y=c\_k)P(Y=c\_k)
$$

其中

$$
P(Y=c\_k), \ k=1,2,...,K
$$

是**先验概率**分布。

$$
P(X=x|Y=c\_k)=P(X\_1=x\_1, X\_2=x\_2,...,X\_n=x\_n|Y=c\_k), \ k=1,2,...,K
$$

是条件概率分布（**似然函数**）。假定条件概率分布中的每个特征是**条件独立**的，则

$$
P(X=x|Y=c\_k)=\prod\_{j=1}^n P(X\_j=x\_j|Y=c\_k)
$$

这一假设使得朴素贝叶斯法变得简单，但是会牺牲一定的分类准确率。

于是代入，可以得到：

$$
y=f(x)=\arg \max\_{c\_k}\prod\_{j=1}^n P(X\_j=x\_j|Y=c\_k)P(Y=c\_k)
$$

朴素贝叶斯法属于**生成模型**（模型给定了输入$$X$$产生输出$$Y$$的生成关系，区别于**判别模型**）

## 2. 模型的原理

首先，定义0-1损失函数：

$$
L(Y,f(X)) = \begin{cases}
1 &\text{if  }Y{\neq}f(X)  \\
0 &\text{if  }Y{=}f(X)
\end{cases}
$$

其中$$f(X)$$是分类决策函数的**预测值**，$$Y$$是**真实值**。这时，损失函数的期望是

$$
R\_{exp}(f)=E\[L(Y,f(X))]
$$

对于输入$$X=x$$，计算$$X=x$$条件下的期望损失函数，即条件期望

$$
E\[L(Y,f(X=x))|X=x]=\displaystyle\sum\_{k=1}^KL(c\_k, f(X=x))P(c\_k|X=x)
$$

则在$$X=x$$条件下，求得期望风险最小化，

$$
f(x)=\arg\min\_{y\in \mathcal{Y}}\displaystyle\sum\_{k=1}^KL(c\_k, y)P(c\_k|X=x)
$$

也就是计算每一个$$y\in \mathcal{Y}$$，计算其条件期望，并找出其中的最小值时的$$y$$作为输出。

同时$$y=c\_k$$时，$$L(c\_k, y)=0$$，则

$$
f(x)=\arg\min\_{y\in \mathcal{Y}}\displaystyle\sum\_{c\_k\neq y}P(c\_k|X=x)
$$

然后条件概率对于所有可能的类标签总和为1，即$$\displaystyle\sum\_{k=1}^KP(c\_k|X=x)=1$$，于是得到：

$$
f(x)=\arg\min\_{c\_k\in \mathcal{Y}}\big(1-P(c\_k|X=x)\big)
$$

转换成求最大：

$$
f(x)=\arg\max\_{c\_k\in \mathcal{Y}}P(c\_k|X=x)
$$

这样便是在0-1损失函数的情况下，期望风险最小化准则得到了**后验概率最大化**准则，即朴素贝叶斯法的原理。
