贝叶斯估计

贝叶斯公式

$P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum_{j=1}^n P(B_j)P(A|B_j)}$

或 $P(B|A)=\frac{P(A|B)P(B)}{P(A)}$

$P(B|A)$ ：发生A的条件下发生B的概率。

先验概率越小，误判可能性越大。

似然性：由结果推出规律的可能性。

1）先验——根据若干年的统计（经验）或者气候（常识），某地方下雨的概率；

2）似然——下雨（果）的时候有乌云（因/证据/观察的数据）的概率，即已经有了果，对证据发生的可能性描述；

3）后验——根据天上有乌云（原因或者证据/观察数据），下雨（结果）的概率；

后验 ~ 先验*似然：存在下雨的可能（先验），下雨之前会有乌云（似然）~ 通过现在有乌云推断下雨概率（后验）；

条件概率——在条件A的基础上，发生B的概率。

条件概率： $P(X|Y)=\frac{P(X,Y)}{P(Y)}$

先验概率通常是我们通过已有数据已知的。

后验概率一般是我们需要求的结果。

联合概率-》条件概率-》条件概率+先验概率-》后验概率

$P(Y|X)=\frac{P(X,Y)}{P(X)}=\frac{P(X|Y)P(Y)}{P(X)}$

其中 $P(X)=\sum_Y P(X,Y)=\sum_Y P(Y)P(X|Y)$

$∴ P(Y|X)=\frac{P(Y)P(X|Y)}{\sum_YP(Y)P(X|Y)}$

由于分母对所有 $x_i$ 相同，故取分子最大。

$y=argmax_{c_k}P(Y=c_k)\prod_{j=1}^nP(X_j=x^{(j)}|Y=c_k)$

为减少后验概率为 0 的情况，采用贝叶斯估计。

$P_\lambda(X^{(j)}=a_{jl})|Y=c_k)=\frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^N I(y_i=c_k)+S_j \lambda}$

其中 $\lambda \geq 0$ ， $S_j$ 为特征 $x$ 的第 $j$ 项可选种类数。

$P_\lambda(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)+\lambda}{N+K\lambda}$

其中 $\lambda \geq 0$ ， $K$ 为 $y$ 的种类数。

常取 $\lambda=1$ ，称为拉普拉斯平滑。

优点：高效，易于实现

缺点：分类性能不一定很高