贝叶斯公式

P(BiA)=P(Bi)P(ABi)j=1nP(Bj)P(ABj)P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum_{j=1}^n P(B_j)P(A|B_j)}

P(BA)=P(AB)P(B)P(A)P(B|A)=\frac{P(A|B)P(B)}{P(A)}

P(BA)P(B|A):发生A的条件下发生B的概率。

先验概率越小,误判可能性越大。

似然性:由结果推出规律的可能性。

1)先验——根据若干年的统计(经验)或者气候(常识),某地方下雨的概率;

2)似然——下雨(果)的时候有乌云(因/证据/观察的数据)的概率,即已经有了果,对证据发生的可能性描述;

3)后验——根据天上有乌云(原因或者证据/观察数据),下雨(结果)的概率;

后验 ~ 先验*似然 : 存在下雨的可能(先验),下雨之前会有乌云(似然)~ 通过现在有乌云推断下雨概率(后验);

条件概率——在条件A的基础上,发生B的概率。

条件概率:P(XY)=P(X,Y)P(Y)P(X|Y)=\frac{P(X,Y)}{P(Y)}

先验概率通常是我们通过已有数据已知的。

后验概率一般是我们需要求的结果。

联合概率-》条件概率-》条件概率+先验概率-》后验概率

朴素贝叶斯算法的极大似然估计

P(YX)=P(X,Y)P(X)=P(XY)P(Y)P(X)P(Y|X)=\frac{P(X,Y)}{P(X)}=\frac{P(X|Y)P(Y)}{P(X)}

其中 P(X)=YP(X,Y)=YP(Y)P(XY)P(X)=\sum_Y P(X,Y)=\sum_Y P(Y)P(X|Y)

P(YX)=P(Y)P(XY)YP(Y)P(XY)∴ P(Y|X)=\frac{P(Y)P(X|Y)}{\sum_YP(Y)P(X|Y)}

由于分母对所有 xix_i 相同,故取分子最大。

y=argmaxckP(Y=ck)j=1nP(Xj=x(j)Y=ck)y=argmax_{c_k}P(Y=c_k)\prod_{j=1}^nP(X_j=x^{(j)}|Y=c_k)

贝叶斯估计(拉普拉斯平滑)

为减少后验概率为 0 的情况,采用贝叶斯估计。

Pλ(X(j)=ajl)Y=ck)=i=1NI(xi(j)=ajl,yi=ck)+λi=1NI(yi=ck)+SjλP_\lambda(X^{(j)}=a_{jl})|Y=c_k)=\frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^N I(y_i=c_k)+S_j \lambda}

其中 λ0\lambda \geq 0SjS_j 为特征 xx 的第 jj 项可选种类数。

Pλ(Y=ck)=i=1NI(yi=ck)+λN+KλP_\lambda(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)+\lambda}{N+K\lambda}

其中 λ0\lambda \geq 0KKyy 的种类数。

常取 λ=1\lambda=1 ,称为拉普拉斯平滑。

优缺点

优点:高效,易于实现

缺点:分类性能不一定很高