贝叶斯公式
P(Bi∣A)=∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)
或P(B∣A)=P(A)P(A∣B)P(B)
P(B∣A):发生A的条件下发生B的概率。
先验概率越小,误判可能性越大。
似然性:由结果推出规律的可能性。
1)先验——根据若干年的统计(经验)或者气候(常识),某地方下雨的概率;
2)似然——下雨(果)的时候有乌云(因/证据/观察的数据)的概率,即已经有了果,对证据发生的可能性描述;
3)后验——根据天上有乌云(原因或者证据/观察数据),下雨(结果)的概率;
后验 ~ 先验*似然 : 存在下雨的可能(先验),下雨之前会有乌云(似然)~ 通过现在有乌云推断下雨概率(后验);
条件概率——在条件A的基础上,发生B的概率。
条件概率:P(X∣Y)=P(Y)P(X,Y)
先验概率通常是我们通过已有数据已知的。
后验概率一般是我们需要求的结果。
联合概率-》条件概率-》条件概率+先验概率-》后验概率
朴素贝叶斯算法的极大似然估计
P(Y∣X)=P(X)P(X,Y)=P(X)P(X∣Y)P(Y)
其中 P(X)=∑YP(X,Y)=∑YP(Y)P(X∣Y)
∴P(Y∣X)=∑YP(Y)P(X∣Y)P(Y)P(X∣Y)
由于分母对所有 xi 相同,故取分子最大。
y=argmaxckP(Y=ck)j=1∏nP(Xj=x(j)∣Y=ck)
贝叶斯估计(拉普拉斯平滑)
为减少后验概率为 0 的情况,采用贝叶斯估计。
Pλ(X(j)=ajl)∣Y=ck)=∑i=1NI(yi=ck)+Sjλ∑i=1NI(xi(j)=ajl,yi=ck)+λ
其中 λ≥0,Sj 为特征 x 的第 j 项可选种类数。
Pλ(Y=ck)=N+Kλ∑i=1NI(yi=ck)+λ
其中 λ≥0,K 为 y 的种类数。
常取 λ=1 ,称为拉普拉斯平滑。
优缺点
优点:高效,易于实现
缺点:分类性能不一定很高