求cost−function:
二元分类
将每一个数据看作一个点。
设正确分类的概率为p(x).
实际得到的某点被分为1的概率为p(x|1),
则
-
若该点为1,则p(x)=p(x∣1),
-
若该点为-1,则p(x)=p(x∣−1)=1−p(x∣1)
设F为给定点出现在指定位置且target function分类正确的概率
已知 f
为target function,即f始终为正确分类,f(x)==1
则对于f来说,产生给定分布的点集,且分类正确的概率
F=P(A)f(A)∗P(B)f(B)⋅⋅⋅=P(A)∗P(B)⋅⋅⋅
即只与产生该分布情况的几率有关
再设H为给定点出现在指定位置且我的分类器分类正确的概率
设h为my function,则
-
若该点为1,则h(x)=h(x∣1),
-
若该点为-1,则h(x)=h(x∣−1)=1−h(x∣1)
H=P(A)h(A)∗P(B)h(B)⋅⋅⋅
注意区分h(x)与h(x| 1), h(x| -1)
h(x)为分类正确的概率,h(x| 1), h(x| -1)仅为分类为1或-1的概率。
由于P(A),P(B)无法改变,且对所有分类器都相等,所以可以忽略。
故要使分类正确的概率最大,即H最大,就要使h(A)∗h(B)⋅⋅⋅最大
由于连乘不好算,所以取 ln ,变为连加,使连加最大,同样不够好,再加符号,使得最后变为求最小值。
cost=−N1i=1∑Nln(h(xi))−−−−−−①
对于 Sigmoid 函数,由于其特性 1−θ(x)=θ(−x),
我们的function给出了h(x∣1), 且是经过了Sigmoid之后的结果相当于θ(wx),则
对于应为1的点$$ h(x)=h(x| 1)=\theta(wx)$$,
应为-1的点x,h(x)=h(x∣−1)=1−h(x∣1).
h(x)=h(x∣−1)=1−h(x∣1)=1−θ(wx)=θ(−wx)
得到,对于label y=-1的点,h(x)=θ(y∗wx)
发现该式对label y=1的点同样适用。
则最终确定
h(x)=θ(y∗wx)−−−−−−②
将其代入①式
得
cost=−N1i=1∑Nln(θ(y∗wx))
多元分类
同样的思想,要使每个点正确的概率 h(x) 的连乘 ∏ 最大,由于每个点经过的几个不同的分类器分类,产生了多个h(x∣y), 而正确的分类labelyn=yn,所以对于一个点xn,h(xn)=h(xn∣yn)则要使∏n=1Nh(xn∣yn)最大, 同样取ln, 加负号,求最小值
cost=−N1n=1∑Nln(h(xn∣yn))−−−−−−①