costfunctioncost -function

二元分类

将每一个数据看作一个点。
设正确分类的概率为p(x).
实际得到的某点被分为1的概率为p(x|1),

  • 若该点为1,则p(x)=p(x1),p(x)=p(x| 1),

  • 若该点为-1,则p(x)=p(x1)=1p(x1)p(x)=p(x| -1)=1-p(x| 1)

设F为给定点出现在指定位置且target function分类正确的概率
已知 f 为target function,即f始终为正确分类,f(x)==1
则对于f来说,产生给定分布的点集,且分类正确的概率

F=P(A)f(A)P(B)f(B)=P(A)P(B)F=P(A)f(A)*P(B)f(B) ···=P(A)*P(B)···

即只与产生该分布情况的几率有关

再设H为给定点出现在指定位置且我的分类器分类正确的概率
设h为my function,则

  • 若该点为1,则h(x)=h(x1),h(x)=h(x| 1),

  • 若该点为-1,则h(x)=h(x1)=1h(x1)h(x)=h(x| -1)=1-h(x| 1)

H=P(A)h(A)P(B)h(B)H=P(A)h(A)*P(B)h(B)···

注意区分h(x)与h(x| 1), h(x| -1)
h(x)为分类正确的概率,h(x| 1), h(x| -1)仅为分类为1或-1的概率。
由于P(A),P(B)无法改变,且对所有分类器都相等,所以可以忽略。
故要使分类正确的概率最大,即H最大,就要使h(A)h(B)h(A)*h(B)···最大
由于连乘不好算,所以取 ln\ln ,变为连加,使连加最大,同样不够好,再加符号,使得最后变为求最小值。

cost=1Ni=1Nln(h(xi))cost = -\frac{1}{N}\sum_{i=1}^{N}{\ln(h(x_i) )} ------①

对于 SigmoidSigmoid 函数,由于其特性 1θ(x)=θ(x)1-\theta(x)=\theta(-x),
我们的function给出了h(x1)h(x| 1), 且是经过了SigmoidSigmoid之后的结果相当于θ(wx)\theta(wx),则
对于应为1的点$$ h(x)=h(x| 1)=\theta(wx)$$,
应为-1的点x,h(x)=h(x1)=1h(x1)x,h(x)=h(x| -1)=1-h(x| 1).

h(x)=h(x1)=1h(x1)=1θ(wx)=θ(wx)h(x)=h(x| -1)=1-h(x |1)=1-\theta(wx)=\theta(-wx)

得到,对于label y=-1的点,h(x)=θ(ywx)h(x)=\theta(y*wx)
发现该式对label y=1的点同样适用。
则最终确定

h(x)=θ(ywx)h(x)=\theta(y*wx)------②

将其代入①式

cost=1Ni=1Nln(θ(ywx))cost = -\frac{1}{N}\sum_{i=1}^{N}{\ln(\theta(y*wx) )}

多元分类

同样的思想,要使每个点正确的概率 h(x)h(x) 的连乘 \prod 最大,由于每个点经过的几个不同的分类器分类,产生了多个h(xy)h(x| y), 而正确的分类labelyn=ynlabely_n=y_n,所以对于一个点xn,h(xn)=h(xnyn)x_n,h(x_n)=h(x_n| y_n)则要使n=1Nh(xnyn)\prod_{n=1}^{N}{h(x_n|y_n)}最大, 同样取ln\ln, 加负号,求最小值

cost=1Nn=1Nln(h(xnyn))cost = -\frac{1}{N}\sum_{n=1}^{N}{\ln(h(x_n|y_n) )} ------①