cross-entropy

求 $cost -function$ ：

二元分类

将每一个数据看作一个点。
设正确分类的概率为p(x).
实际得到的某点被分为1的概率为p(x|1),
则

若该点为1，则 $p(x)=p(x| 1),$
若该点为-1，则 $p(x)=p(x| -1)=1-p(x| 1)$

设F为给定点出现在指定位置且target function分类正确的概率
已知 f 为target function，即f始终为正确分类，f(x)==1
则对于f来说，产生给定分布的点集，且分类正确的概率

$F=P(A)f(A)*P(B)f(B) ···=P(A)*P(B)···$

即只与产生该分布情况的几率有关

再设H为给定点出现在指定位置且我的分类器分类正确的概率
设h为my function，则

若该点为1，则 $h(x)=h(x| 1),$
若该点为-1，则 $h(x)=h(x| -1)=1-h(x| 1)$

$H=P(A)h(A)*P(B)h(B)···$

注意区分h(x)与h(x| 1), h(x| -1)
h(x)为分类正确的概率，h(x| 1), h(x| -1)仅为分类为1或-1的概率。
由于P(A),P(B)无法改变，且对所有分类器都相等，所以可以忽略。
故要使分类正确的概率最大，即H最大，就要使 $h(A)*h(B)···$ 最大
由于连乘不好算，所以取 $\ln$ ，变为连加，使连加最大，同样不够好，再加符号，使得最后变为求最小值。

$cost = -\frac{1}{N}\sum_{i=1}^{N}{\ln(h(x_i) )} ------①$

对于 $Sigmoid$ 函数，由于其特性 $1-\theta(x)=\theta(-x)$ ,
我们的function给出了 $h(x| 1)$ , 且是经过了 $Sigmoid$ 之后的结果相当于 $\theta(wx)$ ,则
对于应为1的点$$ h(x)=h(x| 1)=\theta(wx)$$,
应为-1的点 $x,h(x)=h(x| -1)=1-h(x| 1)$ .

$h(x)=h(x| -1)=1-h(x |1)=1-\theta(wx)=\theta(-wx)$

得到，对于label y=-1的点, $h(x)=\theta(y*wx)$
发现该式对label y=1的点同样适用。
则最终确定

$h(x)=\theta(y*wx)------②$

将其代入①式
得

$cost = -\frac{1}{N}\sum_{i=1}^{N}{\ln(\theta(y*wx) )}$

多元分类

同样的思想，要使每个点正确的概率 $h(x)$ 的连乘 $\prod$ 最大,由于每个点经过的几个不同的分类器分类，产生了多个 $h(x| y)$ , 而正确的分类 $labely_n=y_n$ ，所以对于一个点 $x_n,h(x_n)=h(x_n| y_n)$ 则要使 $\prod_{n=1}^{N}{h(x_n|y_n)}$ 最大, 同样取 $\ln$ , 加负号，求最小值

$cost = -\frac{1}{N}\sum_{n=1}^{N}{\ln(h(x_n|y_n) )} ------①$