1.逻辑回归

 

1.1 logistic分布

​  定义 1.1:

​   设有连续随机变量 X,X 服从logistic分布是指 X 有以下的分布函数和密度函数:

​   $$F(x)=P(X\leq x)=\frac{1}{1+e^{-(x-\mu)/ \gamma}}$$

​   $$f(x)=F’(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}$$

​   式中,μ\mu 为位置参数,γ>0\gamma>0 为形状参数。

 

1.2 二项logistic回归模型

​   定义 1.2:

​    随机变量 Y 取值为1或0。

​     $$P(Y=1|x)=\frac{exp(w\cdot x+b)}{1+exp(w\cdot x+b)}$$

​      $$P(Y=0|x)=1-P(Y=1|x)$$

​     将偏置 b 并入 w 中,得 x=(1,x(1),x(2),,x(n))x=(1,x^{(1)},x^{(2)},\cdots,x^{(n)})w=(b,w(1),w(2),,w(n))w=(b,w^{(1)},w^{(2)},\cdots,w^{(n)})

​    这时,模型为

​   $$P(Y=1|x)=\frac{exp(w\cdot x)}{1+exp(w\cdot x)}$$

​    $$P(Y=0|x)=1-P(Y=1|x)$$

 

  1.2.1 模型特点

​    现在考虑模型的特点

​    已知定义:一个事件的几率(odds)是指该事件发生的概率与不发生的概率的比值。若事件发生的概率为 p 。

​   则该事件的对数几率为logit(p)=log(p1p)logit(p)=log(\frac{p}{1-p})

​   对于逻辑回归模型,logP(Y=1x)1P(Y=1x)=wxlog \frac{P(Y=1|x)}{1-P(Y=1|x)}=w\cdot x

​   这就是说,输出 Y=1 的对数几率是输入 x 的线性函数。

​   通过定义式可以将线性函数转化为概率

​    $$P(Y=1|x)=\frac{exp(w\cdot x)}{1+exp(w\cdot x)}$$

​   这时,线性函数的值越接近正无穷,概率值就越接近 1;线性函数的值越接近负无穷,概率值就越接近 0。呈现 S 型函数。

 

 

1.3 模型参数估计

 

  1.3.1 伯努利分布

​   定义:若随机变量 X{0,1}X\in \{0,1\} ,且 P(x=1)=pP(x=1)=pP(x=0)=1pP(x=0)=1-p,则 X 为 p 的伯努利分布。

​   若 X 为伯努利分布,则 X 的密度函数为:f(X)=px(1p)(1x)f(X)=p^x(1-p)^{(1-x)}x{0,1}x\in \{0,1\}

 

  1.3.2 模型的似然函数

​   似然函数=密度函数在各点处值的乘积

​    设P(Y=1x)=π(x),P(Y=0x)=1π(x)P(Y=1|x)=\pi(x), P(Y=0|x)=1-\pi(x)

​    似然函数为

  $$\prod_{i=1}^N [\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$$

​    对数似然函数为

​   $$L(w)=\sum_{i=1}^N[y_i(w\cdot x_i)-\ln(1+\exp(w\cdot x_i))]$$

​   对L(w)L(w) 求最大值,得 w 。

 

 

2.最大熵模型

 

2.1 最大熵原理

​    熵:H(P)=P(x)logP(x)H(P)=-\sum P(x)\log P(x)

​    熵满足 0H(P)logX0\leq H(P)\leq \log |X|

   当概率均匀分布时,熵取到最大值。

​    即当等可能时,不可知性最大。

 

 2.2 最大熵模型定义