逻辑回归与最大熵

1.逻辑回归

1.1 logistic分布

定义 1.1：

设有连续随机变量 X，X 服从logistic分布是指 X 有以下的分布函数和密度函数：

$$F(x)=P(X\leq x)=\frac{1}{1+e^{-(x-\mu)/ \gamma}}$$

$$f(x)=F’(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}$$

式中， $\mu$ 为位置参数， $\gamma>0$ 为形状参数。

1.2 二项logistic回归模型

定义 1.2：

随机变量 Y 取值为1或0。

$$P(Y=1|x)=\frac{exp(w\cdot x+b)}{1+exp(w\cdot x+b)}$$

$$P(Y=0|x)=1-P(Y=1|x)$$

将偏置 b 并入 w 中，得 $x=(1,x^{(1)},x^{(2)},\cdots,x^{(n)})$ ， $w=(b,w^{(1)},w^{(2)},\cdots,w^{(n)})$

这时，模型为

$$P(Y=1|x)=\frac{exp(w\cdot x)}{1+exp(w\cdot x)}$$

$$P(Y=0|x)=1-P(Y=1|x)$$

1.2.1 模型特点

现在考虑模型的特点

已知定义：一个事件的几率(odds)是指该事件发生的概率与不发生的概率的比值。若事件发生的概率为 p 。

则该事件的对数几率为 $logit(p)=log(\frac{p}{1-p})$

对于逻辑回归模型， $log \frac{P(Y=1|x)}{1-P(Y=1|x)}=w\cdot x$

这就是说，输出 Y=1 的对数几率是输入 x 的线性函数。

通过定义式可以将线性函数转化为概率

$$P(Y=1|x)=\frac{exp(w\cdot x)}{1+exp(w\cdot x)}$$

这时，线性函数的值越接近正无穷，概率值就越接近 1；线性函数的值越接近负无穷，概率值就越接近 0。呈现 S 型函数。

1.3 模型参数估计

1.3.1 伯努利分布

定义：若随机变量 $X\in \{0,1\}$ ，且 $P(x=1)=p$ ， $P(x=0)=1-p$ ，则 X 为 p 的伯努利分布。

若 X 为伯努利分布，则 X 的密度函数为： $f(X)=p^x(1-p)^{(1-x)}$ ， $x\in \{0,1\}$

1.3.2 模型的似然函数

似然函数=密度函数在各点处值的乘积

设 $P(Y=1|x)=\pi(x), P(Y=0|x)=1-\pi(x)$

似然函数为

$$\prod_{i=1}^N [\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$$

对数似然函数为

$$L(w)=\sum_{i=1}^N[y_i(w\cdot x_i)-\ln(1+\exp(w\cdot x_i))]$$

对 $L(w)$ 求最大值，得 w 。

2.最大熵模型

2.1 最大熵原理

熵： $H(P)=-\sum P(x)\log P(x)$

熵满足 $0\leq H(P)\leq \log |X|$

当概率均匀分布时，熵取到最大值。

即当等可能时，不可知性最大。