逻辑回归与最大熵
1.逻辑回归
1.1 logistic分布
定义 1.1:
设有连续随机变量 X,X 服从logistic分布是指 X 有以下的分布函数和密度函数:
$$F(x)=P(X\leq x)=\frac{1}{1+e^{-(x-\mu)/ \gamma}}$$
$$f(x)=F’(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}$$
式中, 为位置参数, 为形状参数。
1.2 二项logistic回归模型
定义 1.2:
随机变量 Y 取值为1或0。
$$P(Y=1|x)=\frac{exp(w\cdot x+b)}{1+exp(w\cdot x+b)}$$
$$P(Y=0|x)=1-P(Y=1|x)$$
将偏置 b 并入 w 中,得 ,
这时,模型为
$$P(Y=1|x)=\frac{exp(w\cdot x)}{1+exp(w\cdot x)}$$
$$P(Y=0|x)=1-P(Y=1|x)$$
1.2.1 模型特点
现在考虑模型的特点
已知定义:一个事件的几率(odds)是指该事件发生的概率与不发生的概率的比值。若事件发生的概率为 p 。
则该事件的对数几率为
对于逻辑回归模型,
这就是说,输出 Y=1 的对数几率是输入 x 的线性函数。
通过定义式可以将线性函数转化为概率
$$P(Y=1|x)=\frac{exp(w\cdot x)}{1+exp(w\cdot x)}$$
这时,线性函数的值越接近正无穷,概率值就越接近 1;线性函数的值越接近负无穷,概率值就越接近 0。呈现 S 型函数。
1.3 模型参数估计
1.3.1 伯努利分布
定义:若随机变量 ,且 ,,则 X 为 p 的伯努利分布。
若 X 为伯努利分布,则 X 的密度函数为: ,
1.3.2 模型的似然函数
似然函数=密度函数在各点处值的乘积
设
似然函数为
$$\prod_{i=1}^N [\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$$
对数似然函数为
$$L(w)=\sum_{i=1}^N[y_i(w\cdot x_i)-\ln(1+\exp(w\cdot x_i))]$$
对 求最大值,得 w 。
2.最大熵模型
2.1 最大熵原理
熵:
熵满足
当概率均匀分布时,熵取到最大值。
即当等可能时,不可知性最大。