1. Logistic回归
- 设X是连续随机变量,X服从logistic分布是指X具有下列分布函数与密度函数:
$$
F(X)=P(X\leq x)=\frac{1}{1+e^{-(x-u)/\gamma}}
$$
$$
f(X)=F^{‘}(X)=\frac{e^{-(x-u)/\gamma}}{\gamma(1+e^{-(x-u)/\gamma})^2}
$$
$u$为位置函数,$\gamma\geq0$为形状函数。分布函数属于logistic函数,是一条S曲线。
- 二项logistic回归模型:
$$
P(Y=1|x)=\frac{exp(w·x)}{1+exp(w·x)}
$$
$$
P(Y=0|x)=\frac{1}{1+exp(w·x)}
$$
事件的几率:事件发生概率与事件不发生概率的比值:$\frac{p}{1-p}$
事件的对数几率:$\log{\frac{p}{1-p}}$
二项logistic回归模型的对数几率:
$$
\log{\frac{P(Y=1|x)}{P(Y=0|x)}}=w·x
$$
输出Y=1的对数几率函数为输入x的线性函数$w·x$多项logistic回归模型:
$$
P(Y=k|x)=\frac{exp(w_k·x)}{1+\sum_{k=1}^{K-1}exp(w_k·x)}
$$
2. 最大熵原理
最大熵原理认为要选择的概率模型首先必须满足已有的事实,即约束条件。在没有更多信息的情况下,那些不确定的部分都是“等可能的”。最大熵原理通过熵的最大化来表示等可能性。“等可能”不容易操作,而熵则是一个可优化的数值指标。
$$
H(D|A)=\sum_{i=1}^n\frac{|D_i|}{|D|}H(D_i)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\sum_{k=1}^K\frac{|D_{ik|}}{|D_i|}\log_2{\frac{|D_{ik|}}{|D_i|}}
$$逻辑斯谛回归模型、最大熵模型学习归结为以似然函数为目标函数的最优化问题,通常通过迭代算法求解。从最优化的观点看,这时的目标函数具有很好的性质。它是光滑的凸函数,因此多种最优化的方法都适用,保证能找到全局最优解。常用的方法有改进的迭代尺度法、梯度下降法、牛顿法或拟牛顿法。牛顿法或拟牛顿法一般收敛速度更快。