Logisitc Explain

Posted by yphuang on October 24, 2015
Logistic回归系列之原理

Logisitc模型是广义线性模型中的一类。常用于分类。在业界有相关广泛的应用。常见的如信用评分模型,用于判定某个人的违约概率。

动机——logit变换

在现实生活中,有时候需要探究某一事件A发生的概率\(P\)与某些因素\(X = (X_1,X_2,...,X_p)'\)之间的关系。考虑到很多情况下,在\(P=0\)\(P=1\)附近,\(P\)\(X\)的变化并不敏感,即这附近,X需要发生很大的变化才能引起\(P\)的微弱改变。如,“农药的剂量为\(X\)的情况下,杀死害虫的概率\(P\)”之间,就具有这种关系。因此,我们要构造这么一个关于\(P\)的函数\(\theta(P)\),使得它在\(P=0\)\(P=1\)附近,\(P\)的微小变化对应\(\theta(P)\)的较大改变,同时,\(\theta(P)\)要尽可能简单。于是,自然有了如下构造的特性

\[ \frac{\partial \theta(P)}{\partial P} = \frac{1}{P} + \frac{1}{1-P} \]

于是

\[ \theta(P) = ln(\frac{P}{1-P}) \]

\(theta(P)\)就是传说中的\(Logit\)变换。

模型——Logistic回归

为了建立因变量\(P\)与自变量X之间的合理变动关系,一个很自然的假设就是线性关系。即

\[ P = X'\beta \]

但是正如前面所说的,某些情况下,在\(P=0\)\(P=1\)附近,\(P\)\(X\)的变化并不敏感,即这附近,X需要发生很大的变化才能引起\(P\)的微弱改变。这个时候,我们构造的\(\theta(P)\)就派上用场了,于是有了

\[ ln\frac{P}{1-P} = X'\beta \]

\[ ln(\frac{P}{1-P}) = \boldsymbol{X^T \beta} \implies \frac{P}{1-P} = e^{\boldsymbol{X^T \beta}} \implies P = \frac{e^{\boldsymbol{X^T \beta}}}{1 + e^{\boldsymbol{X^T \beta}}} \]

于是上式等价于

\[ P = \frac{e^{X'\beta}}{1+e^{X'\beta}} \]

这就是\(Logistic\)回归模型。

来个例子。

#logistic example
library(ggplot2)
x<- seq(from = 0, to = 20, 0.01)
p<- exp(-5+0.5*x)/(1+exp(-5+0.5*x))
mydata<-data.frame(x =x , p = p)
ggplot(mydata)+
  geom_line(aes(x = x, y = p))+
  ggtitle("The does Vs the probability of insect dying")

应用场景

到这里,我们对\(Logistic\)回归的应用场景就比较明了了。它多用于分类——因变量为定类尺度。在运用模型时,需要注意是否满足隐含假设:在\(P=0\)\(P=1\)附近,\(P\)\(X\)的变化并不敏感。