Processing math: 78%

Logisitc Explain

Posted by yphuang on October 24, 2015
Logistic回归系列之原理

Logisitc模型是广义线性模型中的一类。常用于分类。在业界有相关广泛的应用。常见的如信用评分模型,用于判定某个人的违约概率。

动机——logit变换

在现实生活中,有时候需要探究某一事件A发生的概率P与某些因素X=(X1,X2,...,Xp)之间的关系。考虑到很多情况下,在P=0P=1附近,PX的变化并不敏感,即这附近,X需要发生很大的变化才能引起P的微弱改变。如,“农药的剂量为X的情况下,杀死害虫的概率P”之间,就具有这种关系。因此,我们要构造这么一个关于P的函数θ(P),使得它在P=0P=1附近,P的微小变化对应θ(P)的较大改变,同时,θ(P)要尽可能简单。于是,自然有了如下构造的特性

θ(P)P=1P+11P

于是

θ(P)=ln(P1P)

theta(P)就是传说中的Logit变换。

模型——Logistic回归

为了建立因变量P与自变量X之间的合理变动关系,一个很自然的假设就是线性关系。即

P=Xβ

但是正如前面所说的,某些情况下,在P=0P=1附近,PX的变化并不敏感,即这附近,X需要发生很大的变化才能引起P的微弱改变。这个时候,我们构造的θ(P)就派上用场了,于是有了

lnP1P=Xβ

ln(\frac{P}{1-P}) = \boldsymbol{X^T \beta} \implies \frac{P}{1-P} = e^{\boldsymbol{X^T \beta}} \implies P = \frac{e^{\boldsymbol{X^T \beta}}}{1 + e^{\boldsymbol{X^T \beta}}}

于是上式等价于

P = \frac{e^{X'\beta}}{1+e^{X'\beta}}

这就是Logistic回归模型。

来个例子。

#logistic example
library(ggplot2)
x<- seq(from = 0, to = 20, 0.01)
p<- exp(-5+0.5*x)/(1+exp(-5+0.5*x))
mydata<-data.frame(x =x , p = p)
ggplot(mydata)+
  geom_line(aes(x = x, y = p))+
  ggtitle("The does Vs the probability of insect dying")

应用场景

到这里,我们对Logistic回归的应用场景就比较明了了。它多用于分类——因变量为定类尺度。在运用模型时,需要注意是否满足隐含假设:在P=0P=1附近,PX的变化并不敏感。