logistic回归 如何_Logistic回归数学模型

  • Post author:
  • Post category:其他


在我们做统计分析之前,面对大量杂乱无章的数字往往会做个散点图,以对数据有直观的了解。例如,某超市的销售主管想要知道,顾客的收入水平是否对购买新的智能手机有影响。为此,他选择了12为顾客,调查他们的月收入(X)以及是否购买了新的手机,购买记为{Y=1},未购买记为{Y=0}。调查结果为12位受访者有7位购买了新手机。

我们的第一想法就是试试用线性回归看能否较好地描述这个问题。

因此可得以下回归直线:P=-0.749+0.0003358*X。这里的Y值可表示为购买手机的概率,但是这里出现了两个问题:一是当收入很小时,P值可为负,当收入很大时,P值会大于1;二是当购买概率接近于1或0时,概率对自变量(收入水平)的变化就不是很敏感,即这附近,收入需要很大的变化,才能引起概率P的变化(系数很小)。既然如此,我们如何去修正呢?我们就需要引入logit变换的概念。


Logistic变换

Logistic回归不是估计二元因变量的观察值,而是要推导出这些观察值出现的概率。为了能确定事件Y发生的概率,我们假设存在一个关于概率p的函数Ɵ=f(p),此函数形式简单,且为单调函数。根据数学中导数的定义,以f'(p)反映在p附近的变化,同时,在p=0或1附近时,f'(p)有较大的值,于是取函数f'(p)(公式1),即f(p)(公式2),称此式为Logistic变换。

可以看出当f'(p)>0时,Ɵ=f(p)为p的增函数,且当p从0至1变化时,Ɵ在(-∞,+∞)上变化,这一变换也解决了上述出现的两个问题,在数据处理上也带来了很多方便。

为了建立因变量P与自变量X之间的合理的变化关系,我们令

6a6947d9ae8d6c428a8b0f8e5c29cd29.png

经过换算,则顾客手机购买概率:

b9fb2908338b4a4c912c9d1633f153fe.png

一般的,Y 是0,1变量,X是任意k个变量,那么变量Y关于变量X的k元logistic回归模型为公式3,其中,对于二值变量Y关于变量X的一元logistic回归模型即公式4:

其中α和β是未知参数或待估计的回归系数,该模型描述了y取某个值(这里y=1)的概率P与自变量X之间的关系。

小结:本期,我们从一个小的案例出发,逐步分析,利用数学知识描述了从简单线性回归到logistic回归的过程,下期我们将简要介绍logistic回归系数的相关问题,以期对模型有更深的认识。

关于Logistic回归概述,小伙伴们可以回顾本系列的第一篇推文《Logistic回归系列(一)——Logistic回归概述》。

本期参考:

  1. 《Logistic回归入门》[美]Fred C. Pampel著,周穆之译,陈伟校;
  2. 《Logistic回归模型分析综述及应用研究》 [硕士论文] 尹建杰,黑龙江大学 ,2011