在回归分析中,因变量Logistic回归 - 图1可能有两种情形:①Logistic回归 - 图2是定量变量,这时就用线性回归regress函数对Logistic回归 - 图3进行回归;②Logistic回归 - 图4是一个定性变量,比如Logistic回归 - 图5,这时就要使用逻辑回归。

  • 逻辑回归主要应用于研究某些现象发生的概率Logistic回归 - 图6,比如股票涨还是跌,公司成功还是失败,常用于二分类

    逻辑回归的原理

  • 逻辑回归的原理是用逻辑函数把线性回归的结果(-∞,∞)映射到(0,1)

    线性回归函数

  • 线性回归函数的数学表达式是:

Logistic回归 - 图7
Logistic回归 - 图8是常数项,Logistic回归 - 图9是代求系数,不同的权重Logistic回归 - 图10反映了自变量对因变量的贡献大小

逻辑函数(Sigmoid函数)

  • 我们设连接函数为Logistic回归 - 图11,它将解释变量Logistic回归 - 图12和被解释变量Logistic回归 - 图13连接起来,在给定Logistic回归 - 图14的情况下,考虑Logistic回归 - 图15的两点分布:

Logistic回归 - 图16
易知Logistic回归 - 图17的值域是Logistic回归 - 图18

  • Sigmoid函数Logistic回归 - 图19,其图像为

Logistic回归 - 图20

  • 这里我们选取Logistic回归 - 图21为Sigmoid函数,即Logistic回归 - 图22

    逻辑回归模型

    Logistic回归 - 图23
    进行对数变换,可得
    Logistic回归 - 图24
    由于P只能取0或1,这就导致等式左端没有意义,所以先定义一种单调连续的概率函数Logistic回归 - 图25,令
    Logistic回归 - 图26
    Logistic回归 - 图27
    于是
    Logistic回归 - 图28
    虽然形式相同,但此时的Logistic回归 - 图29是连续函数。然后只需要对原始数据进行合理的映射处理,既可以用线性回归方法得到回归系数。再有Logistic回归 - 图30Logistic回归 - 图31的映射关系得到Logistic回归 - 图32的值。

    求参

  • 非线性模型使用极大似然估计方法(MLE)对参数进行估计

Logistic回归 - 图33

  • 写成更紧凑的格式:

Logistic回归 - 图34

  • 对数似然函数:

Logistic回归 - 图35

  • 我们可以最大化似然函数或最小化损失函数求参

Logistic回归 - 图36
Logistic回归 - 图37

  • 使用梯度下降法求最小化损失函数

    分类

  • 因为

Logistic回归 - 图38
所以我们可以将Logistic回归 - 图39理解为Logistic回归 - 图40发生的概率,如果Logistic回归 - 图41,则认为其对应的Logistic回归 - 图42

使用Spss求解逻辑回归

  • 加入自变量有分类变量:

方法一:先创建虚拟变量,然后删除任意一列以排除完全多重共线性的影响
方法二:直接点击分类,然后定义分类协变量,Spss会自动生成

  • 预测结果较差:

可以在逻辑回归模型中加入平方项、交互项

  • 如何确定合适的模型:

把数据分成训练组和测试组,用训练组的数据估计出模型,再用测试组的数据进行测试.(8:2)
为了消除偶然因素的影响,可以对该步骤进行多次,最终对每个模型求一个平均的准确率,即交叉验证