在回归分析中,因变量可能有两种情形:①
是定量变量,这时就用线性回归regress函数对
进行回归;②
是一个定性变量,比如
,这时就要使用逻辑回归。
逻辑回归主要应用于研究某些现象发生的概率
,比如股票涨还是跌,公司成功还是失败,常用于二分类
逻辑回归的原理
逻辑回归的原理是用逻辑函数把线性回归的结果(-∞,∞)映射到(0,1)
线性回归函数
线性回归函数的数学表达式是:
是常数项,
是代求系数,不同的权重
反映了自变量对因变量的贡献大小
逻辑函数(Sigmoid函数)
- 我们设连接函数为
,它将解释变量
和被解释变量
连接起来,在给定
的情况下,考虑
的两点分布:
易知的值域是
- Sigmoid函数
,其图像为
-
逻辑回归模型
进行对数变换,可得
由于P只能取0或1,这就导致等式左端没有意义,所以先定义一种单调连续的概率函数,令
于是
虽然形式相同,但此时的是连续函数。然后只需要对原始数据进行合理的映射处理,既可以用线性回归方法得到回归系数。再有
和
的映射关系得到
的值。
求参
非线性模型使用极大似然估计方法(MLE)对参数进行估计
- 写成更紧凑的格式:
- 对数似然函数:
- 我们可以最大化似然函数或最小化损失函数求参
使用Spss求解逻辑回归
- 加入自变量有分类变量:
方法一:先创建虚拟变量,然后删除任意一列以排除完全多重共线性的影响
方法二:直接点击分类,然后定义分类协变量,Spss会自动生成
- 预测结果较差:
可以在逻辑回归模型中加入平方项、交互项
- 如何确定合适的模型:
把数据分成训练组和测试组,用训练组的数据估计出模型,再用测试组的数据进行测试.(8:2)
为了消除偶然因素的影响,可以对该步骤进行多次,最终对每个模型求一个平均的准确率,即交叉验证