多元回归分析 - 《财务大数据DBE》

下载 (5).png
一元线性回归分析
一元线性回归是描述两个变量之间相关关系的最简单的回归模型。自变量与因变量间的线性关系的数学结构通常用式（1)的形式:y = po + $1x+E其中两个变量y与x之间的关系用两部分描述。一部分是由于x的变化引起y线性变化的部分，即β+ 31x，另一部分是由其他一切随机因素引起的，记为E。β和β是未知参数，β为回归常数，β1为回归系数。E表示其他随机因素的影响。一般假定E是不可观测的随机误差，它是一个随机变量
下载 (6).png
下载.png 下载 (1).png 下载 (2).png

—训练集、验证集、测试集
训练集(Training Set) :用来训练与拟合模型;数据量大概占总样本的50%~70%
验证集(Validation Set):用于调整模型的参数和用于对模型的能力进行评估
测试集(Testing Set):用来检验最终选择最优的模型的性能如何
训练集+验证集+测试集=数据集
下载 (4).png 下载 (3).png
线性回归应用中的注意事项
(1)算法对于噪声和异常值比较敏感;因此，实践应用中，回归之前努力消除噪声和异常值，确保模型的稳定和准确度。
(2)算法只适合处理线性关系;如果自变量和因变量之间有比较强烈的非线性关系，直接利用多元线性回归不合适的。应该对自变量进行一定的转换
(3)多元线性回归还应满足一些前提假设;自变量是确定的变量，而不是随机变量，并且自变量之间没有线性相关性的;随机误差项具有均值为0和等方差性;随机误差呈正态分布等。
实验操作
数据挖掘操作流程选择数据源:查看数据源; 配置模型，选择算法模型; 开始建模，查看训练结果; 选择预测数据源; 开始预测，查看预测结果;
选择数据源点击“选择数据源”，弹出右1 侧“选择数据源框”; 点击“上传数据源，弹出上传数据源框; 点击或者通过拖拽文件到区域内完成上传，A单个文件不能超过4M; 上传数据后，点击保存
查看数据源 ①点击查看数据源; 2观察数据源，含有字段和数据; ③观察数据源是否还有缺失值、异常字符、异常值;
配置模型1 1点击配置模型，弹出模型库; 选择回归分析模型中的线性回归，弹出线性回归参数设置框 3点击选择自变量和因变量中的相应字段;
配置模型2 点击自变量，弹出选择字段框; 自变量为解释变量，选择相应解释变量字段，通过点击选 ③将选择的字段放入右侧已选字段框中，勾选选择字段，点击确定; ④因变量为被解释变量，选择被解释变量字段，点击确定; ⑤图中为所选定的自变量和因变量字段; 自变量有:下游钢材产量、下游奖对会计有Y财务
配置模型3 测试集比例: 是指回归模型机器学习中所用的测试集的比例，缺省值为25%，这也意味着训练集比例是75%。截距项: 是指回归模型是否有截距项，缺省为True;如果设为False，则在回归模型中不包括截距项。标准化: 是指变量的正则化(标准化)，采用变量减去均值后，除以标准差。缺省值为False。当截距项选项设为False时，此选项无效。覆盖: 是指自变量是否复制，缺省为True，如果设为False,则自变量会被覆盖
下载 (2).png
下载 (3).png
下载 (4).png