下载 (5).png
    一元线性回归分析
    一元线性回归是描述两个变量之间相关关系的最简单的回归模型。自变量与因变量间的线性关系的数学结构通常用式(1)的形式:y = po + $1x+E其中两个变量y与x之间的关系用两部分描述。一部分是由于x的变化引起y线性变化的部分,即β+ 31x,另一部分是由其他一切随机因素引起的,记为E。β和β是未知参数,β为回归常数,β1为回归系数。E表示其他随机因素的影响。一般假定E是不可观测的随机误差,它是一个随机变量
    下载 (6).png
    下载.png下载 (1).png下载 (2).png

    —训练集、验证集、测试集
    训练集(Training Set) :用来训练与拟合模型;数据量大概占总样本的50%~70%
    验证集(Validation Set):用于调整模型的参数和用于对模型的能力进行评估
    测试集(Testing Set):用来检验最终选择最优的模型的性能如何
    训练集+验证集+测试集=数据集
    下载 (4).png下载 (3).png
    线性回归应用中的注意事项
    (1)算法对于噪声和异常值比较敏感;因此,实践应用中,回归之前努力消除噪声和异常值,确保模型的稳定和准确度。
    (2)算法只适合处理线性关系;如果自变量和因变量之间有比较强烈的非线性关系,直接利用多元线性回归不合适的。应该对自变量进行一定的转换
    (3)多元线性回归还应满足一些前提假设;自变量是确定的变量,而不是随机变量,并且自变量之间没有线性相关性的;随机误差项具有均值为0和等方差性;随机误差呈正态分布等。
    实验操作
    数据挖掘操作流程 选择数据源:查看数据源; 配置模型,选择算法模型; 开始建模,查看训练结果; 选择预测数据源; 开始预测,查看预测结果;
    选择数据源 点击“选择数据源”,弹出右1 侧“选择数据源框”; 点击“上传数据源,弹出上传 数据源框; 点击或者通过拖拽文件到区域 内完成上传,A单个文件不能 超过4M; 上传数据后,点击保存
    查看数据源 ①点击查看数据源; 2观察数据源,含有字段和数据; ③观察数据源是否还有缺失值、 异常字符、异常值;
    配置模型1 1点击配置模型,弹出模型库; 选择回归分析模型中的线性回 归,弹出线性回归参数设置 框 3点击选择自变量和因变量中的 相应字段;
    配置模型2 点击自变量,弹出选择字段框; 自变量为解释变量,选择相应解释变 量字段,通过点击选 ③将选择的字段放入右侧已选字段框 中,勾选选择字段,点击确定; ④因变量为被解释变量,选择被解释变 量字段,点击确定; ⑤图中为所选定的自变量和因变量字 段; 自变量有:下游钢材产量、下游 奖对会计有Y财务
    配置模型3 测试集比例: 是指回归模型机器学习中所用的测试集的比例,缺省值为25%,这也 意味着训练集比例是75%。 截距项: 是指回归模型是否有截距项,缺省为True;如果设为False,则在回归模型中不包括截距项。 标准化: 是指变量的正则化(标准化),采用变量减去均值后,除以标准差。 缺省值为False。当截距项选项设为False时,此选项无效。 覆盖: 是指自变量是否复制,缺省为True,如果设为False,则自变量会被覆盖
    下载 (2).png
    下载 (3).png
    下载 (4).png7.png
    8.png