目录

截屏2020-11-26 下午8.56.28.png

What is training & out-of-sample accuracy?

  • Training Accuracy

    • 训练时候的高准确率不是一个好的事情
    • 结果的过拟合(过拟合就是模型过度训练,提取了太多了噪声并产生了一个模糊的模型)
  • Out-of-Sample accuracy超过样本准确率

    • 我们的模型必须要有高的out-of-Sample准确率
    • 如何提高out-of-accuracy

      1.2 Train/Test Split

      训练集和测试集是不一样的数据。数据是互斥的,有更高的out-of-sample准确率。

截屏2020-11-26 下午9.08.42.png

How to use K-fold cross-validation ?

利用K折交叉验证
把数据集分为四部分,每个部分分别取训练得到准确率,然后取四个准确率的平均值。

截屏2020-11-26 下午9.14.54.png

2 评估指标

(1)回归准确率linear accuracy

(2)模型错误指标
以下指标的选择,根据你的模型类型、数据类型、知识领域去决定使用哪个
Error:measure of how far the data is from the fitted regression line.

截屏2020-11-26 下午9.34.18.png

截屏2020-11-26 下午9.37.05.png
平均误差绝对值
截屏2020-11-26 下午9.39.00.png
均方误差
截屏2020-11-26 下午9.39.40.png
均方根误差

截屏2020-11-26 下午9.41.53.png

相对绝对误差

截屏2020-11-26 下午9.43.44.png
相对均方误差

截屏2020-11-26 下午9.45.39.png
R均方误差

3 复合回归模型

3.1 复合回归模型的例子

(1)自变量(Independent variables)对预测的有效性

  • 比如:复习时间、测试紧张程度、出席率、性别对学生考试成绩的影响

(2)预测变化的影响

  • 病人的BMI每增加一个单位,血压会增加会减小多少

3.2 复合回归预测连续值

举例 比如发动机大小与气缸的数量约Co2的排放量的关系。
截屏2020-11-26 下午10.02.21.png

(1)第一步 使用MSE均方误差去评价模型的错误
截屏2020-11-26 下午10.05.22.png
(2)第二步 估计复合线性回归的参数【ML吴恩达】6 数据集的划分以及回归模型评估指标 - 图16
方法一

  • 最小二乘法(takes a long tim for large datasets(10K+ rows))

方法二

  • 最优化算法
    • 梯度下降(适合大数据)

(3)第三步:预测结果

截屏2020-11-26 下午10.14.18.png

3.3 问答

(1)How to determine whether to use simple or multipl linear regression?
一个自变量还是多个自变量。一个自变量选择简单回归,反之。
(2)How many independent variables should you use?
过多的自变量没有理论依据容易导致过拟合模型。尽量避免多个自变量去预测,有很多模型可以去避免,但不在这里展开。
(3)Should the indepent variable be continuous?
不一定,比如电动车可以表示为0,其他汽车表示为1。连续的变量都可表示我离散的数值。
(4)What are the linear relationships between the dependent variable and the independent variable?
有很多办法,比如画出scatter plot,查看他们的线性关系。如果是非线性关系,用非线性回归模型。