1、监督学习

给定数据集并知道任务T的正确输出

  • 回归:输出结果是连续值(预测房价)
  • 分类:输出结果是离散值(判断图片中是否有大熊猫)

一些基本概念

模型

  • 模型一般是指算法的输出。比如是一个线性回归公式。他反映了数据的规律

误差

  • 训练误差:训练集上,模型结果和实际结果的误差
  • 泛化误差:新的测试数据集上,模型结果和实际结果的误差

以做练习题的case理解过拟合和欠拟合

过拟合

  • 所有练习题样本里的数据都模拟的很好,但新的题目不能很好的做好。这叫过拟合

欠拟合

  • 练习题样本里的数据都不能学好

模型评估

测试数据集

  • 将数据集分为两部分,一部分用于训练,一部分用于测试。来评估「泛化误差」

监督学习的一般过程

image.png

  • 原始数据经过特征工程加工,变为基础数据集(特征向量 和 标记)
  • 基础数据集 划分为 两类:一类是训练集,用于模型训练,一类是测试集,用于模型评估
  • 训练集 经过机器学习算法 产出训练模型
  • 测试集 经过模型评估,产出评估指标,衡量模型的好快

线性回归和逻辑回归的区别

线性回归解的是 连续值 的输出问题(给定x,输出y)
逻辑回归其实是个二分类问题(是/否)

线性回归

单变量线性回归

  • f(x) = ax + b

多变量线性回归

  • f(x) = w0 + w1 x1 + w2 x2

f(x) = ax + b
需要学出 a和b。如何衡量f(x)和真实值之间的差别。线性回归中常用的是均方误差(误差的平方和),我们让均方误差最小化
基于最小化均方误差进行模型求解的方法 叫 最小二乘法

逻辑回归

二分类问题

二分类问题输出结果一般为0/1,而线性回归模型产生的预测值f(x) = ax + b一般是实数值,所以需要将实数值转换为 0/1
怎么转换呢?单位阶跃函数
image.png
但单位阶跃函数不连续,有没有一个单调可微的替代函数?Sigmoid函数
image.png

image.png

多分类问题

一个图片 是 北极熊 还是大熊猫 还是狗熊?

多分类问题转换为二分类问题:

二分类模型评估

image.png
查全率 (召回率)

  • 模型 预测 表白成功 且 真正也成功了的人数 / 所有真正表达成功的人数

准确率

  • 模型 预测 表白成功 且真正也成功了的人数 / 模型 预测 表白成功的人数

F-score

  • 综合 准确率 和召回率的指标

    实操

    image.png