1、监督学习
给定数据集并知道任务T的正确输出
- 回归:输出结果是连续值(预测房价)
- 分类:输出结果是离散值(判断图片中是否有大熊猫)
一些基本概念
模型
- 模型一般是指算法的输出。比如是一个线性回归公式。他反映了数据的规律
误差
- 训练误差:训练集上,模型结果和实际结果的误差
- 泛化误差:新的测试数据集上,模型结果和实际结果的误差
以做练习题的case理解过拟合和欠拟合
过拟合
- 所有练习题样本里的数据都模拟的很好,但新的题目不能很好的做好。这叫过拟合
欠拟合
- 练习题样本里的数据都不能学好
模型评估
测试数据集
- 将数据集分为两部分,一部分用于训练,一部分用于测试。来评估「泛化误差」
监督学习的一般过程
- 原始数据经过特征工程加工,变为基础数据集(特征向量 和 标记)
- 基础数据集 划分为 两类:一类是训练集,用于模型训练,一类是测试集,用于模型评估
- 训练集 经过机器学习算法 产出训练模型
- 测试集 经过模型评估,产出评估指标,衡量模型的好快
线性回归和逻辑回归的区别
线性回归解的是 连续值 的输出问题(给定x,输出y)
逻辑回归其实是个二分类问题(是/否)
线性回归
单变量线性回归
- f(x) = ax + b
多变量线性回归
- f(x) = w0 + w1 x1 + w2 x2
f(x) = ax + b
需要学出 a和b。如何衡量f(x)和真实值之间的差别。线性回归中常用的是均方误差(误差的平方和),我们让均方误差最小化
基于最小化均方误差进行模型求解的方法 叫 最小二乘法
逻辑回归
二分类问题
二分类问题输出结果一般为0/1,而线性回归模型产生的预测值f(x) = ax + b一般是实数值,所以需要将实数值转换为 0/1
怎么转换呢?单位阶跃函数
但单位阶跃函数不连续,有没有一个单调可微的替代函数?Sigmoid函数
多分类问题
一个图片 是 北极熊 还是大熊猫 还是狗熊?
多分类问题转换为二分类问题:
二分类模型评估
查全率 (召回率)
- 模型 预测 表白成功 且 真正也成功了的人数 / 所有真正表达成功的人数
准确率
- 模型 预测 表白成功 且真正也成功了的人数 / 模型 预测 表白成功的人数
F-score