学习目标
- 了解机器学习的定义
- 知道机器学习的工作流程
- 掌握获取到的数据集的特性
1 什么是机器学习
机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。
2 机器学习工作流程
机器学习工作流程总结
数据简介在数据集中一般:
- 一行数据我们称为一个样本
- 一列数据我们成为一个特征
- 有些数据有目标值(标签值),有些数据没有目标值(如上表中,电影类型就是这个数据集的目标值)
- 数据类型构成:
- 数据类型一:特征值+目标值(目标值是连续的和离散的)
- 数据类型二:只有特征值,没有目标值
数据分割:
-
2.3.2 为什么需要特征工程(Feature Engineering)
机器学习领域的大神Andrew Ng(吴恩达)老师说“Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ”
注:业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。2.3.3 特征工程包含内容
特征提取
- 特征预处理
-
2.3.4 各概念具体解释
特征提取
- 将任意数据(如文本或图像)转换为可用于机器学习的数字特征
- 特征预处理
- 通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程
- 特征降维
拓展阅读:
3 小结
- 机器学习定义【掌握】
- 机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测
- 机器学习工作流程总结【掌握】
- 1.获取数据
- 2.数据基本处理
- 3.特征工程
- 4.机器学习(模型训练)
- 5.模型评估
- 结果达到要求,上线服务
- 没有达到要求,重新上面步骤
- 获取到的数据集介绍【掌握】
- 数据集中一行数据一般称为一个样本,一列数据一般称为一个特征。
- 数据集的构成:
- 由特征值+目标值(部分数据集没有)构成
- 为了模型的训练和测试,把数据集分为:
- 训练数据(70%-80%)和测试数据(20%-30%)
- 特征工程包含内容【了解】
- 特征提取
- 特征预处理
- 特征降维