mllib - 机器学习基础 - 《Hadoop》

大数据的 4V 特征：
人工智能，机器学习，深度学习关系
数据分析、数据挖掘基本概念区别
监督学习
无监督学习
- 通过聚类发现数据的子集
- 数据的压缩降维
半监督学习
机器学习三要素
构建机器学习模型
交叉验证

大数据的 4V 特征：

1.数据量大：TB-PB-ZB，HDFS 分布式文件系统
2.数据种类多：结构化（mysql），非结构化（文本，图像），半结构化（xml,html）
3.速度快:数据增长速度快，处理速度快
4：价值密度低：价值密度=有价值的数据/ALL

人工智能，机器学习，深度学习关系

数据分析、数据挖掘基本概念区别

数据—-即观测值
信息：（信息抽象地说就是）可信的数据
数据分析：对数据的一种操作手段，目标是经过先验（已有经验）的约束，对数据进行整理、筛选和加工，最后得到信息。【从数据到信息的转化过程】
数据挖掘：是对数据分析之后的信息，进行价值化的分析。【信息的价值化】

监督学习
监督学习(supervised learning)从训练数据（training data）集合中学习模型，对测试数据（test data）进行预测。代表的算法或模型有 Linear regression、 Logistic regression、SVM、Neural network 等。

分类对类表做预测
分类是监督学习的一个核心问题。在监督学习中，当输出变量 Y 取有限个离散值时，预测问题便成了分类问题。监督学习从数据中学习一个分类模型或分类决策函数，称为分类器（classifer），分类器对新的输入进行输出的预测（prediction），称为分类（classification）。类别只划分正负类时是二分类，如果类别是多个的话是多分类。

回归预测连续输出值
回归预测针对连续值。回归分析中，数据中会给出大量的自变量和相应的连续因变量（对应输出结果），通过尝试寻找自变量和因变量的关系，就能够预测输出变量。比如房价问题

标注问题
标注问题是分类问题的一种推荐，输入是一个观测序列，输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型，使它能够对观测序列给出标记序列作为预测。标注问题常用的方法有：隐马尔科夫模型、条件随机场。

无监督学习
非监督学习(unsupervised learning)指的是人们给机器一大堆没有分类标记的数据，让机器可以对数据分类、检测异常等。

通过聚类发现数据的子集
聚类是一种探索性数据分析技术，在没有任何相关先验信息的情况下（相当于不清楚数据的信息），它可以帮助我们将数据划分为有意义的小的组别（也叫簇 cluster）。

数据的压缩降维
数据降维（dimensionality reduction）是无监督学习的另一个子领域。通常，面对的数据都是高维的，这就对有限的数据存储空间以及机器学习算法性能提出了挑战。无监督降维是数据特征预处理时常用的技术，用于清除数据中的噪声，能够在最大程度保留相关信息的情况下将数据压缩到额维度较小的子空间，但是同时也可能会降低某些算法准确性方面的性能。

半监督学习

机器学习三要素
统计学习=模型+策略+算法模型：规律 y=ax+b
策略：什么样的模型是好的模型？损失函数
算法：如何高效找到最优参数，模型中的参数 a 和 b

构建机器学习模型

特征工程
数据归一化，缺省值处理
数据降维
数据集切分

选择预测模型进行预测
任何分类算法都有其内在的局限性，如果不对分类任务预先做一些设定，没有任何一个分类模型会比其他模型更有优势。因此在实际的工作处理问题过程中，必不可少的一个环节
就是选择不同的几种算法来训练模型，并比较它们的性能，从中选择最优的一个。
如何选择最优的模型呢？我们可以借助一些指标，如分类准确率（测量值和真实值之间的接近程度）、错误率等指标衡量算法性能
疑问：选择训练模型的时候没有使用测试数据集，却将这些数据应用于最终的模型评估，那么判断究竟哪一个模型会在测试数据集有更好的表现？针对该问题，我们采用了交叉验证技术，如 10 折交叉验证，将训练数据集进一步分为了训练子集和测试子集，从而对模型的泛化能力进行评估
不同机器学习算法的默认参数对于特定类型的任务来说，一般都不是最优的，所以我们在模型训练的过程中会涉及到参数和超参数的调整。什么是超参数呢？超参数是在模型训练之前已经设定的参数，一般是由人工设定的。什么是参数呢？参数一般是在模型训练过程中训练得出的参数。
模型验证与使用未知数据进行预测
使用训练数据集构建一个模型之后可以采用测试数据集对模型进行测试，预测该模型在未知数据上的表现并对模型的泛化误差进行评估
准确率和召回率、F1 分数
Khold 评估模型性能
K-Fold 交叉验证，将数据随机且均匀地分成 k 分，常用的 k 为 10，数据预先分好并保持不动。假设每份数据的标号为 0-9，第一次使用标号为 0-8 的共 9 份数据来做训练，而使用标号为 9 的这一份数据来进行测试，得到一个准确率。第二次使用标记为 1-9 的共 9 份数据进行训练，而使用标号为 0 的这份数据进行测试，得到第二个准确率，以此类推，每次使用 9 份数据作为训练，而使用剩下的一份数据进行测试，这样共进行 10 次，最后模型的准确率为 10 次准确率的平均值。这样就避免了数据划分而造成的评估不准确的问题。
交叉验证
简单交叉验证
简单交叉验证的方法是这样的，随机从最初的样本中选择部分，形成验证数据，而剩下的当作训练数据。一般来说，少于三分之一的数据被选作验证数据。
K 则交叉验证
10 折交叉验证是把样本数据分成 10 份，轮流将其中 9 份做训练数据，将剩下的 1 份当测试数据，10 次结果的均值作为对算法精度的估计，通常情况下为了
提高精度，还需要做多次 10 折交叉验证。
更进一步，还有 K 折交叉验证，10 折交叉验证是它的特殊情况。K 折交叉验证就是把
样本分为 K 份，其中 K-1 份用来做训练建立模型，留剩下的一份来验证，交叉验证重复 K
次，每个子样本验证一次。适用于模型超参数的选择。
留一验证：
使用较少

机器学习基础

大数据的 4V 特征：

人工智能，机器学习，深度学习关系

数据分析、数据挖掘基本概念区别

监督学习

分类对类表做预测

回归预测连续输出值

标注问题

无监督学习

通过聚类发现数据的子集

数据的压缩降维

半监督学习

机器学习三要素

构建机器学习模型

特征工程

选择预测模型进行预测

模型验证与使用未知数据进行预测

准确率和召回率、F1 分数

Khold 评估模型性能

交叉验证

简单交叉验证

K 则交叉验证

留一验证：