监督学习

预测房价

假设根据给定的数据集，我们可以绘制出如上图所示的图如果现在需要预测750平方的房屋，可以售卖出多少钱的价格，如何使用学习算法来完成这项工作

可以选择使用一条直线来对样本数据进行拟合，从而对750平方的房屋售价进行预测
使用直线对数据进行拟合的过程，其实就是在对数据进行一个预测
但并不是所有的样本数据都可以很好地使用直线进行拟合，有时候也需要使用其他的函数（比如二次函数）进行拟合，假如我们使用二次函数进行拟合，那么结果会如下所示：

监督学习定义：对于给定的样本数据集，其中包含了所有合适且正确的结果，我们需要对这些数据进行分析，给出一种方案（公式），能够预测出更多我们需要的内容。而对于上述预测房价此类问题，虽然钱财只能四舍五入到分，但是我们一般将房价看作是连续的，属于回归分析问题

肿瘤分析

假设肿瘤是否为恶性仅仅与肿瘤的大小有关，并且将恶性视为1，良性视为0，我们得到如下数据集
假如我们现在需要对某个大小的肿瘤进行分析、预测
很明显，这是对一个离散的值进行预测

但假如我们现在知道，肿瘤的良性与否和人的年龄、肿瘤的大小同时相关
那么，我们实际得到的数据集对应的图，可能为如下所示：

我们可以选择合适的学习算法，将良性和恶性肿瘤的数据集给区分开，并对其他可能的数据进行预测。

无监督学习

在监督学习中，我们根据数据集，可以得到如上图所示的数据图
使用蓝色圆圈表示良性肿瘤，使用红色叉叉表示恶性肿瘤
换而言之，我们已经知道了数据的标签，也就是分类
而在无监督学习中，我们得到的数据是不带有标签的
对应的数据图可能是下面这个样子

我们目前只有这么一些数据，但是我们需要通过无监督学习方法，对数据集中既没有标签，也没有分类的数据进行分析，并最终得到他们应该被分成的结构
比如对于上面给定的数据，我们可以学习算法，将他们分为下图所示的两簇

同样，无监督学习算法还可以应用于下图所示的场景

比如可以对社交网络进行分析，根据他们各自是否拥有彼此的联系方式，或是否有相同的兴趣爱好，可以自动的将一个社交网络中的所有用户分成一个个独立的圈子（簇）

小羊的图书馆

监督学习和无监督学习

监督学习

预测房价

肿瘤分析

无监督学习