世界每天都在变得“更智能”,并且为了满足消费者的期望,公司越来越多地使用机器学习算法来使事情变得更轻松。您可以看到它们在最终用户设备中使用(通过面部识别来解锁智能手机)或用于检测信用卡欺诈行为(例如针对异常购买触发警报)。
人工智能(AI)和机器学习中,有两种基本方法:监督学习和无监督学习。主要区别在于,一种使用标记的数据来帮助预测结果,而另一种则没有。但是,这两种方法之间存在一些细微差别,其中一个关键领域优于另一个领域。这篇文章将阐明差异,以便您可以根据自己的情况选择最佳方法。

什么是监督学习?

监督学习是一种机器学习方法,通过使用标记的数据集来定义。这些数据集旨在训练或“监督”算法以对数据进行分类或准确预测结果。使用标记的输入和输出,模型可以测量其准确性并随时间学习。
数据挖掘时,监督学习可以分为两种类型的问题:分类和回归:

  • 分类问题使用一种算法将测试数据准确地分配到特定类别中,例如将苹果与橙子分开。或者,在现实世界中,可以使用监督学习算法将垃圾邮件分类为收件箱中的单独文件夹。线性分类器,支持向量机,决策树和随机森林都是分类算法的常见类型。
  • 回归是另一种监督学习方法,它使用一种算法来理解因变量和自变量之间的关系。回归模型有助于基于不同数据点预测数值,例如给定业务的销售收入预测。一些流行的回归算法是线性回归,逻辑回归和多项式回归。

    什么是无监督学习?

    无监督学习使用机器学习算法来分析和聚类未标记的数据集。这些算法无需人工干预即可发现数据中的隐藏模式(因此,它们是“无监督的”)。
    无监督学习模型用于以下三个主要任务:聚类,关联和降维:

  • 聚类是一种数据挖掘技术,用于根据未标记的数据的相似性或差异将其分组。例如,K均值聚类算法将相似的数据点分配到组中,其中K值表示分组的大小和粒度。此技术有助于市场细分,图像压缩等。

  • 关联是另一种无监督的学习方法,它使用不同的规则来查找给定数据集中变量之间的关系。这些方法通常用于“购物篮分析和推荐”引擎,遵循“同时购买此商品的客户”推荐的路线。
  • 降维是一种在给定数据集中的特征(或维)数量过多时使用的学习技术。它将数据输入的数量减少到可管理的大小,同时还保留了数据完整性。通常,这种技术会在预处理数据阶段中使用,例如当自动编码器从视觉数据中去除噪声以提高图片质量时。

    监督学习和无监督学习之间的主要区别:标记数据

    两种方法之间的主要区别是使用标记的数据集。简而言之,监督学习使用标记的输入和输出数据,而无监督学习算法则不使用。
    在监督学习中,该算法通过迭代对数据进行预测并调整正确答案,从训练数据集中“学习”。尽管有监督的学习模型比无监督的学习模型更准确,但它们需要事先的人工干预才能正确标记数据。例如,有监督的学习模型可以根据一天中的时间,天气情况等预测您的通勤时间。但是首先,您必须对其进行培训,以了解阴雨天气会延长驾驶时间。
    相比之下,无监督学习模型可以自己工作以发现未标记数据的固有结构。请注意,它们仍然需要人工干预才能验证输出变量。例如,无监督学习模型可以识别出在线购物者经常同时购买多组产品。但是,数据分析人员将需要验证对于推荐引擎来说,将婴儿服装与尿布,苹果酱和吸管杯一起分组是有意义的。

    有监督和无监督学习之间的其他主要区别

  • 目标:在监督学习中,目标是预测新数据的结果。您预先知道期望的结果类型。使用无监督学习算法,目标是从大量新数据中获取见解。机器学习本身会确定与数据集有何不同或有趣之处。

  • 应用程序:有监督的学习模型非常适合垃圾邮件检测,情感分析,天气预报和价格预测等。相反,无监督学习非常适合异常检测,推荐引擎,客户角色和医学成像。
  • 复杂性:监督学习是一种简单的机器学习方法,通常通过使用R或Python之类的程序进行计算。 在无监督学习中,您需要强大的工具来处理大量未分类的数据。无监督学习模型在计算上很复杂,因为它们需要大量的培训才能产生预期的结果。
  • 缺点:监督学习模型的训练可能很耗时,并且输入和输出变量的标签需要专门知识。同时,除非您进行人工干预以验证输出变量,否则无监督学习方法的结果可能会非常不准确。

    有监督与无监督学习:哪个最适合您?

    根据您的情况选择正确的方法取决于您的数据科学家如何评估您的数据的结构和数量以及用例。要做出决定,请确保执行以下操作:

  • 评估您的输入数据:是带标签的数据还是未带标签的数据?您是否有可以支持附加标签的专家?

  • 确定您的目标:您是否有一个反复出现的,定义明确的问题要解决?还是算法需要预测新问题?
  • 查看有关算法的选项:是否存在所需尺寸(特征数量,属性或特性)相同的算法?它们可以支持您的数据量和结构吗?

在监督学习中,对大数据进行分类可能是一个真正的挑战,但是结果是高度准确和值得信赖的。相反,无监督学习可以实时处理大量数据。但是,对于数据的群集方式缺乏透明性,并且结果不准确的风险更高。这就是半监督学习的地方。

半监督学习:两全其美

无法决定使用监督学习还是非监督学习?半监督学习是一种愉快的媒介,您可以在其中使用带有标记和未标记数据的训练数据集。当难以从数据中提取相关功能时,以及当您拥有大量数据时,此功能特别有用。
半监督学习是医学图像的理想选择,在医学图像中,少量的培训数据可以显着提高准确性。例如,放射科医生可以标记一小部分CT扫描中的肿瘤或疾病,以便机器可以更准确地预测哪些患者可能需要更多的医疗护理。