了解监督学习的工作原理以及如何将其用于构建高度精确的机器学习模型。

什么是监督学习?

监督学习,也称为监督机器学习,是机器学习人工智能的子类别。它是通过使用标记的数据集来训练可对数据进行分类或准确预测结果的算法来定义的。将输入数据输入模型后,它会通过强化学习过程来调整其权重,从而确保已正确拟合模型。监督学习可帮助组织大规模解决各种现实问题,例如将垃圾邮件分类为与收件箱不同的文件夹。

监督学习的工作原理

监督学习使用训练集来教模型以产生所需的输出。该训练数据集包括输入和正确的输出,这些信息允许模型随着时间的推移而学习。该算法通过损失函数来测量其准确性,并进行调整,直到误差被充分最小化为止。
数据挖掘时,监督学习可以分为两种类型的问题:分类和回归:

  • 分类使用一种算法将测试数据准确地分配到特定类别中。它可以识别数据集中的特定实体,并尝试就如何标记或定义这些实体得出一些结论。常见的分类算法是线性分类器,支持向量机(SVM),决策树,k最近邻和随机森林,下面将对其进行详细描述。
  • 回归用于了解因变量和自变量之间的关系。它通常用于进行预测,例如用于给定业务的销售收入。线性回归逻辑回归和多项式回归是流行的回归算法。

    监督学习算法

    在监督的机器学习过程中使用了各种算法和计算技术。以下是一些最常用的学习方法的简要说明,这些学习方法通常是通过使用R或Python之类的程序计算得出的:

    神经网络

    神经网络主要用于深度学习算法,它通过模仿人脑通过节点层的互连性来处理训练数据。每个节点由输入,权重,偏差(或阈值)和输出组成。如果该输出值超过给定的阈值,它将“触发”或激活该节点,将数据传递到网络的下一层。神经网络通过监督学习来学习此映射函数,并通过梯度下降过程基于损失函数进行调整。当成本函数为零或接近零时,我们可以对模型的准确性充满信心,以得出正确的答案。

    朴素贝叶斯

    朴素贝叶斯是采用贝叶斯定理中的类条件独立性原理的分类方法。这意味着一个特征的存在不会在给定结果的可能性上影响另一个特征的存在,并且每个预测变量对该结果的影响均相同。朴素贝叶斯分类器有三种类型:多项式朴素贝叶斯,伯努利朴素贝叶斯和高斯朴素贝叶斯。该技术主要用于文本分类,垃圾邮件识别和推荐系统。

    线性回归

    线性回归用于确定因变量和一个或多个自变量之间的关系,通常用于对未来结果进行预测。当只有一个自变量和一个因变量时,称为简单线性回归。随着自变量数量的增加,这被称为多元线性回归。对于每种线性回归,它都试图绘制一条最佳拟合线,该线通过最小二乘法计算得出。但是,与其他回归模型不同,绘制在图形上时,该直线是直线。

    逻辑回归

    当因变量连续时会利用线性回归,而当因变量是分类时则选择逻辑回归,这意味着它们具有二进制输出,例如“ true”和“ false”或“ yes”和“ no”。虽然两个回归模型都试图理解数据输入之间的关系,但是逻辑回归主要用于解决二进制分类问题,例如垃圾邮件识别。

    支持向量机(SVM)

    支持向量机是由弗拉基米尔·瓦普尼克(Vladimir Vapnik)开发的一种流行的监督学习模型,用于数据分类和回归。就是说,通常将其用于分类问题,构造一个超平面,其中两类数据点之间的距离最大。该超平面称为决策边界,它在平面的任一侧分隔数据点的类别(例如,桔子与苹果)。

    K近邻

    K最近邻,也称为KNN算法,是一种非参数算法,可根据数据点的接近度和与其他可用数据的关联对数据点进行分类。该算法假定可以在彼此附近找到相似的数据点。结果,它试图通过欧几里得距离来计算数据点之间的距离,然后根据最频繁的类别或平均值来分配一个类别。
    它的易用性和较低的计算时间使其成为数据科学家的首选算法,但是随着测试数据集的增长,处理时间会延长,从而使其对分类任务的吸引力降低。KNN通常用于推荐引擎和图像识别。

    随机森林

    随机森林是用于分类和回归目的的另一种灵活的有监督的机器学习算法。“森林”引用了不相关决策树的集合,然后将这些决策树合并在一起以减少差异并创建更准确的数据预测。

    无监督与有监督与半监督学习

    无监督学习和有监督学习经常一起讨论。与监督学习不同,无监督学习使用未标记的数据。从这些数据中,它发现有助于解决聚类或关联问题的模式。当主题专家不确定数据集中的通用属性时,这特别有用。常见的聚类算法是分层,k均值和高斯混合模型。
    当仅给定输入数据的一部分被标记时,发生半监督学习。无监督和半监督学习可能是更有吸引力的选择,因为依靠领域专业知识为监督学习适当地标记数据可能既费时又昂贵。
    要深入了解这些方法之间的差异,请查看“有监督与无监督学习:有什么区别?

    监督学习的例子

    监督学习模型可用于构建和推进许多业务应用程序,包括以下内容:

  • 图像和对象识别: 监督学习算法可用于对视频或图像中的对象进行定位,隔离和分类,使其在应用于各种计算机视觉技术和图像分析时非常有用。

  • 预测分析: 监督学习模型的一个广泛使用案例是创建预测分析系统,以提供对各种业务数据点的深刻见解。这使企业能够根据给定的输出变量来预期某些结果,从而帮助业务领导者为机构辩护做出决定或做出决策,从而为组织带来利益。
  • 客户情绪分析:使用受监督的机器学习算法,组织可以在无需人工干预的情况下,从大量数据(包括上下文,情感和意图)中提取重要信息并将其分类。当更好地了解客户互动时,这将非常有用,并可用于改善品牌参与度。
  • 垃圾邮件检测:垃圾邮件检测是监督学习模型的另一个示例。使用监督分类算法,组织可以训练数据库以识别新数据中的模式或异常,从而有效地组织垃圾邮件和与垃圾邮件无关的通信。

    监督学习的挑战

    尽管监督学习可以提供业务优势,例如深入的数据洞察力和改进的自动化功能,但是在构建可持续的监督学习模型时仍存在一些挑战。以下是其中一些挑战:

  • 监督学习模型可能需要一定程度的专业知识才能准确地构建。

  • 训练监督学习模型可能会非常耗时。
  • 数据集更有可能发生人为错误,从而导致算法学习错误。
  • 与无监督学习模型不同,有监督学习不能单独对数据进行聚类或分类。