什么是无监督学习?
无监督学习也称为无监督机器学习,它使用机器学习算法来分析和聚类未标记的数据集。这些算法无需人工干预即可发现隐藏的模式或数据分组。它发现信息异同的能力使其成为探索性数据分析,交叉销售策略,客户细分和图像识别的理想解决方案。
常见的无监督学习方法
无监督学习模型用于三个主要任务-聚类,关联和降维。下面,我们将定义每种学习方法,并重点介绍有效实施它们的常用算法和方法。
聚类
聚类是 一种数据挖掘技术,可根据未标记的数据的相似性或差异将其分组。聚类算法用于将原始的未分类数据对象处理为由信息中的结构或模式表示的组。聚类算法可以分为几种类型,特别是排他型,重叠型,分层型和概率型。
排他和重叠集群
排他性群集是一种分组形式,它规定一个数据点只能存在于一个群集中。这也可以称为“硬”群集。K均值聚类算法是排他聚类的一个示例。
- K均值聚类是排他聚类方法的常见示例,在该方法中,将数据点分配给K个组,其中K表示基于距每个组质心的距离的聚类数。最接近给定质心的数据点将聚集在同一类别下。较大的K值将指示较小的组,具有更大的粒度,而较小的K值将具有较大的组和较小的粒度。K-均值聚类通常用于市场细分,文档聚类,图像细分和图像压缩中。
重叠群集与专用群集的不同之处在于,它允许数据点属于具有不同 隶属度的多个群集。“软”或模糊k均值聚类是重叠聚类的一个示例。
层次聚类
层次聚类,也称为层次聚类分析(HCA),是一种无监督的聚类算法,可以通过两种方式进行分类:它们可以是凝聚的或分裂的。聚集集群被认为是“自下而上的方法”。首先将其数据点隔离为单独的分组,然后在相似性的基础上将它们迭代地合并在一起,直到形成一个群集。通常使用四种不同的方法来衡量相似性:
- 沃德的联系:此方法指出,两个聚类之间的距离由聚类合并后平方和的增加来定义。
- 平均链接:此方法由每个聚类中两点之间的平均距离定义
- 完全(或最大)链接:此方法由每个群集中两点之间的最大距离定义
- 单(或最小)链接:此方法由每个群集中两点之间的最小距离定义
欧几里德距离是用于计算这些距离的最常用度量;但是,聚类文献中还引用了其他度量标准,例如曼哈顿距离。
分裂聚类可以定义为聚集聚类的对立面。相反,它采用“自上而下”的方法。在这种情况下,将根据数据点之间的差异来划分单个数据集群。分裂聚类并不常用,但是在分层聚类的上下文中仍然值得注意。这些聚类过程通常使用树状图可视化,树状图记录了每次迭代中数据点的合并或拆分。
树状图; 阅读图表“自下而上”表明聚集聚类,而“自上而下”则表明分裂聚类
概率聚类
概率模型是一种无监督的技术,可以帮助我们解决密度估计或“软”聚类问题。在概率聚类中,数据点基于它们属于特定分布的可能性进行聚类。高斯混合模型(GMM)是最常用的概率聚类方法之一。
高斯混合模型被归类为混合模型,这意味着它们由未指定数量的概率分布函数组成。GMM主要用于确定给定数据点属于哪个高斯或正态概率分布。如果均值或方差已知,则可以确定给定数据点属于哪个分布。但是,在GMM中,这些变量是未知的,因此我们假设存在一个潜在变量或隐藏变量来适当地对数据点进行聚类。尽管不需要使用Expectation-Maximization(EM)算法,但通常用于估计给定数据点到特定数据集群的分配概率。
关联规则
关联规则是一种基于规则的方法,用于在给定数据集中查找变量之间的关系。这些方法经常用于市场篮分析,使公司可以更好地了解不同产品之间的关系。了解客户的消费习惯可以使企业制定更好的交叉销售策略和推荐引擎。可以在亚马逊的“同时购买此商品的客户”或Spotify的“每周发现”播放列表中看到此类示例。尽管有几种不同的算法可用于生成关联规则,例如Apriori,Eclat和FP-Growth,但Apriori算法使用最广泛。
Apriori算法
Apriori算法已经通过市场分析进行了普及,从而导致了针对音乐平台和在线零售商的不同推荐引擎。在交易数据集中使用它们来标识频繁的项目集或项目集合,以在给定另一产品的消费的情况下标识消费某种产品的可能性。例如,如果我在Spotify播放Black Sabbath的广播,并从他们的歌曲“ Orchid”开始,则该频道中的其他歌曲很可能是Led Zeppelin歌曲,例如“ Over the Hills and Far Away”。这是基于我以前的听觉习惯以及其他人的听觉习惯。Apriori算法使用哈希树对项目集进行计数,以广度优先的方式浏览数据集。
降维
虽然更多的数据通常会产生更准确的结果,但它也可能影响机器学习算法的性能(例如,过度拟合),并且也可能使数据集的可视化变得困难。降维是当给定数据集中的要素或维数过多时使用的一种技术。它将数据输入的数量减少到可管理的大小,同时还尽可能保留了数据集的完整性。它通常在预处理数据阶段中使用,可以使用几种不同的降维方法,例如:
主成分分析
主成分分析(PCA)是一种降维算法,用于减少冗余并通过特征提取压缩数据集。此方法使用线性变换来创建新的数据表示形式,从而产生一组“主要成分”。第一个主成分是使数据集方差最大化的方向。尽管第二主成分也在数据中找到最大方差,但它与第一主成分完全不相关,从而产生了与第一成分垂直或正交的方向。该过程根据维数重复进行,其中下一个主要成分是与变化最大的先前成分正交的方向。
奇异值分解
奇异值分解(SVD)是将矩阵A分解为三个低秩矩阵的另一种降维方法。SVD由公式A = USVT表示,其中U和V是正交矩阵。S是对角矩阵,并且S值被视为矩阵A的奇异值。类似于PCA,它通常用于减少噪声和压缩数据(例如图像文件)。
自动编码器
自动编码器利用神经网络压缩数据,然后重新创建原始数据输入的新表示形式。查看下图,您可以看到隐藏层专门充当压缩输入层的瓶颈,然后再在输出层中进行重构。从输入层到隐藏层的阶段称为“编码”,而从隐藏层到输出层的阶段称为“解码”。
无监督学习的应用
机器学习技术已成为改善产品用户体验并测试系统以确保质量的一种常用方法。无监督学习提供了探索数据的探索途径,与手动观察相比,企业可以更快地识别大量数据中的模式。无监督学习在现实世界中最常见的一些应用是:
新闻版块: Google新闻使用不受监督的学习方法,对来自各种在线新闻媒体的同一故事的文章进行分类。例如,总统选举的结果可以归类为“美国”新闻的标签。
- 计算机视觉:无监督学习算法用于视觉感知任务,例如对象识别。
- 医学成像:无监督机器学习为医学成像设备提供了必不可少的功能,例如图像检测,分类和分割,用于放射学和病理学以快速,准确地诊断患者。
- 异常检测:无监督学习模型可以梳理大量数据并发现数据集中的非典型数据点。这些异常可以提高对故障设备,人为错误或安全漏洞的认识。
- 客户角色:定义客户角色可以使您更容易理解共同特征和商业客户的购买习惯。无监督学习使企业可以建立更好的买方角色配置文件,使组织可以更适当地调整其产品信息。
推荐引擎:使用过去的购买行为数据,无监督的学习可以帮助发现数据趋势,这些趋势可用于制定更有效的交叉销售策略。这用于在在线零售商的结帐过程中向客户提出相关的附加建议。
无监督与有监督与半监督学习
无监督学习和有监督学习经常一起讨论。与无监督学习算法不同,有监督学习算法使用标记的数据。根据这些数据,它可以预测未来的结果,也可以根据要解决的回归或分类问题将数据分配给特定的类别。尽管有监督的学习算法比无监督的学习模型更准确,但它们需要事先的人工干预才能正确标记数据。但是,这些标记的数据集允许有监督的学习算法避免计算复杂性,因为它们不需要大量的训练即可产生预期的结果。常见的回归和分类技术是线性和逻辑回归,朴素贝叶斯,KNN算法和随机森林。
当仅给定输入数据的一部分被标记时,将发生半监督学习。无监督和半监督学习可能是更有吸引力的选择,因为依靠领域专业知识为监督学习适当地标记数据可能既费时又昂贵。
要深入了解这些方法之间的差异,请查看“有监督与无监督学习:有什么区别? ”无监督学习的挑战
尽管无监督学习有很多好处,但是当它允许机器学习模型在没有任何人工干预的情况下执行时,可能会遇到一些挑战。其中一些挑战可能包括:
大量的训练数据导致计算复杂
- 训练时间更长
- 结果不准确的风险更高
- 人为干预以验证输出变量
- 缺乏透明的数据聚类基础