1. 模型介绍
    聚类分析,也被称为群分析,就是把一些原来没有分类的数据,通过某种算法,让相似的数据「」在一起,划分为不同的「」,从而揭示出数据内在的特征和规律。
    比如说,我们现在有客户的性别、年龄、地区等个人信息,还有 RFM 等购物信息,如果是要分析客户的购物特征,那么可以先排除客户的个人信息,只使用购物信息进行聚类,从而避免聚类结果被个人信息所影响。
    当我们得到聚类结果之后,可以再结合客户的个人信息,把客户分成若干个不同的类别,给客户打上相应的标签,按照二八法则,识别出优质客户,提供个性化的服务,从而为客户创造价值。
    聚类分析属于一种无监督学习,类似于我们认知事物的过程。
    当我们面临大量未知的事物时,可以通过寻找其中的规律,挖掘数据内部的分布特性,反映出数据之间的异同,从而建立一套划分的方法,让我们更加深入地了解事物的内在特征,从而提高了我们认知事物的能力。
    比如说,当你进入一个陌生的群体时,没有人帮你介绍,你根据外貌、性格、行为等方面,将不同的人划分为不同的类别,并根据经验来定义类别的标签,例如:高富帅、白富美、谨慎型、外向型、体贴型等等。
    这个过程就属于无监督学习,因为事先无人教你。
    而对于监督学习,就好像有一位老师在旁边教你,这位老师对群体里面的每一个人都很熟悉,他会向你介绍每一个人,帮你先做好了分类,并且贴好了标签。
    但是,当老师提供的信息有误时,就会导致你的认知出现偏误。
    假如来了一个「异类」,不属于老师所介绍的任一类型,那么就会导致你无法做出正确的判断。
    聚类分析模型在很多学科都有重要的应用,包括数学、统计学、计算机科学、经济学和生物学等等。
    在商业上,可以用来发现不同的客户群体;在生物上,可以用来对动植物和基因进行分类。
    2. 应用举例
    下面以 sklearn 中自带的鸢尾花数据集为例,对它进行聚类分析。
    运行代码,结果如下:
    12、聚类分析模型 - 图1
    其中不同的颜色代表不同的类别,红色的五角星符号代表聚类的中心点。
    最后的话
    做聚类分析的时候,首先要考虑解决的问题是什么,然后再选择适当的变量进行聚类。
    最后,我们一定要记住:不要脱离业务问题谈模型,而要让模型更好地为业务决策服务。