模型：分析思维模型 - 12、聚类分析模型 - 《数据分析系统知识学习》

1. 模型介绍
聚类分析，也被称为群分析，就是把一些原来没有分类的数据，通过某种算法，让相似的数据「聚」在一起，划分为不同的「类」，从而揭示出数据内在的特征和规律。
比如说，我们现在有客户的性别、年龄、地区等个人信息，还有 RFM 等购物信息，如果是要分析客户的购物特征，那么可以先排除客户的个人信息，只使用购物信息进行聚类，从而避免聚类结果被个人信息所影响。
当我们得到聚类结果之后，可以再结合客户的个人信息，把客户分成若干个不同的类别，给客户打上相应的标签，按照二八法则，识别出优质客户，提供个性化的服务，从而为客户创造价值。
聚类分析属于一种无监督学习，类似于我们认知事物的过程。
当我们面临大量未知的事物时，可以通过寻找其中的规律，挖掘数据内部的分布特性，反映出数据之间的异同，从而建立一套划分的方法，让我们更加深入地了解事物的内在特征，从而提高了我们认知事物的能力。
比如说，当你进入一个陌生的群体时，没有人帮你介绍，你根据外貌、性格、行为等方面，将不同的人划分为不同的类别，并根据经验来定义类别的标签，例如：高富帅、白富美、谨慎型、外向型、体贴型等等。
这个过程就属于无监督学习，因为事先无人教你。
而对于监督学习，就好像有一位老师在旁边教你，这位老师对群体里面的每一个人都很熟悉，他会向你介绍每一个人，帮你先做好了分类，并且贴好了标签。
但是，当老师提供的信息有误时，就会导致你的认知出现偏误。
假如来了一个「异类」，不属于老师所介绍的任一类型，那么就会导致你无法做出正确的判断。
聚类分析模型在很多学科都有重要的应用，包括数学、统计学、计算机科学、经济学和生物学等等。
在商业上，可以用来发现不同的客户群体；在生物上，可以用来对动植物和基因进行分类。
2. 应用举例
下面以 sklearn 中自带的鸢尾花数据集为例，对它进行聚类分析。
运行代码，结果如下：
12、聚类分析模型 - 图1
其中不同的颜色代表不同的类别，红色的五角星符号代表聚类的中心点。
最后的话
做聚类分析的时候，首先要考虑解决的问题是什么，然后再选择适当的变量进行聚类。
最后，我们一定要记住：不要脱离业务问题谈模型，而要让模型更好地为业务决策服务。