目录
1 简介
聚类Clustering : 将数据集中的样本划分为若干个通常不相交的子集,每个子集称为簇(cluster)。
簇cluster:A group of objects that are similar to other objects in the cluster ,and dissimilar to data points in other clusters
一组与集群中其他对象相似,但与其他集群中的数据点不同的对象称为簇
2 聚类应用
(1)出版社
- 自动分类新闻内容
- 建议类似的文章
(2)医疗
- 表征病人的行为
(3)生物
- 聚类遗传标记以识别家庭纽带
(4)零售\市场
- 识别顾客购买的方式
- 推荐新书和新电影给顾客
(5)银行
- 支票的检测
- 识别用户群
(6)保险
4 聚类算法
(1)基于分区的聚类
- 相关高效,用于中等或者大型数据集
- K-means 、K-Median 、Fuzzy c-Means
(2)层次聚类
- 产生树的聚类
- 凝聚算法(Agglomerative algorithm)分割算法(Divison algorithm)
(3)基于密度的聚类算法
- 产生任意形状的簇
- DB scan算法