目录

1 简介

聚类Clustering : 将数据集中的样本划分为若干个通常不相交的子集,每个子集称为簇(cluster)。
簇cluster:A group of objects that are similar to other objects in the cluster ,and dissimilar to data points in other clusters
一组与集群中其他对象相似,但与其他集群中的数据点不同的对象称为簇
截屏2020-12-01 下午9.15.22.png

2 聚类应用

(1)出版社

  • 自动分类新闻内容
  • 建议类似的文章

(2)医疗

  • 表征病人的行为

(3)生物

  • 聚类遗传标记以识别家庭纽带

(4)零售\市场

  • 识别顾客购买的方式
  • 推荐新书和新电影给顾客

(5)银行

  • 支票的检测
  • 识别用户群

(6)保险

  • 索赔分析中的欺诈检测
  • 顾客的投保风险

    3 选择聚类方法的情况

    (1)探索性数据分析
    (2)总结概要
    (3)离群值检测(outlier detection)
    (4)查重
    (5)预处理步骤

4 聚类算法

(1)基于分区的聚类

  • 相关高效,用于中等或者大型数据集
  • K-means 、K-Median 、Fuzzy c-Means

截屏2020-12-01 下午8.59.42.png
(2)层次聚类

  • 产生树的聚类
  • 凝聚算法(Agglomerative algorithm)分割算法(Divison algorithm)

截屏2020-12-01 下午9.22.48.png
(3)基于密度的聚类算法

  • 产生任意形状的簇
  • DB scan算法