- K-Means

K-means 算法是一种基于相似属性将一组数据点划分为不同集群或组的方法。它是一种无监督学习算法,这意味着它不需要标记数据来查找数据集中的模式。

  • K-Means使用步骤
  • 初始中心点怎么确定
  • K值怎么确定
  • 「K均值聚类」的Tips


聚类的目标是将项目分成组,使得组中的对象比组外的对象更相似,我们可以在 k-means 中使用我们想要的任何相似度函数来比较两个点。



2019-09-06-kmeans聚类详解 - 图1

这种比较相似度的方法称为欧几里得距离。K-means 聚类中另一个常用的相似度函数称为曼哈顿距离

2019-09-06-kmeans聚类详解 - 图2



可以使用三个基本属性来评估相似度函数是否良好。当然,还有更多的标准可以考虑,但这些是最重要的。在符号下方d(x,y)d ( x ,) 读作“x 和 y 之间的距离”。

对称性2019-09-06-kmeans聚类详解 - 图3%20%3D%20d(y%2Cx)#card=math&code=d%28x%2Cy%29%20%3D%20d%28y%2Cx%29)

对称性很重要,否则我们可以说 A 看起来像 B,但 B 看起来一点也不像 A。

正可分离性2019-09-06-kmeans聚类详解 - 图4%20%3D%200%20%5Cquad%20if%20%5Cquad%20and%20%5Cquad%20only%20%5Cquad%20if%20%5Cquad%20x%3Dy#card=math&code=d%28x%2Cy%29%20%3D%200%20%5Cquad%20if%20%5Cquad%20and%20%5Cquad%20only%20%5Cquad%20if%20%5Cquad%20x%3Dy)

正可分性的属性很重要,因为否则可能会有两个不同的数据点 A 和 B,我们无法区分。

三角不等式2019-09-06-kmeans聚类详解 - 图5%20%5Cleq%20d(x%2Cz)%20%2B%20d(z%2Cy)#card=math&code=d%28x%2Cy%29%20%5Cleq%20d%28x%2Cz%29%20%2B%20d%28z%2Cy%29)

三角不等式很重要,否则我们可以说 A 看起来像 B,B 看起来像 C,但 A 看起来不像 C。


本文重点介绍 K 均值聚类,但这只是现有的众多聚类算法之一。


K-means 是分区聚类算法(也称为基于质心的聚类)的一个例子。这意味着它接受用户提供的集群数量k,并将数据划分为许多分区。在分区聚类中,每个数据点只能属于一个集群,任何集群都不能为空。


2019-09-06-kmeans聚类详解 - 图6



  • 自顶向下的方法称为分裂聚类。它的工作原理是从一个集群中的所有点开始,然后在每一步拆分最不相似的集群,直到每个数据点都在一个单独的集群中。

  • 自底向上的方法称为凝聚聚类。这种方法迭代地合并集群中两个最相似的点,直到只有一个大集群。


自上而下和自下而上的方法都会产生一个基于树的点层次结构,称为 dendrogram。事实证明,此树状图可用于选择要使用的集群数量。您可以在任何深度切割树以生成不相交树的子集,每个树代表一个集群。

2019-09-06-kmeans聚类详解 - 图7


两种聚类方法各有优缺点。首先我们来看看使用K-means(partitional clustering)的优缺点。

K-means 的优点 K-means 的缺点
易于实施 难以预测聚类的数量(K-Value)
k-Means 可能比具有大量变量的层次聚类更快(如果 K 很小) 初始种子对最终结果有很大影响
k-Means 可能产生比层次聚类更紧密的聚类 数据的顺序对最终结果有影响
重新计算质心时,实例可以更改集群(移动到另一个集群) 对缩放敏感:重新缩放数据集(标准化或标准化)将 完全改变结果。


层次聚类的优点 层次聚类的缺点
输出比 k-means 返回的非结构化集群集信息更多的层次结构。 一旦一个点被分配给一个 集群,它就不能再四处移动了。
易于实施 时间复杂度:不适合大数据集


K-means Clustering 如何在视觉上工作?

此可视化显示了使用 3 个集群运行的 k-means 算法。首先,初始化三个质心。这些是每个集群的初始中心,由蓝色、红色和绿色大点表示。


然后,通过对相应集群中每个数据点的坐标求平均值来重新计算质心。当我单击Update Centroids时会发生这种情况。


您可以使用此可视化自己直观地了解 k-means!在这里试试。



  1. 假定我们要对N个样本观测做聚类,要求聚为K类,首先选择K个点作为初始中心点
  2. 接下来,按照距离初始中心点最小的原则,把所有观测分到各中心点所在的类中;
  3. 每类中有若干个观测,计算K个类中所有样本点的均值,作为第二次迭代的K个中心点;
  4. 然后根据这个中心重复第2、3步,直到收敛(中心点不再改变或达到指定的迭代次数),聚类过程结束。

2019-09-06-kmeans聚类详解 - 图8

如何在 Python 中从头开始编写 K-means?

我们的 k-means 实现将分为五个辅助方法和一个运行算法的主循环。让我们一一介绍这些功能。

  • 成对距离
  • 初始化中心
  • 更新分配
  • 更新中心
  • 计算损失
  • 主循环
  • 完整的实现


  1. def pairwise_dist(self, x, y):
  2. """
  3. Args:
  4. x: N x D numpy array
  5. y: M x D numpy array
  6. Return:
  7. dist: N x M array, where dist2[i, j] is the euclidean distance between
  8. x[i, :] and y[j, :]
  9. """
  10. xSumSquare = np.sum(np.square(x),axis=1);
  11. ySumSquare = np.sum(np.square(y),axis=1);
  12. mul =, y.T);
  13. dists = np.sqrt(abs(xSumSquare[:, np.newaxis] + ySumSquare-2*mul))
  14. return dists

pairwise_dist 函数与前面描述的相似性函数等效。这是我们比较两点相似性的指标。在这里,我使用的是欧几里得距离。我使用的公式可能看起来与欧几里德距离函数的常规公式不同。这是因为我们正在执行矩阵操作,而不是使用两个单个向量。在这里深入阅读。


  1. def _init_centers(self, points, K, **kwargs):
  2. """
  3. Args:
  4. points: NxD numpy array, where N is # points and D is the dimensionality
  5. K: number of clusters
  6. kwargs: any additional arguments you want
  7. Return:
  8. centers: K x D numpy array, the centers.
  9. """
  10. row, col = points.shape
  11. retArr = np.empty([K, col])
  12. for number in range(K):
  13. randIndex = np.random.randint(row)
  14. retArr[number] = points[randIndex]
  15. return retArr

该函数接收点数组并随机选择其中的 K 个作为初始质心。该函数仅返回 K 个选定点。


  1. def _update_assignment(self, centers, points):
  2. """
  3. Args:
  4. centers: KxD numpy array, where K is the number of clusters, and D is the dimension
  5. points: NxD numpy array, the observations
  6. Return:
  7. cluster_idx: numpy array of length N, the cluster assignment for each point
  8. Hint: You could call pairwise_dist() function.
  9. """
  10. row, col = points.shape
  11. cluster_idx = np.empty([row])
  12. distances = self.pairwise_dist(points, centers)
  13. cluster_idx = np.argmin(distances, axis=1)
  14. return cluster_idx

更新分配函数负责选择每个点应该属于哪个集群。首先,我使用 pairwise_dist 函数计算每个点和每个质心之间的距离。然后,我得到每一行的最小距离的索引。最小距离的索引也是给定数据点的聚类分配索引,因为我们希望将每个点分配给最近的质心。


  1. def _update_centers(self, old_centers, cluster_idx, points):
  2. """
  3. Args:
  4. old_centers: old centers KxD numpy array, where K is the number of clusters, and D is the dimension
  5. cluster_idx: numpy array of length N, the cluster assignment for each point
  6. points: NxD numpy array, the observations
  7. Return:
  8. centers: new centers, K x D numpy array, where K is the number of clusters, and D is the dimension.
  9. """
  10. K, D = old_centers.shape
  11. new_centers = np.empty(old_centers.shape)
  12. for i in range(K):
  13. new_centers[i] = np.mean(points[cluster_idx == i], axis = 0)
  14. return new_centers



  1. def _get_loss(self, centers, cluster_idx, points):
  2. """
  3. Args:
  4. centers: KxD numpy array, where K is the number of clusters, and D is the dimension
  5. cluster_idx: numpy array of length N, the cluster assignment for each point
  6. points: NxD numpy array, the observations
  7. Return:
  8. loss: a single float number, which is the objective function of KMeans.
  9. """
  10. dists = self.pairwise_dist(points, centers)
  11. loss = 0.0
  12. N, D = points.shape
  13. for i in range(N):
  14. loss = loss + np.square(dists[i][cluster_idx[i]])
  15. return loss

损失函数是我们评估聚类算法性能的指标。我们的损失只是每个点与其聚类质心之间的平方距离之和。在我们的实现中,我们首先调用成对距离来获得每个点和每个中心之间的距离矩阵。我们使用 cluster_idx 为每个点选择与集群对应的适当距离2。


  1. def __call__(self, points, K, max_iters=100, abs_tol=1e-16, rel_tol=1e-16, verbose=False, **kwargs):
  2. """
  3. Args:
  4. points: NxD numpy array, where N is # points and D is the dimensionality
  5. K: number of clusters
  6. max_iters: maximum number of iterations (Hint: You could change it when debugging)
  7. abs_tol: convergence criteria w.r.t absolute change of loss
  8. rel_tol: convergence criteria w.r.t relative change of loss
  9. verbose: boolean to set whether method should print loss (Hint: helpful for debugging)
  10. kwargs: any additional arguments you want
  11. Return:
  12. cluster assignments: Nx1 int numpy array
  13. cluster centers: K x D numpy array, the centers
  14. loss: final loss value of the objective function of KMeans
  15. """
  16. centers = self._init_centers(points, K, **kwargs)
  17. for it in range(max_iters):
  18. cluster_idx = self._update_assignment(centers, points)
  19. centers = self._update_centers(centers, cluster_idx, points)
  20. loss = self._get_loss(centers, cluster_idx, points)
  21. K = centers.shape[0]
  22. if it:
  23. diff = np.abs(prev_loss - loss)
  24. if diff < abs_tol and diff / prev_loss < rel_tol:
  25. break
  26. prev_loss = loss
  27. if verbose:
  28. print('iter %d, loss: %.4f' % (it, loss))
  29. return cluster_idx, centers, loss


完整的 K-Means 类实现

  1. from __future__ import absolute_import
  2. from __future__ import print_function
  3. from __future__ import division
  4. import sys
  5. import matplotlib
  6. import numpy as np
  7. import matplotlib.pyplot as plt
  8. from mpl_toolkits.mplot3d import axes3d
  9. from tqdm import tqdm
  10. # Load image
  11. import imageio
  12. # Set random seed so output is all same
  13. np.random.seed(1)
  14. class KMeans(object):
  15. def __init__(self): # No need to implement
  16. pass
  17. def pairwise_dist(self, x, y): # [5 pts]
  18. """
  19. Args:
  20. x: N x D numpy array
  21. y: M x D numpy array
  22. Return:
  23. dist: N x M array, where dist2[i, j] is the euclidean distance between
  24. x[i, :] and y[j, :]
  25. """
  26. xSumSquare = np.sum(np.square(x),axis=1);
  27. ySumSquare = np.sum(np.square(y),axis=1);
  28. mul =, y.T);
  29. dists = np.sqrt(abs(xSumSquare[:, np.newaxis] + ySumSquare-2*mul))
  30. return dists
  31. def _init_centers(self, points, K, **kwargs): # [5 pts]
  32. """
  33. Args:
  34. points: NxD numpy array, where N is # points and D is the dimensionality
  35. K: number of clusters
  36. kwargs: any additional arguments you want
  37. Return:
  38. centers: K x D numpy array, the centers.
  39. """
  40. row, col = points.shape
  41. retArr = np.empty([K, col])
  42. for number in range(K):
  43. randIndex = np.random.randint(row)
  44. retArr[number] = points[randIndex]
  45. return retArr
  46. def _update_assignment(self, centers, points): # [10 pts]
  47. """
  48. Args:
  49. centers: KxD numpy array, where K is the number of clusters, and D is the dimension
  50. points: NxD numpy array, the observations
  51. Return:
  52. cluster_idx: numpy array of length N, the cluster assignment for each point
  53. Hint: You could call pairwise_dist() function.
  54. """
  55. row, col = points.shape
  56. cluster_idx = np.empty([row])
  57. distances = self.pairwise_dist(points, centers)
  58. cluster_idx = np.argmin(distances, axis=1)
  59. return cluster_idx
  60. def _update_centers(self, old_centers, cluster_idx, points): # [10 pts]
  61. """
  62. Args:
  63. old_centers: old centers KxD numpy array, where K is the number of clusters, and D is the dimension
  64. cluster_idx: numpy array of length N, the cluster assignment for each point
  65. points: NxD numpy array, the observations
  66. Return:
  67. centers: new centers, K x D numpy array, where K is the number of clusters, and D is the dimension.
  68. """
  69. K, D = old_centers.shape
  70. new_centers = np.empty(old_centers.shape)
  71. for i in range(K):
  72. new_centers[i] = np.mean(points[cluster_idx == i], axis = 0)
  73. return new_centers
  74. def _get_loss(self, centers, cluster_idx, points): # [5 pts]
  75. """
  76. Args:
  77. centers: KxD numpy array, where K is the number of clusters, and D is the dimension
  78. cluster_idx: numpy array of length N, the cluster assignment for each point
  79. points: NxD numpy array, the observations
  80. Return:
  81. loss: a single float number, which is the objective function of KMeans.
  82. """
  83. dists = self.pairwise_dist(points, centers)
  84. loss = 0.0
  85. N, D = points.shape
  86. for i in range(N):
  87. loss = loss + np.square(dists[i][cluster_idx[i]])
  88. return loss
  89. def __call__(self, points, K, max_iters=100, abs_tol=1e-16, rel_tol=1e-16, verbose=False, **kwargs):
  90. """
  91. Args:
  92. points: NxD numpy array, where N is # points and D is the dimensionality
  93. K: number of clusters
  94. max_iters: maximum number of iterations (Hint: You could change it when debugging)
  95. abs_tol: convergence criteria w.r.t absolute change of loss
  96. rel_tol: convergence criteria w.r.t relative change of loss
  97. verbose: boolean to set whether method should print loss (Hint: helpful for debugging)
  98. kwargs: any additional arguments you want
  99. Return:
  100. cluster assignments: Nx1 int numpy array
  101. cluster centers: K x D numpy array, the centers
  102. loss: final loss value of the objective function of KMeans
  103. """
  104. centers = self._init_centers(points, K, **kwargs)
  105. for it in range(max_iters):
  106. cluster_idx = self._update_assignment(centers, points)
  107. centers = self._update_centers(centers, cluster_idx, points)
  108. loss = self._get_loss(centers, cluster_idx, points)
  109. K = centers.shape[0]
  110. if it:
  111. diff = np.abs(prev_loss - loss)
  112. if diff < abs_tol and diff / prev_loss < rel_tol:
  113. break
  114. prev_loss = loss
  115. if verbose:
  116. print('iter %d, loss: %.4f' % (it, loss))
  117. return cluster_idx, centers, loss

这是我们在 Python 中完整的 K-means 类实现。我鼓励您复制此代码(或自己实现!)并在您自己的机器上运行它。这是巩固您对 K-means 算法理解的最佳方式。scikit-learn中的KMeans聚类实现



  1. 把样本点分到最近邻的簇中,这样会降低SSE的值;
  2. 重新优化聚类中心点,进一步的减小了SSE。



方法有很多,譬如先随便选个点作为第1个初始中心C1,接下来计算所有样本点与C1的距离,距离最大的被选为下一个中心C2,直到选完K个中心。这个算法叫做K-Means++,可以理解为 K-Means的改进版,它可以能有效地解决初始中心的选取问题,但无法解决离群点问题


使用 K 均值算法,性能可能会因您使用的集群数量而有很大差异。要知道,K设置得越大,样本划分得就越细,每个簇的聚合程度就越高,误差平方和SSE自然就越小。所以不能单纯像选择初始点那样,用不同的K来做尝试,选择SSE最小的聚类结果对应的K值,因为这样选出来的肯定是你尝试的那些K值中最大的那个。

“手肘法”(Elbow Method)

为了使用肘部方法,您只需多次运行 K-means 算法,每次迭代将聚类数增加一个。记录每次迭代的损失,然后制作 num cluster vs loss 的折线图


  1. def find_optimal_num_clusters(self, data, max_K=15):
  2. """
  3. Plots loss values for different number of clusters in K-Means
  4. Args:
  5. image: input image of shape(H, W, 3)
  6. max_K: number of clusters
  7. Return:
  8. None (plot loss values against number of clusters)
  9. """
  10. y_val = np.empty(max_K)
  11. for i in range(max_K):
  12. cluster_idx, centers, y_val[i] = KMeans()(data, i + 1)
  13. plt.plot(np.arange(max_K) + 1, y_val)
  15. return y_val
  1. from sklearn.cluster import KMeans
  2. loss = []
  3. for i in range(1, 10):
  4. kmeans = KMeans(n_clusters=i, max_iter=100).fit(p_list)
  5. loss.append(kmeans.inertia_ / point_number / K)
  6. plt.plot(range(1, 10), loss)


2019-09-06-kmeans聚类详解 - 图9

现在,为了选择正确数量的簇,我们进行目视检查。损耗曲线开始弯曲的称为 肘点。肘点代表误差和聚类数量之间的合理权衡。在此示例中,肘点位于x = 3 处。这意味着最佳聚类数为 3。



轮廓值是衡量一个对象与其自己的集群(内聚)相比其他集群(分离)的相似程度。轮廓范围从 -1 到 +1,其中高值表示对象与其自己的集群匹配良好,而与相邻集群匹配不佳。如果大多数对象具有较高的值,则集群配置是合适的。如果许多点具有低值或负值,则聚类配置可能具有过多或过少的聚类。

如果您想实现用于聚类分析的轮廓系数,我建议使用 scikit-learn。访问资源以获取有关实施的完整指南。


  1. 输入数据一般需要做缩放,如标准化。原因很简单,K均值是建立在距离度量上的,因此不同变量间如果维度差别过大,可能会造成少数变量“施加了过高的影响而造成垄断”。
  2. 输出结果非固定,多次运行结果可能不同。首先要意识到K-means中是有随机性的,从初始化到收敛结果往往不同。一种看法是强行固定随机性,比如设定sklearn中的random state为固定值。另一种看法是,如果你的K均值结果总在大幅度变化,比如不同簇中的数据量在多次运行中变化很大,那么K均值不适合你的数据,不要试图稳定结果 [2]。
  3. 运行时间往往可以得到优化,选择最优的工具库。基本上现在的K均值实现都是K-means++,速度都不错。但当数据量过大时,依然可以使用其他方法,如MiniBatchKMeans [3]。上百万个数据点往往可以在数秒钟内完成聚类,推荐Sklearn的实现。
  4. 高维数据上的有效性有限。建立在距离度量上的算法一般都有类似的问题,那就是在高维空间中距离的意义有了变化,且并非所有维度都有意义。这种情况下,K均值的结果往往不好,而通过划分子空间的算法(sub-spacing method)效果可能更好。
  5. 运行效率与性能之间的取舍。




  • 在高维上可能不是最佳选项
  • K值、初始点的选取不好确定;
  • 得到的结果只是局部最优;
  • 受离群值影响大。



K-means for Beginners: How to Build from Scratch in Python