频谱共聚算法演示

翻译者:@N!no 校验者:待校验

这个例子演示了如何使用谱协聚类算法生成数据集并对其进行双聚类处理。

数据集是使用 make_biclusters 函数生成的,该函数创建一个小值矩阵,并将大值植入双聚类。然后将行和列打乱并传递给光谱协聚算法。通过重新排列变换后的矩阵可以使双聚类连续,这展示出该算法找到双聚类的准确性。

png

png

png

  1. consensus score: 1.0
  1. print(__doc__)
  2. # Author: Kemal Eren <kemal@kemaleren.com>
  3. # License: BSD 3 clause
  4. import numpy as np
  5. from matplotlib import pyplot as plt
  6. from sklearn.datasets import make_biclusters
  7. from sklearn.cluster import SpectralCoclustering
  8. from sklearn.metrics import consensus_score
  9. data, rows, columns = make_biclusters(
  10. shape=(300, 300), n_clusters=5, noise=5,
  11. shuffle=False, random_state=0)
  12. plt.matshow(data, cmap=plt.cm.Blues)
  13. plt.title("Original dataset")
  14. # 打乱聚类的位置
  15. rng = np.random.RandomState(0)
  16. row_idx = rng.permutation(data.shape[0])
  17. col_idx = rng.permutation(data.shape[1])
  18. data = data[row_idx][:, col_idx]
  19. plt.matshow(data, cmap=plt.cm.Blues)
  20. plt.title("Shuffled dataset")
  21. model = SpectralCoclustering(n_clusters=5, random_state=0)
  22. model.fit(data)
  23. score = consensus_score(model.biclusters_,
  24. (rows[:, row_idx], columns[:, col_idx]))
  25. print("consensus score: {:.3f}".format(score))
  26. fit_data = data[np.argsort(model.row_labels_)]
  27. fit_data = fit_data[:, np.argsort(model.column_labels_)]
  28. plt.matshow(fit_data, cmap=plt.cm.Blues)
  29. plt.title("After biclustering; rearranged to show biclusters")
  30. plt.show()