聚类业务聚类算法

浏览 253 扫码分享 2025-01-08 08:53:59

均值漂移算法
再谈样本均衡化

聚类业务聚类算法 - 图1

无法验证

聚类业务聚类算法 - 图2

消除随机k个聚类中心的随机性，要迭代

告诉了要分七个类，但一开始的选择中心是随机

重新聚类时，有些点分类被改变

聚类业务聚类算法 - 图3

聚类业务聚类算法 - 图4

聚类业务聚类算法 - 图5

两个模型副产品属性，都是数组

查看样本分布：大概分为四队

聚类业务聚类算法 - 图6

聚类业务聚类算法 - 图7

聚类业务聚类算法 - 图8

聚类业务聚类算法 - 图9 注意可能相互覆盖绘图顺序

聚类业务聚类算法 - 图10

图像变换：更改灰度值，原有范围0-255，改为4种数字，16.。100.。160.。210

大小离谁近改为谁该亮的还亮，该暗的还暗，就像打了马赛克

相当于一维数组 250000个元素，做kmeans

简单的图形更好做轮廓识别

聚类业务聚类算法 - 图11

聚类业务聚类算法 - 图12

最强掩码：索引掩码，将4值数组centers 用作填充，y 25000 数组中就是centers的下标，作为掩码，最终被修改的是y

聚类业务聚类算法 - 图13

聚类业务聚类算法 - 图14 聚类10个

均值漂移算法

聚类业务聚类算法 - 图15

用高斯分布，看图说话：

样本空间如下

聚类业务聚类算法 - 图16

绘制统计直方图：看每个区间的样本数

聚类业务聚类算法 - 图17

用高斯函数拟合这些直方图：一边移动一边拟合

有最佳匹配位置，就是发现了一个聚类中心

用新的高斯函数再平移拟合，反复找到所有聚类中心

聚类业务聚类算法 - 图18

对所有样本进行欧拉距离，归类到找到的中心上

聚类业务聚类算法 - 图19

柱子的宽度十分重要，当柱子太窄，会产生过多中心

聚类业务聚类算法 - 图20

聚类业务聚类算法 - 图21

聚类业务聚类算法 - 图22

x 样本空间

TRUE 一个带宽移动一下 FALSE 移动慢更精准，但很慢用true就好

业务需求：不想定聚类数量，此时考虑使用漂移

不知道应该聚合成为几个类改带宽

案例：仍是图片，改为模型kmeans 为漂移

聚类业务聚类算法 - 图23 分布良好，则预测效果很好

聚类业务聚类算法 - 图24 量化带宽改为 0.08时，分类中心明显变多

聚类业务聚类算法 - 图25 0.02 的带宽

kmeans 必须确定聚类组数

再谈样本均衡化

聚类业务聚类算法 - 图26

聚类业务聚类算法 - 图27

错到什么程度？错了但不严重，才0.6

聚类业务聚类算法 - 图28

聚类业务聚类算法 - 图29

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录