分散性

量度全距

极差,用于量度数据集分散程度的方法。

3. 分散性与变异性的量度 - 图13. 分散性与变异性的量度 - 图2

全距很容易受异常值影响

3. 分散性与变异性的量度 - 图3

四分位数

3. 分散性与变异性的量度 - 图4

构建迷你距的一个办法是:仅使用数据中心周边的数值。

  • 升序排列数据
  • 分成相等四个数据块

四分位数的计算

  • 中位数同上
  • 下四分位数

    • 3. 分散性与变异性的量度 - 图5若为整数取这个数及下个数平均值
    • 3. 分散性与变异性的量度 - 图6不是整数,向上取整
  • 上四分位数

    • 计算3. 分散性与变异性的量度 - 图7判断

四分位距

3. 分散性与变异性的量度 - 图8

3. 分散性与变异性的量度 - 图9

  • 与全距相比,较少受到异常值的影响。

百分位数

3. 分散性与变异性的量度 - 图10

若数据被分成10份,因此起分割作用的数值被称为十分位数。 我们可以用百分位数构建一个新的距,称为百分位距

百分位数的计算

  • 升序
  • 3. 分散性与变异性的量度 - 图11

箱线图绘制各种“距”

3. 分散性与变异性的量度 - 图12

以上利用分散性看到稳定程度,同时也希望看到数据的变异性

变异性

方差

量度数据变异性的方法

3. 分散性与变异性的量度 - 图13%5E2%7D%7Bn%7D#card=math&code=%E6%96%B9%E5%B7%AE%3D%5Cfrac%7B%5Csum%28x-%5Cmu%29%5E2%7D%7Bn%7D)

方差是数据值与均值的距离的平方数的平均值

快速计算方法3. 分散性与变异性的量度 - 图14

标准差

不用距离的平方来指出分散性

3. 分散性与变异性的量度 - 图15%5E2%7D%7Bn%7D%7D#card=math&code=%5Csigma%3D%5Csqrt%7B%E6%96%B9%E5%B7%AE%7D%3D%5Csqrt%7B%5Cfrac%7B%5Csum%28x-%5Cmu%29%5E2%7D%7Bn%7D%7D)

标准分

3. 分散性与变异性的量度 - 图16

特定数据值的标准分

3. 分散性与变异性的量度 - 图17

3. 分散性与变异性的量度 - 图18为数据所在数据集的均值,标准差

标准分的作用

3. 分散性与变异性的量度 - 图19

  • 用于对比不用数据集的数据,他将数据转化为通用的新分布形态,新的分布均值为0,标准差为1

  • 3. 分散性与变异性的量度 - 图20

  • 用距离均值若干个标准差表示某个特定数值的相对位置