数据的分布特征一般从:集中趋势、离散趋势和分布形状三个维度进行度量

1.集中趋势的度量

1.1 众数

  1. 众数是一组数据中出现次数最多的变量值;
  2. 众数一般用作分类数据的集中趋势描述。

    1.2 中位数和分位数

  3. 对于连续性数据可采用分位数或中位数描述集中趋势;

  4. 四分位数一般情况下分位数为:QL、QU和中位数Me;

    1.3 平均数

  5. 简单算数平均数;

  6. 加权平均数;
  7. 几何平均数

    1.4 中位数、众数和平均数的关系

    image.png

  8. 正态分布时,中位数=众数=平均数;

  9. 左偏分布时,平均数<中位数<众数;
  10. 右偏分布时,众数<中位数<平均数;

    2.离散趋势的度量

    2.1 异众比率

  11. 一般在用众数描述集中趋势时,同时需要用异众比率描述离散趋势;

  12. 异众比率第2章:数据的概括性度量 - 图2

    2.2 四分位距

  13. 四分位距反应了50%数据的离散程度

  14. 四分位距 第2章:数据的概括性度量 - 图3

    2.3 方差及标准差

    2.3.1 方差及标准差的来源

  15. 极差

    1. 极差 第2章:数据的概括性度量 - 图4
    2. 极差的计算只用到了两个数据,对于数据的整体概括性不强,很少使用;
  16. 离均差
    1. 离均差 第2章:数据的概括性度量 - 图5
    2. 算数平均数的性质,离均差只和为0,故无法使用;
  17. 平均差(绝对平均差)
    1. 平均差 第2章:数据的概括性度量 - 图6
    2. 离均差改为平均差后,从数值上确实可以反映离散程度大小。但由于自带绝对值符号,符号展开时需要对其内部数据正负进行讨论,故无法用代数方法计算;
  18. 方差
    1. 方差 第2章:数据的概括性度量 - 图7
    2. 既然平均差的绝对值符号不好用,就直接用平方方式,能够保证即可以正常代数运算,又可以保证离均差的正负不抵消;
    3. 但方差的一个最大缺陷是单位问题。由于单位进行了平方,无法对离散度进行解释。才有了最后的标准差,即在方差基础上进行了开方,保证单位的一致;
    4. 如果对于样本而言,分母为n-1。但若为总体方差,分母为N
  19. 标准差

    1. 标准差 第2章:数据的概括性度量 - 图8
    2. 如果对于样本而言,分母为n-1。但若为总体方差,分母为N

      2.3.2 标准分数

      2.3.2.1 标准分数的定义

      标准分数第2章:数据的概括性度量 - 图9

      2.3.2.2 标准分数的特性

  20. 标准分数的解释为:该数值是高于(低于)平均数z倍的标准差;

  21. 经验法则
    1. 当一组数据对称分布时,约有68%的数据在平均数加减1个标准差的范围之内;
    2. 约有95%的数据在平均数加减2个标准差的范围之内;
    3. 约有99%的数据在平均数加减3个标准差的范围之内。

      3个标准差之外的值叫做离群值

2.3.2.3 切比雪夫定理

在任意一个数据集中,位于其均值±m个标准差范围内的数值比例至少为第2章:数据的概括性度量 - 图10,其中m为大于1的任意正数。

2.4 离散系数

  1. 离散系数又叫做变异系数,离散系数第2章:数据的概括性度量 - 图11
  2. 离散系数没有单位,故可以进行不同样本离散程度的比较。

3.偏态与峰态的度量

正态分布的SK与K都为0

3.1 偏态系数

左图为左偏分布,右图为右偏分布

  1. 偏态系数是描述分布形状是否对称,是否有偏斜程度的统计量;
  2. 偏态系数 第2章:数据的概括性度量 - 图13,本质为三阶中心矩;
  3. 第2章:数据的概括性度量 - 图14越接近0,偏斜程度越低;
    1. 高度偏态分布:第2章:数据的概括性度量 - 图15
    2. 中等偏态分布:第2章:数据的概括性度量 - 图16
  4. 第2章:数据的概括性度量 - 图17时右偏分布,当第2章:数据的概括性度量 - 图18时左偏分布。

    3.2 峰态系数

    image.png

  5. 峰态系数是描述分布为平峰分布还是尖峰分布的统计量;

  6. 峰态系数第2章:数据的概括性度量 - 图20,本质为四阶原点矩
  7. 第2章:数据的概括性度量 - 图21时尖峰分布,第2章:数据的概括性度量 - 图22时扁平分布。