数据的分布特征一般从:集中趋势、离散趋势和分布形状三个维度进行度量
1.集中趋势的度量
1.1 众数
- 众数是一组数据中出现次数最多的变量值;
-
1.2 中位数和分位数
对于连续性数据可采用分位数或中位数描述集中趋势;
-
1.3 平均数
简单算数平均数;
- 加权平均数;
-
1.4 中位数、众数和平均数的关系

正态分布时,中位数=众数=平均数;
- 左偏分布时,平均数<中位数<众数;
-
2.离散趋势的度量
2.1 异众比率
一般在用众数描述集中趋势时,同时需要用异众比率描述离散趋势;
-
2.2 四分位距
四分位距反应了50%数据的离散程度
-
2.3 方差及标准差
2.3.1 方差及标准差的来源
极差
- 极差
- 极差的计算只用到了两个数据,对于数据的整体概括性不强,很少使用;
- 极差
- 离均差
- 离均差
- 算数平均数的性质,离均差只和为0,故无法使用;
- 离均差
- 平均差(绝对平均差)
- 平均差
- 离均差改为平均差后,从数值上确实可以反映离散程度大小。但由于自带绝对值符号,符号展开时需要对其内部数据正负进行讨论,故无法用代数方法计算;
- 平均差
- 方差
- 方差
- 既然平均差的绝对值符号不好用,就直接用平方方式,能够保证即可以正常代数运算,又可以保证离均差的正负不抵消;
- 但方差的一个最大缺陷是单位问题。由于单位进行了平方,无法对离散度进行解释。才有了最后的标准差,即在方差基础上进行了开方,保证单位的一致;
- 如果对于样本而言,分母为n-1。但若为总体方差,分母为N
- 方差
标准差
标准分数的解释为:该数值是高于(低于)平均数z倍的标准差;
- 经验法则
- 当一组数据对称分布时,约有68%的数据在平均数加减1个标准差的范围之内;
- 约有95%的数据在平均数加减2个标准差的范围之内;
- 约有99%的数据在平均数加减3个标准差的范围之内。
3个标准差之外的值叫做离群值
2.3.2.3 切比雪夫定理
在任意一个数据集中,位于其均值±m个标准差范围内的数值比例至少为,其中m为大于1的任意正数。
2.4 离散系数
- 离散系数又叫做变异系数,离散系数
;
- 离散系数没有单位,故可以进行不同样本离散程度的比较。
3.偏态与峰态的度量
3.1 偏态系数


