描述数据整体情况的四个数据:

4. 一维数据 - 图1

Skewness is a measure of how asymmetric is the distribution, kurtosis is a measure of how spiky is it.

均值与中位数

中位数是最棒的:

其不会收到数据极值的影响。

比如:

  1. > a <- c(1, 2, 520, 660, 526, 623, 862, 753, 720, 890, 12568)
  2. > median(a)
  3. [1] 660
  4. > mean(a)
  5. [1] 1647.727

4. 一维数据 - 图2

但如果是去除极值再计算均值,也是可以的:

  1. > mean(a, trim = 0.2)
  2. [1] 666.2857

这里trim 表示:

在a的首尾各去除11*0.2 (近似为2,共4)个数据。

可见,通过去除首尾4个数据后,均值已经和原来的中位数非常接近了。

偏差

  • 平均偏差

4. 一维数据 - 图3

  • 中位数偏差

4. 一维数据 - 图4

  • 四分位差inter-quartile range

4. 一维数据 - 图5

方差

4. 一维数据 - 图6

开根就是平均差。

  • 变异系数

4. 一维数据 - 图7

当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响。

其实也可以直接归一化处理。

中心化与归一化

4. 一维数据 - 图8

https://www.jianshu.com/p/fc82ae05feb9

描述数据分布

4. 一维数据 - 图9

4. 一维数据 - 图10

描述数据分布的图

  • 箱线图
  • 茎叶图

4. 一维数据 - 图11

  • 直方图/条带图

4. 一维数据 - 图12