描述数据整体情况的四个数据:

Skewness is a measure of how asymmetric is the distribution, kurtosis is a measure of how spiky is it.
均值与中位数
中位数是最棒的:
其不会收到数据极值的影响。
比如:
> a <- c(1, 2, 520, 660, 526, 623, 862, 753, 720, 890, 12568)> median(a)[1] 660> mean(a)[1] 1647.727

但如果是去除极值再计算均值,也是可以的:
> mean(a, trim = 0.2)[1] 666.2857
这里trim 表示:
在a的首尾各去除11*0.2 (近似为2,共4)个数据。
可见,通过去除首尾4个数据后,均值已经和原来的中位数非常接近了。
偏差
- 平均偏差

- 中位数偏差

- 四分位差inter-quartile range

方差

开根就是平均差。
- 变异系数

当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响。
其实也可以直接归一化处理。
中心化与归一化

https://www.jianshu.com/p/fc82ae05feb9
描述数据分布


描述数据分布的图
- 箱线图
- 茎叶图

- 直方图/条带图

