分散性
量度全距
极差,用于量度数据集分散程度的方法。
即
全距很容易受异常值影响
四分位数
构建迷你距的一个办法是:仅使用数据中心周边的数值。
- 升序排列数据
- 分成相等四个数据块
四分位数的计算:
- 中位数同上
下四分位数
若为整数取这个数及下个数平均值
不是整数,向上取整
上四分位数
- 计算
判断
- 计算
四分位距
- 与全距相比,较少受到异常值的影响。
百分位数
若数据被分成10份,因此起分割作用的数值被称为十分位数。 我们可以用百分位数构建一个新的距,称为百分位距。
百分位数的计算:
- 升序
箱线图绘制各种“距”
以上利用分散性看到稳定程度,同时也希望看到数据的变异性
变异性
方差
量度数据变异性的方法
%5E2%7D%7Bn%7D#card=math&code=%E6%96%B9%E5%B7%AE%3D%5Cfrac%7B%5Csum%28x-%5Cmu%29%5E2%7D%7Bn%7D)
方差是数据值与均值的距离的平方数的平均值
快速计算方法
标准差
不用距离的平方来指出分散性
%5E2%7D%7Bn%7D%7D#card=math&code=%5Csigma%3D%5Csqrt%7B%E6%96%B9%E5%B7%AE%7D%3D%5Csqrt%7B%5Cfrac%7B%5Csum%28x-%5Cmu%29%5E2%7D%7Bn%7D%7D)
标准分
特定数据值的标准分
为数据所在数据集的均值,标准差
标准分的作用
用于对比不用数据集的数据,他将数据转化为通用的新分布形态,新的分布均值为0,标准差为1
用距离均值若干个标准差表示某个特定数值的相对位置