数据的描述性统计
集中趋势:是指一组数据向某一中心值靠拢,它反映了一组数据中心点的位置所在。
1.众数:一组数据中出现次数最多的变量值,用 M。表示。
2.中位数(顺序数据):是数据排序后处于中间位置上的数据,中位数可以将数据分为两份。主要用于测度数据的集中趋势,但不适用于分类数据。
3.四分位数(顺序数据):也称四分位点,它是一组数据排序后处于25%和75%位置上的值。通过三个点把数据分为4部分,每部分是25%的数据。
4.平均数(数值型数据):它是一组数据相加后除以个数得到的结果。
离散程度:
数值型数据(方差、标准差、极差、平均差):
极差:数据极大值与极小值之差
平均差:也称平均绝对离差,它是各变量值与其平均数离差绝对值的平均数
方差和标准差:
方差是各变量值与其平均数离差(各项变量与总体平均数之差叫离差)平方的平均数
标准差是方差的开方,与方差不同的是,标准差有度量,与变量值的计量单位相同,因此它的实际意义要比方差清楚。
顺序数据(四分位差):也称内距或四分位距,是上四分位数与下四分位数之差,反应了中间50%的数据离散程度,数值越小,说明中间数据越集中;数值越大,说明中间数据越分散。四分位差不受极值的影响。
分类数据(异众比率):指非众数数组的频数占总频数的比例
异众比率越大,众数的代表性越差;异众比率越小,众数的代表性越好
相对离散程度(离散系数):也称为变异系数,它是一组数据的(标准差/其相应的平均数)
离散系数是测度数据离散程度的统计量,主要用于比较不同样本数据的离散程度。离散系数越大,离散程度也就大。
分布的形状:
集中和离散程度是数据发布的两个重要特征,但要全面了解数据的分布特点,还需要知道数据的分布形状是否对称,偏斜的程度以及分布的扁平的程度。偏态和峰态就是对分布形状的测度。
峰态:峰态通常是与标准正态分布相比较而言的。如果是标准的正态分布则峰态系数为0。