描述性统计

一、基本统计量

(1)次序统计量

  1. 把指标数据X1,X2,…,Xn由小到大排列,得到X(1),X(2),…,X(n),称之为数据X1,X2,…,Xn的次序统计量。

(2)平均统计量

  1. 对于数值型数据,需计算它们的平均水平,用来描述平均水平或集中趋势的主要统计量有均值、中位数等。

(3)变异统计量

反映各数据值变异程度的指标称为变异统计量。它显示变量数值分布的离散趋势,是用来表现数据特征的另一个重要指标,与平均统计量的作用相辅相成。共同反映一组数据的平均水平和变异程度。变异指标包括以下几种:极差、标准差、四分位差等。

(4)差异统计量

当进行两个或多个指标变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较;如果单位或均数不同,比较其变异程度就不能采用标准差,而要采用标准差与均数的比值(变异系数)来比较。 对于正态分布数据,通常计算变异系数来比较变量间的差异程度。对非正态分布数据,通常不能用变异系数来比较变量间的差异程度,需计算其稳健变异系数(四分位差与中值的比值称为稳健变异系数,简称稳健系数)。

二、 基本统计图

(1)直方图

  1. 用于表示连续型变量的频数分布,常用于考察变量的分布是否服从某种分布类型,如正态分布。图形以矩形的面积表示各组段的频数(或频率),各矩形的面积总和为总频数(或等于1)。当例数趋于无穷大时,直方图中频率间的连线即为分布的密度曲线。

(2)箱线图

  1. 又称为箱式图或箱形图,是一种用作显示一组数据分散情况资料的统计图,因形状如箱子而得名。箱线图的绘制方法是:先找出一组数据的最大值、最小值、中位数和上下两个四分位数;然后,连接两个四分位数画出箱子;再将最大值和最小值与箱子相连接,中位数在箱子中间。

(3)Q-Q图

  1. 统计学里的分位数图(Quantile Quantile Plot,简称 Q-Q 图)是一个概率图,用图形的方式比较两个概率分布,把他们的两个分位数放在一起比较。如令x轴为正态分布的分位数,y轴为样本分位数,如果这两者构成的点分布在一条直线上,就证明样本数据与正态分布存在线性相关性,即服从正态分布。

基本统计推断

推断就是根据拥有的信息来对现实世界进行某种判断。统计中的推断也不例外,它是完全根据数据做出的。

一、参数估计

  1. 由样本统计量来估计总体参数有两种方法:点估计和区间估计。

二、假设检验

  1. 假设检验是用来判断样本与总体的差异是由抽样误差引起还是由本质差别所造成的统计推断方法。<br />主要包括参数检验和非参数检验。
  • 常见参数检验包括与正态总体有关的t检验、F检验等。
  • 非参数检验通常是将数据转换成秩来进行分析的,主要有秩和检验等。