什么是描述性统计分析?
描述性统计分析是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动和方法。
描述性统计分析要对调查总体所有变量的有关数据进行统计行描述,描述性统计分析是高级数据分析的基础。

主要包括:

数据的频数分布分析

简介:在数据的预处理部分,利用数据的频数分析和交叉频数分析可以检验异常值,另外,频数分析也可以发现一些统计规律。
频数分布也叫次数分布,数据的统一整理方式之一,按照某种标志(性质或者数量)将数据分成若干组,分别统计各组数据的频数(有时候是频率),以反映出数据在各组的分布情况。分组标志以及各组对应的频数是频数分布的组成部分。

频数分布在数据分析中的作用:

  • 用来描述频数分布的类型,数据的分布类型有:对称分布、偏态分布,也就是通过频数分布图可以直观的判断出是否呈现出对称分布,即各组的频数以频数最高的组段为中心左右大致对称则为对称分布,否则为偏态。
  • 描述频数的分布特征,可以从频数分布图中观察变异范围,集中趋势。
  • 可以发现异常大或者异常小的值。

数据的频数分布分析:

  • 当分组标志是数据的所属类别(按照类别进行划分时),直接统计每一组的数据个数,然后出图出表即可,较为简单
  • 当分组标志是数值大小时,做频数分布的步骤为:
    • 计算求值范围,即求全距:image.png
    • 确定组数:斯特格斯经验公式:image.png
    • 求出组距:image.png
    • 确定组限:具体规定各组中变量可能取值的上限和下限,确定组限的原则是:不重不漏,使每一个数据都可能并置被分配到其中一组里。
    • 统计各组的频数或者频率。频数分布可用表格或者图形来表示,叫做频数分布表或者频数分布图,便于直观的反映出数据的一些分布规律。
  • 组中值:只有分组标志是数值大小进行分组时,才有组中值的概念。

案例分析:
描述性分析.xlsx
案例一:统计出各省中各个民族的人数,用堆叠条形图展示,展示效果如下:
image.png
分析:分组类别是“数据的所属类别”

案例二:数值数据的频数分析
image.png
分析:
按照数值数据的分布分析五步骤:
image.png
使用matplotlib的hist可以直接绘制出图像:

  1. import pandas as pd
  2. import matplotlib.pyplot as plt
  3. import numpy as np
  4. plt.rcParams['font.family'] = 'Arial Unicode MS'
  5. df = pd.read_excel('描述性分析.xlsx', sheet_name=3)
  6. print(df.head())
  7. plt.hist(df, edgecolor='k', range=[145, 175])
  8. plt.show()

数据的集中趋势分析

数据的离散程度分析

离散程度:是指通过随机的观测变量各个取值之间的差异程度,用来衡量风险大小的指标。
意义:

  • 通过对随机变量取值之间的离散程度的测定,可以反映各个观测体之间的差异大小,从而也就可以反映分布中心的指标对各个观测值的代表性的高低。
  • 通过对随机变量的取值之间的离散程度测定,可以反映出随机变量概率密度曲线的矮胖程度,原因:对于呈现出正态分布的数据而言,方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量,所以离散程度会影响概率密度函数的形状。

极差:
概念:全距,用最大值➖最小值,用于资料的粗略分析,计算简单但是稳定性较差。

方差

标准差

变异系数
是概率分布离散化程度的一个归一化量度,其定义为标准差和平均值之比。
image.png

数据的分布情况

偏度:
也称为偏态、偏态系,是统计数据分布倾斜方向和程度的度量,是统计数据分布非对称程度的数字特征。
如果数据序列的分布不对称,则均值,中位数,众数必定分处不同的位置,这时,若以均值为参照点,则要么位于均值的左侧的数据较多,称之为右偏;要么位于均值右侧的数据较多,称为左偏。

峰度:

数据的基本图形分析

使用python对数据做描述性分析