0x00 数据的预处理
1. 数据审核:
检查数据中是否有错误,组要包括两方面的审核:
- 完整性审核:检查应调查的单位或个体是否有遗漏,所有的调查项目是否填写齐全等
- 准确性审核:检查数据是否有错误,是否存在异常值等
- 定义:数据排序是指按一定顺序将数据排列以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。分类数据和数值型数据均可以进行排序,后者排序后的数据也称为顺序统计量(order statistics)
- 作用:
- 有助于对数据检查纠错
- 为重新归类或分组提供方便
- 在某些场合,排序本身就是分析的目的之一
0x01 品质数据的整理与展示
1、分类数据的整理和展示
分类数据本身就是对事物的一种分类,为对数据及其特征有一个初步的了解,在整理时首先列出所分的类别,然后计算出每一类别的频数、频率或比例、比率等,最后根据需要选择适当的图形进行展示
(1) 频数与频数分布
- 频数(frequency)是落在某一特定类别或组中的数据个数。把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来,称为频数分布(frequency distribution)。频数(频率)愈大的组所对应的标志值,它对于总体标志平均水平所起作用也愈大;反之,频数(频率)愈小的组所对应的标志值,它对于总体标志平均水平所起作用也愈小
- 列联表和交叉表:
- 两个或两个以上变量交叉分类的频数分布表也成为列联表
- 二维的列联表(两个变量交叉分类)也成为交叉表
- 比例(构成比)、百分比和比率
- 条形图
- 指用宽度相同的条形的高度或长短来表示数据多少的图形。可以横置或纵置,纵置时也称为柱形图。条形图有简单条形图、复式条形图等形式。
- 帕累托图
- 指按各类别数据出现的频数多少排序后绘制的条形图。通过对条形的排序,容易看出哪类数据出现得多,哪类数据出现得少。
- 饼图
- 指用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例。
- 环形图
- 指把饼图叠在一起,挖去中间的部分形成的图形。
- 环形图与饼图类似,但又有区别。环形图中间有一个“空洞”,每个样本用一个环来表示,样本中的每一部分数据用环中的一段表示。因此环形图可显示多个样本各部分所占的相应比例,适用于比较研究。
2、顺序数据的整理和展示
分类数据的频数分布表和图示方法,如频数、比例、百分比、比率、条形图和饼图等,也都适用于对顺序数据的整理与图示。但一些适用于顺序数据的整理和图示方法,并不适用于分类数据。对于顺序数据,还可以计算累积频数和累积频率(百分比)。
(1) 累积频数和累积频率
- 累积频数:将各有序类别或组的频数逐级累加起来得到的频数。其累积方法有两种
- 向上累积:又称为较小制累积,是从类别顺序的开始一方向类别顺序的最后一方累加频数(数值型分组数据则是从变量值小的一方向变量值大的一方累加频数);
- 向下累积:又称为较大制累积,是从类别顺序的最后一方向类别顺序的开始一方累加频数(数值型分组数据则是从变量值大的一方向变量值小的一方累加频数)。
累积频率或累积百分比:将各有序类别或组的百分比逐级累加起来,它也有向上累积和向下累积两种方法。
(2) 顺序数据的图示
根据累积频数或累积频率,可以绘制累积频数分布或频率图。
0x02 数值型数据的整理与展示
1、数据分组
(1) 数据分组的概念和目的
数据分组是根据统计研究的需要,为了观察数据的分布特征,将原始数据按照某种标准划分成不同的组别,分组后的数据称为分组数据。经分组后再计算出各组中数据出现的频数,就形成了一张频数分布表。
在分组时,如果按照性别、质量等级等定性指标分组,称为按品质标志分组;
如果按照数量或数值等定量指标分组,称为按数量标志分组。
(2) 数据分组的方法
① 单变量值分组
把每一个变量值作为一组,这种分组通常只适合离散变量,且在变量值较少的情况下使用
② 组距分组
将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。在组距分组中,一个组的最小值称为下限;一个组的最大值称为上限。适用于连续变量或变量值较多的情况。
(3) 分组和编制频数分布表的具体步骤
① 确定组数
一般情况下,一组数据所分的组数不应少于 5 组且不多于 15 组,即 5≤K≤15。实际应用时,可根据数据的多少和特点及分析的要求来确定组数。
② 确定各组的组距
组距是一个组的上限与下限的差。组距可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)÷组数。
注意:为便于计算,组距宜取 5 或 10 的倍数,而且第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值。
③ 根据分组整理成频数分布表
(4) 组距分组的注意事项
① 遵循“不重不漏”的原则
- “不重”就是任一个单位数值只能分在其中某一组中,不能同时分在两组中
- “不漏”就是任一数值必须分在某一组内,不能遗漏
- 为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内
- 对于离散变量,可以采用相邻两组组限间断的办法解决“不重”的问题
- 对于连续变量,可以采取相邻两组组限重叠的方法,根据“上组限不在内”的规定解决“不重”的问题,也可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度具体确定。
② 避免出现空白组(即没有变量值的组)或个别极端值被漏掉
在组距分组中,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组(即没有变量值的组)或个别极端值被漏掉,第一组和最后一组可以采取“××以下”及“××以上”这样的开口组。开口组通常以相邻组的组距作为其组距。
(5) 等距分组、不等距分组
在组距分组时,如果各组的组距相等,则称为等距分组
-
(6) 组中值
组中值是每一组中下限值与上限值中间的值,即组中值=(下限值+上限值)/2
- 在组距分组时,通常用组中值作为该组数据的一个代表值。使用组中值代表一组数据时有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。
2、数值型数据的展示
条形图、饼图、环形图及累积分布图等都适用于显示数值型数据。此外,对数值型数据还有一些图示方法,这些方法并不适用于分类数据和顺序数据。
(1) 分组数据:直方图
- 直方图:展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的。绘制该图时,用横轴表示各组组限,纵轴表示频数(一般标在左方)或频率(一般标在右方)。
- 直方图与条形图的区别
| 图形 | 频数表示 | 排列方式 | 数据类型 |
| :—-: | :—-: | :—-: | :—-: |
| 条形图 | ①条形的长度表示频数,宽度固定
②长度有意义高度没有意义 | 各矩形分开排列 | 分类数据 | | 直方图 | ①矩形面积表示频数,矩形高度表示频数或组距,宽度表示组限
②高度与宽度均有意义 | 各矩形连续排列 | 数值型数据 |
(2) 未分组数据:茎叶图和箱线图
茎叶图
- 茎叶图是反映原始数据分布的图形。它由茎和叶两部分构成,其图形是由数字组成的。它主要用于反映原始数据的分布形状及离散状况,比如,分布是否对称,数据是否集中,是否有离群点等。
- 茎叶图的绘制方法
- 绘制茎叶图的关键是设计好树茎。制作茎叶图时,首先把一个数字分成两部分,通常是以该组数据的高位数值作为树茎,而且叶上只保留该数值的最后一个数字。
茎叶图与直方图的区别
箱线图
- 由一组数据的最大值、最小值、中位数、两个四分位数这五个特征值绘制而成,反映原始数据分布。通过箱线图,不仅可以反映出一组数据分布的特征,还可以进行多组数据分布特征的比较。
- 箱线图的绘制方法
- 如果数值型数据是在不同时间上取得的,即时间序列数据,则可以绘制线图。
- 线图主要用于反映现象随时间变化的特征。
注意:绘制线图时,时间一般绘在横轴,观测值绘在纵轴。一般应绘成横轴略大于纵轴的长方形,其长宽比例大致为 10:7。图形过扁或过于瘦高,不仅不美观,而且会给人造成视觉上的错觉,不便于对数据变化的理解。一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大,可以采取折断的符号将纵轴折断。
(4) 多变量数据的图示
散点图
是指用二维坐标展示两个变量之间关系的一种图形。它是用坐标横轴代表变量 x,纵轴代表变量 y,每组数据(xi,yi)在坐标系中用一个点表示,n 组数据在坐标系中形成的 n 个点称为散点,由坐标及其散点形成的二维数据图称为散点图。
气泡图
可用于展示三个变量之间的关系。绘制时将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用气泡的大小来表示。
雷达图
是指显示多个变量的常用图示方法,也称为蜘蛛图。雷达图在显示或对比各变量的数值总和时十分有用,假定各变量的取值具有相同的正负号,则总的绝对值与图形所围成的区域成正比。此外,利用雷达图也可以研究多个样本之间的相似程度。
0x03 合理使用图表
1、鉴别图形优劣的准则
精心设计的图形可以准确表达数据所要传递的信息。设计图形时,应绘制得尽可能简洁,以清晰地显示数据、合理地表达统计目的为依据。
一张好图应具有的基本特征
- 显示数据
- 让读者把注意力集中在图形的内容上,而不是制作图形的程序上
- 避免歪曲
- 强调数据之间的比较
- 服务于一个明确的目的
-
五种鉴别图形优劣的准则
一张好图应当精心设计,有助于洞察问题的实质
- 一张好图应当使复杂的观点得到简明、确切、高效的阐述
- 一张好图应当能在最短的时间内以最少的笔墨给读者提供最大量的信息
- 一张好图应当是多维的
- 一张好图应当表述数据的真实情况
2、统计表的设计
统计表的构成
- 表头:应放在表的上方,它说明的是统计表的主要内容。
- 行标题和列标题:通常安排在统计表的第一列和第一行,它表示的主要是所研究问题的类别名称和变量名称,如果是时间序列数据,行标题和列标题也可以是时间,当数据较多时,通常将时间放在行标题的位置。
- 数字资料:行标题和列标题的其余部分是具体的数字资料。
表外附加:必要时可以在统计表的下方加上表外附加,主要包括数据来源、变量的注释和必要的说明等内容
设计和使用统计表时的注意事项
要合理安排统计表的结构,比如行标题、列标题、数字资料的位置应安排合理。应使统计表的横竖长度比例适当,避免出现过高或过宽的表格形式。
- 表头一般应包括表号、总标题和表中数据的单位等内容。
- 总标题应简明确切地概括出统计表的内容,一般需要表明统计数据的时间(When)、地点(Where)以及何种数据(What),即标题内容应满足 3W 要求。
- 如果表中的全部数据都是同一计量单位,可在表的右上角标明;若各变量的计量单位不同,则应放在每个变量后或单列出一列标明。
- 表中的上下两条横线一般用粗线,中间的其他线要用细线,这样使人看起来清楚、醒目。通常情况下,统计表的左右两边不封口;列标题之间在必要时可用竖线分开,而行标题之间通常不必用横线隔开。总之,表中尽量少用横竖线。
- 表中的数据一般是右对齐,有小数点时应以小数点对齐,而且,小数点的位数应统一;对于没有数据的表格单元,一般用“—”表示;一张填好的统计表不应出现空白单元格。
- 在使用统计表时,必要时可在表的下方加上注释,特别要注意注明数据来源,以表示对他人劳动成果的尊重,以备读者查阅使用。