一、背景

雾霾一直以来都是北京地区也是舆论关注的重点,利用北京地区空气监测历史数据客观的标准判断这些年来北京地区的天气质量的变化情况,分析空气污染是否要加速恶化
数据源:从美领馆网http://www.stateair.net/web/historical/1/1.html下载所有北京地区空气监测历史数据。

二、任务需求

2.1整体分析

  1. 完成数据整理,分析数据缺失情况,讨论分析过程中应该注意的数据问题
    2. 使用直方图考察每天pm2.5最大值分布情况
    3. 绘制统计图分析pm2.5最大值按月变化趋势
    4. 绘制统计图分析pm2.5中位数按年变化趋势
    5. 计算出每日浓度均值,统计每年pm2.5超过150和未到55的天数,绘制统计图,分析空气情况对健康影响的变化趋势
    6. 统计每年最大pm2.5值<100的比例,和最大pm2.5值>200的比例,并绘制统计图分析其变化情况

    2.2冬季分析

    重点考查考察11,12,1,2这四个冬季月份数据情况,对这四个月的数据,重复上一页4-5的分析过程,并给出分析结果

    2.3极端天气分析

    PM2.5数值大于500时,新闻媒体会以数值爆表为标题大肆宣传
    1. 统计每年最大pm2.5数值>500的天数并绘制统计图
    2. 将该结果与前面的趋势进行对比分析,讨论实际变化趋势、媒体宣传趋势与人们感受趋势之间的关系

    2,4历史波动分析

  2. 对月均pm2.5最大值使用时间序列预测模型分析。
    2. 选择加法模型,进行季节分解,并展示季节趋势序列和剔除季节波动后的主趋势统计图,并对结果进行分析

    三、数据准备

    3.1导入数据文件:

    将csv文件另存为xls文件,用SPSS数据分析软件打开,更改文件名为PM2008.

    3.2合并数据文件

    a) 将PM2008前置为当前数据文件,点击“数据->合并文件->添加个案”.
    b) 在“打开数据集”框中,选择2009年北京雾霾的历史数据,文件更名为“PM2009”,单击“继续”.
    c) 重复上述步骤,读入其余2010到2017年的有关北京雾霾的历史数据,当遇到2015年和2016年的数据时,在“新的活动集中的变量”框中,剔除两个数据集所包含的DateLST和Unit等四个变量。
    部分数据如下图所示:
    image.png

    3.3筛选所需数据

    1)替换缺失值:变量视图->“Value”行“缺失”列右侧的“…”->缺失值->将-999设定为“离散缺失值”
    2)取每天最大值作为数据代表进行分析:
    a) 数据->汇总;
    b) 分解变量”框:输入year、month、day;
    c) “汇总变量”框:输入Value;
    d) 在Value行保持选中的情况下,单击“函数”按钮,选中中部的“最大值”单选按钮,单击“继续”按钮;“保存”框组选择“创建只包含汇总变量的新数据集”,在“数据集名称”框中输入anafile;
    e) “确定”.
    将year和month的测绘尺度修改为正确的“有序”尺度,得到的用于正式分析的工作文件anafile部分数据如下图所示:
    image.png

    四、数据分析

    4.1整体分析

    1) 完成数据整理,分析数据缺失情况,讨论分析过程中应该注意的数据问题。
    操作步骤如下所示:
    a) 数据->选择个案;
    b) 选中“如果条件满足”复选框;
    c) 单击“如果”按钮,并且输入条件missing(Value_max)=0;
    d) 点击“继续”;
    e) 点击“确定”;
    f) 分析->描述统计->交叉表;
    g) “行变量”框:输入year;
    h) “列变量”框:输入month;
    i) 点击“确定”.
    交叉图如下:
    image.png
    结果分析:
    由Year*Month交叉表可知,数据缺失值主要是在2008年和2009年比较严重,其中2008年的1、2、3、12月,2009年的1月,2017年的7月到12月,2017年数据缺失情况比较严重,因此在数据分析过程中,对于2008、2009和2017年数据分析结果需要进行综合评价考虑。

4.2 使用直方图考察每天pm2.5最大值分布情况

操作步骤如下所示:
a) 图形->图标构建程序;
b) 库选项卡:选择直方图组,将简单直方图拖放至画布;
c) 将day拖放至X轴框;
d) 将Value_max拖放至Y轴框;
e) 点击“确定”.
直方图如下:
image.png
结果分析:可以直观的看出,北京地区的 PM2.5 值整体上大致符合正态分布, PM2.5 最大值大部分处于 50 到200 之间,少部分处于500 左右,属于严重污染天气。

4.3 绘制统计图分析pm2.5最大值按月变化趋势

操作步骤如下所示:
a) 图形—>图表构建程序;
b) 库选项卡:选择条图组,将简单条形图拖放至画布;
c) 将month拖放至X轴框;
d) 将Value_max拖放至Y轴框;
e) 元素属性对话框:将统计量框改为中位数,选中显示误差条图复选框,应用;
f) 点击“确定”.
统计图如下:
image.png
结果分析:
由图可知,PM2.5最大值主要1、2月和11、12月,这四个月的雾霾情况比较严重,因此在后续的分析过程中应当以这四个月为主要的分析对象。

4.4 绘制统计图分析pm2.5中位数按年变化趋势

操作步骤如下所示:
a) 图形—>图表构建程序;
b) 库选项卡:选择条图组,将简单条形图拖放至画布;
c) 将year拖放至X轴框;
d) 将Value_max拖放至Y轴框;
e) 元素属性对话框:将统计量框改为中位数,选中显示误差条图复选框,应用;
f) 点击“确定”.
结果如下:
image.png
结果分析:
从结果可以看出,大体趋势上北京地区的 PM2.5 值是呈下降的趋势,但是由于交叉图结果我们认识到,2017 年秋冬季节的PM2.5 数据是丢失的,而上文提到,一年中 PM2.5 值最高的月份也是 1、2 月和 11、12 月,因此存在数据虚低的情况。但就分析 2009 年到 2016 年的数据可以看出,PM2.5 值依然有一个明显的降趋势,也可以一定程度的反映实际 PM2.5 的变化趋势。

4.5 计算出每日浓度均值,统计每年pm2.5超过150和未到55的天数,绘制统计图,分析空气情况对健康影响的变化趋势

操作步骤如下所示:
在spss软件中计算均值,将自变量设为day,因变量设为Value_max,可的图如下


Value_max
Day 均值 N 标准差
1 152.39 105 109.728
2 144.13 104 104.116
3 166.50 107 118.747
4 174.26 105 124.561
5 157.07 103 98.306
6 163.41 104 116.557
7 168.89 104 113.537
8 163.16 107 117.106
9 154.15 106 118.760
10 142.71 106 101.116
11 141.16 107 85.135
12 138.58 106 110.768
13 156.66 107 113.129
14 158.30 105 135.713
15 170.47 104 132.016
16 173.63 104 111.152
17 175.52 106 107.299
18 183.97 107 138.694
19 181.04 106 127.996
20 177.77 105 123.331
21 172.50 108 134.176
22 176.15 107 136.975
23 167.01 107 142.916
24 166.89 105 120.994
25 156.77 104 116.095
26 169.07 105 118.278
27 164.23 105 109.766
28 171.86 106 118.859
29 183.86 99 121.278
30 165.89 99 115.858
31 160.06 62 108.737
总计 164.48 3215 118.684

再将pm2.5>150和pm2.5<55的当作一个满足条件的个案,统计每年的个数

Year

频率 百分比 有效百分比 累积百分比
有效 2008 108 5.8 5.8 5.8
2009 178 9.6 9.6 15.4
2010 228 12.3 12.3 27.8
2011 213 11.5 11.5 39.3
2012 223 12.0 12.0 51.3
2013 217 11.7 11.7 63.0
2014 211 11.4 11.4 74.4
2015 192 10.4 10.4 84.8
2016 193 10.4 10.4 95.2
2017 89 4.8 4.8 100.0
合计 1852 100.0 100.0

image.png
结果分析:
由上两图结果对比我们可以直观的看出,随着时间的推移,pm2.5超过150和未到55的天数,先增加后减少,空气污染先上升后下降,除去 2017 年由于数据不完整导致的结果外,PM2.5 小于 55 的天数在逐年增加,而大于 150 的天数逐年减少。按照我国认定的标准,PM2.5 值日均浓度在 150 以上,非常不利于健康,而在 55 以下则认定对建康没有影响。由此也可以得出北京的天气在党和国家的治理下质量变的越来越好,对人也越来越健康。

4.6 统计每年最大pm2.5值<100的比例,和最大pm2.5值>200的比例,并绘制统计图分析其变化情况

操作步骤:
a) 图形—>图表构建程序;
b) 库选项卡:选择条图组,将简单条形图拖放至画布;
c) 将year拖放至X轴框;
d) 将Value_max拖放至Y轴框;
e) 元素属性对话框:将统计量框改为小于100的百分比。
f) 元素属性对话框:将统计量框改为大于200的百分比。

PM2.5小于100的图像如下所示:
image.png
PM2.5大于200的图像如下所示:
image.png
结果分析:
根据结果可以看出,可知PM2.5<100基本成上升趋势,PM2.5>200整体呈现下降趋势,说明了污染不严重的情况正在逐渐增多,即空气质量逐渐提升

极端天气分析
image.png
结果分析:
可以看出,极端天气极少,整体的趋势在 12、13 年有一个数据跳跃之后有所下降,而在 15 年又一次反弹。 综合上述分析,其结果基本符合事实规律,北京地区的天气状况有明显改 善,整体质量有所提高,而最直观的表现也就是 PM2.5 值的变化,至少来说没有出现污染情况加剧的情形。从数据看来,在 PM2.5 高发的季节,情况依然不 乐观,有待进一步提高治理。

历史波动分析
对月均pm2.5最大值使用时间序列预测模型分析。
对月均pm2.5最大值使用时间序列预测模型分析。
对年份做平移处理,使得冬季为月份值从 10 起到 14 终,并最终选择月份值大于 10 的数据按年份做统计图,结果如下:
image.png
进一步我们做出无污染健康天气的变化话情况,即 PM2.5 值小于 55 的冬季天数情况,结果如下:
image.png
结果分析:
从上两张图我们可以看出虽然北京地区的 PM2.5 值整体有下降趋势,但是冬 季的 PM2.5 值的变化情况波动依然很大,并且整体水平依然没有明显下降。

五、总结

通过使用北京雾霾的历史数据进行分析可知,冬季常常为一年中 PM2.5 污染较为严重的时段;PM2.5 的值在整体上呈下降趋势,若以PM2.5的浓度变化为标准,在近年来没有恶化,实际上还可能存在明显好转迹象,即空气质量逐渐变好。