聚类分析

一、基本概念

  • 聚类分析(cluster analysis)是研究“物以类聚”的一种现代统计分析方法,聚类分析的基本原则是将有较大相似性的对象归为同一类,而将差异较大的个体归入不同的类。

    二、聚类统计量

  • 数据的决策分析 - 图1#card=math&code=x%7Bij%7D%28i%3D1%2C2%2C%5Cldots%2Cn%3Bj%3D1%2C2%2C%5Cldots%2Cp%29&id=ESF8y) 为第i个样品的第j个指标的观测数据。即每个样品有p个变量,则每个样品都可以看成数据的决策分析 - 图2维空间中的一个点,n个样品就是p维空间中的n个点,定义 ![](https://g.yuque.com/gr/latex?d%7Bij%7D#card=math&code=d_%7Bij%7D&id=GtEnA) 为 数据的决策分析 - 图3 样品与 数据的决策分析 - 图4 的距离。

  • 聚类分析中最常用的计算样品间距离的方法是欧氏距离(Euclidean)
    数据的决策分析 - 图5%5E2%5D%5E%7B1%5Cover%202%7D#card=math&code=d%7Bij%7D%3D%5B%5Csum%5Climits%7Bk%3D1%7D%5Ep%28x%7Bik%7D-x%7Bjk%7D%29%5E2%5D%5E%7B1%5Cover%202%7D&id=SjoHP)

    三、聚类分析方法

  • 确定了距离后就要进行分类,分类有许多种方法,最常用的一类方法是在样品距离的基础上定义类与类之间的距离,首先将n个样品分成n类,每个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有的样品归为一类为止,并把这个过程作成一张聚类图,由聚类图可方便地进行分类。因为聚类图类似于一张系统图,所以这类方法就称为层次聚类法(hierachical clustering method)。

    四、聚类分析过程

  • (1) 计算n个样品两两间的距离 数据的决策分析 - 图6

  • (2) 构造n个类,每个类只包含一个样品;
  • (3) 合并距离最近的两类为一新类;
  • (4) 计算新类与当前各类的距离,若类个数为1,转到步骤(5),否则回到步骤(3);
  • (5) 画聚类图;
  • (6) 决定类的个数和类。
  • 如果对单个指标数据进行评价,通常只需计算其次序统计量和秩次。这里说的秩次即序数。是一组数据排序后对应的位置次序。如有以下一组数字:1,3,5,9,7,4。将它们排序后对应的秩次就是:1,2,4,6,5,3。
  • 如要对粤港澳大湾经济发展数据进行单变量综合分析,可对各指标进行编秩排名,由于这时是秩次,故可直接对其进行比较评价。
  • 但该方法不适于对多变量数据进行综合排序,因为数据之间单位和量纲有可能不同,无法直接相加,故而也就无法进行综合评价。要对指标进行综合评价,需首先对数据进行无量纲化。

    综合评价

    一、单指标分析

  • 如果对单个指标数据进行评价,通常只需计算其次序统计量和秩次。这里说的秩次即序数。是一组数据排序后对应的位置次序。如有以下一组数字:1,3,5,9,7,4。将它们排序后对应的秩次就是:1,2,4,6,5,3。

  • 如要对粤港澳大湾经济发展数据进行单变量综合分析,可对各指标进行编秩排名,由于这时是秩次,故可直接对其进行比较评价。
  • 但该方法不适于对多变量数据进行综合排序,因为数据之间单位和量纲有可能不同,无法直接相加,故而也就无法进行综合评价。要对指标进行综合评价,需首先对数据进行无量纲化。

    二、数据无量纲化

  • 虽然本实验的所有变量都是数值数据,但显然这些变量的单位和量纲还是不同的,通常需要将它们进行无量纲化转换。观测指标的无量纲化指通过某种变换方式消除各个观测指标的计量单位,使其统一、可比的变换过程。把数据无量纲化之后,在纵向上数据对比清晰,便于理解分析。

  • 这里我们采用规范化法对数据进行无量纲化处理,公式为:

数据的决策分析 - 图7%7D%7Bmax(x%7Bij%7D)-min(x%7Bij%7D)%7D%0A#card=math&code=z%7Bij%7D%3D%5Cfrac%7Bx%7Bij%7D-min%28x%7Bij%7D%29%7D%7Bmax%28x%7Bij%7D%29-min%28x_%7Bij%7D%29%7D%0A&id=HcyRV)

  • 这种无量纲方法的好处是,它不仅在纵向上消除了不同指标的不同数量级的影响,在横向上还能使得各地区的得分处于0~100之间,易于比较。

    三、综合指数的计算

  • 这里我们使用综合评分法来计算粤港澳大湾区经济运行的综合指数,该方法比较简单,实际上就是算每个地区13个规范化数据的算术平均值,即把各指标的规范化数据直接相加,得到一个总分,然后除以指标个数,最后根据这个平均得分的高低来判定评价地区经济运行的状况。

  • 数据的决策分析 - 图8

    预警监测

    一、景气分析

  • 景气运行信号图是分析预测经济状态和发展趋势的方法之一。进行宏观经济监测预警时,在所选择的一组反映经济发展状况的敏感性指标中,运用有关的数据处理方法,将指标转换成为一个综合性指标(本节采用的是规范化转换),并通过类似于一组交通管制信号灯的标志,对这组指标所反映的当时国民经济状况,发出不同的信号,通过观察分析信号的变动情况,来判断未来经济发展态势。当预警信号绿色灯时,表明经济景气比较稳定,可在稳定中采取一定的促进经济增长的措施;当预警信号黄色灯时,表明经济尚稳,但短期内有转热或趋稳的可能;当预警信号橙色灯时,表明经济稍热,若无适当措施,经济增长过热必将来临;当红色灯出现时,说明经济已经过热,必须采取有力的紧缩措施;当预警信号蓝色灯时,表明经济已进入萧条,必须采取强力刺激经济复苏的对策。

  • 在本实验中,由于对指标进行了规范化处理,所以我们可简单按下面五分位数法分组设置信号灯颜色:
  • 蓝色:[0,20);绿色:[20,40);黄色:[40,60);橙色:[60,80);红色:[80,100]

    二、经济预警监测

  • 宏观经济景气监测预警体系,是利用一系列经济指标建立起来的宏观经济“晴雨表”或“报警器”。它之所以能像“晴雨表”或“报警器”那样发挥监测和预警的作用,第一是因为经济本身在客观上存在着周期波动;第二是因为在经济波动过程中,经济运行中的一些问题可以通过一些指标率先暴露或反映出来。

  • 在本实验中,由于对指标进行了规范化处理,所以对综合指数可按下面分组设置预警监测区域颜色:
  • 红色区域:[80,100]
  • 橙色区域:[60,80)
  • 黄色区域:[40,60)
  • 绿色区域:[20,40)
  • 蓝色区域:[0,20)