可视化图形原理

    按照具体取值形式的不同,数值变量可以分为离散变量和连续变量。

    如果离散变量只有少数几个可能的取值,那么对这样的离散数据可以采取与类别数据类似的方法制作频数分布表,即分别统计一组数据中每一个取值出现的次数和所占的百分比。

    大多数情况下,离散变量的可能取值往往较多,而连续变量是在区间范围内取值,均不适合一一列举。因此,对数值数据进行描述分析,通常需要先分组,再制作频数分布表。

    图形的构成

    图的构成要素

    图表区(画图)

    网格线

    绘图区

    轴标题

    坐标轴

    图表标题(title)

    数据标签

    图例

    误差线

    趋势线

    涨\跌柱线

    类别数据的图形展示

    条形图(柱状图)

    用条形的长度表示各类别频数的多少,其宽度(表示类别)则是固定不变的。条形图的矩形是分开排列。主要展示分类数据。

    条形图的用途最广泛,它是最为简洁明了的基本图形。条形图用于二维数据之间的对比,利用条形的长短对比不同数据的差异。对于所有的中小规模数据集,条形图都工作得非常好;

    饼图

    是将一个圆划分成多个扇形,用每个扇形的面积(即角度)大小代表不同类别的频数在总频数中所占的百分比。它主要用于表示一个样本(或总体)中各组成部分的数据占据全部数据比例,对于研究结构性问题十分有用。

    饼图不是一种好操纵的图形,饼图最明显的两个局限在于它不能同时展示过多的数据类,也容易缩小不同类别的差距。使用饼图时的通常做法是将一个整圆切割为几个扇形,每个扇形代表一类数据,通过对不同扇形面积的比较来判断不同数据的差异。与条形图不同,人类很难区分出饼图中的细微差异,因此将一个饼图划分为过多的小扇形是没有意义的,同一个饼图中最多不要超过5个扇形。

    环形图

    环形图是将两个或两个以上的饼图叠放在一起,然后“挖去”中间的部分所构成的图形。

    环形图中用每一个环形代表不同的样本,同一个样本(同一个环)的不同构成部分则用环上的不同分段来表示。环形图与饼图的基本功能类似,但如果需要同时对比多个样本数据的构成结构,环形图将更为直观和简洁。

    数值数据的图表展示

    分组是将变量的所有取值划分为若干个区间,每一个区间作为一组,区间的最小值称为组下限,最大值称为组上限。分组应遵循“不重不漏”的基本原则,也就是不同区间的划分应该使得所有的数据都能够并且只能够被归属到某一个区间内。数值数据的分组步骤如下:

    首先,确定组数。一般情况下,一组数据所分的组数应不少于5组且不多于15组。实际应用时,可根据数据的多少和特点及研究目的来确定。计算组数的公式:组数=1+lgN/lg2

    其次,确定各组的组距。组距是每一组的区间范围,即组上限与组下限的差值。如果每一组的组距都相等,称为等距分组,否则为不等距分组。等距分组是最常见的分组方式,组距可根据全部数据的最大值和最小值及所分的组数来确定,计算公式为:组距=(最大值-最小值)÷组数

    直方图

    用于展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的。用横轴表示数据分组(宽度表示各组的组距),纵轴(高度)表示频数或频率。宽度和高度均有意义。由于分组数据具有连续性,直方图的各矩形通常是连续排列。主要展示数值型数据。

    气泡图

    可用于展示三个变量之间的关系,与散点图类似,绘制时将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用气泡的大小来表示。

    气泡图是散点图的升级版,它不但能够在三维空间里体现出数据的分布,还可以通过气泡的大小体现不同数据的重要度。还可以通过气泡的颜色体现数据的类别。例如,在词频分析中,一个单词出现的次数越多,这个单词就越大,这就是一种气泡图的经典变形。