0x01数据采集
包括内部数据采集和外部数据采集。
内部数据采集是应用企业内部经营数据,涉及到数据埋点,数据库查询;
外部数据采集是通过一些方法获取企业外部数据,如国家公开数据,涉及到爬虫。
以上都是二手数据。
一手数据,指的是通过调查和实验获得,多见于市场调研和科学研究。
0x02数据处理和变换
包括数据预处理和数据挖掘两个过程。
预处理是对数据中的噪声和误差进行处理,保证数据的质量;
挖掘是进行统计描述分析以及数据特征,模式等的探索。
常见的数据质量问题:
(1)错误数据:包含了不该有的数据
(2)离群数据:异常值
(3)缺失数据:属性缺失或者数据值缺失
(4)不一致数据:非法数据,存在关联的数据之间关联性错误
(5)重复数据
基于业务的二次数据处理:
(1)降维
(2)数据聚类和切分
(3)抽样统计
(4)统计学和机器学习方法
0x03可视化映射(核心)
指将处理后数据信息映射成可视化元素的过程。
可视化元素=可视化空间+标记+视觉通道。
(1)可视化空间:二维或三维
(2)标记:数据属性到可视化几何图形元素的映射。
根据空间自由度的差别,标记可分为点,线,面,体。分别具有零自由度,一维,二维,三维自由度。 比如:散点图:点;折线图:线;矩形树图:面;三维柱状图:体。
(3)视觉通道:从数据属性的值映射到视觉呈现参数。
通常展示的是数据属性的定量信息。
常用的视觉通道包括:标记的位置、大小(长度、面积、体积…)、形状(三角形、圆、立方体…)、方向、颜色(色调、饱和度、亮度、透明度…)等。
比如,散点图就利用了标记的位置和颜色;矩形树图利用了大小和颜色
0x04用户交互
可视化的目的,是为了反映数据的数值、特征和模式,以更加直观、易于理解的方式,将数据背后的信息呈现给目标用户,辅助其作出正确的决策。
常见交互方式:
(1)滚动和缩放:解决展示屏幕的分辨率过小问题
(2)颜色映射的控制:配置可视化图形颜色
(3)数据映射方式的控制:选择可视化的数据属性和维度
(4)数据细节层次控制:点击显示,根据选择的维度显示
0x05用户感知
被动感知图形;
自主交互:可视化参数或维度的选择