数据及属性

数据类型

  1. 记录数据:关系型记录(数据库中)、数据矩阵、交易数据、文档数据等
  2. 图&网络:交通网络、万维网、分子结构、社交网络等
  3. 有序数据:视频数据(连续图片)、时间数据(时间序列)、顺序数据(连续交易记录、基因序列)等
  4. 空间、图片与多媒体数据:地图、图片、视频等

结构化数据的四个特征

  1. 维度(Dimensionality)
  2. 稀疏程度(Sparsity)
  3. 解析度(Resolution)[比如全脂牛奶是牛奶的细分一级]
  4. 分布(Distribution)

属性

非数字类型的属性

  1. 名词性属性:类别状态的数据,或者一类名称(比如,红、绿、蓝)
  2. 二元性属性:只有2个状态的数据(比如,男/女)
  3. 有序属性:有一定排序含义的数据(比如,小、中、大)

数字类型的属性

  1. 数量性属性:整数或实数等
  2. 间隔性属性:基于等间隔测量的属性(比如,日历)
  3. 比率性属性:百分比等

离散属性 vs. 连续属性

离散属性(Discrete Attribute)

  • Has only a finite or countably infinite set of values
  • Sometimes, represented as integer variables
  • Binary attributes are a special case of discrete attributes

连续属性(Continuous Attribute)

  • Has real numbers as attribute values
  • Practically, real values can only be measured and represented using a finite number of digits
  • Continuous attributes are typically represented as floating-point variables

统计指标

衡量中心趋势

均值(Mean)

数据预分析 - 图1是sample的大小:数据预分析 - 图2数据预分析 - 图3是population的大小:数据预分析 - 图4,加权算数平均: 数据预分析 - 图5

中位数(Median)

数据预分析 - 图6

中位数.png

众数(mode)

众数:数据集中出现频率最高的

Empirical formula(单众数情况):数据预分析 - 图8

对称与倾斜数据(Symmetric vs. Skewed data)

Symmetric vs. Skewed data1.pngSymmetric vs. Skewed data2.png

衡量数据分布

正态(高斯)分布性质

正态分布性质.png

方差与标准差

方差:sample:数据预分析 - 图12,population:数据预分析 - 图13

数据预分析 - 图14 分母是数据预分析 - 图15原因

数据预分析 - 图16

标准差:方差的平方根

图示数据离散

箱型图(Boxplot):只展示5个数数据预分析 - 图17的总结

分位图(Quantile plot):每个数据预分析 - 图18值对应的数据预分析 - 图19表示大概数据预分析 - 图20的数据比数据预分析 - 图21

数据预分析 - 图22

柱状图(Histogram):横轴表示值,纵轴表示频率

点图(Scatter plot):散点图

数据可视化

几何映射可视化(Geometric Projection Visualization Techniques)

  1. Direct visualization
  2. Scatter plot and scatter plot matrices
  3. Landscapes
  4. Projection pursuit technique
  5. Prosection views
  6. Hyperslice
  7. Parallel coordinates

基于图标的可视化(Icon-based Visualization Techniques)

经典方法:Chernoff Faces, Stick Figures

常规方法:

  • Shape coding:用形状表示某种信息编码特性
  • Color icons:用带颜色图标表示更多信息
  • Tile bars:用小图标表示文档检索相关特征向量

层级可视化(Hierarchical Visualization Techniques)

  1. Dimensional Stacking
  2. Worlds-within-Worlds
  3. Tree-Map
  4. Cone Trees
  5. InfoCube

复杂数据及其关系可视化(Complex Data and Relations)

1、Tag Cloud 2、Social Network

相似度与距离

数字数据属性

Z-score

数据预分析 - 图23数据预分析 - 图24是需要标准化数据,数据预分析 - 图25是统计均值,数据预分析 - 图26是标准差。即计算与均值差几个标准差

马氏距离(Mahalanobis distance)

数据预分析 - 图27

其中,数据预分析 - 图28:(数据预分析 - 图29 norm) Manhattan (or city block) distance

数据预分析 - 图30

其中,数据预分析 - 图31:(数据预分析 - 图32 norm) Euclidean distance

数据预分析 - 图33

其中,数据预分析 - 图34:(数据预分析 - 图35 norm, 数据预分析 - 图36 norm) “Supremum” distance

数据预分析 - 图37

马氏距离.png

二元数据属性

object j object j object j
1 0 sum
object i 1 q r q+r
object i 0 s t s+t
object i sum q+s r+t p

对称二元变量:数据预分析 - 图39

非对称二元变量:数据预分析 - 图40

Jaccard系数(非对称二元变量的相似度):数据预分析 - 图41

二元属性.png

分类数据属性

比如颜色(红,黄,蓝,绿…)

Simple matching

数据预分析 - 图43数据预分析 - 图44:匹配个数,数据预分析 - 图45:变量个数

Use a large number of binary attributes

Creating a new binary attribute for each of the M nominal states

有序数据属性

比如年级(大一,大二,大三,大四)

数据预分析 - 图46映射到数据预分析 - 图47区间,eg. 大一:0;大二:1/3;大三:2/3;大四:1

混合数据属性

包含多种类型属性:数据预分析 - 图48,即加权去算

比较两向量

余弦距离:数据预分析 - 图49,分子为向量点积,分母为向量长度相乘

余弦距离.png

比较两概率分布

KL散度(KL Divergence):

离散数据:数据预分析 - 图51

连续数据:数据预分析 - 图52

马尔可夫与切比雪夫不等式

切比雪夫不等式,描述了这样一个事实,事件大多会集中在平均值附近,比如假如中国男人平均身高1.7m,那么不太可能出现身高17m的巨人。而切比雪夫不等式是马尔可夫不等式的一个特殊形式。

马尔可夫不等式

数据预分析 - 图53,其中数据预分析 - 图54

马尔可夫不等式.gif

马尔可夫不等式证明

如上图,数据预分析 - 图56其实就是绿色部分面积:

数据预分析 - 图57

由于数据预分析 - 图58数据预分析 - 图59所以数据预分析 - 图60

数据预分析 - 图61

根据期望的定义:

数据预分析 - 图62

显然数据预分析 - 图63,所以综合上面两式:

数据预分析 - 图64

因为数据预分析 - 图65为常数,数据预分析 - 图66

数据预分析 - 图67

马尔可夫不等式例子

计算百万年薪人概率,数据人均收入数据预分析 - 图68:51350元,人均收入标准差数据预分析 - 图69:44000元

根据马尔可夫不等式:数据预分析 - 图70

也就是说20个人中就有一个年薪百万的

切比雪夫不等式

数据预分析 - 图71

切比雪夫不等式.gif

切比雪夫不等式证明

数据预分析 - 图73代入马尔可夫不等式数据预分析 - 图74

数据预分析 - 图75

等价于:

数据预分析 - 图76

数据预分析 - 图77(可知数据预分析 - 图78):

数据预分析 - 图79

切比雪夫不等式例子

还是之前的数据:计算百万年薪人概率,数据人均收入数据预分析 - 图80:51350元,人均收入标准差数据预分析 - 图81:44000元

根据马尔可夫不等式:数据预分析 - 图82

也就是说1000个人中就有两个年薪百万的

知道数据均值、方差等数据,根据切比雪夫不等式可以得到置信区间大于多少的至少需要多少数据量:

数据预分析 - 图83

Source

https://github.com/chmx0929/UIUCclasses/blob/master/412DataMining/PDF/02Data.pdf
https://www.zhihu.com/question/27821324
https://www.zhihu.com/question/20099757