数据挖掘 - 第三章：数据预处理 - 《计算机专业课笔记》

3.1 数据清洗

因为初始的数据可能会出现以下几种问题：

比较好理解，就不解释了。

那我们清洗数据的时候就需要：

上面的两个数据库中，名字的属性一个是中文名字，一个是中文名字首字母缩写，所以合并的时候需要进行一个统一：

发生的原因可能有两个：

比如这里的两张表，一个单位肯定是米，另一个单位其实是英尺（课程里说的我也不知道是不是），所以集成在一个数据库的时候，需要统一单位。

这里就是统一成“米”

整合多个数据库经常发生数据冗余

Object identification:相同的属性或对象可能有不同的名字在不同的数据库中
Derivable data:一个属性可能是“派生”的另一个表中的属性。

第一个很好理解，类似于模式集成中的处理，第二个就好比有两个属性，一个是长度，一个是1/2的长度，显然只需要知道第一个就一定知道第二个属性，所以第二个属性就会被去除不做处理。

如果数据集比较大，特征数量比较多的情况下，怎么排查出冗余属性呢？
通过相关性分析和协方差分析可以检测到冗余的属性。

看一下协方差的公式：

Cov还可以化简：

E是求解平均数

对比一下：

性质如下：

接下来看个实例：
假设两只股票A和B具有在1个星期的以下值：

	第一天	第二天	第三天	第四天	第五天
股票A	2	3	5	4	6
**	5	8	10	11	14

问题:如果股票都受到同行业的趋势，他们的价格一起上升或下降?

首先分别计算两个股票的平均值：

由于只要看上升或者下降，就只需要计算Cov就可以了。
Cov(A,B) = ( 25 + 38 + 510 + 411 + 614)/4 - 49.6 = 4 >0

这里使用的是化简后的公式，是A和B对应属性值相乘求平均值 - 二者平均值相乘

所以很明显，价格一起上升。

由于数据仓库可以存储TB级别的数据，因此在一个完整的数据集上运行时，复杂的数据分析可能需要一个很长的时间。
数据规约包含下面三个内容：

降维
降数据
数据压缩

降维

什么是降维
很简单，比如原始的数据集中有n个特征，降维就是通过把n个特征转化为m(m<n)个特征，来达到减少存储开销和计算时间的目的。

为什么降维
随着维数的增加，数据会变得越来越稀疏
- 比如病例模型中，有些特征是和病因的关联不大，基本属于无效特征，所以需要降维减少这些无效特征。
子空间的可能的组合将成倍增长（这个了解即可，后面会再讲相关概念）
- 基于规则的分类方法，建立的规则将组合成倍增长
类似神经网络的机器学习方法，主要需要学习各个特征的权值参数。特征越多，需要学习的参数越多，则模型越复杂
- 机器学习训练集原则:模型越模型，需要更多的训练集来学习模型参数，否则模型将欠拟合。
- 因此，如果数据集维度很高，而训练集数目很少，在使用复杂的机器学习模型的时候，首选先降维。
维数太多，不便于可视化。