笔记-已完结 - 笔记学习-9（数据预处理） - 《数据笔记》

为什么数据处理很重要？
有哪些数据预处理的方法？
数据清理
数据集成
数据规约
- 维度规约
- 维度变换
数据变换
数据预处理方法介绍
- 缺失值处理方法分类
  - 均值插入法
  - 常值插入法
极端值处理方法分类
- 绝对值过大剔除法
- 使用历史数据替换

为什么数据处理很重要？

在数据项目中，数据处理相关的工作时间占据了整个项目大部分的时间。数据的质量，直接决定了模型的预测和泛化能力的好坏。在真实数据中，我们拿到的数据可能包含了大量的缺失值，可能包含大量的噪音，也可能因为人工录入错误导致有异常点存在，非常不利于算法模型的训练。数据清洗的结果是对各种脏数据进行对应方式的处理，得到标准的、干净的、连续的数据，提供给数据统计、数据挖掘等使用。

有哪些数据预处理的方法？

数据预处理的主要步骤分为：数据清理、数据集成、数据规约和数据变换。

数据清理

数据清理(data cleaning) 的主要思想是通过填补缺失值、光滑噪声数据，平滑或删除离群点，并解决数据的不一致性来“清理“数据。如果用户认为数据时脏乱的，他们不太会相信基于这些数据的挖掘结果，即输出的结果是不可靠的。

缺失值的处理

由于现实世界中，获取信息和数据的过程中，会存在各类的原因导致数据丢失和空缺。针对这些缺失值的处理方法，主要是基于变量的分布特性和变量的重要性（信息量和预测能力）采用不同的方法。

离群点处理

异常值是数据分布的常态，处于特定分布区域或范围之外的数据通常被定义为异常或噪声。异常分为两种：“伪异常”，由于特定的业务运营动作产生，是正常反应业务的状态，而不是数据本身的异常；“真异常”，不是由于特定的业务运营动作产生，而是数据本身分布异常，即离群点。

噪声处理

噪声是变量的随机误差和方差，是观测点和真实点之间的误差。通常的处理办法：对数据进行分箱操作，等频或等宽分箱，然后用每个箱的平均数，中位数或者边界值（不同数据分布，处理方法不同）代替箱中所有的数，起到平滑数据的作用。另外一种做法是，建立该变量和预测变量的回归模型，根据回归系数和预测变量，反解出自变量的近似值。

数据集成

数据分析任务多半涉及数据集成。数据集成将多个数据源中的数据结合成、存放在一个一致的数据存储，如数据仓库中。这些源可能包括多个数据库、数据方或一般文件。

实体识别问题：例如，数据分析者或计算机如何才能确信一个数据库中的 customer_id 和另一个数据库中的 cust_number 指的是同一实体?通常，数据库和数据仓库有元数据——关于数据的数据。这种元数据可以帮助避免模式集成中的错误。
冗余问题。一个属性是冗余的，如果它能由另一个表“导出”;如年薪。属性或维命名的不一致也可能导致数据集中的冗余。用相关性检测冗余：数值型变量可计算相关系数矩阵，标称型变量可计算卡方检验。
数据值的冲突和处理：不同数据源，在统一合并时，保持规范化，去重。
数据规约
数据规约技术可以用来得到数据集的归约表示，它小得多，但仍接近地保持原数据的完整性。这样，在归约后的数据集上挖掘将更有效，并产生相同(或几乎相同)的分析结果。一般有如下策略：
维度规约
用于数据分析的数据可能包含数以百计的属性，其中大部分属性与挖掘任务不相关，是冗余的。维度归约通过删除不相关的属性，来减少数据量，并保证信息的损失最小。
维度变换
维度变换是将现有数据降低到更小的维度，尽量保证数据信息的完整性。
数据变换
数据变换包括对数据进行规范化，离散化，稀疏化处理，达到适用于挖掘的目的。
规范化处理：数据中不同特征的量纲可能不一致，数值间的差别可能很大，不进行处理可能会影响到数据分析的结果，因此，需要对数据按照一定比例进行缩放，使之落在一个特定的区域，便于进行综合分析。特别是基于距离的挖掘方法，聚类，KNN，SVM一定要做规范化处理。
离散化处理：数据离散化是指将连续的数据进行分段，使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。
稀疏化处理：针对离散型且标称变量，无法进行有序的LabelEncoder时，通常考虑将变量做0，1哑变量的稀疏化处理，例如动物类型变量中含有猫，狗，猪，羊四个不同值，将该变量转换成is猪，is猫，is狗，is羊四个哑变量。若是变量的不同值较多，则根据频数，将出现次数较少的值统一归为一类’rare’。稀疏化处理既有利于模型快速收敛，又能提升模型的抗噪能力。

数据预处理方法介绍

缺失值处理方法分类

均值插入法

根据不同的情况,采用不同的缺失值处理办法。如对于缺失值比例高于30%的样本进行特定方法（如删除）处理（去除，替换等）。

常值插入法

对数据集的缺失数据值填充特定的常用值，以维持数据集的基本结构与分布，同时最大限度地保留与利用数据集信息。

极端值处理方法分类

绝对值过大剔除法

使用历史数据替换

附参考资料：
整理一份详细的数据预处理方法
 数据预处理-方法汇总
 数据挖掘-概念与技术

笔记学习-9（数据预处理）