定义

数据清洗:重新检查和验证数据的过程,旨在删除重复信息,纠正现有错误并提供数据一致性
数据清洗作为数据预处理中至关重要的环节,清洗后数据的质量很大程度上决定了后续研究型数据分析的结果准确性

分类

可避免型脏数据

  • 可以直接通过简单处理成为有效数据或人为修改避免的

例如命名不规范导致的错误、拼写错误、输入错误、空值等造成的脏数据

  • 可以通过Excel对脏数据进行筛选处理

    不可避免型脏数据

    主要形式包括异常值、重复值、空值等,此类脏数据的处理,就需要运用一些统计学知识进行侦察与填补

    异常值:

    常用侦察手段3σ定律检验
    (假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除,一般而言这个区间是平均值正负三个标准差,因此称3σ定律)

    重复值:

    拿到数据后,我们先要校验一下是否存在重复记录;如果存在重复记录,删除重复数据,以免重复计入导致数据准确性下降

    空值:

    1、半数以上或者全为为空值——从指标有效性角度出发考虑,是否删除对应指标
    2、存在空值(但空值数量不多),且总体数据样本量大——因为数据样本充足,可以考虑对存在nan值的样本进行过滤,采用无nan值样本
    3、存在空值(但空值数量不多),且样本总体数量有限,故而不能像场景2一样,对有nan值的数据进行抛弃,需要利用数学统计方法,选取合适值对nan值进行填充