来源: 2021-09-26 清洗数据?(方式,注意事项或其他)

数据清洗注意事项

  1. 首先要清楚清洗的目的;
  2. 其次要清楚哪些表、字段需要清洗及清洗的规则(凭经验、问业务),还得做好清洗与否的影响分析;
  3. 然后通过一些的手段或工具(SQL、UDF、存过、MR、Spark、Python、等等)进行数据清洗操作;
  4. 再然后,检查清洗后的数据是否达到既定的要求或是否满足业务;
  5. 最后,可以把没问题的清洗流程固化到ETL流程、调度中(取决于实际场景),后续不断完善相关清洗规则等。

最好是能赋能上游,从源头就解决数据问题,清洗治标不治本。

数据清洗过程

数据预处理阶段

一是将数据导入处理工具。
二是看数据(元数据和人工查看部分数据)。

数据处理阶段

缺失值清洗

  1. 确定缺失值范围:对每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性,分别制定策略,
  2. 去除不需要的字段。
  3. 填充缺失内容。
  4. 重新取数:如果某些指标非常重要又缺失率高,那就需要和取数人员或业务人员了解,是否有其他渠道可以取到相关数据。

    格式内容清洗

    简单来说,格式内容问题有以下几类:

  5. 时间、日期、数值、全半角等显示格式不一致,这时将其处理成一致的某种格式即可。

  6. 内容中有不该存在的字符,这时找出可能存在的问题,并去除不需要的字符即可。
  7. 内容与该字段应有内容不符,这时可将其数据去除即可。

    逻辑错误清洗

  8. 去重

  9. 去除不合理值
  10. 修正矛盾内容

    非需求数据清洗

    把不要的字段删了。

    关联性验证

    如果你的数据有多个来源,那么有必要进行关联性验证。严格意义上来说,这已经脱离数据清洗的范畴了,而且关联数据变动在数据库模型中就应该涉及。多个来源的数据整合是非常复杂的工作,一定要注意数据之间的关联性,尽量在分析过程中不要出现数据之间互相矛盾,而你却毫无察觉的情况。

附参考资料:
笔记学习-7(数据清洗)
笔记学习-9(数据预处理)