来源: 2021-09-26 清洗数据?(方式,注意事项或其他)
数据清洗注意事项
- 首先要清楚清洗的目的;
- 其次要清楚哪些表、字段需要清洗及清洗的规则(凭经验、问业务),还得做好清洗与否的影响分析;
- 然后通过一些的手段或工具(SQL、UDF、存过、MR、Spark、Python、等等)进行数据清洗操作;
- 再然后,检查清洗后的数据是否达到既定的要求或是否满足业务;
- 最后,可以把没问题的清洗流程固化到ETL流程、调度中(取决于实际场景),后续不断完善相关清洗规则等。
最好是能赋能上游,从源头就解决数据问题,清洗治标不治本。
数据清洗过程
数据预处理阶段
一是将数据导入处理工具。
二是看数据(元数据和人工查看部分数据)。
数据处理阶段
缺失值清洗
- 确定缺失值范围:对每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性,分别制定策略,
- 去除不需要的字段。
- 填充缺失内容。
重新取数:如果某些指标非常重要又缺失率高,那就需要和取数人员或业务人员了解,是否有其他渠道可以取到相关数据。
格式内容清洗
简单来说,格式内容问题有以下几类:
时间、日期、数值、全半角等显示格式不一致,这时将其处理成一致的某种格式即可。
- 内容中有不该存在的字符,这时找出可能存在的问题,并去除不需要的字符即可。
-
逻辑错误清洗
去重
- 去除不合理值
- 修正矛盾内容
非需求数据清洗
把不要的字段删了。关联性验证
如果你的数据有多个来源,那么有必要进行关联性验证。严格意义上来说,这已经脱离数据清洗的范畴了,而且关联数据变动在数据库模型中就应该涉及。多个来源的数据整合是非常复杂的工作,一定要注意数据之间的关联性,尽量在分析过程中不要出现数据之间互相矛盾,而你却毫无察觉的情况。