一、数据清洗
常见清洗场景如:
- 去除前端遗留的无用字段
- 过滤uid|imei|sessionid|deviceid|mac|androidid全为空的记录
- 过滤缺少关键字段的记录,比如eventid
- 过滤json格式不正确的记录
二、数据解析
如:将json扁平化
三、数据集成
常见场景:
- 将日志中的经纬度解析成省、市、区相关信息
- 集成商圈信息
四、数据修正
常见场景:
- 回补uid,如:用户上午未登录访问,下午登录访问,则回补上午未登录访问记录的uid
- 字段名称统一,如:web端未pgid、app端为screenid,则统一为pageid
- 字段度量统一,如:将各个端的时间精确到毫秒
- 字段表现形式统一,如:将时间统一为yyyy-MM-dd HH:mm:ss形式
