数据仓库
数据仓库( Data Warehouse ),是为企业制定决策,提供数据支持的。可以帮助企业,改进业务流程、提高产品质量等。
离线数仓项目:https://blog.csdn.net/weixin_45417821/之前的尚硅谷4.0离线数仓项目
离线项目描述(可以用于项目描述):
该项目调用电商核心系统业务的移动端埋点 日志以及业务数据库来采集日志,通过 Flume + Kafka 将数据采集,用 Hive 将数据进行 清洗,过滤和加工,最后将计算结果落地到数据库里,前端可视化模块会定时查询数据库 数据,用户就可以通过大屏观看业务最新的数据,包括流量主题,用户主题和商品主题 等。具体显示的指标内容包含:用户活跃主题,用户新增主题,用户留存主题,沉默用 户,流失用户等等相关指标以及各主题细节指标等,此外,该项目还具有监控告警功能, 使用 Azkaban 调度对各种指标进行计算,失败会发出邮件告警功能。 整个大数据项目采用的都是高性能的大数据组件,保障项目不会有存储和查询的技能瓶 颈,整个项目模块包括数据采集,离线 ETL 批处理,运维监控和前端大屏可视化展示。
至于实时项目描述,后续全部学完在此地更新:
数据分类
业务数据
就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。通常用RDBMS数据库来保存
用户行为数据
用户在使用产品过程中,通过埋点收集与客户端产品交互过程中产生的数据,并发往日志服务器进行保存。比如页面浏览、点击、停留、评论、点赞、收藏等。用户行为数据通常存储在日志文件中。
用户行为数据使用Flume采集到HDSF ,RDBMS 数据使用DataX 来导入到HDFS
分层
ODS -> DWD -> DWS -> ADS
数仓分层可以用于备份,如果下一层数据发生丢失的情况下,可以从上一层重新执行。
在数据进行入库之前,进行数据清洗,脱敏等
ODS:原始数据
DWD:清洗ODS的原始数据
DWS:预聚合的数据 (按天/月聚合)
ADS:最终数据