第六章的内容主要从工程的角度来看推荐系统,分为三个部分:
- 批处理大数据架构
- 传统数据库很难处理海量数据的存储和计算->DFS/HDFS分布式存储诞生->MapReduce框架诞生
- 分布式存储+mapreduce只能处理静态数据(已经落盘的数据),无法在数据的采集传输过程中处理
- 流计算大数据架构
- 在数据流产生及传递的过程中流式地消费并处理,数据在一个时间窗口内被消费
- 滑动窗口的大小基本以分钟级别居多,相比批处理,时间延迟大大缩小
- 可以对多个不同数据流进行join,在同一个时间窗口内进行整合处理
- 一个流计算环节的输出可以作为下游应用的输入
- 数据处理延迟小,但数据合法检查、全量数据分析的场景不适用
- Lambda架构
- Lambda架构从最开始的数据收集阶段裂变为两条分支:实时流 和离线处理
- 实时流部分保证实时性,离线批处理部分保证最终的一致性
- 兼具实时和全面性,但是存在大量逻辑冗余
Kappa架构
训练数据的处理
- 特征的预计算
经过大数据平台处理的数据流向: