技术架构 - 技术选型 - 《技术水库》

0 项目需求

考虑因素：

业务需求
数据量及规模 (1e+, 一天80-100G, 一年30T)
行业经验、技术选择及成熟度
开发维护成本
总成本预算

主要分4个方面：传送门

通常用 CDH(比较稳定)、Ambari 来部署管理

假设共一天 150w 活跃，平均 1e+ 数据(约 0.8k 一条)，80G左右，一年 80 * 365 = 约30T(无副本无压缩)

Hadoop 生态模式：
ods 与 dwd 层压缩后 50G, dws 层 50G, 3副本 300G, 一年=100T(压缩3副本), 其中 Kafka 2T。

3年：300T

机器配置：

实际上 3 台高配置作主节点，其他的可按分析查询性能看情况而定，
其中 kafka、zookeeper 推荐3台(8+32+2T, 千兆网络)即可。参考