第1章 问题
项目技术如何选型?
框架版本如何选型(Apache、CDH、HDP)
服务器使用物理机还是云主机?
如何确认集群规模?(假设每台服务器8T硬盘)
1.1 技术选型
技术选型主要考虑因素:数据量大小、业务需求、行业内经验、技术成熟度、开发维护成本、总成本预算。
- 数据采集传输:Flume,Kafka,Sqoop ,Logstash,DataX
- 数据存储: MySql,HDFS,clickhouse,HBase,Redis,MongoDB
- 数据计算:Hive,Tez,Spark,Flink,Storm
- 数据查询:Presto,Kylin ,Impala,Druid
- 数据可视化:Echarts、Superset、QuickBI、DataV
- 任务调度:Azkaban、Oozie
- 集群监控:Zabbix
- 元数据管理: Atlas
1.2框架版本选型
如何选择Apache/CDH/HDP版本
(1) Apache:运维麻烦,组件间兼容性需要自己调研。(一般大厂使用,技术实力雄厚,有专业的运维人员)(建议使用)
( 2) CDH:国内使用最多的版本,但CM不开源,今年开始要收费,一个节点1万美金。
(3)HDP:开源,可以进行二次开发,但是没有CDH稳定,国内使用较少1.3 具体版本型号
| 产品 | 版本 |
注意事项:框架选型尽量不要选择最新的框架,选择最新框架半年前左右的稳定版。 | | —- | —- | —- | | Hadoop | 3.1.3 | | | Flume | 1.9.0 | | | Kafka | 2.4.1 | | | Hive | 3.1.2 | | | sqoop | 1.4.6 | | | Java | 1.8 | | | Zookeeper | 3.5.7 | | | Prosto | 0.189 | | | Flink | 1.7 | | | Clickhouse | 21.2.3.15 | |
1.4 服务器选型
1.5 集群资源规划设计
1.6 测试集群服务器规划
服务名称 | 子服务 | 服务器 hadoop102 |
服务器 hadoop103 |
服务器 hadoop104 |
---|---|---|---|---|
HDFS | NameNode | √ | ||
DataNode | √ | √ | √ | |
SecondaryNameNode | √ | |||
Yarn | NodeManager | √ | √ | √ |
Resourcemanager | √ | |||
Zookeeper | Zookeeper Server | √ | √ | √ |
Flume(采集日志) | Flume | √ | √ | |
Kafka | Kafka | √ | √ | √ |
Flume(消费Kafka) | Flume | √ | ||
Hive | Hive | √ | ||
MySQL | MySQL | √ | ||
Sqoop | Sqoop | √ | ||
Presto | Coordinator | √ | ||
Worker | √ | √ | ||
Azkaban | AzkabanWebServer | √ | ||
AzkabanExecutorServer | √ | |||
Druid | Druid | √ | √ | √ |
Kylin | √ | |||
Hbase | HMaster | √ | ||
HRegionServer | √ | √ | √ | |
Superset | √ | |||
Atlas | √ | |||
Solr | Jar | √ | ||
Flink | Flink | √ | √ | √ |
Clickhouse | Clickhouse | √ | ||
服务数总计 | 18 | 9 | 9 |