第1章 问题

项目技术如何选型?
框架版本如何选型(Apache、CDH、HDP)
服务器使用物理机还是云主机?
如何确认集群规模?(假设每台服务器8T硬盘)

1.1 技术选型

技术选型主要考虑因素:数据量大小、业务需求、行业内经验、技术成熟度、开发维护成本、总成本预算。

  • 数据采集传输:Flume,Kafka,Sqoop ,Logstash,DataX
  • 数据存储: MySql,HDFS,clickhouse,HBase,Redis,MongoDB
  • 数据计算:Hive,Tez,Spark,Flink,Storm
  • 数据查询:Presto,Kylin ,Impala,Druid
  • 数据可视化:Echarts、Superset、QuickBI、DataV
  • 任务调度:Azkaban、Oozie
  • 集群监控:Zabbix
  • 元数据管理: Atlas

    1.2框架版本选型

    如何选择Apache/CDH/HDP版本
    (1) Apache:运维麻烦,组件间兼容性需要自己调研。(一般大厂使用,技术实力雄厚,有专业的运维人员)(建议使用)
    ( 2) CDH:国内使用最多的版本,但CM不开源,今年开始要收费,一个节点1万美金。
    (3)HDP:开源,可以进行二次开发,但是没有CDH稳定,国内使用较少

    1.3 具体版本型号

    | 产品 | 版本 |





    注意事项:框架选型尽量不要选择最新的框架,选择最新框架半年前左右的稳定版。 | | —- | —- | —- | | Hadoop | 3.1.3 | | | Flume | 1.9.0 | | | Kafka | 2.4.1 | | | Hive | 3.1.2 | | | sqoop | 1.4.6 | | | Java | 1.8 | | | Zookeeper | 3.5.7 | | | Prosto | 0.189 | | | Flink | 1.7 | | | Clickhouse | 21.2.3.15 | |

1.4 服务器选型

image.png

1.5 集群资源规划设计

image.png

1.6 测试集群服务器规划

服务名称 子服务 服务器
hadoop102
服务器
hadoop103
服务器
hadoop104
HDFS NameNode

DataNode
SecondaryNameNode

Yarn NodeManager
Resourcemanager

Zookeeper Zookeeper Server
Flume(采集日志) Flume
Kafka Kafka
Flume(消费Kafka) Flume

Hive Hive

MySQL MySQL

Sqoop Sqoop

Presto Coordinator

Worker
Azkaban AzkabanWebServer

AzkabanExecutorServer

Druid Druid
Kylin


Hbase HMaster

HRegionServer
Superset


Atlas


Solr Jar

Flink Flink
Clickhouse Clickhouse

服务数总计
18 9 9