一、Cloudera Manager 的架构原理

1、架构如下图所示:

1490660-e1eaa3fb0ec2ff03.png

2、主要由如下几部分组成:

2.1、服务端Server :

  • Cloudera Manager 的核心。主要用于管理 web server 和应用逻辑。它用于安装软件,配置,开始 和停止服务,以及管理服务运行的集群。

    2.2、代理agent :

  • 安装在每台主机上。它负责启动和停止的进程,部署配置,触发安装和监控主机。

    2.3、数据库Database :

  • 存储配置和监控信息。通常可以在一个或多个数据库服务器上运行的多个逻辑数据库。例如,所 述的 Cloudera 管理器服务和监视后台程序使用不同的逻辑数据库。

    2.4、Cloudera Repository :

  • 用于软件分发由 Cloudera 软件仓库。

    5、客户端Clients :

  • 提供了一个与 Server 交互的接口 : 管理平台 /Admin Console :提供一个管理员管理集群和 Cloudera Manage 的基于网页的交互界面。 API :为开发者提供了创造自定义 Cloudera Manager 程序的 API。

    二、CDH简单介绍及体系架构

    1、官网介绍:

  1. CDH是Cloudera的100%开源平台发行版,包括Apache Hadoop,专为满足企业需求而构建。CDH提供开箱即用的企业使用所需的一切。通过将Hadoop与十几个其他关键的开源项目集成,Cloudera创建了一个功能先进的系统,可帮助您执行端到端的大数据工作流程。
  2. 简单来说:CDH 是一个拥有集群自动化安装中心化管理集群监控报警功能的一个工具(软件),使得集群的安装可以从几天的时间缩短为几个小时,运维人数也会从数十人降低到几个人,极大的提高了集群管理的效率。

    2、为什么选择CDH部署Cluster

  3. CDH基于稳定版Apache Hadoop,并应用最新Bug修复或者Feature的Patch

  4. Cloudera官网上安装、升级文档十分详细
  5. CDH支持Yum包、tar包、RPM包,Cloudera Manager四种安装方式。推荐使用Yum、Apt方式安装
  6. 对于CDH的安装,后期我会分别使用yum和Cloudera Manager两种方式进行安装。在这里先说下Cloudera Manager的功能。

3、Cloudera Manager的功能

  1. 管理:对集群进行管理,例如添加、删除节点等操作
  2. 监控:监控集群的健康情况,对设置的各种指标和系统的具体运行情况进行全面的监控
  3. 诊断:对集群出现的各种问题进行诊断,并且给出建议和解决方案
  4. 集成:多组件可以进行版本兼容间的整合

    4、CDH架构图

    20190126140646949.png
  • 以上所画图只是一些基础,还有很多大数据组件没有画

    4.1、数据整合

  1. flume主要是日志采集组件,可以从tomcat服务日志或者nginx日志中获取产生的日志
  2. sqoop主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库
  3. nfs是FreeBSD支持的文件系统中的一种,它允许网络中的计算机之间通过TCP/IP网络共享资源。在NFS的应用中,本地NFS的客户端应用可以透明地读写位于远端NFS服务器上的文件,就像访问本地文件一样

    4.2、HDFS

  4. hdfs是一个分布式文件存储系统,可以将大量的大文件进行存储,它和其他的分布式文件系统的主要区别是它是一个高容错的系统,适合部署在廉价的机器上,并且hdfs能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

    4.3、Hbase

  5. 官网解释:

  • 当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase™。该项目的目标是托管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上。Apache HBase是一个开源的,分布式的,版本化的非关系数据库,模仿Google的Bigtable: Chang等人的结构化数据分布式存储系统。正如Bigtable利用Google文件系统提供的分布式数据存储一样,Apache HBase在Hadoop和HDFS之上提供类似Bigtable的功能。
  1. Hbase的结构图20190126142058648.png