1. Hadoop

Hadoop apache 基金会开发的分布式系统基础架构

主要解决 海量数据的存储和海量数据的分析计算问题

广义来说,hadoop通常是指一个更广泛的概念 hadoop生态圈

2. hadoop 三大发行版

apache 版本 最原始(基础)的版本 入门学习较好

http://archive.apache.org/dist/hadoop/core/

cloudera 内部集成了很多大数据框架 对应产品 CDH

hortonworks 文档较好 对应产品 HDP

cloudera 和 hortonworks 目前两家已经合并

3. Hadoop 的优势

  1. 高可靠性
  2. 高扩展性
  3. 高效性
  4. 高容错性

4. Hadoop 组成

01. Hadoop - 图1

4.1. HDFS 架构

  1. NameNode(nn) 存储文件的元数据 如文件名,目录结构 文件失效 以及每个文件的块列表和块所在的DataNode
  2. DataNode(dn) 在本地文件系统存储文件块数据 以及块数据的校验和
  3. Secondary NameNode(2nn) 每隔一段时间对NameNode元数据备份 不是热备份 2nn是nn的辅助

4.2. YARN 架构

负责资源调度 CPU和内存资源

01. Hadoop - 图2

4.3. MapReduce 框架

  • Map阶段并行处理输入数据 分发
  • Reduce阶段对Map结果进行汇总

01. Hadoop - 图3

4.4. 大数据技术生态体系

01. Hadoop - 图4