1. Hadoop
Hadoop apache 基金会开发的分布式系统基础架构
主要解决 海量数据的存储和海量数据的分析计算问题
广义来说,hadoop通常是指一个更广泛的概念 hadoop生态圈
2. hadoop 三大发行版
apache 版本 最原始(基础)的版本 入门学习较好
http://archive.apache.org/dist/hadoop/core/
cloudera 内部集成了很多大数据框架 对应产品 CDH
hortonworks 文档较好 对应产品 HDP
cloudera 和 hortonworks 目前两家已经合并
3. Hadoop 的优势
- 高可靠性
- 高扩展性
- 高效性
- 高容错性
4. Hadoop 组成
4.1. HDFS 架构
- NameNode(nn) 存储文件的元数据 如文件名,目录结构 文件失效 以及每个文件的块列表和块所在的DataNode
- DataNode(dn) 在本地文件系统存储文件块数据 以及块数据的校验和
- Secondary NameNode(2nn) 每隔一段时间对NameNode元数据备份 不是热备份 2nn是nn的辅助
4.2. YARN 架构
负责资源调度 CPU和内存资源
4.3. MapReduce 框架
- Map阶段并行处理输入数据 分发
- Reduce阶段对Map结果进行汇总