三大发行版本

Hadoop三大发行版本：Apache、Cloudera、Hortonworks。

Hortonworks现在已经被Cloudera公司收购，推出新的品牌CDP

1.x,2.x,3.x区别

namenode(nn): 存储文件的元数据, 比如文件名, 目录结构, 文件属性(生成时间, 副本数, 文件权限),以及每个文件的块列表和块所在的DataNode等
DataNode(dn): 在本地文件系统中存储文件块数据, 以及块数据的校验和
Secondary NameNode(2nn): 每隔一段时间对namenode进行备份
Yarn架构

MapReduce架构
MapReduce将计算过程分为两个阶段：Map和Reduce
1）Map阶段并行处理输入数据
2）Reduce阶段对Map结果进行汇总
hdfs, yarn, mapreduce关系

HDFS模拟实现

分布式文件系统（HDFS）

具有分布式的集群结构我们把这样实际存储数据的节点叫做 datanode
具有一个统一对外提供查询存储搜索机器节点
对外跟客户端统一打交道
对内跟实际存储数据的节点打交道
具有备份的机制解决了机器挂掉时候数据丢失的问题
具有统一的API 对客户端来说不用操心你集群内部的事情只要我调用你的API，
我就可以进行文件的读取存储甚至是搜索
甚至我们希望可以提供一个分布式文件系统的引用 fs= new FileSystem()
fs.add .copy .rm

与其他文件系统不同的是,HDFS一个典型的数据块大小是128M(HDFS在2.7版本默认的64M升到128M),HDFS中的每个文件都会按照128MB切分成不同的数据块,每个数据块会按照设置的副本策略分布到不同的Datanode.

HDFS数据块远大于其他文件系统,这主要针对大规模的流式数据访问而做的优化.更大的数据块意味着更多文件顺序读写和更小的数据块管理开销

分布式的编程模型（MapReduce）
思想分而治之：先局部再总体
map(映射) reduce(聚合)
整天上作为一个编程模型：需要给用户提供一个友好便捷的使用规范
比如：你要继承什么东西配置什么怎么去调用怎么去执行

作为一个分布式计算框架最好我们还提供一个程序的总管（MrAppmater）用来管理这种分布式计算框架的内部问题：启动衔接等等

分布式资源管理（yarn）
为了更好的管理我们集群的资源最好设计成分布式的架构

需要一个统一对外提供服务的节点（某一机器或者机器上的一个进程一个服务）
叫做资源管理者 ResourceManager
需要在集群中的每台机器上有一个角色用来进行每台机器资源的管理汇报
叫做节点管理者 nodemanager
hadoop生态圈以及各组成部分的简介
各组件简介
重点组件：