1. Hadoop1.X和Hadoop2.X区别

Hadoop1.X包含MR、HDFS、Common(辅助工具)三部分,MR同时处理业务逻辑运算和资源的调度
Hadoop2.X新增Yarn,将资源调度从MR中抽离出来,Yarn只负责资源的调度,MR只负责运算。

2. Hadoop运行模式

2.1 单机(非分布式)模式

这种模式在一台机器上运行,没有分布式文件系统,直接读写本地操作系统的文件系统。

2.2 伪分布式运行模式

这种模式也是在一台单机上运行,但用不同的java进程模仿分布式运行中的各类节点(NameNode、DataNode、SecondaryNameNode、JobTracker、TaskTrack)。
注意分布式运行中的这几点节点的区别:
1.分布式存储的角度来说,集群中的节点由一个NN和若干个DN组成,另外有一个SNN作为NN备份
2.从分布式应用的角度来说,集群中的节点由一个JobTracker和若干个TaskTracker组成。JobTracker负责任务的调度,TaskTracker负责并行执行任务。TaskTracker必须运行在DN上,便于数据的本地计算。JobTracker和NN则无需在同一台机器上。
没有所谓的多台机器上进行真正的分布式计算,故称为”伪分布式”。

2.3 完全分布式模式

真正的分布式,由3个及以上的实体机或则虚拟机组成的机群。

3. 入门指导

3.1 配置文件

3.1.1 默认配置文件

文件名 文件存放在Hadoop的jar包位置 文件作用
core-default.xml hadoop-common-2.7.2.jar 配置NN的主机名称和端口号
数据存储的路径及方式(file/hdfs)
hdfs-default.xml hadoop-hdfs-2.7.2.jar 副本数
yarn-default.xml hadoop-yarn-common-2.7.2.jar RM、NM的配置
日志聚集和历史服务器
mapred-default.xml hadoop-mapreduce-client-core-2.7.2.jar

3.1.2 自定义配置文件

core-site.xml、hdfs-site.xml、yran-site.xml、mapred.xml四个配置文件放在$HADOOP_HOME/etc/hadoop这个路径下。
自定义配置文件优先级高于默认配置文件。

3.2 启动和停止方式

3.2.1 单节点组件启动/停止

启动/停止HDFS:hadoop-deamon.sh start/stop namenode/datanode/secondarynamenode
启动/停止Yarn:yarn-deamon.sh start/stop resourcemanager/nodemanager

3.2.2 集群启动

集群启动/停止HDFS:start-dfs.sh / stop-dfs.sh
集群启动/停止Yarn:start-yarn.sh / stop-yarn.sh

Hadoop组件概览

Hadoop.xmind
入门 - 图1