1. HDFS核心参数
- 1.1 NameNode内存生产配置
The maximum amount of heap to use (Java -Xmx). If no unit
is provided, it will be converted to MB. Daemons will
prefer any Xmx setting in their respective _OPT variable.
There is no default; the JVM will autoscale based upon machine
memory size.
export HADOOP_HEAPSIZE_MAX=
The minimum amount of heap to use (Java -Xms). If no unit
is provided, it will be converted to MB. Daemons will
prefer any Xms setting in their respective _OPT variable.
There is no default; the JVM will autoscale based upon machine
memory size.
export HADOOP_HEAPSIZE_MIN=
- ">
- 1.2 NameNode心跳并发配置
- 1.3 开启回收站配置
2. HDFS多目录
- 2.1 NameNode多目录配置
- 2.2 DataNode多目录配置
- 2.3 集群数据均衡之磁盘间数据均衡
3. HDFS集群扩容及缩容
- 3.1 添加白名单
- 3.2 服役新服务器
- 3.3 服务器间数据均衡
- 3.4 黑名单退役服务器
4. HDFS存储优化
- 4.1 纠删码
  - 4.1.1 纠删码原理
  - 4.1.2 纠删码案例实操
- 4.2 异构存储（冷热数据分离）
  - 4.2.1 异构存储Shell操作
- 4.3 小文件归档
5. HDFS集群迁移
- 5.1 Apache和Apache集群间数据拷贝
6. MapReduce生产经验
- 6.1 MapReduce跑的慢的原因
- 6.2 MapReduce常用调优参数
7. Hadoop-Yarn生产经验
- 7.1 常用的调优参数
8. Hadoop综合调优
- 8.1 Hadoop小文件优化方法
  - 8.1.1 Hadoop小文件弊端
  - 8.1.2 Hadoop小文件解决方案

1. HDFS核心参数

1.1 NameNode内存生产配置

NameNode内存计算

每个文件块大概占用150byte，一台服务器128G内存为例，能存储多少文件块呢？
128 1024 1024 * 1024 / 150Byte ≈ 9.1亿
Hadoop2.x系列，配置NameNode内存

NameNode内存默认2000m，如果服务器内存4G，NameNode内存可以配置3g。在hadoop-env.sh文件中配置如下。
HADOOP_NAMENODE_OPTS=-Xmx3072m
Hadoop3.x系列，配置NameNode内存

（1）hadoop-env.sh中描述Hadoop的内存是动态分配的

The maximum amount of heap to use (Java -Xmx). If no unit
is provided, it will be converted to MB. Daemons will
prefer any Xmx setting in their respective _OPT variable.
There is no default; the JVM will autoscale based upon machine
memory size.
export HADOOP_HEAPSIZE_MAX=
The minimum amount of heap to use (Java -Xms). If no unit
is provided, it will be converted to MB. Daemons will
prefer any Xms setting in their respective _OPT variable.
There is no default; the JVM will autoscale based upon machine
memory size.
export HADOOP_HEAPSIZE_MIN=
HADOOP_NAMENODE_OPTS=-Xmx102400m

（2）查看NameNode、DataNode占用内存

> jmap -heap pid

1.2 NameNode心跳并发配置

1）hdfs-site.xml

The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address is not configured then Namenode RPC server threads listen to requests from all nodes. NameNode有一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。 对于大集群或者有大量客户端的集群来说，通常需要增大该参数。默认值是10。
dfs.namenode.handler.count 21

企业经验：dfs.namenode.handler.count= Hadoop 生产调优策略 - 图7 ，比如集群规模（DataNode台数）为3台时，此参数设置为21。可通过简单的python代码计算该值，代码如下。

1.3 开启回收站配置

开启回收站功能，可以将删除的文件在不超时的情况下，恢复原数据，起到防止误删除、备份等作用。
1）开启回收站功能参数说明
（1）默认值fs.trash.interval = 0，0表示禁用回收站；其他值表示设置文件的存活时间。
（2）默认值fs.trash.checkpoint.interval = 0，检查回收站的间隔时间。如果该值为0，则该值设置和fs.trash.interval的参数值相等。
（3）要求fs.trash.checkpoint.interval <= fs.trash.interval。
2）启用回收站
修改core-site.xml，配置垃圾回收时间为1分钟。

<property>
  <name>fs.trash.interval</name>
  <value>1</value>
</property>

3）查看回收站
回收站目录在HDFS集群中的路径：/user/nkong/.Trash/….
4）注意：通过网页上直接删除的文件也不会走回收站。
5）通过程序删除的文件不会经过回收站，需要调用moveToTrash()才进入回收站

Trash trash = New Trash(conf);
trash.moveToTrash(path);

6）只有在命令行利用hadoop fs -rm命令删除的文件才会走回收站。

2. HDFS多目录

2.1 NameNode多目录配置

1）NameNode的本地目录可以配置成多个，且每个目录存放内容相同，增加了可靠性
2）具体配置如下
（1）在hdfs-site.xml文件中添加如下内容

<property>
  <name>dfs.namenode.name.dir</name>
  <value>file://${hadoop.tmp.dir}/dfs/name1,file://${hadoop.tmp.dir}/dfs/name2</value>
</property>

2.2 DataNode多目录配置

1）DataNode可以配置成多个目录，每个目录存储的数据不一样（数据不是副本）
2）具体配置如下
在hdfs-site.xml文件中添加如下内容

<property>
  <name>dfs.datanode.data.dir</name>
  <value>file://${hadoop.tmp.dir}/dfs/data1,file://${hadoop.tmp.dir}/dfs/data2</value>
</property>

2.3 集群数据均衡之磁盘间数据均衡

生产环境，由于硬盘空间不足，往往需要增加一块硬盘。刚加载的硬盘没有数据时，可以执行磁盘数据均衡命令。（Hadoop3.x新特性）
（1）生成均衡计划
hdfs diskbalancer -plan hadoop103
（2）执行均衡计划
hdfs diskbalancer -execute hadoop103.plan.json
（3）查看当前均衡任务的执行情况
hdfs diskbalancer -query hadoop103
（4）取消均衡任务
hdfs diskbalancer -cancel hadoop103.plan.json

3. HDFS集群扩容及缩容

3.1 添加白名单

白名单：表示在白名单的主机IP地址可以，用来存储数据。
配置白名单步骤如下：
1）在NameNode节点的/opt/module/hadoop-3.1.3/etc/hadoop目录下分别创建whitelist 和blacklist文件
创建白名单、黑名单：

> vim whitelist
hadoop102
hadoop103
> vim blacklist
hadoop104

2）在hdfs-site.xml配置文件中增加dfs.hosts配置参数

<!-- 白名单-->
<property>
  <name>dfs.hosts</name>
  <value>/opt/module/hadoop-3.1.3/etc/hadoop/whitelist</value>
</property>
<!-- 黑名单-->
<property>
  <name>dfs.hosts.exclude</name>
  <value>/opt/module/hadoop-3.1.3/etc/hadoop/blacklist</value>
</property>

3）第一次添加白名单必须重启集群，不是第一次，只需要刷新NameNode节点即可
刷新NameNode：hdfs dfsadmin -refreshNodes

3.2 服役新服务器

1）需求
随着公司业务的增长，数据量越来越大，原有的数据节点的容量已经不能满足存储数据的需求，需要在原有集群基础上动态添加新的数据节点。
2）服役新节点步骤
（1）直接启动DataNode，即可关联到集群
hdfs —daemon start datanode
yarn —daemon start nodemanager

3.3 服务器间数据均衡

1）企业经验：
在企业开发中，如果经常在hadoop102和hadoop104上提交任务，且副本数为2，由于数据本地性原则，就会导致hadoop102和hadoop104数据过多，hadoop103存储的数据量小。
另一种情况，就是新服役的服务器数据量比较少，需要执行集群均衡命令。
2）开启数据均衡命令：
sbin/start-balancer.sh -threshold 10：对于参数10，代表的是集群中各个节点的磁盘空间利用率相差不超过10%，可根据实际情况进行调整。
3）停止数据均衡命令：
sbin/stop-balancer.sh
注意：由于HDFS需要启动单独的Rebalance Server来执行Rebalance操作，所以尽量不要在NameNode上执行start-balancer.sh，而是找一台比较空闲的机器。

3.4 黑名单退役服务器

黑名单：表示在黑名单的主机IP地址不可以，用来存储数据。
企业中：配置黑名单，用来退役服务器。
黑名单配置步骤如下：
1）编辑/opt/module/hadoop-3.1.3/etc/hadoop目录下的blacklist文件

> vim blacklist
添加如下主机名称（要退役的节点）
hadoop105
注意：如果白名单中没有配置，需要在hdfs-site.xml配置文件中增加dfs.hosts配置参数
<!-- 黑名单-->
<property>
<name>dfs.hosts.exclude</name>
<value>/opt/module/hadoop-3.1.3/etc/hadoop/blacklist</value>
</property>

2）第一次添加黑名单必须重启集群，不是第一次，只需要刷新NameNode节点即可
3）检查Web浏览器，退役节点的状态为decommission in progress（退役中），说明数据节点正在复制块到其他节点
4）等待退役节点状态为decommissioned（所有块已经复制完成），停止该节点及节点资源管理器。注意：如果副本数是3，服役的节点小于等于3，是不能退役成功的，需要修改副本数后才能退役
5）如果数据不均衡，可以用命令实现集群的再平衡
sbin/start-balancer.sh -threshold 10

4. HDFS存储优化

4.1 纠删码

4.1.1 纠删码原理

HDFS默认情况下，一个文件有3个副本，这样提高了数据的可靠性，但也带来了2倍的冗余开销。Hadoop3.x引入了纠删码，采用计算的方式，可以节省约50％左右的存储空间。

1）纠删码操作相关的命令

> hdfs ec
Usage: bin/hdfs ec [COMMAND]
[-listPolicies]
[-addPolicies -policyFile <file>]
[-getPolicy -path <path>]
[-removePolicy -policy <policy>]
[-setPolicy -path <path> [-policy <policy>] [-replicate]]
[-unsetPolicy -path <path>]
[-listCodecs]
[-enablePolicy -policy <policy>]
[-disablePolicy -policy <policy>]
[-help <command-name>].

2）查看当前支持的纠删码策略
hdfs ec -listPolicies
3）纠删码策略解释:
RS-3-2-1024k：使用RS编码，每3个数据单元，生成2个校验单元，共5个单元，也就是说：这5个单元中，只要有任意的3个单元存在（不管是数据单元还是校验单元，只要总数=3），就可以得到原始数据。每个单元的大小是1024k=10241024=1048576。
RS-10-4-1024k：使用RS编码，每10个数据单元（cell），生成4个校验单元，共14个单元，也就是说：这14个单元中，只要有任意的10个单元存在（不管是数据单元还是校验单元，只要总数=10），就可以得到原始数据。每个单元的大小是1024k=10241024=1048576。
RS-6-3-1024k：使用RS编码，每6个数据单元，生成3个校验单元，共9个单元，也就是说：这9个单元中，只要有任意的6个单元存在（不管是数据单元还是校验单元，只要总数=6），就可以得到原始数据。每个单元的大小是1024k=10241024=1048576。
RS-LEGACY-6-3-1024k：策略和上面的RS-6-3-1024k一样，只是编码的算法用的是rs-legacy。
XOR-2-1-1024k：使用XOR编码（速度比RS编码快），每2个数据单元，生成1个校验单元，共3个单元，也就是说：这3个单元中，只要有任意的2个单元存在（不管是数据单元还是校验单元，只要总数= 2），就可以得到原始数据。每个单元的大小是1024k=10241024=1048576。

4.1.2 纠删码案例实操

纠删码策略是给具体一个路径设置。所有往此路径下存储的文件，都会执行此策略。默认只开启对RS-6-3-1024k策略的支持，如要使用别的策略需要提前启用。
1）需求：将/input目录设置为RS-3-2-1024k策略
2）具体步骤
（1）开启对RS-3-2-1024k策略的支持
> hdfs ec -enablePolicy -policy RS-3-2-1024k
Erasure coding policy RS-3-2-1024k is enabled
（2）在HDFS创建目录，并设置RS-3-2-1024k策略
> hdfs dfs -mkdir /input
> hdfs ec -setPolicy -path /input -policyRS-3-2-1024k
（3）上传文件，并查看文件编码后的存储情况
> hdfs dfs -put web.log /input
注：你所上传的文件需要大于2M才能看出效果。（低于2M，只有一个数据单元和两个校验单元）
（4）查看存储路径的数据单元和校验单元，并作破坏实验

4.2 异构存储（冷热数据分离）

异构存储主要解决，不同的数据，存储在不同类型的硬盘中，达到最佳性能的问题。

4.2.1 异构存储Shell操作

（1）查看当前有哪些存储策略可以用
> hdfs storagepolicies -listPolicies
（2）为指定路径（数据存储目录）设置指定的存储策略
> hdfs storagepolicies -setStoragePolicy -path xxx -policy xxx
（3）获取指定路径（数据存储目录或文件）的存储策略
> hdfs storagepolicies -getStoragePolicy -path xxx
（4）取消存储策略；执行改命令之后该目录或者文件，以其上级的目录为准，如果是根目录，那么就是HOT
> hdfs storagepolicies -unsetStoragePolicy -path xxx
（5）查看文件块的分布
> bin/hdfs fsck xxx -files -blocks -locations
（6）查看集群节点
> hadoop dfsadmin -report

4.3 小文件归档

1）HDFS存储小文件弊端
每个文件均按块存储，每个块的元数据存储在NameNode的内存中，因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意，存储小文件所需要的磁盘容量和数据块的大小无关。例如，一个1MB的文件设置为128MB的块存储，实际使用的是1MB的磁盘空间，而不是128MB。
2）解决存储小文件办法之一
HDFS存档文件或HAR文件，是一个更高效的文件存档工具，它将文件存入HDFS块，在减少NameNode内存使用的同时，允许对文件进行透明的访问。具体说来，HDFS存档文件对内还是一个一个独立文件，对NameNode而言却是一个整体，减少了NameNode的内存。
3）案例实操
（1）需要启动YARN进程
> start-yarn.sh
（2）归档文件
把/input目录里面的所有文件归档成一个叫input.har的归档文件，并把归档后文件存储到/output路径下。
> hadoop archive -archiveName input.har -p /input /output
（3）查看归档
> hadoop fs -ls /output/input.har
> hadoop fs -ls har:///output/input.har
（4）解归档文件
> hadoop fs -cp har:///output/input.har/* /

5. HDFS集群迁移

5.1 Apache和Apache集群间数据拷贝

1）scp实现两个远程主机之间的文件复制

scp -r hello.txt  root@hadoop103:/user/nkong/hello.txt // 推push
scp -r root@hadoop103:/user/nkong/hello.txt  hello.txt // 拉pull

scp -r root@hadoop103:/user/nkong/hello.txt root@hadoop104:/user/atguigu 
//是通过本地主机中转实现两个远程主机的文件复制；
//如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。

2）采用distcp命令实现两个Hadoop集群之间的递归数据复制

> bin/hadoop distcp hdfs://hadoop102:8020/user/nkong/hello.txt  hdfs://hadoop105:8020/user/nkong/hello.txt

6. MapReduce生产经验

6.1 MapReduce跑的慢的原因

MapReduce程序效率的瓶颈在于两点：
1）计算机性能
CPU、内存、磁盘、网络
2）I/O操作优化
（1）数据倾斜
（2）Map运行时间太长，导致Reduce等待过久
（3）小文件过多

6.2 MapReduce常用调优参数

7. Hadoop-Yarn生产经验

7.1 常用的调优参数

1）调优参数列表
（1）Resourcemanager相关
yarn.resourcemanager.scheduler.client.thread-count ResourceManager处理调度器请求的线程数量
yarn.resourcemanager.scheduler.class 配置调度器
（2）Nodemanager相关
yarn.nodemanager.resource.memory-mb NodeManager使用内存数
yarn.nodemanager.resource.system-reserved-memory-mb NodeManager为系统保留多少内存，和上一个参数二者取一即可
yarn.nodemanager.resource.cpu-vcores NodeManager使用CPU核数
yarn.nodemanager.resource.count-logical-processors-as-cores 是否将虚拟核数当作CPU核数
yarn.nodemanager.resource.pcores-vcores-multiplier虚拟核数和物理核数乘数，例如：4核8线程，该参数就应设为2
yarn.nodemanager.resource.detect-hardware-capabilities是否让yarn自己检测硬件进行配置
yarn.nodemanager.pmem-check-enabled 是否开启物理内存检查限制container
yarn.nodemanager.vmem-check-enabled 是否开启虚拟内存检查限制container
yarn.nodemanager.vmem-pmem-ratio 虚拟内存物理内存比例
（3）Container容器相关
yarn.scheduler.minimum-allocation-mb 容器最小内存
yarn.scheduler.maximum-allocation-mb 容器最大内存
yarn.scheduler.minimum-allocation-vcores 容器最小核数
yarn.scheduler.maximum-allocation-vcores 容器最大核数

8. Hadoop综合调优

8.1 Hadoop小文件优化方法

8.1.1 Hadoop小文件弊端

HDFS上每个文件都要在NameNode上创建对应的元数据，这个元数据的大小约为150byte，这样当小文件比较多的时候，就会产生很多的元数据文件，一方面会大量占用NameNode的内存空间，另一方面就是元数据文件过多，使得寻址索引速度变慢。
小文件过多，在进行MR计算时，会生成过多切片，需要启动过多的MapTask。每个MapTask处理的数据量小，导致MapTask的处理时间比启动时间还小，白白消耗资源。

8.1.2 Hadoop小文件解决方案

1）在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS（数据源头）
2）Hadoop Archive（存储方向）
是一个高效的将小文件放入HDFS块中的文件存档工具，能够将多个小文件打包成一个HAR文件，从而达到减少NameNode的内存使用
3）CombineTextInputFormat（计算方向）
CombineTextInputFormat用于将多个小文件在切片过程中生成一个单独的切片或者少量的切片。
4）开启uber模式，实现JVM重用（计算方向）
默认情况下，每个Task任务都需要启动一个JVM来运行，如果Task任务计算的数据量很小，我们可以让同一个Job的多个Task运行在一个JVM中，不必为每个Task都开启一个JVM。
开启uber模式，在mapred-site.xml中添加如下配置

<!--  开启uber模式，默认关闭 -->
<property>
  <name>mapreduce.job.ubertask.enable</name>
  <value>true</value>
</property>

<!-- uber模式中最大的mapTask数量，可向下修改  --> 
<property>
  <name>mapreduce.job.ubertask.maxmaps</name>
  <value>9</value>
</property>
<!-- uber模式中最大的reduce数量，可向下修改 -->
<property>
  <name>mapreduce.job.ubertask.maxreduces</name>
  <value>1</value>
</property>
<!-- uber模式中最大的输入数据量，默认使用dfs.blocksize 的值，可向下修改 -->
<property>
  <name>mapreduce.job.ubertask.maxbytes</name>
  <value></value>
</property>