一、集群间拷贝

采用 distcp 命令实现两个 Hadoop 集群之间的递归数据复制

$ bin/hadoop distcp hdfs://haoop102:9000/user/atguigu/hello.txt hdfs://hadoop103:9000/user/atguigu/hello.txt

二、小文档存档

2.1、HDFS存储小文件弊端

每个文件均按块存储，每个块的元数据存储在NameNode的内存中，因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意，存储小文件所需要的磁盘容量和数据块的大小无关。例如，一个1MB的文件设置为128MB的块存储，实际使用的是1MB的磁盘空间，而不是128MB。

2.2、解决存储小文件办法之一

HDFS存档文件或HAR文件，是一个更高效的文件存档工具，它将文件存入HDFS块，在减少NameNode内存使用的同时，允许对文件进行透明的访问。具体说来，HDFS存档文件对内还是一个一个独立文件，对NameNode而言却是一个整体，减少了NameNode的内存。

2.3、案例

需要启动 YARN 进程

$ start-yarn.sh

归档文件
把/user/atguigu/input 目录里面的所有文件归档成一个叫 input.har 的归档文件，并把归档后文件存储到/user/atguigu/output 路径下
```
$ bin/hadoop archive -archiveName input.har –p /user/atguigu/input /user/atguigu/output
```

查看归档文件

$ hadoop fs -lsr /user/atguigu/output/input.har
$ hadoop fs -lsr har:///user/atguigu/output/input.har

解归档文件

$ hadoop fs -cp har:///user/atguigu/output/input.har/* /user/atguigu

三、回收站

开启回收站功能，可以将删除的文件在不超时的情况下，恢复原数据，起到防止误删除、备份等作用。

3.1、开启回收站功能参数说明

默认值fs.trash.interval=0，0表示禁用回收站;其他值表示设置文件的存活时间。
默认值fs.trash.checkpoint.interval=0，检查回收站的间隔时间。如果该值为0，则该值设置和fs.trash.interval的参数值相等。
要求fs.trash.checkpoint.interval<=fs.trash.interval

3.2、清空回收站

$ hadoop fs -expunge

问题：回收站两个参数的区别，回收站原理?
每隔fs.trash.checkpoint.interval时间去检查文件是否达到了fs.trash.interval存活时间，到了之后直接删除
参考文档：
https://www.jianshu.com/p/1827431d4eb5
https://www.cnblogs.com/gentlemanhai/p/7793982.html

四、快照管理

快照相当于对目录做一个备份。并不会立即复制所有文件，而是记录文件变化。

hdfs dfsadmin -allowSnapshot 路径 (功能描述:开启指定目录的快照功能)
hdfs dfsadmin -disallowSnapshot 路径 (功能描述:禁用指定目录的快照功能，默认是禁用)
hdfs dfs -createSnapshot 路径 (功能描述:对目录创建快照)
hdfs dfs -createSnapshot 路径名称 (功能描述:指定名称创建快照)
hdfs dfs -renameSnapshot 路径旧名称新名称 (功能描述:重命名快照)
hdfs lsSnapshottableDir (功能描述:列出当前用户所有可快照目录)
hdfs snapshotDiff 路径1 路径2 (功能描述:比较两个快照目录的不同之处)
hdfs dfs -deleteSnapshot (功能描述:删除快照)
hdfs dfs -cp /user/atguigu/input/.snapshot/s20170708-134303.027 /user (功能描述:恢复快照)

<br />                
<br />

大数据

八、HDFS 2.X新特性