一、集群间拷贝

  • 采用 distcp 命令实现两个 Hadoop 集群之间的递归数据复制
    1. $ bin/hadoop distcp hdfs://haoop102:9000/user/atguigu/hello.txt hdfs://hadoop103:9000/user/atguigu/hello.txt

二、小文档存档

2.1、HDFS存储小文件弊端

每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文 件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意,存储小文件所需要的磁盘容量和数据块的大小无关。例如,一个1MB的文件设置为128MB的块存储,实际使用的是1MB的磁盘空间,而不是128MB。

2.2、解决存储小文件办法之一

HDFS存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,在减少NameNode内存使用的同时,允许对文件进行透明的访问。具体说来,HDFS存档文件对内还是一个一个独立文件,对NameNode而言却是一个整体,减少了NameNode的内存。

2.3、案例

  • 需要启动 YARN 进程
  1. $ start-yarn.sh
  • 归档文件
    把/user/atguigu/input 目录里面的所有文件归档成一个叫 input.har 的归档文件,并把归档后文件存储到/user/atguigu/output 路径下

    1. $ bin/hadoop archive -archiveName input.har p /user/atguigu/input /user/atguigu/output
  • 查看归档文件

    1. $ hadoop fs -lsr /user/atguigu/output/input.har
    2. $ hadoop fs -lsr har:///user/atguigu/output/input.har
  • 解归档文件

    1. $ hadoop fs -cp har:///user/atguigu/output/input.har/* /user/atguigu

三、回收站

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、 备份等作用。

3.1、开启回收站功能参数说明

  • 默认值fs.trash.interval=0,0表示禁用回收站;其他值表示设置文件的存活时间。
  • 默认值fs.trash.checkpoint.interval=0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。

  • 要求fs.trash.checkpoint.interval<=fs.trash.interval

3.2、清空回收站

  1. $ hadoop fs -expunge

问题:回收站两个参数的区别,回收站原理?
每隔fs.trash.checkpoint.interval时间去检查文件是否达到了fs.trash.interval存活时间,到了之后直接删除
参考文档:
https://www.jianshu.com/p/1827431d4eb5
https://www.cnblogs.com/gentlemanhai/p/7793982.html

四、快照管理

快照相当于对目录做一个备份。并不会立即复制所有文件,而是记录文件变化。

  • hdfs dfsadmin -allowSnapshot 路径 (功能描述:开启指定目录的快照功能)

  • hdfs dfsadmin -disallowSnapshot 路径 (功能描述:禁用指定目录的快照功能,默认是禁用)

  • hdfs dfs -createSnapshot 路径 (功能描述:对目录创建快照)

  • hdfs dfs -createSnapshot 路径 名称 (功能描述:指定名称创建快照)

  • hdfs dfs -renameSnapshot 路径 旧名称 新名称 (功能描述:重命名快照)

  • hdfs lsSnapshottableDir (功能描述:列出当前用户所有可快照目录)

  • hdfs snapshotDiff 路径1 路径2 (功能描述:比较两个快照目录的不同之处)

  • hdfs dfs -deleteSnapshot (功能描述:删除快照)
  • hdfs dfs -cp /user/atguigu/input/.snapshot/s20170708-134303.027 /user (功能描述:恢复快照)
  1. <br />
  2. <br />