小文件存档

image.png
案例实操
(1)需要启动YARN进程

  1. [atguigu@hadoop102 hadoop-2.7.2]$ start-yarn.sh

(2)归档文件
把/user/atguigu/input目录里面的所有文件归档成一个叫input.har的归档文件,并把归档后文件存储到/user/atguigu/output路径下。

  1. [atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop archive -archiveName input.har -p /user/atguigu/input /user/atguigu/output

(3)查看归档

  1. [atguigu@hadoop102 hadoop-2.7.2]$ hadoop fs -ls -r /user/atguigu/output/input.har
  2. [atguigu@hadoop102 hadoop-2.7.2]$ hadoop fs -ls -r har:///user/atguigu/output/input.har

(4)解归档文件

  1. [atguigu@hadoop102 hadoop-2.7.2]$ hadoop fs -cp har:/// user/atguigu/output/input.har/* /user/atguigu

纠删码

HDFS中的默认3副本方案在存储空间和其他资源(例如,网络带宽)中具有200%的开销。但是,对于I / O活动相对较低暖和冷数据集,在正常操作期间很少访问其他块副本,但仍会消耗与第一个副本相同的资源量。
纠删码(Erasure Coding)能够在不到50% 的数据冗余情况下提供和3副本相同的容错能力,因此,使用纠删码作为副本机制的改进是自然而然的。

集群间数据拷贝

回收站

多 NN的HA框架

详情请看插件第三章
尚硅谷大数据技术之Hadoop(优化&新特性)V3.0.docx