HDFS 概述

随着数据量越来越大，在一个操作系统存不下所有的数据，就需要分配到更多的操作系统管理的磁盘中。但是不方便管理和维护，所以需要一种系统来管理多台机器上的文件，这种系统就是分布式文件管理系统。HDFS就是一种分布式文件管理系统。

HDFS（Hadoop Distributed File System）：Hadoop分布式文件管理系统，用于存储文件，通过目录树来定位文件。有很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

HDFS的使用场景：适合一次写入、多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。（比如数仓）

优点：

高容错性：
数据自动保存多个副本。通过增加副本的形式，提高容错性；
某一个副本丢失以后，它可以自动恢复。比如有10台机器，文件副本数量为默认的3个副本，当某一台机器宕机时，hdfs会自动将这台机器上的文件副本恢复到下一台机器上；
适合处理大数据：
能够处理数据规模达到GB、TB、甚至PB级别的数据；
能够处理百万规模以上的文件数量；
可以构建在廉价机器上，通过多副本机制提高可靠性

缺点：

小文件存储的寻址时间会超过读取文件本身的时间，违反了 HDFS 的设计目标；

不支持并发写入、文件随机修改
一个文件只能有一个线程进行写入，不允许多线程同时写；
文件写入后，后续只能进行数据追加（append），不支持文件的随机修改（update）；

HDFS架构

HDFS架构图：

NameNode：简称NN，就是Master，是一个管理者

DataNode：就是Slave。根据NameNode的指令执行实际的操作

Secondary NameNode：简称2NN。不是NameNode的热备，当NameNode宕机时，并不能马上替换NameNode提供服务

上面的Hadoop官方绘制的HDFS架构图中并没有2NN，因为在企业中一般会将NameNode搭建成高可用，而不是使用2NN。

Client：客户端

HDFS中的文件在物理上是分块存储（Block），块的大小可以通过配置参数 dfs.blocksize 来规定（位于 hdfs-default.xml中）， hadoop 2.x、hadoop 3.x 中默认大小是 128M，hadoop 1.x中默认大小是 64M。

数据块大小 128M，如果一个文件大小只有1kb，那么只会占用这个数据块中1kb大小的空间，剩余空间依然可以让其他文件进行占用。

最佳的文件块大小配置：机械硬盘的HDFS数据块最佳大小为128M，固态硬盘的HDFS数据块最大小为256M。

计算方式：

假设寻址时间为10ms，即查找到目标block的时间为10ms
根据实践，寻址时间为传输时间的 1% 时，系统为最佳状态。因此传输时间为 10ms / 0.01 = 1s。即花费10ms找到这个数据块，花费1s读完这个数据块的内容。
目前机械硬盘传输速度约 100M/s，固态硬盘 200M/s - 300M/s
所以，对于机械硬盘：1s时间可以传输 100M数据，所以数据块设置为 128M 较为合适。对于固态硬盘，数据块大小设置为256M较为合适。

数据块大小设置规则：

主从架构：

分块存储：

副本机制：

元数据管理。
在HDFS中，NameNode管理的元数据分为两类：

namespace：

HDFS支持传统的层次型文件组织结构。用户可以创建目录，然后将文件保存在这些目录里。文件系统名字空间的层次结构和Linux等大多数现有的文件系统类似
NameNode负责维护文件系统的namespace名称空间，任何堆文件系统名称空间或属性的修改都将被namenode记录下来
HDFS 会给客户端提供一个统一的抽象目录树，客户端通过路径来访问文件。例如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data

数据块存储：