📚 HDFS组件

HDFS

HDFS

一、HDFS的优缺点

不适合低延时的数据访问，比如毫秒级的存储数据，是做不到的
无法高效地对大量小文件进行存储：
- 存储大量小文件的话，它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的，因为NameNode的内存总是有限的
- 小文件存储的寻址时间会超过读取时间，它违反了HDFS的设计目标
不支持并发写入、文件随机修改
1. 一个文件只能有一个写，不允许多个线程同时写
2. 仅支持数据append，不支持文件的随机修改
  二、HDFS常规操作
  hadoop fs
  1、-copyFromLocal:从本地文件系统拷贝到HDFS文件系统中
  2、-moveFromLocal:从本地文件系统中剪切到HDFS中
  3、-appendToFile : 追加一个文件到已存在的文件末尾
  4、-put ：等同于-copyFromLocal
  5、-copyToLocal = -put : 从远程服务器下载内容
  三、HDFS的写数据流程
  
  （1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。
  （2）NameNode返回是否可以上传。
  （3）客户端请求第一个 Block上传到哪几个DataNode服务器上。
  （4）NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。
  （5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
  （6）dn1、dn2、dn3逐级应答客户端。
  （7）客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。
  （8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。
  四、HDFS读数据流程
  
  （1）客户端通过DistributedFileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。
  （2）挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。
  （3）DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。
  （4）客户端以Packet为单位接收，先在本地缓存，然后写入目标文件
  五、DATANODE的工作机制
  
  （1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。
  （2）DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。
  （3）心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。
  （4）集群运行中可以安全加入和退出一些机器。

HDFS

一、HDFS的优缺点

二、HDFS常规操作

三、HDFS的写数据流程

四、HDFS读数据流程

五、DATANODE的工作机制