HDFS写流程

HDFS的写流程如图所示：

具体步骤如下：

服务器端启动HDFS的NN（NameNode）和DN（DataNode）。
客户端通过Distributed FileSystem模块向NN（NameNode）请求上传文件，NameNode处理请求，并检查客户端权限、路径是否合法、目标文件是否已存在等。
NameNode返回是否可以上传。
客户端请求第一个 Block（默认0-128M）上传到哪几个DataNode服务器上（默认副本数为3）。
NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。
客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
dn1、dn2、dn3逐级应答客户端。
客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet（数据包：每64K的数据）为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。
当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。

HDFS读流程
HDFS读流程如图：

具体步骤如下：
客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。
客户端挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。
DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。
客户端以Packet为单位接收，先在本地缓存，然后写入目标文件。
读写流程中的概念
Block
文件上传前需要分块，这个块就是block，一般为128MB，可以通过设计进行更改。简要来说，块太小：寻址时间占比过高。块太大：Map任务数太少，作业执行速度变慢。Block是最大的一个单位。
关于块大小可查看以往文章：hadoop的块大小
Packet
Packet是第二大的单位，它是client端向DataNode或DataNode的PipLine（管道）之间传数据的基本单位，默认64KB。
Chunk
Chunk是最小的单位，它是client向DataNode，或DataNode的PipLine之间进行数据校验的基本单位，默认512Byte，因为用作校验，故每个chunk需要带有4Byte的校验位。所以实际每个Chunk写入Packet的大小为516Byte。由此可见真实数据与校验值数据的比值约为128 : 1。（即64*1024 / 512）

在client端向DataNode传数据的时候，HDFSOutputStream会有一个chunk buff，写满一个chunk后，会计算校验和，并写入当前的chunk。之后再把带有校验和的chunk写入packet，当一个packet写满后，packet会进入dataQueue（待发送数据包）队列，其他的DataNode就是从这个dataQueue获取client端上传的数据并存储的。同时一个DataNode成功存储一个packet后之后会返回一个ack packet，放入ack Queue（正在发送队列）中。

附参考资料：

数据笔记

HDFS读写流程

HDFS写流程

HDFS读流程

读写流程中的概念

Block

Packet

Chunk