HDFS - HDFS读写数据的流程 - 《大数据》

写数据
- 正常写流程
- 异常写流程
读数据

写数据

正常写流程

hdfs写数据的时候会有客户端(程序员写的代码)请求 NameNode,NameNode会先处理你的上传请求, 看看你这个用户是否有权限上传,如果你有权限上传,查看你上传的路径是否已经存在了,如果存在了,看看你客户端的代码参数是否允许覆盖,如果不允许覆盖,就这样结束了.
如果路径也不存在的话,此时NameNode会发送一个可以上传文件的指令到你client客户端,
然后客户端就开始上传文件,文件有200M,但是文件的形式以block的形式存放到hdfs上,此时会先读取这要上传的文件的第一个块儿(这个块儿大小是客户端指定的),比如说客户端指定的block大小是64M,那么第一次读的时候就从0M开始读到64M. 然后先上传第一个block的内容. 然后NameNode会告诉客户端哪些DataNode是可以帮你存储的.
具体给你分配哪些DataNode取决于机架感知.

然后客户端开始给这个文件分为多个block分别上传到多个DataNode上.假如说需要三个DataNode存这个文件.

传输细节是客户端会先建立block传输通道给DataNode1,然后DataNode1会给DataNode2建立通道,DataNode2会给DataNode3建立通道 .

客户端发数据第一个block先发送到DataNode1, DataNode1会发送DataNode2,DataNode2收到了会发给DataNode3.最后DataNode会向NameNode汇报接收的块儿的信息.
然后客户端会发送数据的第二个block块儿给DataNode,重复上面的步骤,直到文件发送完毕.

1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。
2）NameNode返回是否可以上传。
3）客户端请求第一个 Block上传到哪几个DataNode服务器上。
4）NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。
5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
6）dn1、dn2、dn3逐级应答客户端。
7）客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。
8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。

另外一个版本,有时间整理一下

一:client 发起文件上传请求，通过 RPC 与 NameNode 建立通讯，NameNode检查目标文件是否已存在，父目录是否存在，返回是否可以上传；
二:client 请求第一个 block 该传输到哪些 DataNode 服务器上；
三:NameNode 根据配置文件中指定的备份数量及副本放置策略进行文件分配，返回可用的 DataNode 的地址，如：A，B，C
四:client 请求 3 台 DataNode 中的一台 A 上传数据（本质上是一个 RPC 调用，建立 pipeline），A 收到请求会继续调用 B，然后 B 调用 C，将整个pipeline 建立完成，后逐级返回 client；
五:client 开始往 A 上传第一个 block（先从磁盘读取数据放到一个本地内存缓存），以 packet 为单位（默认 64K），A 收到一个 packet 就会传给 B，B 传给 C；A 每传一个 packet 会放入一个应答队列等待应答
六:数据被分割成一个个 packet 数据包在 pipeline 上依次传输，在pipeline 反方向上，逐个发送 ack（命令正确应答），最终由 pipeline中第一个 DataNode 节点 A 将 pipeline ack 发送给 client;
七:当一个 block 传输完成之后，client 再次请求 NameNode 上传第二个block 到服务器

异常写流程

客户端每次读取64k的数据,封装成一个packet,封装成功的packet会放入到一个dataQueue队列里面,只要封装到这个队列的数据都是待发送的数据包,在发送的时候会将这个队列中的packet按照顺序依次放入到另外一个ackQueue,紧接着ackQueue队列发送通道的第一个DataNode节点,每个节点收到之后会发送确认消息,如果一个小包在发送后,已经收到了所有的DataNode节点返回的ack确认消息,那么这个packet会在ackQueue中删除.
假如一个packet在发送后,在收到DataNode返回的确认ack消息时候超时了,比如说人家规定了5秒钟之内必须收到所有的ack消息,如果已经超过了5秒了,我只是收到其中部分的DataNode节点消息,没有收到所有的ack消息,这就是超时了,一旦超时这时候传输终止,ackQueue中的packet会回滚到dataQueue里面.
紧接着重新建立通道,剔除坏的DataNode节点,通道建立完成之后继续执行上面的步骤.
除非所有DataNode都坏了,否则都能上传成功.

读数据

客户端(Java程序员自己写的代码)请求下载文件先检查下载文件的合法性,如果检查合法,此时NameNode会响应你顺便把你要下载的元数据返回给你,元数据就是这个文件有哪些block,这些block存在哪些DataNode节点里面.
返回之后紧接着客户端会直接根据NameNode返回的元数据去找到对应的第一个DataNode节点发请求去下载东西.
此时有可能第一个DataNode宕机了,那么客户端会向列表的第二个DataNode节点发送请求下载,然后依次下载所有的block ,都下载完了之后会依次怼到FsDataInputStream的输入流里面拼接生成最终的文件.

另外一个版本,有时间整理一下:

一:client 发起文件读取请求通过RPC与NameNode建立通讯,nameNode检查文件位置,来确定请求文件 block 所在的位置
二:NameNode会视情况返回文件的部分或者全部block列表，对于每个block，NameNode 都会返回含有该 block 副本的 DataNode 地址；
三:这些返回的 DN 地址，会按照集群拓扑结构得出 DataNode 与客户端的距离，然后进行排序，排序两个规则：网络拓扑结构中距离 Client 近的排靠前；心跳机制中超时汇报的 DN 状态为 STALE，这样的排靠后；
四:Client 选取排序靠前的 DataNode 来读取 block，如果客户端本身就是DataNode,那么将从本地直接获取数据
五:底层上本质是建立 Socket Stream（FSDataInputStream），重复的调用父类 DataInputStream 的 read 方法，直到这个块上的数据读取完毕；
六:当读完列表的 block 后，若文件读取还没有结束，客户端会继续向NameNode 获取下一批的 block 列表；
七:读取完一个 block 都会进行 checksum 验证，如果读取 DataNode 时出现错误，客户端会通知 NameNode，然后再从下一个拥有该 block 副本的DataNode 继续读。
八:read 方法是并行的读取 block 信息，不是一块一块的读取；NameNode 只是返回Client请求包含块的DataNode地址，并不是返回请求块的数据；最终读取来所有的 block 会合并成一个完整的最终文件。