第1章HDFS概述
1.1HDFS背景及定义
HDFS(Hadoop Distributed File System),一个分布式文件存储系统,通过目录树来定位文件
HDFS的使用场景:适合一次写入,多次读出的场景,且不支持文件的修改。
1.2 HDFS优缺点
优点:1.高容错性(多个副本,副本丢失会自动恢复)
2.适合处理大数据 (PB级别的数据,百万规模的文件数量)
缺点:1.不适合低延迟数据访问
2.无法高效对小数据进行处理
3.不支持并发写入、文件随机修改
1.3 HDFS组成架构

(1)NameNode(nn) Master
- 管理HDFS的名称空间
- 配置副本策略
- 管理数据块(Block)映射信息
- 处理客户端读写请求
(2)DataNode:就是Slave,NN下达命令,DN执行实际操作
- 存储实际的数据块;
- 执行数据块的读\写操作
(3)Client:客户端
- 文件切分。
- 与NN交互,获取文件的位置信息
- 与DN交互,读取或者写入数据
- 提供一些命令来管理HDFS,有:NN的格式化等
- 通过一些命令来访问HDFS,有:对HDFS增删改查等
1.4 HDFS文件块大小(面试重点)
思考:块的设置为什么不能太小,也不能太大?
(1)太小,会增加寻址时间
(2)太大,从磁盘传输的时间 会明显大于定位这个块开始位置所需的时间。
总结:主要取决于磁盘传输速率

