- HDFS全称:Hadoop Distribute File System
- HDFS的优点(四高):
- 高容错性:数据会自动保存多个副本,且数据丢失后,可以自动恢复,提高容错性
- 适合大数据处理:包括数据规模(PB级别)、文件规模(百万规模)
- 可以部署在廉价机器上
- HDFS的缺点:
- 不适合低延时的数据访问:比如毫秒级别的数据存储
- 无法高效对大量小文件进行存储(NameNode导致)
- 通常一个NameNode占用的内存大小是128G,一个文件块,不管它有多大,都占用128个字节,那么大量的小文件(1KB),那么会导致NameNode内存被浪费。
- 小文件过多,会导致文件检索的时间大于读取文件的时间,违背的HDFS的涉及初衷。
- 不支持并发写入、文件随机修改
- 一个文件只能有一个写,不允许多个线程同时写。
