• HDFS全称:Hadoop Distribute File System
    • HDFS的优点(四高):
      • 高容错性:数据会自动保存多个副本,且数据丢失后,可以自动恢复,提高容错性
      • 适合大数据处理:包括数据规模(PB级别)、文件规模(百万规模)
      • 可以部署在廉价机器上
    • HDFS的缺点:
      • 不适合低延时的数据访问:比如毫秒级别的数据存储
      • 无法高效对大量小文件进行存储(NameNode导致)
        • 通常一个NameNode占用的内存大小是128G,一个文件块,不管它有多大,都占用128个字节,那么大量的小文件(1KB),那么会导致NameNode内存被浪费。
        • 小文件过多,会导致文件检索的时间大于读取文件的时间,违背的HDFS的涉及初衷。
      • 不支持并发写入、文件随机修改
        • 一个文件只能有一个写,不允许多个线程同时写。