02 Hadoop分布式文件系统-HDFS

HDFS是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的；可以运行于廉价的商用服务器上，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，为超大数据集的应用处理带来了很多便利。

一、HDFS原理

Hadoop分布式文件系统（Hadoop Distributed File System，HDFS）被设计成适合运行在通用硬件上的分布式文件系统。

HDFS是一个高度容错性的系统，适合部署在廉价的机器上

HDFS能够提供高吞吐量的数据访问，非常适合大规模数据集上的应用

HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的

HDFS是Apache Hadoop Core项目的核心部分

HDFS特点：

HDFS局限：

HDFS在设计时，已考虑硬件错误等情况，具有高容错性等特征。

HDFS的假设前提和设计目标包括以下几个方面