分布式存储概述
国外产品:EMC isilon 、IBM sonas等
国内产品:华为 OceanStor9000 蓝鲸 BWFS
Ceph概述
Ceph 是一个分布式、可扩展、高性能的、不存在单点故障的问题的存储系统,开源的
Gluster FS
是 Scale-out存储解决方案 Gluster 的核心,是一个开源的分布式文件系统,具备强大的横向扩展能力。
HDFS工作原理
HDFS——Hadoop Distributed File System,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础。
支持海量数据的存储,成百上千的九三级组成存储集群,HDFS可运行在低成本的硬件上,具有高容错、高可靠行、高可扩展性、高吞吐率等特征。
- Hadoop是 Apache 基金会开发的分布式系统基础架构,
- 主要包含分布式系统文件系统——HDFS
- 分布式计算系统——MapReduce
- 分布式资源管理系统——Yarn
- 主要用于解决海量数据的计算
- Hadoop更多的是指Hadoop生态圈
HDFS优点
- 适合大数据处理
- 甚至处理PB级别的数据
- 百万规模以上的文件数量
- 10K+节点
- 高容错性
- 数据自动保存多个副本
- 副本丢失后,自动恢复
- 适合批处理
- 移动计算而非移动数据
- 数据位置暴露给计算框架
- 流式文件访问
- 一次性写入,多次读取
- 保证数据一致性
- 可构建在廉价机器上
- 通过多副本提高可靠性
- 提供了容错和恢复机制
HDFS缺点
- 不适合低延迟数据访问
- 毫秒级
- 低延迟、高吞吐率
- 不适合大量小文件存取
- 不适合并发修改
- NameNode(NN):存储文件元数据,如文件名、名字目录结构、文件属性,及每个文件的块列表和所在的 DataNode
- DataNode(DN):在文件系统存储文件块数据
- Secondary Namenode(2NN):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照
