分布式存储概述

国外产品:EMC isilon 、IBM sonas等
国内产品:华为 OceanStor9000 蓝鲸 BWFS

Ceph概述

Ceph 是一个分布式、可扩展、高性能的、不存在单点故障的问题的存储系统,开源的

Gluster FS

是 Scale-out存储解决方案 Gluster 的核心,是一个开源的分布式文件系统,具备强大的横向扩展能力。

HDFS工作原理

HDFS——Hadoop Distributed File System,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础。
支持海量数据的存储,成百上千的九三级组成存储集群,HDFS可运行在低成本的硬件上,具有高容错、高可靠行、高可扩展性、高吞吐率等特征。

  1. Hadoop是 Apache 基金会开发的分布式系统基础架构,
    1. 主要包含分布式系统文件系统——HDFS
    2. 分布式计算系统——MapReduce
    3. 分布式资源管理系统——Yarn
  2. 主要用于解决海量数据的计算
  3. Hadoop更多的是指Hadoop生态圈

HDFS优点

  • 适合大数据处理
    • 甚至处理PB级别的数据
    • 百万规模以上的文件数量
    • 10K+节点
  • 高容错性
    • 数据自动保存多个副本
    • 副本丢失后,自动恢复
  • 适合批处理
    • 移动计算而非移动数据
    • 数据位置暴露给计算框架
  • 流式文件访问
    • 一次性写入,多次读取
    • 保证数据一致性
  • 可构建在廉价机器上
    • 通过多副本提高可靠性
    • 提供了容错和恢复机制

HDFS缺点

  • 不适合低延迟数据访问
    • 毫秒级
    • 低延迟、高吞吐率
  • 不适合大量小文件存取
  • 不适合并发修改
  • NameNode(NN):存储文件元数据,如文件名、名字目录结构、文件属性,及每个文件的块列表和所在的 DataNode
  • DataNode(DN):在文件系统存储文件块数据
  • Secondary Namenode(2NN):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照

HDFS高级特性