一、逻辑存储模型

Hbase以的形式存储数据,表由行和列组成。列划分为若干个列族。 Hbase架构详解 - 图1

  • RowKey

Hbase使用Rowkey来唯一的区分某一行的数据。

  • 列族

Hbase通过列族划分数据的存储,列族下面可以包含任意多的列,实现灵活的数据存取。

Hbase的列族不是越多越好,官方推荐的是列族最好小于或者等于3。我们使用的场景一般是1个列族。

  • 时间戳

TimeStamp对Hbase来说至关重要,因为它是实现Hbase多版本的关键。

在Hbase中使用不同的timestame来标识相同rowkey行对应的不通版本的数据。

  • Cell

HBase 中通过 rowkeycolumns 确定的为一个存储单元称为 cell。每个 cell 都保存着同一份数据的多个版本。版本通过时间戳来索引。

  • Cell 是由 {row key,column(=< family> + < label>),version}唯一确定的 单元。
  • Cell 中的数据是没有类型的,全部是字节码形式存储。

二、物理存储模型

转载自:HBASE物理存储模型

  1. Table中的所有行都按照row key的字典序排列。
  2. Table 在行的方向上分割为多个Hregion。

image.png

  1. region按大小分割的,每个表一开始只有一个region,随着数据不断插入表,region不断增大,当增大到一个阀值的时候,Hregion就会等分会两个新的Hregion。当table中的行不断增多,就会有越来越多的Hregion。

image.png

  1. Hregion是Hbase中分布式存储和负载均衡的最小单元。最小单元就表示不同的Hregion可以分布在不同的HRegion server上。但一个Hregion是不会拆分到多个server上。

image.png

  1. HRegion虽然是分布式存储的最小单元,但并不是存储的最小单元。

    事实上,HRegion由一个或者多个Store组成,每个store保存一个columns family。 每个Strore又由一个memStore和0至多个StoreFile组成。 如图: image.png StoreFile以HFile格式保存在HDFS上

HFile的格式为:
b12330c6e328a6430ff4772e.png
Trailer部分的格式:
4ba9461faec26f8dac6e752e.png
HFile分为六个部分:

  • Data Block 段–保存表中的数据,这部分可以被压缩。
  • Meta Block 段 (可选的)–保存用户自定义的kv对,可以被压缩。
  • File Info 段–Hfile的元信息,不被压缩,用户也可以在这一部分添加自己的元信息。
  • Data Block Index 段–Data Block的索引。每条索引的key是被索引的block的第一条记录的key。
  • Meta Block Index段 (可选的)–Meta Block的索引。

Trailer–这一段是定长的。保存了每一段的偏移量,读取一个HFile时,会首先读取Trailer,Trailer保存了每个段的起始位置(段的Magic Number用来做安全check),然后,DataBlock Index会被读取到内存中,这样,当检索某个key时,不需要扫描整个HFile,而只需从内存中找到key所在的block,通过一次磁盘io将整个 block读取到内存中,再找到需要的key。DataBlock Index采用LRU机制淘汰。

HFile的Data Block,Meta Block通常采用压缩方式存储,压缩之后可以大大减少网络IO和磁盘IO,随之而来的开销当然是需要花费cpu进行压缩和解压缩。 目标Hfile的压缩支持两种方式:Gzip,Lzo。

HLog(WAL log)

WAL 意为Write ahead log,类似mysql中的binlog,用来做灾难恢复使用,Hlog记录数据的所有变更,一旦数据修改,就可以从log中进行恢复。

http://en.wikipedia.org/wiki/Write-ahead_logging

每个Region Server维护一个Hlog,而不是每个Region一个。这样不同region(来自不同table)的日志会混在一起,这样做的目的是不断追加单个文件相对于同时写多个文件而言,可以减少磁盘寻址次数,因此可以提高对table的写性能。带来的麻烦是,如果一台region server下线,为了恢复其上的region,需要将region server上的log进行拆分,然后分发到其它region server上进行恢复。
HLog文件就是一个普通的Hadoop Sequence File,Sequence File 的Key是HLogKey对象,HLogKey中记录了写入数据的归属信息,除了table和region名字外,同时还包括 sequence number和timestamp,timestamp是”写入时间”,sequence number的起始值为0,或者是最近一次存入文件系统中sequence number。HLog Sequece File的Value是HBase的KeyValue对象,即对应HFile中的KeyValue,可参见上文描述。

三、总体架构

HBase架构及读写流程.jpg