
  1. HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统


  1. Name Space(命名空间)

  2. Region(表)

  3. Row(行)

  4. Column(列)
    HBase中每个列都是由列簇(Column Family)和列限定符(Column Qualifier)进行限定,

  5. Time Stamp(时间戳)

  6. Cell(单元)
    由{rowkey,column Family:column Qualifier,TimeStamp} 唯一确定的单元,cell中的数据没有类型,是以字节码进行存储


  1. Hbase的存储机制
    Hbase 是一个面向列的数据库,在表中按行进行排序,表模式定义只能列簇,键值对形式。一个表有多个列簇和一个列簇有多个列;

    • 表是行的集合
    • 行是列簇的集合
    • 列簇是列的集合
    • 列是键值对的集合
  2. Hbase系统架构体系图

HBase - 图1


  • Client:使用HBase RPC 机制与HMaster和HRegionServer进行通行;Client与HMaster进行管理类操作,与HRegionServer进行数据读写类操作;

  • HMaster:有多个节点的Hbase Master,根据zookeeper的Master Election的机制保证总有一个柱节点在运行;

    1. 管理用户对表的增删改查操作(改是put操作,新增一条数据)
    2. 管理HRegionServer的负载均衡,调整Region分布
    3. Region Split后,负责新Region的分布
    4. 在HRegionServer停机后,负责将失效HRegionServer上Region迁移
  • zookeeper: zookeeper集群存储-ROOT-表地址、HMaster地址;HRegionServer把自己以Ephedral方式注册到Zookeeper中,HMaster随时感知各个HRegionServer的健康状况

  • HRegionServer: HBase中最核心的模块,主要负责响应用户I/O请求,向HDFS文件系统中读写HBase - 图2

    • client访问hbase上的数据并不需要master参与,master仅仅维护table和region的元数据信息

    • 每个HRegion对应Table中的一个Region,HRegion由多个HStore组成;

    • 一个HRegion(表)有多少个列族就有多少个Store。一个HRegionServer会有多个HRegion和一个HLog

  • HRegion:


  1. 进入 hbase shell
  2. 退出 exit
  3. 查看hbase状态 status
  4. 创建表 create ‘表明’,’列簇名1’,’列簇名2’,’列簇名N’;
  5. 查看所有表 list
  6. 描述表 describe ‘表名’
  7. 判断表是否存在 exists ‘表名’
  8. 判断是否禁用启用表 is_enabled ‘表名’ is_disabled ‘表名’
  9. 添加记录 put ‘表名’,’rowkey’,’列簇:列’,’值’
  10. 查看记录rowkey 下所有数据 get ‘表名’,’rowkey’
  11. 查看所有记录 scan ‘表名’
  12. 查看表中的记录总数 count ‘表名’
  13. 获取某个列簇(获取某个列族的某个列) get ‘表名’,’rowkey’,’列簇:列’
  14. 删除记录 delete ‘表名’,’行名’,’列簇:列’
  15. 删除整行 deleteall ‘表名’,’行名’,’列簇:列’
  16. 删除一张表 首先屏蔽该表,然后删除该表 disable ‘表名’ drop ‘表名’
  17. 清空表 truncate ‘表名’
  18. 查看某个表某个列中所有数据 scan ‘表名’,{COLUMNS=>’列族名:列名’}


  1. 安装前准备

    • zookeeper-3.4.14.tar.gz 安装包
    • hbase-2.2.1-bin.tar.gz安装包
    • Hadoop-3.1.2.tar.gz 安装包
    • 3台虚拟机
  2. 安装Hadoop

  3. 安装zookeeper

  4. 安装hbase

    1. 把hbase-2.2.1-bin.tar.gz安装包分别上传到虚拟机hadoop01、hadoop02、hadoop03上

    2. 解压hbase安装包

      1. tar -zxvf hbase-2.2.1-bin.tar.gz
  1. 配置环境变量(所有节点上的环境变量)
    1. HBASE_HOME=/opt/hbase-2.2.1
  yum -y install ntp ntpdate #安装ntpdate时间同步工具
sudo systemctl start ntpd #启动时间同步程序
sudo systemctl enable ntpd #允许时间同步程序开机启动


修改hadoop01 的/etc/ntp.conf文件,在内增加

server #设置自己作为时间同步服务器
restrict



sudo timedatectl set-ntp yes 所有节点启动时间同步
timedatectl #查看系统时间

  修改hbase配置文件
  修改hbase-env.sh文件
  1. <configuration>
  2. <!--hbasemaster的主机和端口-->
  3. <property>
  4. <name>hbase.master</name>
  5. <value>hadoop1:60000</value>
  6. </property>
  7. <!--<property>
  8. <name>hbase.master.info.port</name>
  9. <value>60010</value>
  10. </property>
  11. -->
  12. <!--时间同步允许的时间差-->
  13. <property>
  14. <name>hbase.master.maxclockskew</name>
  15. <value>180000</value>
  16. </property>
  17. <!--hbase共享目录,持久化hbase数据-->
  18. <property>
  19. <name>hbase.rootdir</name>
  20. <value>hdfs://hadoop01:9000/hbase</value>
  21. </property>
  22. <!--是否分布式运行,false即为单机-->
  23. <property>
  24. <name>hbase.cluster.distributed</name>
  25. <value>true</value>
  26. </property>
  27. <!--zookeeper地址-->
  28. <property>
  29. <name>hbase.zookeeper.quorum</name>
  30. <value>hadoop01,hadoop02,hadoop03</value>
  31. </property>
  32. <!--zookeeper配置信息快照的位置-->
  33. <property>
  34. <name>hbase.zookeeper.property.dataDir</name>
  35. <value>/home/hbase/tmp/zookeeper</value>
  36. </property>
  37. <property>
  38. <name>hbase.unsafe.stream.capability.enforce</name>
  39. <value>false</value>
  40. </property>
  41. </configuration>
设置regionservers 文件

  1. #该文件是配置hbase salves节点
  2. hadoop02
  3. hadoop03
将hadoop中的两个配置文件 core-site.xml和hdfs-site.xml文件复制到hbase下的配置文件夹中

  1. cp /opt/hadoop-3.1.2/etc/hadoop/core-site.xml /opt/hbase-2.2.1/conf
  2. cp /opt/hadoop-3.1.2/etc/hadoop/core-site.xml /opt/hbase-2.2.1/conf
将hadoop01机器上的/opt/hbase-2.2.1/conf/* 分发到hadoop02、hadoop03节点上

  1. scp /opt/hbase-2.2.1/conf/* hadoop02:/opt/hbase-2.2.1/conf/
  2. scp /opt/hbase-2.2.1/conf/* hadoop03:/opt/hbase-2.2.1/conf/
  1. start-hbase.sh
  2. stop-hbase.sh
  1. # 在hadoop01节点上只有HMaster在启动,作为主节点,hadoop02和hadoop03作为slaves节点只有HRegionServer启动
  2. jps
  1. hbase shell