Hbase原理 - 《大数据学习过程》

由Master的LoadBalancer线程周期性的在各个RegionServer间移动region维护负载均衡

两个有效参数:MIN=floor(average)(表示下限)和MAX=ceil(average)(表示上限)
循环过载机器,将Region卸载到MAX数量在小于等于MAX时停止排序Region(按时间新旧)
遍历最轻负载机器分配Region知道Server达到MIN值在大于等于MIN时停止这些Region都是之前卸载的可能没有足够地卸载Region让轻负载的机器达到MIN值如果这样在Region数等于neededRegions(轻负载机器的数量)时停止可能我们分配了卸载的Region到轻负载机器但是仍然有Region没有分配出去这种情况下本步骤完成在下面步骤中再做处理
如果neededRegions是非零的值遍历负载最重的机器从每台机器上卸载一个Region使得它们的值从MAX到MIN
现在有很多Region等待分配遍历最轻的负载机器(多台) 分配Region到MIN
如果仍然有Region没有分配遍历最轻的负载机器(多台)这次分配Region到MAX
所有Server的Region数量时MAX或者MIN 另外所有大于等于MAX的Server保证在均衡完成后都是MAX个Region 从而保证Region移动的最小数量

其中轻负载指的是Region数量小于等于AVG 过载指大于等于AVG 所有的RegionServer都按照负载从大到小排序存放在TreeMap中(保证先遍历过载Server)

Hdfs的快照(snapshot)是在某一时间点对指定文件系统拷贝快照采用只读模式可以对重要数据进行恢复防止用户错误性的操作

快照分两种:一种是建立文件系统的索引每次更新文件不会真正的改变文件而是新开辟一个空间用来保存更改的文件一种是拷贝所有的文件系统 Hdfs属于前者

Hdfs快照的特征如下

快照的创建是瞬间的代价为O(1) 取决于子节点扫描文件目录的时间
当且仅当做快照的文件目录下有文件更新时才会占用小部分内存占用内存的大小为O(M),其中M为更改文件或者目录的数量
新建快照的时候 Datanode中的block不会被复制快照中只是记录了文件快的列表和大小信息
快照不会影响正常的hdfs操作对做快照之后的数据进行的更改将会按照时间顺序逆序的记录下来用户访问的还是当前最新的数据快照里的内容为快照创建的时间点时文件的内容减去当前文件的内容