hbase预分区的原理，hbase中的分区是如何定位的

小程序：扫一扫查出行
【扫一扫了解最新限行尾号】
复制小程序

Hbase分区

partition 顾名思义就是分区式，这种分区有点类似于 mapreduce 中的 partitioner，将区域用长整数作为分区号，每个 Region 管理着相应的区域数据，在 RowKey 生成时，将 id 取模后，然后拼上 id 整体作为 RowKey 。

具体步骤如下：需要知道要查询的表名和分区的起始行键或结束行键。可以使用scan命令来扫描hbase：meta表，这个表存储了所有分区的元数据信息。可以使用PrefixFilter或RowFilter来过滤出要查询的分区的记录。

像这样预先创建hbase表分区的方式，称之为预分区。hash(主键) + 年月日时(2019062315)这里只取hash(主键)的前6位，使得行键的长度正好是16，也就是8的整数倍，在64位计算机中，效果最好。

所以，HBase 提供了预分区功能，让用户可以在创建表的时候对表按照一定的规则分区。

首先我们应该考虑的是rowkey的设置，第一：散列或者反转，保证数据会随机分布到不同的region当中。

HBase每张表在底层存储上是由至少一个Region组成，Region实际上就是HBase表的分区。

那么依照这个原则，我们可以将数据所要投放的分区提前大致的规划好，以提高Hbase性能。

保证了负载均衡性。像这样预先创建hbase表分区的方式，称之为预分区。hash(主键)+年月日时(2019062315)这里只取hash(主键)的前6位，使得行键的长度正好是16，也就是8的整数倍，在64位计算机中，效果最好。

hbase.hregion.max.filesize 设定的region大小，超过了就会split，就会增加一个region，对预分区没什么影响。

默认，HBase 在创建表的时候，会自动为表分配一个 Region，正处于混沌时期，start-end key 无边界，所有 RowKey 都往这个 Region里分配。

HBase表的列族在创建之初只有一个Region，随着插入数据的增多Region变得越来越大。

以fileServer为例，在使用默认的split策略--IncreasingToUpperBoundRegionSplitPolicy 的情况下，16个预分区Region，则单个Resion容量达到 min(32，50)，即32GB时分裂。

默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。

hbase预分区的原理的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于hbase中的分区是如何定位的、hbase预分区的原理的信息别忘了在本站进行查找喔。