hbase预分区实现，hbase预分区的弊端

小程序：扫一扫查出行
【扫一扫了解最新限行尾号】
复制小程序

Hbase读写原理

1、所以hbase大多数读要走磁盘，所以读很慢。每次刷写会生成新的Hfile，Hfile很小并且数量多的时候会影响查询的速度。所以要进行合并。

2、hbase客户端通过rpc调用将put、delete数据请求提交到对应的regionserver，regionserver对请求进行处理，并将数据最终写入hfile中，进行持久化保存。hbase为了保证随机读取的性能，所以hfile里面的rowkey是有序的。

3、Hbase数据是按列存储-每一列单独存放。列存储的优点是数据即是索引。访问查询涉及的列-大量降低系统I/O 。并且每一列由一个线索来处理，可以实现查询的并发处理。基于Hbase数据类型一致性，可以实现数据库的高效压缩。

4、HBase数据写入通常会遇到两类问题，一类是写性能较差，另一类是数据根本写不进去。

5、HDFS不太适合做大量的随机读应用，但HBASE却特别适合随机的读写个人理解：数据库一般都会有一层缓存，任何对数据的更改实际上是先更改内存中的数据。然后有异步的守护进程负责将脏页按照一定策略刷新到磁盘空间中去。

6、hbase的核心数据结构为LSM树。LSM树分为内存部分和磁盘部分。内存部分是一个维护有序数据集合的数据结构。

默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。

预分区后，可以从 HBase ui 页面观察到： HBase API 建预分区表为防止热点问题，同时避免 Region Split 后，部分 Region 不再写数据或者很少写数据。

hbase.hregion.max.filesize 设定的region大小，超过了就会split，就会增加一个region，对预分区没什么影响。

该数据库手动split分区数没变的原因如下：用户没有使用管理员权限，无法对HBase进行操作。HBase集群处于安全模式，无法进行split操作。split表中存在数据，无法进行split操作。

partition 顾名思义就是分区式，这种分区有点类似于 mapreduce 中的 partitioner，将区域用长整数作为分区号，每个 Region 管理着相应的区域数据，在 RowKey 生成时，将 id 取模后，然后拼上 id 整体作为 RowKey 。

像这样预先创建hbase表分区的方式，称之为预分区。hash(主键) + 年月日时(2019062315)这里只取hash(主键)的前6位，使得行键的长度正好是16，也就是8的整数倍，在64位计算机中，效果最好。

hbase.hregion.max.filesize 设定的region大小，超过了就会split，就会增加一个region，对预分区没什么影响。

默认，HBase 在创建表的时候，会自动为表分配一个 Region，正处于混沌时期，start-end key 无边界，所有 RowKey 都往这个 Region里分配。

hbase建很多空表对集群有影响。HBase每张表在底层存储上是由至少一个Region组成，Region实际上就是HBase表的分区。

像这样预先创建hbase表分区的方式，称之为预分区。hash(主键)+年月日时(2019062315)这里只取hash(主键)的前6位，使得行键的长度正好是16，也就是8的整数倍，在64位计算机中，效果最好。

已经有自动分区了，为什么还需要预分区？ HBase 在创建表的时候，会自动为表分配一个Region，当一个 Region 达到拆分条件时(shouldSplit 为 true)，HBase 中该 Region 将会进行 split，分裂为2个 Region，以此类推。

目前我们已经确定了hbase存储，并且采用预分区的方式并且采用rowkey进行过滤查询，那么现在考虑rowkey的设计。

优化建议：检查RowKey设计以及预分区策略，保证写入请求均衡。 KeyValue大小对写入性能的影响巨大，一旦遇到写入性能比较差的情况，需要考虑是否由于写入KeyValue数据太大导致。

hbase预分区实现的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于hbase预分区的弊端、hbase预分区实现的信息别忘了在本站进行查找喔。