hbase支持的大小，hbase region的大小设置

小程序：扫一扫查出行
【扫一扫了解最新限行尾号】
复制小程序

HBase调优:预分区与行键设计

一个regionserver可以管理的region数量和列族数量与每个列族缓存的大小有关，计算公式如下：我这里只分了三个region，用hbase shell命令创建表，设置预分区数量为3 下图中，可以看到，预分区以后，数据的读写访问请求数量均匀分布在3台RegionServer上，避免了热点问题。

必须在设计上保证RowKey的唯一性。由于在HBase中数据存储是Key-Value形式，若向HBase中同一张表插入相同RowKey的数据，则原先存在的数据会被新的数据覆盖。设计的RowKey应均匀的分布在各个HBase节点上，避免数据热点现象。rowkey：行键设计的三个原则唯一必须在设计上保证其唯一性。

HBase 在创建表的时候，会自动为表分配一个Region，当一个 Region 达到拆分条件时(shouldSplit 为 true)，HBase 中该 Region 将会进行 split，分裂为2个 Region，以此类推。表在进行 split 的时候，会耗费很多的资源，有大量的 io 操作，频繁的分区对 HBase 的性能有很大的影响。

优化建议：检查RowKey设计以及预分区策略，保证写入请求均衡。 KeyValue大小对写入性能的影响巨大，一旦遇到写入性能比较差的情况，需要考虑是否由于写入KeyValue数据太大导致。KeyValue大小对写入性能影响曲线图如下：图中横坐标是写入的一行数据(每行数据10列)大小，左纵坐标是写入吞吐量，右坐标是写入平均延迟(ms)。

目前我们已经确定了hbase存储，并且采用预分区的方式并且采用rowkey进行过滤查询，那么现在考虑rowkey的设计。

(1)手动设定预分区手动设置RowKey分了5个region (2)生成16进制序列预分区 (3)按照文件中设置的规则预分区创建split.txt 然后执行这里如果文件里面给的分区键不是按照顺序的，hbase会先帮我们把键排序，然后按照键来分区。

HBase应用场景

1、交通方面：船舶GPS信息，全长江的船舶GPS信息，每天有1千万左右的数据存储。金融方面：消费信息，贷款信息，信用卡还款信息等电商：淘宝的交易信息等，物流信息，浏览信息等移动：通话信息等，都是基于HBase的存储。

2、HBase的应用场景：大型数据存储：HBase可以处理PB级别的数据量，适合存储大规模的数据，例如日志数据、监控数据、交易数据等。时序数据：HBase可以用于存储时序数据，如速度的展示，天气、温度、风速、车流量等。

3、HBase的应用场景日志处理 HBase适用于大规模的日志处理，可以快速地存储和分析海量的日志数据。通过将日志数据按照时间戳进行排序，可以实现高效的日志查询和分析。实时计算 HBase可以与实时计算框架（如ApacheStorm）结合使用，实现实时数据的存储和计算。

4、支持实时查询。 Hive不提供row-level的更新，它适用于大量append-only数据集（如日志）的批任务处理。而基于HBase的查询，支持和row-level的更新。 Hive提供完整的SQL实现，通常被用来做一些基于历史数据的挖掘、分析。而HBase不适用与有join，多级索引，表关系复杂的应用场景。

HBase是什么呢,都有哪些特点呢?

HBase是一种分布式、可扩展的NoSQL数据库，它是基于Hadoop的HDFS文件系统构建的。HBase被设计用来处理海量数据，并提供高可靠性、高性能的读写操作。它采用了分布式存储和计算的方式，可以在数千台服务器上存储和处理PB级别的数据。

容量大：HBase 分布式数据库中的表可以存储成千上万的行和列组成的数据。面向列：HBase 的数据在表中是按照某列存储的，根据数据动态地增加列，并且可以单独对列进行各种操作。

非关系型数据库，列存储和文档存储(查询低延迟)，hbase是nosql的一个种类，其特点是列式存储。

hbase的特点：高可靠性、高性能、面向列、可伸缩的。HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Apache的Hadoop项目的子项目。

Hbase是一个面向列存储的分布式存储系统，它的优点在于可以实现高性能的并发读写操作，同时Hbase还会对数据进行透明的切分，这样就使得存储本身具有了水平伸缩性。通常，顺序读取数据要比随机访问更快。

HBase支持那些数据类型?

1、非结构化和半结构化数据：HBase可以灵活地存储各种类型的数据，包括文本、图片、音频、视频等非结构化数据，以及JSON、XML等半结构化数据。这些数据在现代应用中越来越常见，而传统的关系型数据库往往难以有效处理。稀疏数据：HBase非常适合存储稀疏数据，即其中大部分元素都是空的数据集。

2、对于我来说，最显然的不同就是你不需要为变量预先指定一个类型。Ok ，现在Hbase为未来的DBA也带来了这个激动人心的特性，你只需要告诉你的数据存储到Hbase的那个column families 就可以了，不需要指定它的具体类型：char，varchar，int，tinyint，text等等。

3、LSM-Tree是一种支持高写入吞吐量的数据结构，它把数据分成多个层，每层采用不同的策略来管理数据，包括内存中的缓存、写入磁盘的SSTable、和合并SSTable的操作。通过这种方式，HBase能够支持高并发、高吞吐量的数据写入，同时保证数据的一致性和可靠性。

4、HBase是一个分布式的、面向列的开源数据库，该技术来源于Chang et al所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。

关于hbase支持的大小和hbase region的大小设置的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。