hbase查询数据性能，hbase查询最新的一条记录

小程序：扫一扫查出行
【扫一扫了解最新限行尾号】
复制小程序

hbase的主要用途

hbase的主要用途是用于存储非结构化和半结构化的稀疏数据，被广泛应用于大数据存储和实时数据查询场景。

HBase 是典型的 NoSQL 数据库，通常被描述成稀疏的、分布式的、持久化的，由行键、列键和时间戳进行索引的多维有序映射数据库，主要用来存储非结构化和半结构化的数据。

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

数据存储层：这一层主要负责数据的持久化存储。常用的技术包括HDFS、HBase、Cassandra等。HDFS是一个分布式文件系统，适合存储大量非结构化数据。HBase是一个分布式列存储数据库，适合存储大量结构化数据。

1、三个层面：HDFS：参数调优、备份数、硬件性能、网络性能等等 HBase：数据表的设计：如rowkey的设计，参数调优等。MapReduce：用户自己的程序的设计、实现的好坏等等。以上都可能影响到查询效率。

2、其次hbase本身的数据读写服务没有单点的限制，服务能力可以随服务器的增长而线性增长，达到几十上百台的规模。LSM-Tree模式的设计让hbase的写入性能非常良好，单次写入通常在1-3ms内即可响应完成，且性能不随数据量的增长而下降。

3、Bloom Filter是一种快速的数据过滤技术，可以帮助HBase快速地过滤掉无效的查询请求，提高查询效率。MemStore是一种缓存机制，可以帮助HBase加速数据写入，提高数据写入效率。

必须在设计上保证RowKey的唯一性。由于在HBase中数据存储是Key-Value形式，若向HBase中同一张表插入相同RowKey的数据，则原先存在的数据会被新的数据覆盖。设计的RowKey应均匀的分布在各个HBase节点上，避免数据热点现象。

我这里只分了三个region，用hbase shell命令创建表，设置预分区数量为3 下图中，可以看到，预分区以后，数据的读写访问请求数量均匀分布在3台RegionServer上，避免了热点问题。

HBase的Rowkey是按照ASCII有序设计的，我们在设计Rowkey时要充分利用这点。比如视频网站上对影片《泰坦尼克号》的弹幕信息，这个弹幕是按照时间倒排序展示视频里，这个时候我们设计的Rowkey要和时间顺序相关。

HBase性能优化-Rowkey&列族设计必须在设计上保证RowKey的唯一性。由于在HBase中数据存储是Key-Value形式，若向HBase中同一张表插入相同RowKey的数据，则原先存在的数据会被新的数据覆盖。

rowkey的设计主要为了方便后期的查询（条件查询语句），如果设计的合理，查询速率可以大大提升分区的设计，主要考量的是入库HBase的速率。如果设计的不合理，会导致局部入库数据过热，严重的有可能出现入库失败的情况。

关于hbase查询数据性能和hbase查询最新的一条记录的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。