HOS:一种基于HBase的分布式存储系统设计与实现

被引:18
作者
季一木 [1 ,2 ,3 ,4 ]
张宁 [1 ]
尧海昌 [1 ]
李奎 [1 ]
李航 [1 ]
刘尚东 [1 ,2 ,3 ,4 ]
王汝传 [1 ,2 ,3 ,4 ]
机构
[1] 南京邮电大学计算机学院
[2] 南京邮电大学江苏省无线传感网高技术研究重点实验室
[3] 南京邮电大学高性能计算与大数据处理研究所
[4] 南京邮电大学高性能计算与智能处理工程研究中心
基金
国家重点研发计划;
关键词
HBase; 查询处理; 分层式索引; 分布式存储;
D O I
10.14132/j.cnki.1673-5439.2019.05.009
中图分类号
TP333 [存贮器];
学科分类号
081201 ;
摘要
大数据时代,数据快速增长,迫切需要寻找有效的数据存储方案,HBase系统具有分布式、列式存储的特点,为大数据的存储管理提供了一种高效的解决方案。由于HBase只支持主键索引,对于非主键查询效率低下,难以满足实时需求。为此,提出一种分层式索引查询模型,该模型基于HBase建立持久性索引层,基于Redis建立分布式热点索引缓存层。前者为存储在HBase中的数据建立索引表,提高查询效率,后者基于Redis在内存中存储热点索引,降低磁盘访问开销,进一步提高查询效率。最终,依据此模型实现了分层式索引查询系统HOS,基于Imagenet图片数据集对HOS进行实验,实验结果表明,HOS数据查询性能优于标准HBase。
引用
收藏
页码:63 / 71
页数:9
相关论文
共 5 条
[1]   海量样本数据集中小文件的存取优化研究 [J].
马振 ;
哈力旦·阿布都热依木 ;
李希彤 .
计算机工程与应用, 2018, (22) :80-84+98
[2]   大数据一体机关键技术及应用研究 [J].
陈国良 ;
尧海昌 ;
李航 ;
叶青 ;
刘尚东 ;
季一木 ;
王汝传 .
南京邮电大学学报(自然科学版), 2018, 38 (01) :1-19
[3]   一种基于Solr的HBase海量数据二级索引方案 [J].
王文贤 ;
陈兴蜀 ;
王海舟 ;
吴小松 .
信息网络安全, 2017, (08) :39-44
[4]   基于Storm的面向大数据实时流查询系统设计研究 [J].
蒋晨晨 ;
季一木 ;
孙雁飞 ;
王汝传 .
南京邮电大学学报(自然科学版), 2016, 36 (03) :100-105+111
[5]   HiBase:一种基于分层式索引的高效HBase查询技术与系统 [J].
葛微 ;
罗圣美 ;
周文辉 ;
赵頔 ;
唐云 ;
周娟 ;
曲文武 ;
袁春风 ;
黄宜华 .
计算机学报, 2016, 39 (01) :140-153