基于分布式数据仓库的分类分析研究

被引:10
作者
李伟卫
李梅
张阳
申爱丽
机构
[1] 西北农林科技大学信息工程学院
基金
中央高校基本科研业务费专项资金资助;
关键词
数据挖掘; 分布式数据仓库; 分类分析; GAC-RDB; Hadoop; HBase; Hive;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
针对GAC-RDB分类算法只能应用于单机版数据仓库的局限性,为了能够更方便、快捷地在云计算平台上开展数据挖掘工作,基于分布式数据仓库HBase,结合GAC-RDB分类算法的实现机理,制定适合分布式平台的运行策略,使用原生HiveQL语言提出了一种分布式GAC-RDB分类算法。实验显示,随着集群中节点的不断增加,算法的运行时间稳步下降。结果表明,在保证算法准确率的前提下,分布式数据仓库能够有效提高GACRDB分类算法的扩展性和运行效率,相对于MapReduce框架,HiveQL语言降低了对数据挖掘从业人员的技术要求,更大程度地减少了算法的开发时间,为挖掘海量数据提供了新的解决方案。
引用
收藏
页码:2936 / 2939+2943 +2943
页数:5
相关论文
共 6 条
[1]   基于Hadoop/Hive的web日志分析系统的设计 [J].
刘永增 ;
张晓景 ;
李先毅 .
广西大学学报(自然科学版), 2011, (S1) :314-317
[2]   基于云计算的Web数据挖掘 [J].
程苗 .
计算机科学, 2011, 38(S1) (S1) :146-149
[3]   列存储数据库关键技术综述 [J].
李超 ;
张明博 ;
邢春晓 ;
胡劲松 .
计算机科学, 2010, 37 (12) :1-7+17
[4]   基于分布式数据仓库技术的ETL系统的研究与应用 [J].
花海洋 ;
李一凡 ;
赵怀慈 .
微计算机信息, 2006, (30) :144-146+209
[5]   利用数据库技术实现的可扩展的分类算法 [J].
刘红岩 ;
陆宏钧 ;
陈剑 .
软件学报, 2002, (06) :1075-1081
[6]  
实战Hadoop.[M].刘鹏; 主编.电子工业出版社.2011,