基于Shark/Spark的分布式空间数据分析框架

被引:23
作者
温馨 [1 ,2 ]
罗侃 [1 ,2 ]
陈荣国 [1 ]
机构
[1] 中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室
[2] 中国科学院大学
关键词
Shark; Spark; Hadoop; 空间数据库; 空间查询;
D O I
暂无
中图分类号
P208 [测绘数据库与信息系统];
学科分类号
070503 ; 081603 ; 0818 ; 081802 ;
摘要
随着空间数据的与日俱增,传统依托于单节点的空间数据管理方法,已难以满足海量数据高并发的需求。云计算的兴起带来机遇与挑战,分布式技术与数据库技术的优势互补,为云计算下高效的数据管理提供了可能。本文提出一种在分布式计算引擎(Shark/Spark)中集合之关键技术(包括空间数据映射、空间数据加载、数据备份及空间查询等),将空间数据库对空间数据的高效存储、索引及查询优势与分布式计算引擎对复杂计算的优势相结合,实现一种基于Shark/Spark的分布式空间数据分析框架。在具体实现中,通过空间自定义函数和空间函数下推2种方式实现空间查询,结果表明,影响返回结果数据量的空间查询更适合下推给空间数据库完成,而不影响返回结果数据量的空间查询,利用分布式计算引擎直接运算更有优势。同时,通过与现有的一种分布式GIS方案(Arc GIS on Hadoop)对比发现,空间数据库的空间索引可有效提高查询效率,空间数据管理也更加独立。
引用
收藏
页码:401 / 407
页数:7
相关论文
共 5 条
[1]   架构大数据:挑战、现状与展望 [J].
王珊 ;
王会举 ;
覃雄派 ;
周烜 .
计算机学报, 2011, 34 (10) :1741-1752
[2]   空间数据访问集成与分布式空间数据源对象查询 [J].
高昂 ;
陈荣国 ;
赵彦庆 ;
颜勋 .
地球信息科学学报, 2010, 12 (04) :532-540
[3]  
空间数据库管理系统概论[M]. 科学出版社 , 程昌秀, 2011
[4]  
Spatial cloud computing: how can the geospatial sciences use and help shape cloud computing?[J] . Chaowei Yang,Michael Goodchild,Qunying Huang,Doug Nebert,Robert Raskin,Yan Xu,Myra Bambacus,Daniel Fay.International Journal of Digital Earth . 2011 (4)
[5]  
Integrating GIS and spatial data analysis: problems and possibilities[J] . Michael Goodchild,Robert Haining,Stephen Wise.International Journal of Geographical Information Science . 1992 (5)