基于MapRedue大规模矢量空间数据选择查询处理.docVIP

基于MapRedue大规模矢量空间数据选择查询处理.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于MapRedue大规模矢量空间数据选择查询处理

基于MapRedue大规模矢量空间数据选择查询处理   摘 要:为高效地处理大规模矢量空间数据,基于Hadoop的并行计算框架MapRedue,实现了一种分布式的矢量空间数据选择查询处理方法。首先,分析OGC简单要素标准与Hadoop的Key/Value数据模型,设计了可存储于Hadoop HDFS的矢量文件格式;其次,根据两阶段的过滤-精炼策略,对Map 输入数据分片、选择查询处理过程及Reduce结果合并等关键步骤进行了详细阐述;最后,基于上述技术,利用Hadoop集群环境对所提出的方法进行验证,该方法具有较好的可行性和较高的效率。   关键词:MapRedue 选择查询 存储模型 Key/Value 矢量数据文件   中图分类号: 文献标识码:A 文章编号:1674-098X(2014)03(c)-0193-02   随着全球空间数据集的急剧增长,海量空间数据带来了丰富的信息,而面对如此庞大和复杂的数据集,随之产生了数据存储与管理问题。国内外很多学者尝试利用Hadoop云计算技术处理矢量空间数据。张书彬等利用MapReduce并行处理空间查询的数据分割方法、副本避免方法实现空间查询[1];赵彦荣等基于Hadoop提出了一种并行连接查询算法CHMJ[2],提高了连接查询的处理效率;尹芳等基于开源Hadoop 的矢量空间数据分布式处理研究[3];王永刚对Hadoop云计算平台下地理信息服务的若干关键技术进行了研究[4]。   基于上述研究,该文以Hadoop分布式文件系统存储矢量空间数据,根据空间查询处理的两阶段过滤与精炼策略,并充分利用MapRedue并行计算框架处理海量数据的优势,设计一种简单实用的选择查询方法,有效提高了对大规模矢量空间数据的查询处理效率。   1 基本概念   1.1 空间选择查询   在GIS中,常见的对空间矢量数据的查询有三种,即:空间选择查询、空间连接查询和最近邻查询。其中,空间选择查询和连接查询是最基本的查询操作。空间选择查询是最重要的一种空间查询操作,它能够作为其他空间查询操作(如空间连接查询和最近邻查询)的基础。代表性的空间选择查询包括空间点查询和空间区域查询。点查询(Point Query)通过给定一个查询点P和一个空间对象集M,查找出M中所有包含点P的空间对象。区域查询通过给定一个多边形区域R和一个空间对象集M,查找出M中所有与R相交或被R包含的空间对象。   1.2 MapReduce并行计算框架   Hadoop是一款开源分布式系统基础架构,它支持在商用硬件构建的大型集群上运行应用程序,实现对海量数据的分布式处理。其核心技术包括并行计算框架MapReduce和分布式文件系统HDFS,分别是Google MapReduce和GFS的开源实现。MapReduce是一种并行计算的编程模型,用于大规模数据集(大于1TB)的并行运算。   2 基于MapReduce的空间选择查询   2.1 矢量数据存储模型   目前,开放地理信息联盟OGC(Open Geospatial Consortium)制定了许多与空间信息、基于位置服务相关的标准,其中简单要素模型(图1)是OGC最为重要的几何对象模型。简单要素几何对象中主要定义了点、线、面和集合对象。通过将空间对象与空间参考系进行关联,空间对象被抽象表达为空间参考系统(Spatial Reference System)所描述的几何体(Geometry)。大多数空间关系及空间分析都基于这个类层次体系进行研究,并且平台是独立的,可以应用到分布式计算系统[5]。该文中同样采用简单要素模型来存储矢量数据。   2.2 HDFS矢量数据文件   在OGC简单要素模型中,可以采用WKT(Well-Known Text)和WKB(Well-Known Binary)两种编码方式表示几何对象。WKT通过文本来描述几何对象和空间参考,而WKB通过二进制字节形式描述空间对象。由于HDFS不直接支持矢量数据结构,矢量数据需要进行转化后才能在Hadoop中使用。Hadoop非常擅长处理非结构化文本数据,默认使用文本作为输入,因此本文采用WKT来描述矢量空间对象,利用开源GeoTools-2.7.5工具包,设计了一种便于在hadoop中分布式存储的矢量数据文件,如图1。   在矢量数据文件中,每一行表示一个空间对象。通过HDFS来存储和管理矢量数据文件,就是直接将创建的矢量数据文件上传到HDFS文件系统,然后HDFS对其进行自动分片,生成大量的数据块(缺省为64M),分别存储到不同的节点上。   2.3 MapReduce矢量数据选择查询方法   由于空间查询多为计算密集型操作,为了提高查询效率,本文采用两阶段的过滤-精炼算法。第一阶段过滤,将空间对象用其最小外包矩形表

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档