7 中国测绘科学研究院吴政:对等网络下自适应层级的矢量数据时空索引构建方法.docx

7 中国测绘科学研究院吴政:对等网络下自适应层级的矢量数据时空索引构建方法.docx

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚焦︱中国测绘科学争辩院吴政:对等网络下自适应层级的矢量数据时空索引构建方法 导读 近年来,作为时空数据存储和管理的关键技术之一,时空索引备受关注。然而对于矢量数据,传统时空索引方法难以同时兼顾时间查询和空间查询,且非点要素确定最优索引层级也始终是难点。因此,本文在“去中心化”的对等网络下,基于S2索引,提出一种自适应层级的时空索引构建方法,可实现对时空数据的时空联合查询、合理表达以及高效检索。 时空索引是时空数据存储和管理的关键技术之一[1-2]。在分布式NoSQL数据库环境下,时空索引的争辩可分为两大类:一类是基于传统的空间索引(QuadTree、R-Tree、Grid索引等)进行分布式改进或扩展的索引方法[3-9];另一类是基于空间填充曲线(space filling curve,SFC)的索引方法(Z-Order,Hilbert, Google S2等)。SFC由于具有良好的集聚特性,可以更好地描述时空数据的空间连续特征[10-11],近年来被广泛应用于时空索引领域。 文献[12]提出了以GeoHash字符串标识空间信息,并与时间属性字符串交织编码构成索引键值的时空索引结构;文献[13]提出了基于R-Tree与Geohash编码的空间索引机制;Google公司于2011年提出了一种四叉树与Hlibert曲线相结合的S2空间数据索引方法[14-15],可以实现多层级的空间要素的表达;关注度较高的开源项目GeoMesa[16]提出了XZ-Ordering[17-18]时空索引方法(以下简称XZ3),其基本思想是将四叉树与Z-Order曲线相结合,将空间信息的GeoHash字符串与时间信息字符串交叉来实现时空信息的编码,并以一个随机的二进制编号作为行索引键,从而实现任意辨别率下空间信息的表达,并且查询性能不会随辨别率的提高而毁灭退化。 对等网络(peer to peer,P2P)是一种去中心化架构,具有高扩展性、高可用性、大吞吐量等特性。Apache Cassandra数据库[19-20]作为一种P2P网络下的NoSQL数据库,显现出了对于动态增长的海量数据管理方面的较大优势,然而基于Cassandra进行时空数据管理特殊是对矢量数据管理的争辩较少[21-22]。S2空间索引相对于XZ3索引可以更好地实现全球范围内矢量要素的多层级表达及对非点要素的连续性描述,然而现有索引方法应用于P2P网络时,仍存在以下难点问题需要解决: ①时空信息联合索引问题,现有索引多侧重于空间索引的争辩,如何兼顾时间查询与空间查询的效率是一个难点; ②非点要素的合理表达问题,对于线、面状要素,其掩盖的空间范围差异大,查询时既要考虑小范围内的精确快速查询,也要兼顾大范围的全掩盖扫描,如何对非点要素进行合理表达是第2个难点; ③最优时空层级确定问题,时间粒度与分层级别直接影响到查询的效率和精确?????度,如何依据地理要素自身特征确定合理的索引级别(时空辨别率)是第3个难点。 综上所述,本文在“去中心化”的对等网络下,基于S2索引,提出一种自适应层级的时空索引构建方法,实现对时空数据的时空联合查询、合理表达以及高效检索。 一、自适应层级的时空索引原理 NoSQL数据库中的时空索引本质上是一种在Row Key中编码时空信息的方式。本文基于S2空间索引,构建一种自适应层级时空索引方法。基本思路为:首先接受分粒度、分层级的方法对时空信息进行联合编码;其次,依据地理要素空间分布方式对点及非点要素进行时空表达;最终,提出时空最优层级确定算法,并基于多层级时空索引树构建MLS3(multi-level sphere 3)时空索引。 1.1 时空信息联合编码 1.1.1 时间信息编码 时间信息依据数据更新周期或者采样频率划分为6级,时间粒度在“秒”与“年”之间逐级分布,标记为gi(i=0, 1, …,5),如表 1所示。 表1?时间信息编码 定义Tbase为起算基点,Tcurrent为当前时间至Tbase的毫秒数,即Tcurrent=T(g5)-Tbase,则以当前时间对应时间粒度gi的整数部分作为分区键,记为Tpartition(gi),而排序键Tsort(gi)=Tcurrent-Tpartition(gi),得到时间信息在Row Key中编码如图 1所示。 图1 Row Key中时间信息的表示 1.1.2 空间信息编码 依据S2索引思想,各个层级中的空间要素均可由对其形成包络的一个和多个格网进行标识。如图 2所示,线要素(灰色粗实线)在第1层级L1的包络Cell集合为(0, 2, 3),在第2层级L2的包络Cell集合为(00, 02, 03, 22, 23, 30, 31),在第3层级L3的包络Cell集合为(001, 002, 020, 022, 023,

文档评论(0)

小文文小库库 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档