矢量空间大数据高性能计算工作汇报.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
矢量大数据 高性能计算方法研究 研究背景与总体框架 3 1 空间数据文本化与ETL 3 2 分布式空间数据组织与索引 3 3 高性能拓扑分析 3 4 空间数据即席查询与实时查询 3 5 3 6 土地矢量大数据计算解决方案 研究背景 目前大规模矢量数据在“存算显”方面存在如下难题 多源、异构矢量数据难以统一表达及建模 传统矢量数据受限于格式和存储方式,不适合分布式存储及计算 大规模矢量数据加载,显示,分析,查询缓慢或无法进行 基于现有云计算框架的矢量数据索引和计算方法,索引结构单一,硬盘交互频繁,网络开销巨大 基于分布式内存的高性能计算框架,在矢量数据计算和处理方面,功能结构单一,尚未形成体系 提出以下关键技术: 空间数据文本化与分布式抽取、转换和加载 大规模矢量数据分布式存储与索引 大规模矢量数据高性能拓扑分析、即席查询与实时查询 分布式矢量瓦片构建算法 总体框架 大规模空间数据分布式存储和计算的文本化格式 文件路径:hdfs://ip:port/path/to/file.csv 文件格式:csv或tsv 文件大小:无限制 文件结构:p1,p2,p3,…,pn,WKT/WKB/GeoJSON/GML… 优势 利用空间文本将点、线、面各类矢量要素统一表达 行文本文件易于分块和扩展,适合存储于分布式文件系统 行文本文件符合MapReduce编程框架原生支持的数据输入 以要素为并行单元,支持细粒度并行计算 统一的属性和空间数据格式,易于数据向Spark RDD、Hive、HBase HFile迁移转换 空间数据文本化 空间数据ETL 基于Apache Sqoop的空间数据分布式ETL 支持Oracle Spatial,MySQL Spatial,PostgreSQL-GIS,ArcSDE等空间数据库和空间数据库引擎为数据源的数据抽取 利用空间数据库内置的空间格式转换函数实现空间数据文本化表达 支持统一文本化空间数据向空间数据库的反向导入 基于MapReduce,并行效率高 基于Gdal的并行ETL模型 支持SHP、MDB等传统矢量数据文件读取,转换 利用Gdal ogr扩展实现空间数据文本化表达 支持统一文本化空间数据向空间文件的反向导入 基于MapReduce,并行效率高 分布式空间数据组织与索引 空间数据组织形态 分布式文件系统存储的文本化空间数据 分布式内存存储的Spark RDD数据模型 HBase存储的K-Column键值对模型(HFile) Hive、Shark等空间数据仓库建库所需的元数据库 R-tree, R+-tree, R*-tree, Quadtree,空间格网等分布式空间索引 Lucene定义的全文索引 空间数据索引 数据组织方式 索引类型 HDFS 属性索引、时间索引及R树、R*树、四叉树、空间格网等空间索引 Spark RDD 稀疏四叉树、多粒度空间格网 HBase 根据GeoHash或空间填充曲线设计的一维字典索引、二级列索引 Lucene 四叉树和GeoHash 高性能拓扑分析 模型名称 模型类型 主要输入参数 输出 功能作用 空间统计分析 空间统计(Spark) 查询图层(矢量) 目标图层(矢量) 缓冲区半径 拓扑分析类型 属性A 属性B 按照属性A分组的属性B的总和、最大值、最小值、平均值 对查询图层(查询区域、矢量图层等)构建缓冲区(默认不构建),对查询图层和目标图层进行指定的拓扑分析(包含、相交),对目标图层的分析结果,按照属性A(通常是行政区划、格网编号)统计属性B 空间连接 空间分析(Spark) 矢量图层1 矢量图层2 拓扑关系类型 符合指定拓扑关系的空间数据对象 对矢量图层1和2,按照指定的拓扑关系类型,进行空间连接 叠加分析 空间分析(Spark) 叠加图层1 叠加图层2 拓扑操作类型 属性A 输出数据类型 按照属性A分类及命名的指定数据类型的矢量数据文件 对叠加图层1和叠加图层2进行指定的拓扑分析(union、intersect),叠加后的图斑按照属性A(通常是行政区划、格网编号)合并,将合并后的图斑输出到指定输出数据类型的矢量文件。 空间剪裁 空间处理(Spark) 剪裁图层(矢量) 被剪裁图层(矢量、栅格) 缓冲区半径 属性A 输出数据类型 按照剪裁图层属性A分类及命名的指定数据类型的矢量数据文件 对剪裁图层构建缓冲区(默认不构建),对被剪裁图层进行空间剪裁操作,剪裁后的图斑按照属性A(通常是行政区划、格网编号)合并,将合并后的图斑输出到指定输出数据类型的矢量文件。 高性能拓扑分析 模型名称 模型类型 主要输入参数 输出 功能作用 矢量瓦片构建 空间处理(MR) 矢量图层 瓦片级别范围 属性A 符号列表 指定级别范围的矢量瓦片数据 按照属性A和符号列表对矢量图层进行符号化

文档评论(0)

a13355589 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档