面向海量数据高效天文交叉证认研究.ppt

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主要内容 研究背景及意义 面向多核环境的并行交叉证认方法 面向分布式集群环境的交叉证认方法 面向HEALPix和HTM索引的快速邻域编码计算算法 总结与展望 研究背景及意义 天文多波段交叉证认的概念 基于位置信息的交叉证认 主要面临挑战: 天文观测设备的日新月异所带来的天文数据的海量性:TB乃至PB量级,且呈类摩尔定律增长 LAMOST望远镜,全称:大天区面积多目标光纤光谱天文望远镜 2008年10月建成,每夜能观测上万个天体的光谱,世界上威力最大,最重要的天文望远镜之一 国家“十一·五” 开始提出并已开始建设的世界最大的单口径射电望远镜 —— 500米口径球面射电天文望远镜(FAST)。 美国LSST望远镜,8.4米口径大尺度概要巡天望远镜,每晚将产生数据量高达18TB,相当于28000张普通光盘的容量。 关键是解决交叉证认的高效性需求与海量的天文观测数据量之间的矛盾,因此交叉证认是典型的数据密集型、I/O密集型计算难题! 研究意义 虚拟天文台项目数据访问服务的核心模块 LAMOST望远镜大科学工程三大子课题之一 中国科学院天文科学主题库索引层建设的必要技术 统计分析、数据挖掘的基础 多核环境下的并行交叉证认的研究 研究意义: 当今处理器芯片已经步入多核时代,多核计算资源的普及所带来的强大的计算能力为天文学中很多大规模计算难题的解决提供了新的途径 画框:降低计算复杂度 基于伪二维球面索引的划分方法 使用伪二维球面索引的好处 嵌套的层次编号方式: 临近块的ID编码只区别在低位,且如果Q1区域包含Q2区域,则Q2的编码以Q1的编码为前缀。 适合B-tree索引,物理上相近的块 其块号在数值上也连续或相近,自然地实现了临近区域的聚类,适合于一切SQL系统。 一次索引,可进行多级精度上的计算,便于选取最合适索引块和计算块的级数。不同密度、速度的星体可选择不同距离阈值。 等面积 与简单网格天区划分方式相比,省去了对赤经的修正(spherical-polar distortion problem ),避免了复杂的球面坐标 任务分配方式简单,容易实现负载平衡 通用性 边界漏源问题的解决 并行方法设计 实验结果及分析 Aladin 可视化结果: 分析 与原高丹的方法相比,效率提高显著 计算耗时与查询数据耗时间的平衡:划分粒度过细,边缘数据的比例升高, B-tree索引特性决定非连续数据查询效率较低;划分粒度过粗,则计算量较高。 HTM索引与HEALPix索引相比: 相同面积下正三角形的周长大于正方形的边长 基于Boundary Growing Model的改进方法 数据库B-tree索引特性的利用 数据加载计算流程:Boundary Growing Model 减少I/O读取耗时,抑制内存填充速度 最大生长块概念 自顶向下的最大生长块快速确定方式 并行算法设计 实验结果及分析 实验一:稀疏数据集上的实验 SDSS DR6星表(约1亿条数据)、2MASS星表(约4.7亿条数据) 原始方法与改进方法的对比: 实验二:非稀疏数据集上的实验 数据集:SDSS记录、2MASS记录 原始方法与改进方法的对比: 面向HTM索引的可行性分析 优化边界问题的解决方法 限制生长模型 基于MapReduce分布式模型的交叉证认 意义: 数据急速增长,长期考虑,多核单机环境并不现实 突破关系数据库在处理海量数据时的瓶颈 利用大规模集群获得更强大的计算能力,进一步提高效率,为实现在线实时交叉证认和联合查询打下基础 MapReduce模型 概念: MapReduce是Google在2004年提出的一个编程模型,并已于2010年年初正式申请获批该项技术的专利。它主要用以进行大规模数据集上的并行运算,其主要概念“Map(映射)”和“Reduce(规约)”最初借鉴于函数式编程语言。 优点: 适合处理海量数据,尤其适合于数据间存在较强独立性的应用; 成本低廉,使原本必须借助于非常高昂的超级计算机才能获得的计算能力可以在大量廉价机器上同样实现; 易于编程,将任务分发、任务调度、数据分布、容错处理、负载平衡等并行计算中不可避免的复杂控制细节隐藏于系统的运行时后台处理中 Step1:数据分布式存放(Map+Reduce) Map Step2: 证认计算(Map) 实验 实验结果: 证认部分耗时:25秒 达到接近线性的加速比 意义: 确认了文件数据库在处理海量数据方面的优势 大幅度缩短大星表交叉证认计算用时,为最终实现实时联合查询服务提供了条件 充分利用了廉价的计算资源,对于快速增长的天文数据量具有良好的可扩展性,

文档评论(0)

xiaofei2001129 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档