面向海量数据高效天文交叉证认研究.ppt

下载文档 降价啦

3
0
约 33页
2017-06-19 发布于湖北
举报
版权申诉
保障服务

面向海量数据高效天文交叉证认研究.ppt

1、本文档共33页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

主要内容研究背景及意义面向多核环境的并行交叉证认方法面向分布式集群环境的交叉证认方法面向HEALPix和HTM索引的快速邻域编码计算算法总结与展望研究背景及意义天文多波段交叉证认的概念基于位置信息的交叉证认主要面临挑战：天文观测设备的日新月异所带来的天文数据的海量性：TB乃至PB量级，且呈类摩尔定律增长 LAMOST望远镜，全称：大天区面积多目标光纤光谱天文望远镜 2008年10月建成，每夜能观测上万个天体的光谱，世界上威力最大，最重要的天文望远镜之一国家“十一·五” 开始提出并已开始建设的世界最大的单口径射电望远镜 —— 500米口径球面射电天文望远镜（FAST）。美国LSST望远镜，8.4米口径大尺度概要巡天望远镜，每晚将产生数据量高达18TB，相当于28000张普通光盘的容量。关键是解决交叉证认的高效性需求与海量的天文观测数据量之间的矛盾，因此交叉证认是典型的数据密集型、I/O密集型计算难题！研究意义虚拟天文台项目数据访问服务的核心模块 LAMOST望远镜大科学工程三大子课题之一中国科学院天文科学主题库索引层建设的必要技术统计分析、数据挖掘的基础多核环境下的并行交叉证认的研究研究意义：当今处理器芯片已经步入多核时代，多核计算资源的普及所带来的强大的计算能力为天文学中很多大规模计算难题的解决提供了新的途径画框：降低计算复杂度基于伪二维球面索引的划分方法使用伪二维球面索引的好处嵌套的层次编号方式: 临近块的ID编码只区别在低位，且如果Q1区域包含Q2区域，则Q2的编码以Q1的编码为前缀。适合B-tree索引，物理上相近的块其块号在数值上也连续或相近，自然地实现了临近区域的聚类，适合于一切SQL系统。一次索引，可进行多级精度上的计算，便于选取最合适索引块和计算块的级数。不同密度、速度的星体可选择不同距离阈值。等面积与简单网格天区划分方式相比，省去了对赤经的修正(spherical-polar distortion problem )，避免了复杂的球面坐标任务分配方式简单，容易实现负载平衡通用性边界漏源问题的解决并行方法设计实验结果及分析 Aladin 可视化结果：分析与原高丹的方法相比，效率提高显著计算耗时与查询数据耗时间的平衡：划分粒度过细，边缘数据的比例升高， B-tree索引特性决定非连续数据查询效率较低；划分粒度过粗，则计算量较高。 HTM索引与HEALPix索引相比：相同面积下正三角形的周长大于正方形的边长基于Boundary Growing Model的改进方法数据库B-tree索引特性的利用数据加载计算流程：Boundary Growing Model 减少I/O读取耗时，抑制内存填充速度最大生长块概念自顶向下的最大生长块快速确定方式并行算法设计实验结果及分析实验一：稀疏数据集上的实验 SDSS DR6星表（约1亿条数据）、2MASS星表（约4.7亿条数据）原始方法与改进方法的对比：实验二：非稀疏数据集上的实验数据集：SDSS记录、2MASS记录原始方法与改进方法的对比：面向HTM索引的可行性分析优化边界问题的解决方法限制生长模型基于MapReduce分布式模型的交叉证认意义：数据急速增长，长期考虑，多核单机环境并不现实突破关系数据库在处理海量数据时的瓶颈利用大规模集群获得更强大的计算能力，进一步提高效率，为实现在线实时交叉证认和联合查询打下基础 MapReduce模型概念： MapReduce是Google在2004年提出的一个编程模型，并已于2010年年初正式申请获批该项技术的专利。它主要用以进行大规模数据集上的并行运算，其主要概念“Map（映射）”和“Reduce（规约）”最初借鉴于函数式编程语言。优点：适合处理海量数据，尤其适合于数据间存在较强独立性的应用；成本低廉，使原本必须借助于非常高昂的超级计算机才能获得的计算能力可以在大量廉价机器上同样实现；易于编程，将任务分发、任务调度、数据分布、容错处理、负载平衡等并行计算中不可避免的复杂控制细节隐藏于系统的运行时后台处理中 Step1:数据分布式存放（Map+Reduce） Map Step2: 证认计算（Map）实验实验结果：证认部分耗时：25秒达到接近线性的加速比意义：确认了文件数据库在处理海量数据方面的优势大幅度缩短大星表交叉证认计算用时，为最终实现实时联合查询服务提供了条件充分利用了廉价的计算资源，对于快速增长的天文数据量具有良好的可扩展性，