网站大量收购独家精品文档,联系QQ:2885784924

大学课件 面向海量数据的高效天文交叉证认的研究.ppt

大学课件 面向海量数据的高效天文交叉证认的研究.ppt

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
块“0”编码: 块“1”编码: 块“2”编码: 实验结果: 计算 个HEALPix计算块中的每个计算块周围一圈的 个邻接HEALPix原子块的全部HEALPix编码(包含 次“同等划分级别下的邻接块编码计算”和 次“块内边界小块编码计算”) 总耗时:0.82秒 计算全天区 个HTM计算块中的每个计算块周围一圈的 个邻接HTM原子块的全部HTM编码(包含 次“同等划分级别下的邻接块编码计算”和 次“块内边界小块编码计算”) 总耗时:1.23秒 结论: 为高效交叉证认方法的实现奠定了基础,同时也在多种面向海量数据的天文数据处理中有着重要的应用价值。 未来展望 研究基于数据挖掘、概率统计等更复杂交叉证认方法在海量数据上的效率问题,争取更高的证认精确度。 研究并实现可在线访问的交叉证认服务系统。要构建出具有实际应用价值的交叉证认系统还有许多工作要做,包括多种数据源间的格式转换、多层系统架构的实现、对多种交叉证认扩展方法的支持、与数据查询系统的整合等。 基于交叉证认计算中具有的数据间独立性,可为更加复杂、更加专用的交叉证认方法提供基于数据划分的自动并行化方法,由此可进一步设计开发出支持多种交叉证认方法扩展的自动并行化系统 谢谢各位老师! 请您们给予指点! * * * * * * 面向海量数据的 高效天文交叉证认的研究 答辩人:赵青 指导老师:孙济洲 教授 天津大学计算机学院 天津大学博士研究生毕业答辩 主要内容 研究背景及意义 面向多核环境的并行交叉证认方法 面向分布式集群环境的交叉证认方法 面向HEALPix和HTM索引的快速邻域编码计算算法 总结与展望 研究背景及意义 天文多波段交叉证认的概念 基于位置信息的交叉证认 主要面临挑战: 天文观测设备的日新月异所带来的天文数据的海量性:TB乃至PB量级,且呈类摩尔定律增长 LAMOST望远镜,全称:大天区面积多目标光纤光谱天文望远镜 2008年10月建成,每夜能观测上万个天体的光谱,世界上威力最大,最重要的天文望远镜之一 国家“十一·五” 开始提出并已开始建设的世界最大的单口径射电望远镜 —— 500米口径球面射电天文望远镜(FAST)。 美国LSST望远镜,8.4米口径大尺度概要巡天望远镜,每晚将产生数据量高达18TB,相当于28000张普通光盘的容量。 关键是解决交叉证认的高效性需求与海量的天文观测数据量之间的矛盾,因此交叉证认是典型的数据密集型、I/O密集型计算难题! 研究意义 虚拟天文台项目数据访问服务的核心模块 LAMOST望远镜大科学工程三大子课题之一 中国科学院天文科学主题库索引层建设的必要技术 统计分析、数据挖掘的基础 多核环境下的并行交叉证认的研究 研究意义: 当今处理器芯片已经步入多核时代,多核计算资源的普及所带来的强大的计算能力为天文学中很多大规模计算难题的解决提供了新的途径 画框:降低计算复杂度 基于伪二维球面索引的划分方法 HEALPix HTM 使用伪二维球面索引的好处 嵌套的层次编号方式: 临近块的ID编码只区别在低位,且如果Q1区域包含Q2区域,则Q2的编码以Q1的编码为前缀。 适合B-tree索引,物理上相近的块 其块号在数值上也连续或相近,自然地实现了临近区域的聚类,适合于一切SQL系统。 一次索引,可进行多级精度上的计算,便于选取最合适索引块和计算块的级数。不同密度、速度的星体可选择不同距离阈值。 等面积 与简单网格天区划分方式相比,省去了对赤经的修正(spherical-polar distortion problem ),避免了复杂的球面坐标 任务分配方式简单,容易实现负载平衡 通用性 边界漏源问题的解决 快速相邻块编码计算算法 简单网格天区划分方式 并行方法设计 实验结果及分析 Aladin 可视化结果: 方法 星表A来源 星表A数据量 星表B来源 星表B数据量 运行总耗时 Parallel HEALPix-index function ( ) SDSS 100,106,811 2MASS 470,992,970 32分钟 Parallel HEALPix-index function ( ) SDSS 100,106,811 2MASS 470,992,970 25分钟 Parallel HEALPix-index function ( ) SDSS 100,106,811 2MASS 470,992,970 57分钟 Parallel

文档评论(0)

flyben + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档