- 1、本文档共26页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
高丹中国虚拟天文台研发团队ChineseVirtualObservatory大数据量交叉证认算法研究大数据量交叉证认算法研究-LAMOST
内容星表介绍交叉证认的意义现有的交叉证认工具交叉证认概念交叉证认方法比较B-tree索引HTM索引HTM索引分区+kdtree进一步工作11/29-12/032大数据量交叉证认算法研究-LAMOST
星表星表是包含天体信息(如赤经、赤纬、星等、流量)的二维数据表格多波段:光学、红外、射电、X射线等星表的每一行对应一个天体,不同星表的同一天体的共同属性是位置信息赤经:0~360度赤纬:-90~90度11/29-12/033大数据量交叉证认算法研究-LAMOST
星表实例11/29-12/034大数据量交叉证认算法研究-LAMOST
交叉证认的必要性多波段数据急剧增长革命性步骤:数据融合联系桥梁:位置交叉证认11/29-12/035大数据量交叉证认算法研究-LAMOST
交叉证认的意义多波段数据融合,获得天体多波段信息对天体的物理性质、演化规律获得更全面系统的认识为进一步的统计分析、数据挖掘做准备提取天体的参数越多,越有利于天体分类和测光红移的计算增加了发现新天体的概率LAMOST三大核心子课题之一虚拟天文台数据融合必由之路11/29-12/036大数据量交叉证认算法研究-LAMOST
现有的交叉证认工具SIMBADALADINNEDMASTTOPCATOpenSkyqueryGVO-cross-match11/29-12/037大数据量交叉证认算法研究-LAMOST
现有工具的优缺点 优点:界面友好数据资源丰富缺点:不能进行大样本的交叉证认参数不能自由选择交叉证认结果需要用户进一步加工没有对结果进行分类没给出交叉证认的概率只能与特定的数据交叉证认11/29-12/038大数据量交叉证认算法研究-LAMOST
交叉证认的概念将不同星表或数据库中的源按位置属性将它们联系起来,在相同位置的源或一定误差半径范围内的源,被证认为是同一天体。11/29-12/039大数据量交叉证认算法研究-LAMOST
证认的判断方法有两个源分别在星表a、b中,它们的误差半径分别为r1,r2,它们的之间的球面距离为d。如果它们的关系满足,则认为它们是同一天体。(1)11/29-12/0310大数据量交叉证认算法研究-LAMOST
证认的判断方法(例子)2MASS:r1=0.1ra=357.661036243116,decl=0.434507548194SDSS:r2=0.1ra=357.661059,decl=0.434484d:0.1两个源满足(1)式,被证认为同一个天体11/29-12/0311大数据量交叉证认算法研究-LAMOST
索引Indexingmechanismsusedtospeedupaccesstodesireddata.11/29-12/0312大数据量交叉证认算法研究-LAMOST
B-tree索引的交叉证认为星表的ra,decl两列建B-tree索引以小表为中心,在大表中遍历寻找证认源以(1)式为判断算法复杂度O(N*N)11/29-12/0313大数据量交叉证认算法研究-LAMOST
B-tree索引的交叉证认(续)11/29-12/0314大数据量交叉证认算法研究-LAMOST
B-tree索引方法优缺点优点:证认精度高缺点:内存限制,索引不好速度慢,算法复杂度高11/29-12/0315大数据量交叉证认算法研究-LAMOST
HTMTheSpatialIndexisaquadtreeofsphericaltriangles.Thetreeisbuiltinthefollowingway:Startoutwith8trianglesonthesphereusingthe3maincirclestodeterminethem.Then,everytrianglecanbedecomposedinto4newtrianglesbydrawingmaincirclesbetweenmidpointsofitsedges11/29-12/0316大数据量交叉证认算法研究-LAMOST
HTMpcodera=45.0,decl=66.0,level=14N300311/29-12/0317大数据量交叉证认算法研究-LAMOST
HTMlevelLevelArea(arcmin^2)NumLeaves1
文档评论(0)