天文的数据挖掘论文.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
天文的数据挖掘论文

天文的数据挖掘论文 一 、概念论述 数据挖掘(Data mining),又译为资料探勘、数据采矿。是目前人工智能和数据库领域研究的热点问题,它是数据库知识发现(Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。 (1-1科学要求) 天体的交叉认证: 原理: 以源的位置为参量, 将存在于不同数据库中的源联系起来, 用以加深对证认源的新的天文理解。 b.例子: gamma-ray暴的对应体 c.问题: 多波段数据库的交叉证认会产生一对一,一对多,多对一,多对多,甚至多对无,对于除一对一的情况, 有时需要用概率方法处理 。 天体的交叉相关 a.原理: 用假定分析方法处理数据中的所有参数 b.例子: 在HDF巡天中,通过双色图中作为U波段的“dropouts” 证认远距离星系,在DPOSS和SDSS巡天中,通过双色图中,远离正常恒星区的特性发现高红移类星体。 最近邻规则证认 原理: 在多维空间中运用聚类算法证认天体或现象。 b.例子:在TW长蛇座中过通过天体具有相似的运动学特征, X射线发射, Hα和Li丰度, 发现了人们最熟悉的年轻恒星族。 系统的数据探索 a.原理: 在数据库中广泛地应用事件驱动性和相关驱动性数据挖掘技术以偶然发现一种新天体或新类型天体。 b.例子: 新类型变星的发现, 如:在MACHO数据中发现的“bumpers”。 (1-2天文数据分析中的数据挖掘) 数据挖掘在天文学上有一个非常著名的应用系统:SKICAT[外3]。它是美国加州理工学院(CIT)与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具。SKICAT既是第一个获得相当成功的数据挖掘应用,也是人工智能技术在天文学和空间科学上第一批成功应用之一。利用SKICAT,天文学家已发现了16个新的极其遥远的类星体,该项发现能帮助天文工作者更好地研究类星体的形成以及早期宇宙的结构。 在天文学研究以及航天数据分析中,人们遇到了一个很大的难题,即人工对大批量数据分析的无能为力。这里所说的数据量一般在数千兆以上,现有的大型数据库只是把数据以另一种形式给出,而并没有对数据进行更深层次的处理,因而, 在对大量天体数据进行分析的过程中,很难起到根本的促进作用。 SKICAT不仅提供对数据库的管理,并且通过训练可以对天体进行辨识。它采用了模块化设计,共有三个主要功能模块:分类建立、分类管理及统计分析。其中,分类建立是通过有示范的训练建立对天体的辨识机制。对天体的辨识是进行其它数据分析的前提,只有将天体识别出来以后,如是星系还是星球,才能进行相应的研究。使用SKICAT对天体数据进行分析,一方面是通过机器学习将知识提取过程由学习算法完成,从而可以实现对大批量数据的分析,另一方面是辨识那些亮度很低、人工难以判读的天体图像,以进行后续分析。SKICAT通过有效地对天体图像的特征进行定义,对那些亮度较低的图像可以得到比人工分类更好的结果。将仅由象素包含的关于天体的多维信息通过变换形成低维空间内的向量空间,并进而利用示范学习进行分类,以达到人工直接观察无法达到的分类精度。 (1-3天文数据挖掘中的三类问题) 分类的问题就是根据一定的领域知识和给定的数组,找出分类的各条规则。 联系的问题就是得到如下形式的规则:“A1∧…∧Am B1∧…∧Bn”,其中Ai(i∈[1,…,m])与Bj(j∈[1,…,n])均为在数据库中相关数据特征属性值的集合。 时间序列问题。 指的是若干种事件发生的顺序规则(或规律)。 (1-4天文数据的特点及复杂性) 特点——天文数据可以从天文观测、数值模拟等途径获得其形态有数字、符号、图形、图像等组织方式也各不相同,有结构、半结构和非结构数据。由于空间属性 的存在,天体才有了空间位置和距离的概念,而且相邻天体之间存在一定的相互作用,天文数据之间关系的类型也由此更为复杂,从而使天文数据与其它类型数据的挖掘方法存在着差异 。 复杂性 ——四点 a.天文数据的海量 天文数据将以甚至量级计量,如此大的数据量常使一些方法因算法难度或计算量过大而无法得以实施,因而知识发现的任务之一就是要创建新的算法策略,开发新的高效算法以克服由海量数据造成的技术 困难。 b.天文数据属性之间的非线性关系 天文数据属性之间的非线性关系是整个天文学领域复杂性的重要标志,其中蕴含着领域内部作用的复杂机制,因而被视为天文数据知识发现的主要任务之一。

文档评论(0)

zilaiye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档