天体光谱数据挖敬葱买技术.ppt

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
天体光谱数据挖掘技术;一、概 述 1)数据挖掘 2)天体光谱数据挖掘 3)课题的研究意义 二、主要研究工作 1)基于约束FP树的天体光谱数据相关性分析 2)基于概念格的天体光谱离群数据挖掘 ; 数据挖掘;天体光谱数据挖掘 ; 一条Seyfert 2 光谱数据图(红移为0) 天体光谱是天体电磁辐射按照波长的有序排列,蕴含着天体的重要物理信息,例如:天体的化学成份、天体的表面温度、直径、质量、光度以及天体的视向运动和自转。天文学家和天体物理学家通过分析天体光谱的信息,不仅可以研究宇宙中物质的分布特征,还可以研究天体的形成和随时间的演化等重大科学问题。;主要的方法 交叉相关分析与主成分分析(PCA)、人工神经网络、小波变换、贝叶斯统计、SVM等。 典型的成果 1) Autoclass,基于贝叶斯统计的一种光谱分类方法,发现了一些以前未注意的光谱类型和谱线; 2) Gulati等人采用两层BP神经网络方法,用于恒星光谱次型的分类; 3)Ellis等人采用交叉相关分析对光谱进行分类; 4)邱波等人采用基于粗糙集的方法,进行了恒星光谱的分类识别; 5)覃冬梅等人采用基于主分量分析法的二维恒星特征空间的快速光谱识别方法; 6)刘中田等人提出基于小波特征的M型星自动识别方法等。 ;课题的研究意义 由于天文界对宇宙的认识还比较有限,LAMOST巡天计划的一个重要任务是要发现一些新的、特殊类型的天体,因此,如何利用数据挖掘技术从海量天体光谱数据中发现未知的、特殊的天体及天体规律是数据挖掘值得研究和探索的新应用领域。 面向特定任务的数据挖掘是当前数据挖掘领域发展的趋势之一。以LAMOST项目为背景,对天体光谱数据挖掘技术进行了研究,其研究成果不仅具有重要的理论价值,而且可直接应用到LAMOST中,为国家重大科学工程提供技术支撑。 ;引言;频繁模式生成主要有:Apriori和FP两类算法。 Apriori算法 优点: 思路比较清晰,以递归统计为基础,剪枝生成频繁集; 缺点: 在生成频繁模式过程中,需要产生大量的候选项和多次遍历数据库,I/O代价太高,难以适应海量高维数据。 FP算法 优点: (l) 通过对FP树的递归访问,产生频繁模式集,仅需要构造FP树和条件FP树,不需要产生候选项集; (2) 对事务数据库仅需两次遍历,第l次遍历产生频繁l-项集,第2次遍历用于构造FP树,从而降低了访问数据库的次数。 缺点: FP树需要占用大量内存。;约束FP树及其构造 ; 定义3-1 设r 是交易数据库中的关系表名个体变量,f 是表示关系表到属性的映射的函词,k 是支持度(0≤k≤1),则背景知识G可由如下谓词公式,通过逻辑运算符组成合适公式。 (1) Interesting (f(r)) (2) support(f(r),k) ? Interesting (f(r)) (3) Interested(f(r)) ? Interesting (f(r)) (4) P(f(r)) ù Q(f(r)) ? Interesting (f(r)) 定义3-3 设D为交易数据库,?min为最小支持度,G为背景知识,如果L是一频繁模式,且G(L)=True,则称L为约束频繁模式。; CFP-tree及构造 定义3-4 设G为背景知识,对于任意频繁模式树FP-tree,如果从根节点到叶子节点的路径中,所描述的任一频繁模式P,使得G(P)=True,则称FP-Tree为约束频繁模式树CFP-tree。 构造思想与方法: 只有数据库中的事务T满足G所构造出的FP-Tree,才能包含用户感兴趣的约束频繁模式,可采用两次扫描数据库来完成CFP-tree的构造 。; 定理2-1 设D为一个交易数据库、?min为最小支持度、G为背景知识,所构造出的约束FP树为CFP-tree,则从CFP-tree提取出的任意频繁模式P,一定是满足G(P)=true(即约束频繁模式)。 定理2-2 设D为一个交易数据库、?min为最小支持度、G为背景知识,所构造出的约束FP树为CFP-tree,P为任意频繁模式,若G(P)= true(即约束频繁模式),则P一定

文档评论(0)

duoduoyun + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档