- 1、本文档共26页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
应用AutoClass算法聚类分析SDSS巡天的恒星数据 提纲 恒星自动分类/聚类的背景 AutoClass算法 SDSS数字巡天及参数选取 AutoClass分类结果及讨论 结论 1 恒星自动分类/聚类的背景 一个完整详细的恒星样本不仅对于恒星的基本组成,演化历史,而且对于研究星系结构和演化都有很重要的意义。 随着从地面和空间观测设备获取大量的数据,构建大的完整的样本成为可能。 为了提高分类/聚类的效率,我们需要依靠区别性很好的分类器。 相关的恒星自动分类/聚类工作列举如下: A)Bazarghan (2008) 运用神经网络对从O型星到M型星的5000个光谱分类成158个光谱类型。 B)应用GLIMPSE中红外巡天数据,Mercer (2005) 运用自动检测算法在银河系星系盘中发现了一些新星团。 C)使用支持矢量机算法,Wozniak (2004) 从北天变星巡天数据中发现8678个慢变星。 D)Froebrich (2008) 通过分析恒星密度图和颜色-颜色/星等图,对银河系新的星团进行分类。 E)Jaschek (1990) 撰写了一本关于恒星分类的工具,方法和结果等综合小册子。 2 AutoClass算法介绍 AutoClass是基于Bayesian理论的一种非监督分类算法。它通过结合对实型的或者离散型的数值特性的类别描述,自动发现数据的自然分类。对于实型数据, AutoClass应用高斯分布,而对于离散型数据应用Bernoulli分布。 AutoClass的几个关键特性如下: A)自动确定类别的数目; B)能使用实型的和离散型的混合数据; C)能够处理缺值数据; D)处理需要的时间与数据量成简单的线形关系; E)产生一个报告描述发现的类别,并且通过训练数据构建的分类器预测测试数据的类型。 AutoClass被广泛应用于天文和其他的领域,有助于发现一些未知的令人惊奇的类别。 3 SDSS数字巡天及参数选取 A)SDSS数字巡天简介 SDSS数字巡天是一个在天文上非常富有野心的重要的巡天。它已经观测了将近2亿个天体,对其中的67万5千个星系,9万个类星体和18万5千多个恒星拍摄了光谱;此外,它得到了超过1/4天区的93万个星系和12万类星体在可见光五个波段的图象数据。 B)分类参数选取 我们选取SDSS DR6的恒星具有光谱的测光数据(即已经过光谱证认的测光数据),通过去缺值,得到140865条恒星测光数据。 为了实现在多维空间中的恒星聚类,每条数据记录都包含有5个属性(psf_u-u,psf_g-g,psf_r-r,psf_i-I,psf_z-z),即PSF星等和模型星等在五个波段的各自差值。 4 AutoClass分类结果及讨论 A)AutoClass分类结果 我们将恒星分类限制在两类(stars和non-stars,这里non-stars是指特殊恒星和非恒星天体),并且将AutoClass的模型参数设置为Single_normal(没有缺值的实数特性模型)。通过运行search程序,我们获得分类结果是139874个stars和991个non-stars。 Stars和Non-stars分布图 i)星等-星等图 ii)颜色-星等图 B) non-stars的证认 我们已经应用AutoClass获得了分类结果并且选出了non-stars。下面的任务就是对这些non-stars进行证认。 i)通过SIMBAD证认 在SIMBAD中,将non-stars的坐标输入进去,将半径误差范围设置为2角秒,共获得25个non-stars的证认信息。以下是25个证认的non-stars的星等/颜色-星等图 ii)通过NED证认 在NED中,将non-stars的坐标输入进去,将半径误差范围设置为6角秒,共获得50个non-stars的证认信息。以下是50个证认的non-stars的星等/颜色-星等图 iii)通过SDSS image/spectra证认 对于不能通过SIMBAD和NED证认的non-stars, 通过检测它们的图象和光谱进行证认。随机挑选10个non-stars的数据,将它们的坐标输入进去,下表列出了10个天体的证认信息。(如果图象和光谱证认的信息不一致,以光谱分类为准) C)计算non-stars的分类正确率。下表列举出通过三种证认得到的百分率,得到通过SIMBAD, NED和通过SDSS image/spectra证认的正确率分别为76.0%,98.0%和80.0%,而总的正确率为89.4%。 D)讨论 存在一些因素影响分类的效率和结果: i)任何算法(包括监督和非监督)都要受到它处理的数据的限制。 ii)由于缺少更
文档评论(0)