- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于自动聚类算法_AutoClass_的恒星_星系分类
中国科学 G 辑: 物理学 力学 天文学 2009 年 第 39 卷 第 12 期: 1794 ~ 1799
《中国科学》杂志社
SCIENCE IN CHINA PRESS
HYPERLINK /
基于自动聚类算法(AutoClass)的恒星/星系分类
严太生①②, 张彦霞②*, 赵永恒②, 李冀①*
① 河北师范大学物理科学与信息工程学院, 石家庄 050016;
② 中国科学院国家天文台, 北京 100012
* E-mail: zyx@; zyxsunny@; HYPERLINK mailto:liji@ liji@
收稿日期: 2009-05-21; 接受日期: 2009-07-13
国家自然科学基金(批准号:和国家高科技研究发展计划(编号: 2006AA01A120)资助项目
摘要
自动聚类算法(AutoClass)是一种非监督的能对复杂数据进行精确的自动聚类的有效分
关键词
恒星/星系
AutoClass
数据分析
类方法, 可以事先设定好类别数目让 AutoClass 自动寻找, 在寻找结束后, 能够得到每一条数据
分别属于每一类别的几率, 这样可以根据专业知识, 选出比较好的分类效果. 描述了使用 AutoClass 对 SDSS DR6 的恒星/星系测光数据进行分类, 将 868974 条测光数据进行处理, 通过 去离群数据和自动聚类的方法, 将最终的 812613 条数据分成两类, 其中星系和恒星的数据分别 是 680361 和 126988 条. 对于去掉离群后的数据, 星系和恒星的分类正确率分别达到 99.51%和
98.52%, 表明 AutoClass 算法对去掉离群数据后的恒星/星系数据分类有很好的效率. 因此, 可 以将该算法应用于天文中的其他分类问题, 另外基于该算法的非监督性, 可以帮助天文学家去 掉离群数据或发现一些特殊天体.
条数据得到了可靠的分类结果. Mahonen 等人[3]使用
模糊分类(fuzzy cl as si fie r ) 和神经网络算法, 对由 Odewahn 等人用 APS 产生的 9245 条复杂的非线性数 据进行分类, 结果表明模糊分类算法在处理复杂数 据类型时显示出优越性. Moore 等人[4]运用数学形态 学方法(mathematical morphology), 对 CCD 图像进行 分类, 结果显示对于早型椭圆星系和晚型旋涡星系 能精确分类, 但对恒星的误分率较高.
本文描述了对 SDSS DR6 经过光谱证认的恒星/ 星系的测光数据的分析处理, 主要目标是对恒星和 星系的测光数据进行分类. 分析处理数据的重要一 步是如何正确处理偏离量的问题. 在此我们采用数 据挖掘技术先对数据进行离群数据的去除, 然后进 行聚类分析. 聚类计算用于发现给定的数据集中的
恒星/星系的分类是天文学的基本分类任务之一,
主要是根据恒星和星系在不同波段的表现性质的不 同, 应用不同的方法将它们各自区分开来. 这对我们 了解恒星和星系形成与演化历史以及发现特殊天体 都具有重要的研究价值. 尤其对现在日益发展的大 型巡天计划及由此产生的海量数据而言, 如何将天 体自动分类显得尤为重要.
目前, 已有许多研究者在这方面进行了研究与 探索工作. 例如: Ph ilip 等人[1 ] 应用神经网络算法 (Neural Networks), 对 SDSS 早期释放的恒星/星系图 像数据进行分类, 没有明显的误分, 取得了很好的分 类结果. Ball 等人[2]采用决策树算法(decision trees), 对 SDSS DR3 的 477068 条数据进行训练, 然后对
14300 万条数据测试, 发现对星等 r≤20 等的 2200 万
引用格式: 严太生, 张彦霞, 赵永恒, 等. 基于自动聚类算法(AutoClass)的恒星/星系分类. 中国科学 G 辑, 2009, 39(12): 1794—1799
隐藏形式和趋势, 它将具有类似特点的数据聚成一
类. 我们选择使用了 AutoClass 自动聚类算法工具[5]. 通过 AutoClass 自动聚类得到的分类器, 可以对没有 光谱证认的测光数据进行分类预测, 从而可以提高 分类的效率和正确率.
2
自动聚类算法(AutoClass)
Autoclass 是一种基于贝叶斯理论的数据聚类算 通过对数据进行处理, 计算出每条数据属于每个
法,
类别的几率值, 将数据进行聚类, 详细的理论可参考
文献 [5]. 自动聚类 程序 (AutoClass Program) 是由 Ch
文档评论(0)