天文学中的数据挖掘(张彦霞).pptVIP

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
天文学中的数据挖掘 张彦霞 国家天文台 2011.11.10贵阳 概要 必要性 概念 技巧 问题 展望 文献 海量数据 NVO (IVOA) 注册的数据资源有~14,000 一些大型的天文数据库包括NASA空间天文项目 已经完成或正在进行的大型天文巡天项目,如: MACHO 和相关的暗物质巡天: ~ 1 TB DPOSS: 3 TB 2MASS: 10 TB GALEX: 30 TB SDSS: 40 TB 将来的巨型巡天项目,如: PanSTARRS:每晚 10 TB,预计最终40 PB LSST (Large Synoptic Survey Telescope): 2018开始运行, with 3-Gigapixel camera 每30秒10 GB 每晚 30 TB,持续十年 预计最终的图像数据100 PB– 所有数据公开!!! 预计最终的星表数据30 PB 实时事件挖掘: 每晚事件10,000-100,000个, 持续十年 每三晚巡全天一次: 制作天体的电影 天文学:是发现驱动的科学 ? 驱动发现的因素: – 新问题 – 新的思想 – 新模型 – 新理论 – 更重要的是新数据! 天文学:是发现驱动的科学 ? 发现导致: – 新的问题 – 新思想 – 新模型 – 新理论 – 更重要的是 ... 更多的新数据! ? 因此,需要更有效的挖掘和分析算法或工具 天文学家一直在从事数据挖掘 “The data are mine, and you can’t have them!” ? 严格意义上讲 ... ? 天文学家喜欢对事物进行分类 ... (监督学习. 如,分类) ? 天文学家喜欢对事物归类 ... (非监督学习. 如,聚类) ? 天文学家更希望发现新的天体或现象 ... (半监督学习. 如, 离群探测) 天文中的数据挖掘课题 压缩 (如. 图像和光谱) 分类 (如. 恒星,星系,或伽马射线暴) 重建 (如. 星系模糊图像的重建, 弱引力透镜质量分布的重建) 特征抽取 (如. 恒星、星系和类星体的重要特征) 参数估计 (如. 恒星参数估计, 测光红移预测, 太阳系外行星的轨道参数, 或宇宙参数 ) 模型选择 (如. 一颗恒星有几颗行星绕转?) 数据挖掘—知识发现(KDD)过程的核心 数据挖掘的常用技术 人工神经网络 支持矢量机 决策树  遗传算法 近邻算法 规则推导 粗糙集 数据总结 分类分析 聚类分析 回归分析 关联规则分析 序列模式分析 依赖关系分析 偏差分析 模式分析或统计分析 时序数据分析 其它 分类分析 定义 按照某种规则,新的数据被划分到已知类别中的一类。 这个规则是通过具有标签的数据进行监督学习获得的。 应用 恒星分成不同的光谱型,星系按哈勃或形态分类,活动 星系核进一步细分,等等 方法 神经网络 决策树 Na?ve Bayesian Networks 支持矢量机 学习矢量量化 遗传算法 ……. 采用何种分类器? 聚类分析 定义: 按照某种规律聚在一起的称为一类。 所用的数据是无标签的,通过非监督的学习方式训练数据,类间的差异尽可能地大,而类内的差异尽可能地小。 应用: SDSS的双色图恒星聚在一块 如香蕉状,类星体则偏离该区域。 方法: K均值聚类 Hierarchical clustering 预期最大算法(Expectation Maximization algorithm) 高斯混合模型(Gaussian mixture modeling) 主成分分析 …… 优越性 新的概念(Concept discovery) 点滴知识(Bootstrapping knowledge) 实践数据挖掘 线性或非线性 高斯或非高斯 连续或离散 是否存在缺值 对比特征和样本数 按照数据挖据的任务和特征, 选择合适的数据挖掘算法 未来天文数据的挑战 统计、计算和挖掘方法用于peta-和 exa-量级的可扩张性 在海量多维数据空间中同时多点拟合的算法优化 用于探索PB级数据的紧致表示的多分辨率、多级、分形、分级方法和结构 PB量级数据的可视化分析 (包括特征探测, 模型和有趣事件或天体的发现, 相关关系、聚类, 新类型天体的发现, 降维) 高维PB级数据的索引和联合存储技巧(树、图、网络拓扑) PB级数据库的快速查询和搜索方法 成功的数据挖掘项目(I) http://dame.dsf.unina.it/ 成功的数据挖掘项目(II) /vostat/ 天文会议或组织 ADASS(The Astronomical Data Analysis Software an

文档评论(0)

flyben + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档