天文数据分析.ppt

下载文档 降价啦

270
0
约1.58万字
约 111页
2017-04-05 发布于天津
举报
版权申诉
保障服务

天文数据分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

天文数据分析

天文数据分析国家天文台赵永恒 2015年4月大数据分析方法课后作业III 请描述大数据时代的数据分析方法的特点，以及与传统方法的区别。天文的应用：星系形态分类天文的应用：超新星分类天文的应用：测光红移预测基于多波段数据，应用了K近邻方法预测类星体的测光红移预测，发现随着波段的增多，红移预测精度有所增加。天文的应用：恒星参数估计天文应用：聚类问题聚类问题: 在数据集中查找聚类的天体统计意义和科学意义上各个类别的重要性是什么? 找“朋友的朋友”或近邻的最优算法? N 1010, 如何有效地排序、分类? 维数 ~ 1000 – 因此, 若干子空间搜索问题是否存在两点或更高阶的相关性? N 1010, N-point 相关怎么做? 与N2logN成正比的算法显然不能用天文应用：离群探测离群探测: (未知的未知) 找到那些超出我们预期的天体或事件 (不属于已知类别) 这些有可能是真正的科学发现或垃圾因此，离群探测可用于: 新奇发现 –Nobel prize? 异常探测 – 探测系统是否正常工作? 数据质量保证 – 数据流是否正常工作? 在1000维空间中或感兴趣的子空间（低维空间）中，如何最优化地探测到离群? 怎样衡量“兴趣度”? 降维问题: 寻找相关性和参数的基平面维数成千上万维灾 ! 参数之间的相关性？线性或非线性混合? 本征值或紧致表示是否可以代表整个数据集的性质? 天文应用：降维天文应用：叠加与分解叠加和分解问题: 在参数空间中重叠的天体找出它们的所属类别假设1010 天体在1000维空间中重叠怎么办? 如何最优地分解和抽取不同类型的天体? 一些约束条件如何应用? 最优化问题: 在高维参数空间中如何找到复杂的多变量函数的最优解（最佳拟合、全局最大似然）天文应用：最优化变源寻找变星、超新星、类星体、双星、伽玛射线暴等的发现周期寻找在时序数据中寻找周期性变化天文应用：时序分析 LSST是未来天文时序研究的最佳试验场实践数据挖掘线性或非线性高斯或非高斯连续或离散是否存在缺值对比特征和样本数按照数据挖据的任务和特征，选择合适的数据挖掘算法与云计算和云存储结合与数据库结合可视化技术高性能计算结合适合大数据未来天文数据的挑战统计计算和挖掘方法用于PB和EB量级的可扩张性在海量多维数据空间中同时多点拟合的算法优化用于探索PB级数据的紧致表示的多分辨率、多级、分形、分级方法和结构 PB量级数据的可视化分析 (包括特征探测, 模型和有趣事件或天体的发现, 相关关系、聚类, 新类型天体的发现, 降维) 高维PB级数据的索引和联合存储技巧（树、图、网络拓扑） PB级数据库的快速查询和搜索方法主要挑战知识发现工具可用性、可扩展性、互动的数据挖掘+可视化机器学习/人工智能和人机交互的发现社区的认知和职业规划改变科学届/学术届的文化奖励和认可机制超高维数据空间的可视化优化人类感知和理解可视化的数据探索和发现出版和合作的新形式超出论文的范畴;较好的合作工具培养新一代的科学家更好地使用在线的学习工具和方法推荐阅读 Thank You！ * * * Data Mining allows us to derive valuable knowledge from large volumes of data. This knowledge can then be used to improve decision making processes, which will in turn affect operational processes. This can result in generation of further data, and so on… Note that one can start anywhere on the cycle. * * * * * * K均值给定K值，k均值需要四步来执行： -- 将样本分成k个非空子集 -- 计算种子点作为目前分割类的中心，每一类的平均中心。 -- 分配每个对象为最近种子点的类 -- 返回第2步，当没有新的分类时停止 K均值 k均值的优缺点优点：相对而言比较有效，简单易执行点评：易陷入局部最优。全局最优可以用确定性退火和遗传算法来实现缺点 -- 仅在平均值给定时能用，那么类型数据怎么处理？ -- 需要预先给定类别数k