- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
天文数据分析
天文数据分析 国家天文台 赵永恒 2015年4月 大数据分析方法 课后作业III 请描述大数据时代的数据分析方法的特点,以及与传统方法的区别。 天文的应用:星系形态分类 天文的应用:超新星分类 天文的应用:测光红移预测 基于多波段数据,应用了K近邻 方法预测类星体的测光红移预测, 发现随着波段的增多,红移预测 精度有所增加。 天文的应用:恒星参数估计 天文应用:聚类问题 聚类问题: 在数据集中查找聚类的天体 统计意义和科学意义上各个类别的重要性是什么? 找“朋友的朋友”或近邻的最优算法? N 1010, 如何有效地排序、分类? 维数 ~ 1000 – 因此, 若干子空间搜索问题 是否存在两点或更高阶的相关性? N 1010, N-point 相关怎么做? 与N2logN成正比的算法显然不能用 天文应用:离群探测 离群探测: (未知的未知) 找到那些超出我们预期的天体或事件 (不属于已知类别) 这些有可能是真正的科学发现或垃圾 因此,离群探测可用于: 新奇发现 –Nobel prize? 异常探测 – 探测系统是否正常工作? 数据质量保证 – 数据流是否正常工作? 在1000维空间中或感兴趣的子空间(低维空间)中,如何最优化地探测到离群? 怎样衡量“兴趣度”? 降维问题: 寻找相关性和参数 的基平面 维数成千上万 维灾 ! 参数之间的相关性?线性或非线性混合? 本征值或紧致表示是否可以代表整个数据集的性质? 天文应用:降维 天文应用: 叠加与分解 叠加和分解问题: 在参数空间中重叠的天体找出它们的所属类别 假设1010 天体在1000维空间中重叠怎么办? 如何最优地分解和抽取不同类型的天体? 一些约束条件如何应用? 最优化问题: 在高维参数空间中如何找到复杂的多变量函数的最优解(最佳拟合、全局最大似然) 天文应用:最优化 变源寻找 变星、超新星、类星体、双星、 伽玛射线暴等的发现 周期寻找 在时序数据中寻找周期性变化 天文应用:时序分析 LSST是未来天文时序研究的最佳试验场 实践数据挖掘 线性或非线性 高斯或非高斯 连续或离散 是否存在缺值 对比特征和样本数 按照数据挖据的任务和特征, 选择合适的数据挖掘算法 与云计算和云存储结合 与数据库结合 可视化技术 高性能计算结合 适合大数据 未来天文数据的挑战 统计计算和挖掘方法用于PB和EB量级的可扩张性 在海量多维数据空间中同时多点拟合的算法优化 用于探索PB级数据的紧致表示的多分辨率、多级、 分形、分级方法和结构 PB量级数据的可视化分析 (包括特征探测, 模型和 有趣事件或天体的发现, 相关关系、聚类, 新类型 天体的发现, 降维) 高维PB级数据的索引和联合存储技巧(树、图、 网络拓扑) PB级数据库的快速查询和搜索方法 主要挑战 知识发现工具 可用性、可扩展性、互动的数据挖掘+可视化 机器学习/人工智能和人机交互的发现 社区的认知和职业规划 改变科学届/学术届的文化 奖励和认可机制 超高维数据空间的可视化 优化人类感知和理解 可视化的数据探索和发现 出版和合作的新形式 超出论文的范畴;较好的合作工具 培养新一代的科学家 更好地使用在线的学习工具和方法 推荐阅读 Thank You! * * * Data Mining allows us to derive valuable knowledge from large volumes of data. This knowledge can then be used to improve decision making processes, which will in turn affect operational processes. This can result in generation of further data, and so on… Note that one can start anywhere on the cycle. * * * * * * K均值 给定K值,k均值需要四步来执行: -- 将样本分成k个非空子集 -- 计算种子点作为目前分割类的中心, 每一类的平均中心。 -- 分配每个对象为最近种子点的类 -- 返回第2步,当没有新的分类时停止 K均值 k均值的优缺点 优点:相对而言比较有效,简单易执行 点评:易陷入局部最优。全局最优可以用确定性退火和遗传算法来实现 缺点 -- 仅在平均值给定时能用,那么类型数据怎么处理? -- 需要预先给定类别数k
原创力文档


文档评论(0)