大数据分析、挖掘与应用21.pptxVIP

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
太原科技大学计算机科学与技术学院 大数据分析、挖掘与应用数据挖掘与智能信息系统实验室 张继福、张素兰Email:jifuzh@ zjf@ 2013年11月一、大数据分析与挖掘 大数据的基本概念 比较有代表性: 1) 3V 定义,即认为大数据需满足3 个特点:规模性(Volume)、多样性(Variety)和高速性(Velocity)。 2) 4V 定义,即尝试在3V 的基础上增加一个新的特性。关于第四个V 的说法并不统一,IDC 认为大数据还应当具有价值性(Value),大数据的价值往往呈现出稀疏性的特点。而IBM 认为大数据必然具有真实性(Veracity)。 3) 维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。二、大数据处理架构大数据处理模式 1)流处理(Stream Processing),即直接处理 流处理的基本理念是数据的价值会随着时间的流逝而不断减少。因此,尽可能快地对最新的数据做出分析并给出结果是所有流数据处理模式的共同目标。 2)批处理(Batch Processing),即先存储后处理 Google 公司在2004 年提出的MapReduce编程模型是最具代表性的批处理模式。 MapReduce执行流程图 MapReduce模型首先将用户的原始数据源进行分块,然后分别交给不同的Map任务区处理。Map任务从输入中解析出Key/Value对集合,然后对这些集合执行用户自行定义的Map函数得到中间结果,并将该结果写入本地硬盘。Reduce任务从硬盘上读取数据之后,会根据key 值进行排序,将具有相同key 值的组织在一起。最后用户自定义的Reduce函数会作用于这些排好序的结果并输出最终结果。 MapReduce的核心设计思想: 1)将问题分而治之; 2)把计算推到数据而不是把数据推到计算,有效的避免数据传输过程中产生的大量通讯开销。 MapReduce模型简单,且现实中很多问题都可用MapReduce模型来表示。因此该模型公开后,立刻受到极大的关注,并在生物信息学、文本挖掘等领域得到广泛的应用。大数据处理的基本流程 1)数据抽取与集成 2)数据分析 面临着一些新的挑战:数据量大并不一定意味着数据价值的增加,相反这往往意味着数据噪音的增多;大数据时代的算法需要进行调整,准确率不再是大数据应用的最主要指标;数据结果好坏的衡量。 3)数据解释(可视化技术)三、天体光谱大数据分析与挖掘 我国已建造一台大天区面积多目标光纤光谱望远镜(LAMOST),是国家重大科学工程项目,也是世界上光谱获取率最高的望远镜。预计LAMOST所观测到的光谱数据容量将有可能达到4TB;巡天所覆盖的波段为3700埃至9000埃,即其观测属性可达数千维,是典型的高维数据;数据类型:图像和FITS文件等。 科学目标: “星系红移巡天”、“恒星和银河系的结构 特征”和“多波段认证” 。 天体光谱大数据分析处理主要内容:预处理(去噪、归一化等)、分类与识别、测量(红移等参数)等。 一条Seyfert 2 光谱数据图(红移为0) 天体光谱是天体电磁辐射按照波长的有序排列,蕴含着天体的重要物理信息,例如:天体的化学成份、天体的表面温度、直径、质量、光度以及天体的视向运动和自转。天文学家和天体物理学家通过分析天体光谱的信息,不仅可以研究宇宙中物质的分布特征,还可以研究天体的形成和随时间的演化等重大科学问题。 由于天文界对宇宙的认识还比较有限,LAMOST巡天计划的一个重要任务是要发现一些新的、特殊类型的天体,因此,如何利用数据挖掘技术从海量天体光谱数据中发现未知的、特殊的天体及天体规律是数据挖掘值得研究和探索的新应用领域。 面向特定任务的数据挖掘是当前数据挖掘领域发展的趋势之一。以LAMOST项目为背景,对天体光谱数据挖掘技术进行了研究,其研究成果不仅具有重要的理论价值,而且可直接应用到LAMOST中,为国家重大科学工程提供技术支撑。近年来主持承担的部分课题[1] 海量高维天体光谱数据挖掘及其并行化研究,国家自然科学基金,2013.1-2016.12,(在研)[2] 面向LAMOST 天文光谱特征线的数据挖掘方法研究,国家自然科学基金,2011.1-2013.12,(在研)[3] 面向天文光谱的数据挖掘算法性能分析与并行化研究(61111120317),国家自然科学基金委国际合作与交流项目,2011.6-2011.12,(结题)[4] 基于加权和约束概念格的数据挖掘方法与天体光谱数据挖掘技术,国家自然科学基金,2008.1-2010.12,(结题)[5] 基于数据网格的分布式数据挖掘方法研究(6091112047

文档评论(0)

老师驿站 + 关注
官方认证
文档贡献者

专业做教案,有问题私聊我

认证主体莲池区卓方网络服务部
IP属地河北
统一社会信用代码/组织机构代码
92130606MA0GFXTU34

1亿VIP精品文档

相关文档