《商业大数据分析与可视化》全套PPT课件.pptx

《商业大数据分析与可视化》全套PPT课件.pptx

  1. 1、本文档共413页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; 大数据处理的常见模式--流处理; 在数据到达系统被实时处理并返回结果的过程中,数据流具有连续、速度快、规模大等特点。数据是无限产生的,存储容量是有限的,所以长期存储所有的输入数据是具有很大挑战性的。此外,由于数据流具有动态变化的特点,使得系统实时处理具有挑战性。内存可存入数据空间的大小会使模型处理具有局限性,内存中概要数据结构设计不同,流处理模式的处理方式也会有所不同。在未来,内存容量对流处理模型造成的局限性可能会因为相变寄存器(PCM)等储存级内存(Storage Class Memory,SCM)设备的发展得到改善。; 大数据处理的常见模式--批处理; MapReduce模型首先将待处理数据集划分为若干数据块,分批后的每个数据块到相应的Map任务区得到处理,Map任务解析出键-值对集合,这些集合通过用户定义的Map函数运算得到结果并存储。Reduce模块读取存储数据并根据键值有序排列,并且将键值相等的数据进行组合操作,最后利用Reduce函数产生最终结果。 Map函数和Reduce函数是MapReduce模型的核心。该模型在文本挖掘等领域已得到应用。;;;整个大数据的处理过程可以定义为:通过适当的工具提取和聚类各种异构体数据源,然后按照相关标准统一存储,并选择恰当的数据分析方法处理数据,最后分析得到有价值的信息,并利用优秀的视觉分析方法描述出结果,让用户一目了然。接下来我们简单了解一下数据抽取与集成、数据分析与数据解释三个阶段。;;;;;;;;;;;;;数据解释; 1.1.2.4大数据处理的关键技术;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; 1.1.3.2大数据计算的特点;;;;;;;;计算平台为大数据计算分析提供技术标准、技术支撑、计算架构,以及开发工具和集成环境等内容。目前,提供数据计算处理的各种开发工具包和运行环境比较多,典型的计算平台是Hadoop、Spark、Storm、Cloudera,以及Google基于其一系列大数据计算技术的商业平台。许多商业公司(如Google、IBM、Oracle、Microsoft等)均研究并提出了大数据计算平台和相关技术,开源社区则提供基于Hadoop平台的一系列支持大数据计算应用的架构和技术标准。;;;大数据分析是指选择合适的统计方法分析收集得到的海量数据的过程。人们将所获得的分析结果、知识进行整合与理解,从而最大限度地展现数据的价值,将大数据作用发挥到极致。随着涉及大数据的应用领域变多变广,大数据在数量、速度及多样性等方面的复杂程度持续动态变化。因此,数据的处理方法和方式也产生了变化。只有针对不同领域的大数据选择适用的分析方法,才能挖掘出对本领域业务有价值的信息,进而促进相应业务的改善和发展。那么,什么是大数据分析呢?; 因此,大数据分析首先要解决的问题是如何应对数据量大、结构多样,以及实时数据动态变化如何进行存储与计算等问题。这些问题的解决办法在大数据解决方案中必须有针对性的设计,才能保证大数据分析最终结果的可信度较高。我们以美国福特公司利用大数据促进汽车销售为例,初步介绍一下大数据分析,如图所示。由此可见,大数据分析流程包括:提出和问题定义、数据采集和预处理、数据分析、可视化、结果应用与评估。 左图为以福特促进汽车销售为例的大数据分析流程。;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; 完成文本解析并对其分类后,下一步便是分析这些过程所形成的结果。文本挖掘流程的产出结果往往是作为其他文字分析过程的输入。举例来说,在对微博舆论的分析中,通过分析出文本中使用的情感,进而可以标记及记录微博舆论的正面或负面情感。而分析流程的输入恰恰就是结构化的标记数据,这种非结构化的文本转化为结构化的数据的过程,就是信息提取。;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;3.主成分分析法计算算法;; 研究人员对异构信息的概念有两个主要的认识。一个观点是,异构信息指向的是来自各种源的信息,信息源可能是传统的结构

文档评论(0)

粱州牧 + 关注
实名认证
内容提供者

资料收集自互联网,若有侵权请联系删除,谢谢~

版权声明书
用户编号:8036120077000004

1亿VIP精品文档

相关文档