- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第1章-云计与大数据基础
* 在大数据的背景下,数据的采集、分析、处理与传统方式有很大的不同。 * Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发 * 很难想象在1986年中国第一封E-mail发出去时560bps的网速条件下能出现云计算这样的技术变革。 * 瘦客户机是使用专业嵌入式处理器、小型本地闪存、精简版操作系统的基于PC工业标准设计的小型行业专用商用PC。瘦客户机是基于服务器的计算解决方案的主要组成部分, * 信息产业发展有两个重要的内在动力在不同时期起着作用:硬件驱动力、网络驱动力。这两种驱动力量的对比和变化决定着产业中不同产品的出现时期以及不同形态的企业出现和消亡的时间。也正是这两种驱动力的力量变化造成了信息产业技术体系的分分合合,技术的形态也经历了从合到分和从分到合的两个过程,由最早集中的计算到个人计算机分散的计算再到集中的云计算。整个信息产业中出现的各种产品模式和企业模式都能在图中找到位置,这幅图既能解释产业历史又能预测产业未来,是我们解开很多产业困惑的钥匙。 * 云计算和大数据是密不可分的两个概念,云计算时代网络的高度发展,每个人都成为了数据产生者,物联网的发展更是使数据的产生呈现出随时、随地、自动化、海量化的特征,大数据不可避免地出现在了云计算时代。 * 三个方向在过去的4年中经历了迅速发展的过程,云计算从2008年开始进入中国,2009年开始有项目立项,之后云计算立项数目开始快速增长,成为三个方向中立项数目最多的方向;大数据的概念较为新颖,自2012开始提出,当年立项6项,2013年这一数字便迅速攀升至53项,充分体现大数据在科研领域受到的重视程度;云计算和大数据的发展推动数据中心规模的不断增加,数据中心的建设、运营面临很多新问题,数据中心也成为相关的研究热点。 Dremel: Google的交互式数据分析系统,可以在数以千计的服务器组成的集群上发起计算,处理PB级的数据。Dremel是Google MapReduce的补充,大大缩短了数据的处理时间,成功地应用在Google的bigquery中。 HANA: SAP公司开发的基于内存技术、面向企业分析性的产品。 Spark: 基于内存计算的开源集群计算系统。 1.2.2 主要的大数据处理系统 1.2.3 大数据处理的基本流程 1.2.3 大数据处理的基本流程 大数据的处理流程可以定义为在适合工具的辅助下,对广泛异构的数据源进行抽取和集成,结果按照一定的标准统一存储,利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展示给终端用户。大数据处理的基本流程如图1.2所示。 图1.2 大数据处理的基本流程 1.数据抽取与集成 由于大数据处理的数据来源类型丰富,大数据处理的第一步是对数据进行抽取和集成,从中提取出关系和实体,经过关联和聚合等操作,按照统一定义的格式对数据进行存储。 现有的数据抽取和集成方法有三种: 基于物化或ETL方法的引擎(Materialization or ETL Engine)、 基于联邦数据库或中间件方法的引擎(Federation Engine or Mediator)、 基于数据流方法的引擎(Stream Engine)。 1.2.3 大数据处理的基本流程 2.数据分析 数据分析是大数据处理流程的核心步骤,通过数据抽取和集成环节,我们已经从异构的数据源中获得了用于大数据处理的原始数据,用户可以根据自己的需求对这些数据进行分析处理,比如数据挖掘、机器学习、数据统计等,数据分析可以用于决策支持、商业智能、推荐系统、预测系统等。 1.2.3 大数据处理的基本流程 3.数据解释 大数据处理流程中用户最关心的是数据处理的结果,正确的数据处理结果只有通过合适的展示方式才能被终端用户正确理解,因此数据处理结果的展示非常重要,可视化和人机交互是数据解释的主要技术。 1.2.3 大数据处理的基本流程 我们在开发调试程序的时候经常通过打印语句的方式来呈现结果,这种方式非常灵活、方便,但只有熟悉程序的人才能很好地理解打印结果。 使用可视化技术,可以将处理的结果通过图形的方式直观地呈现给用户,标签云(Tag Cloud)、历史流(History Flow)、空间信息流(Spatial Information Flow)等是常用的可视化技术,用户可以根据自己的需求灵活地使用这些可视化技术; 人机交互技术可以引导用户对数据进行逐步的分析,使用户参与到数据分析的过程中,使用户可以深刻地理解数据分析结果。 1.2.3 大数据处理的基本流程 1.3 云计算与大数据的发展 1.3 云计算与大数据的发展1.云计算与大数据发展历程 早在1958年,人工智能之父 John McCarthy 发明了函数
文档评论(0)