大数据关键技术与挑战.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据关键技术与挑战

;;大数据处理的基本流程;? 大数据的一个重要特点就是多样性,这就意味着数据来源 极其广泛,数据类型极为繁杂。这种复杂的数据环境给大 数据的处理带来极大的挑战。 ? 要想处理大数据,首先必须对所需数据源的数据进行抽取 和集成,从中提取出关系和实体,经过关联和聚合之后采 用统一定义的结构来存储这些数据。 ? 在数据集成和提取时需要对数据进行清洗,保证数据质量 及可信性。 ? 现有的数据抽取与集成方式可以大致分为以下四种类型: 数据整合、数据联邦、数据传播和混合方法等。;? 传统的分析技术如数据挖掘、机器学习、统计分析等在大 数据时代需要做出调整,因为这些技术在大数据时代面临 着一些新的挑战,主要有: – 数据量大并不一定意味着数据价值的增加,相反这往往意味着数 据噪音的增多 – 大数据时代的算法需要进行调整(邦弗朗尼原理) – 数据结果好坏的衡量;? 数据分析是大数据处理的核心,但是用户往往更关心结果 的展示。如果分析的结果正确但是没有采用适当的解释方 法,则所得到的结果很可能让用户难以理解,极端情况下 甚至会误导用户。 ? 大数据时代的数据分析结果往往也是海量的,同时结果之 间的关联关系极其复杂,采用传统的解释方法基本不可行 ? 可以考虑从下面两个方面提升数据解释能力: – 引入可视化技术 – 让用户能够在一定程度上了解和参与具体的分析过程;;大数据之“快”从何说起;大数据的三种状态;大数据的“快”说的是两个层面;批处理与流处理;批处理与流处理的组合;如何实现“快”的数据处理;流处理;批处理;;Google 于2006 年首先提出了云计算的概念,并研发了一系列云计 算技术和工具。难能可贵的是Google 并未将这些技术完全封闭,而是 以论文的形式逐步公开其实现。正是这些公开的论文,使得以GFS、 MapReduce、Bigtable 为代表的一系列大数据处理技术被广泛了解并得 到应用,同时还催生出以Hadoop为代表的一系列云计算开源工具。 下图展示了Google的技术演化过程:;包括Google、微软、Facebook和淘宝在内的众多企业 和学者从不同方面对满足大数据存储需求的文件系统进行了 详尽的研究。并自行开发出支持其自身业务的文件系统: GFS Colosuss HDFS CloudStore Haystack TFS FastDFS;直接采用关系模型的分布式数据库并不能适应大数据时 代的数据存储,主要因为: 1. 规模效应所带来的压力 2. 数据类型的多样化 3. 设计理念的冲突 4. 数据库事务特性 面对这些挑战,以Google 为代表的一批技术公司纷纷 推出了自己的解决方案: Google的Bigtable Amazon的Dynamo Yahoo的PNUTS;Bigtable、Dynamo、PNUTS等的成功促使人们开始对 关系数据库进行反思,由此产生了一批未采用关系模型的数 据库,这些方案现在被统一的称为NoSQL(Not Only SQL)。 NoSQL 并没有一个准确的定义,但一般认为NoSQL 数据库 应当具有以下的特征: 模式自由(schema-free) 支持简易备份(easy replication support) 3. 简单的应用程序接口(simple API) 4. 最终一致性(或者说支持BASE特性,不支持ACID) 5. 支持海量数据(Huge amount of data)。;索引和查询技术;NoSQL 数据库针对主键的查询效率一般较高,因此有关的 研究集中在NoSQL数据库的多值查询优化上。针对NoSQL 数据库上的查询优化研究主要有两种思路: 1.采用MapReduce并行技术优化多值查询:当利用MapReduce并行查 询NoSQL数据库时,每个MapTask处理一部分的查询操作,通过实现 多个部分之间的并行查询来提高多值查询的效率。此时每个部分的内部 仍旧需要进行数据的全扫描。 2.采用索引技术优化多值查询:很多的研究工作尝试从添加多维索引的 角度来加速NoSQL 数据库的查询速度。;?Mapreduce是谷歌最早采用的计算模型,适合批处理 ?谷歌设计了Pregrel用于图计算 ? Dremel适用于Web数据级别的交互式数据分析系统 ?谷歌的PowerDrill主要用于大数据量的核心数据集分析 实时数据处理是大数据分析的一个核心需求。很多研究工作 正是围绕这一需求展开的。前面介绍了大数据处理的两种基 本模式,而在实时处理的模式选择中,主要有三种思路: – 采用流处理模式:Storm – 采用批处理模式:Percolator\Nectar\DryadInc实现大 规模数据的增量计算 – 二者的融合;;Hadoop 是目前最为流行的大数据处理平台。除了Hadoop,还有很多针 对大

文档评论(0)

dajuhyy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档