大数据时代模板参考总结.pptVIP

下载本文档

4
0
约1.05万字
约 31页
2017-03-30 发布于湖北
举报
版权申诉

大数据时代模板参考总结.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1 2 相较于“大数据”一词在 2011 年才开始蹿红不同，在计算机研究领域和产业界，“大数据”早已众人皆知，各大IT 巨头纷纷布局大数据业务，通过收购大数据相关厂商来实现技术整合，以图抢占全新的制高点各大IT 企业纷纷推出自身的大数据分析产品，包括Google、IBM、EMC、Oracle、微软、惠普、SAP、Teradata ，这些企业几乎囊括了目前全球最顶尖的搜索服务、数据库、服务器、存储设备、企业解决方案的主要提供商，足以显示大数据在产业界的汹汹来势 Big Data名词由来大数据技术将被设计用于在成本可承受（economically）的条件下，通过非常快速（velocity）的采集、发现和分析，从大量化（volumes）、多类别（variety）的数据中提取价值（value），将是IT 领域新一代的技术与架构企业用以分析的数据越全面，分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力，并将其与已知业务的各个细节相融合什么是Big Data技术云计算与大数据白云下面数据跑蓝蓝的天上白云飘如果数据是财富，那么大数据就是宝藏，而云计算就是挖掘和利用宝藏的利器！没有强大的计算能力，数据宝藏终究是镜中花；没有大数据的积淀，云计算也只能是杀鸡用的宰牛刀！分布式 “云计算”（Cloud Computing）是分布式处理（Distributed Computing）、并行处理（Parallel Computing）和网格计算（Grid Computing）的发展，或者说是这些计算机科学概念的商业实现。 ——百度百科 A Availability CAP 理论一个分布式系统不可能满足一致性、可用性和分区容错性这三个需求，最多只能同时满足两个 ——Eric Brewer C Consistency P Partition Tolerance 分布式计算是一门计算机科学，它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分分配给许多计算机进行处理，最后把这些计算结果综合起来得到最终的结果。 CAP博弈分区容错性是不能牺牲的 Amazon Dynamo是一个经典的分布式Key-Value 存储系统，具备去中心化，高可用性，高扩展性的特点，但是为了达到这个目标在很多场景中牺牲了一致性。支付宝这样的交易和账务数据则是非常敏感的，通常不能容忍超过秒级的不一致 Key Value 分布式存储系统查询速度快、存放数据量大、支持高并发不能进行复杂的条件查询辅以实时搜索引擎进行复杂条件检索、全文检索，可替代并发性能较低的关系型数据库，节省几十倍服务器数量 B+ Tree Hash算法大数据时代下的系统需求 High performance –高并发读写的需求高并发、实时动态获取和更新数据 Huge Storage –海量数据的高效率存储和访问的需求类似SNS网站，海量用户信息的高效率实时存储和查询 High Scalability High Availability –高可扩展性和高可用性的需求需要拥有快速横向扩展能力、提供7*24小时不间断服务 RDBMS VS. NoSQL 高并发读写大数据存储的核心需求高效率存储和访问高可扩展性和高可用性低成本建设运维保证一致性的开销过大，难以实现高并发存储性能受限于控制器，性能难以保证关系型表单存储难以适应不同数据类型上亿行数据的超级达标效率极低传统基于盘阵的存储设备，造价昂贵，且市场垄断严重，建设成本居高不下，扩容成本尤其高许可和维护花费高昂无法简单的通过添加服务节点来扩展数据容量和负载能力，难以进行横向扩展数据库升级需要停机维护和数据迁移，导致服务中断不保证遵循ACID原则，提高并发读写性能 Schema-Free存储适应不同数据类型舍弃SQL标准功能，尽量简化数据操作，提升效率 MapReduce实现高效访问基于X86设备，价格低廉开源系统，节省许可费用支持水平扩展，可简单的通过添加服务节点来扩展数据容量和负载能力数据库升级不影响服务持续 NoSQL NoSQL运动两个核心理论基础： Google的BigTable BigTable提出了一种很有趣的数据模型，它将各列数据进行排序存储。数据值按范围分布在多台机器，数据更新操作有严格的一致性保证。 Amazon的