1300310220王荣兴-8-英文翻译译文.docxVIP

下载本文档

8
0
约1.45万字
约 18页
2017-08-16 发布于重庆
举报
版权申诉

1300310220王荣兴-8-英文翻译译文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1300310220王荣兴-8-英文翻译译文

编号：毕业设计(论文)外文翻译（译文）院（系）：计算机与信息安全学院专业：计算机科学与技术（卓越工程师）学生姓名：王荣兴学号：1300310220 指导教师单位：计算机与信息安全学院姓名：管军霖职称：讲师2017年6月5日大数据应用的大型数据管理系统调查吴冷冬，袁立言，犹嘉槐摘要如今，数据正在以前所未有的规模流入各种组织。向外扩展用于处理增强工作负载的能力已经成为数据库系统的扩散和普及的一个重要因素。大数据应用需求并且导致了不同的大规模数据管理系统在不同的组织机构的发展，包括从传统的数据库供应商到新兴的互联网企业。在此次调查中，我们调查、鉴定并深入分析大规模数据管理系统，并制定各种关键方面的综合分类，包括数据模型，系统架构和一致性模型。我们把主流的高度可扩展的数据管理系统映射到所提出的分类法，不仅对常见的技术分类，而且还为分析当前的系统可扩展性限制提供依据。为了克服这些限制，我们断言并强调可能的原则，就是今后的努力需要着手于下一代大规模数据管理系统。关键词：数据模型，系统架构，一致性模型，可扩展性1 引言数据正在全世界以前所未有的规模流入组织。许多公司在不到一年，甚至更短的时间内收集到了翻倍的数据量。生长速度比“摩尔定律”要快，该定律预测通用的硬件和软件解决方案的推进速度将无法跟上数据爆炸的速度规模。针对大数据趋势带来的挑战的追求，引起了大量可扩展性的数据管理系统。用于处理大数据的多种系统探索基础设施设计领域的各种可能性。一个显着的现象是NoSQL（不仅仅是SQL）的运动始于2009年初，并且正在迅速发展。在这项工作中，我们全面研究了大型数据应用的最先进的大型数据管理系统，并对不同基础设施设计的关键方面进行了深入的分析。我们提出的分类法是基于多维度对技术进行分类，每个高可扩展系统都能够找到其位置。彻底了解当前系统和精确分类对分析可扩展性限制和确保从企业基础设施向下一代大型基础架构的成功系统过渡至关重要。1.1 大数据应用系统到目前为止，“大数据”的趋势通常是以下列众所周知的陈词滥调进行描述。容量。过多的数据量和大量并发用户需要大幅度提高系统吞吐量。速度。数据以前所未有的速度出现，需要及时处理。种类。数据来自所有类型的格式，从结构化关系数据到非结构化数据。准确性。由于数据源的质量或传输延迟，数据的不一致或不确定性将危及数据的效用和完整性。“大数据”趋势对传统的数据管理系统的设计和实现构成了挑战。特别是，扩展处理增强工作量的能力已成为数据管理系统扩散和普及的重要因素。在考虑数据管理系统的范围时，我们首先有传统的关系数据库系统（RDBMS）提供低延迟和高吞吐量的事务处理，但缺乏扩展能力。正如预期的那样，传统的数据库供应商最近开发了自己的系统设备，以应对高可扩展性要求。通常，Oracle Exadata，IBM Netezza和Teradata利用关系查询语言的声明性，并通过在存储单元集合中大量并行的方式实现高性能。Oracle Exalytics是使用分散在多个处理器上的TB的工业先驱，具有高速处理器互连架构，旨在提供对所有内存的单跳访问。一些最近提出的“新SQL”关系数据库（相对于NoSQL）旨在实现与NoSQL相同的可扩展性，同时保留关系数据库的复杂功能。Azure是一个并行运行时系统，利用特定的集群控制，最小化入侵SQL Server代码库。一些研究原型，如Rubato DB，H-store，后来商业化为VoltDB，而Vertica的前身C-Store也为NewSQL实现提供了他们的初步解决方案。高可用性和可扩展性的分布式键值数据存储的需求具有可靠且“永远可写”的属性，导致了Amazon Dynamo和Yahoo! PNUTS的发展。Dynamo，Cassandra的开源克隆也是使用Oracle Berkeley DB的数据库，因为底层数据存储引擎提供了灵活的持久性和一致性策略。类似的系统，如Voldemort，SimpleDB，都被归类为键值数据存储。键值数据存储的特点是简化的高度可扩展的数据库，可以解决无模式，简单的API，水平可扩展性和轻松一致性的特性。Google通过开发一系列系统来应对网络存储挑战。Google文件系统（GFS）是用于大型分布式数据密集型应用程序的分布式文件系统，在大量商品硬件上提供操作系统级字节流抽象。Bigtable是基于GFS的混合数据存储模型。Megastore和Spanner是Bigtable层的两个系统。Megastore和Spanner是Bigtable层的两个系统。Megastore将Bigtable的可扩展性和容错能力与远程数据分区的事务语义相结合。Spanner是一款多版本，全球分布和同步复制的数据库，采用True Time，将原子钟与GPS时钟相结合，可