面向海量非结构化数据非关系型存储管理机制.docVIP

下载本文档

9
0
约5.14千字
约 11页
2018-09-22 发布于福建
举报
版权申诉

面向海量非结构化数据非关系型存储管理机制.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向海量非结构化数据非关系型存储管理机制

面向海量非结构化数据非关系型存储管理机制　　摘要：针对传统的关系数据存储系统性能不足、容错性差，无法适应海量非结构化数据管理的问题，提出一种高性能、高可用非关系型存储管理机制。首先，设计了良好的用户访问服务接口，通过高效的一致性哈希算法支持数据分发到多个存储节点；其次，采用可配置的数据副本机制改善存储系统的可用性；最后，提出查询故障处理机制，用以提升存储系统的容错性，避免节点失效导致服务中断问题。实验结果表明，在不同规模用户负载下，新的存储系统的并发访问请求能力和传统的文件系统、关系数据库相比，分别提升了30%和50%；同时，在合理响应时间内，故障状态下的存储系统的可用性损失小于14%。因此，该机制适用于海量非结构化数据的高效存储管理。　　关键词：非结构化数据；海量数据存储；非关系型存储管理；一致性哈希；故障处理　　中图分类号： TP311.13 文献标志码：A 　　0引言　　随着计算机技术和网络技术的普及与发展，人们对图像、视频、网页、文档等非结构化数据的管理需求也日益增长。例如：搜索引擎行业巨头Google公司每天处理超过20PB的网页数据[1]；著名的社交网站Facebook存储了超过2PB的图像、评论、用户状态信息等非结构化数据，并且数据量每天的规模增长高达15TB[2]；在科学实验数据方面，脱氧核糖核酸（DeoxyriboNucleic Acid， DNA）分析等生物信息学领域的数据量也高达PB级，高能物理实验每天生成1TB的实验数据[3]；远程教育平台也通常包含数十TB甚至PB级别的教学资源非结构化数据[4]。根据国际数据公司（International Data Corporation， IDC）发布的数字宇宙（Digital Universe）研究报告显示，世界的信息每两年翻一番，到2020年将达到40ZB （即4×1013GB）[5]。　　海量非结构化数据的处理一般强调高效和可用性，即使在出现存储节点故障的前提下，存储系统仍然可以被访问或者快速处理。因而，数据通常会被复制多个备份，并存储在不同的存储节点上，以支持系统从故障状态快速恢复。传统的关系数据存储系统主要支持结构化数据，强制满足一致性事务特性，难以向外扩展，无法适应灵活多变的海量非结构化数据存储管理的需求。为了应对海量非结构化数据处理的扩展性和高性能方面的挑战，亟须探索新的海量非结构化数据存储系统的设计方法和实现机制[6-7]。　　近年来，为了满足海量数据存储的扩展性和灵活性需求，学术界提出一种非关系型数据存储（nonrelational data storage），也称为NoSQL（No Structure Query Language）数据库[8-9]。NoSQL数据库支持水平扩展，可以扩展部署到大量的服务器节点，适合海量非结构化数据的高效存储和访问。典型的NoSQL存储系统包括：Google公司的BigTable[10]、Amazon公司的Dynamo[11]、Apache软件基金会的Cassandra[12]和CouchDB[13]、10gen公司的MongoDB[14]等。这些已有的NoSQL数据库存储系统，大多是面向不同应用的特定需求而设计，在可用性、扩展性及性能上既有各自优点，也存在一定的局限性。例如：MongoDB具有良好的扩展性，并内置实现了丰富的查询语义，但是存在可用性不足的问题；Cassandra支持故障容忍的通信机制，保证存储系统的可用性，然而缺乏MongoDB的丰富查询语义功能[15]。如何结合不同的NoSQL数据存储的优势，设计满足特定应用需求的新的存储系统，是存储系统设计者需要考虑的重要问题。　　本文设计和实现了一种新型的面向非结构化数据的非关系型存储管理机制，其主要特色在于结合了MongoDB的良好可扩展性、索引和查询语义功能，并集成Cassandra的对等架构和可用性保证技术，以满足高效、可用的数据访问要求。首先，本文设计了一种高可用的非结构化数据存储系统（Unstructured Data Storage System， UDSS），并为用户提供了高效的用户访问接口；为了保证UDSS的高性能和可用性，在UDSS中提出并实现了数据分发、数据高可用保证，以及查询故障处理等三种关键机制。　　1系统架构　　如图1所示，UDSS主要包括用户访问接口层、核心服务层和非关系型数据存储层。　　UDSS在存储层提供了三种类型的内部访问接口：连接操作（Connect）、读操作（Get）和写操作（Put）。Connect负责创建用户到MongoDB的数据连接；Get和Put操作分别对应于用户访问接口层的GET和POST。为了简化接口设计，Put操作同时负责处理来自用户的DELETE操作请求；Ge