- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向云存储的非结构化数据存储研究.doc
面向云存储的非结构化数据存储研究
摘 要: 云存储是网格、并行和分布式计算等众多技术发展和延伸,云存储实现了存储的完全虚拟化,提供更强大的存储及共享功能[1]。非机构化数据包括文本、图像、音频、视频、PDF、电子表格等。非结构化数据的存储通常有两种方式,一种是使用文件系统以文件的方式存储,将文件的路径或者链接存储在关系型数据库表中;另一种是将这些数据存储在传统的数据库表的大对象字段中。文章主要研究非结构化数据的存储方式,结合非结构化数据的特点,云存储的优势以及MongoDB的数据存储特性,提出非结构化数据云存储的必要性。
关键词: 云存储; 非结构化数据; MongoDB
中图分类号:TP399 文献标志码:A 文章编号:1006-8228(2015)05-13-03
Abstract: Cloud storage is the development and extension of a number of technologies, such as grid, parallel and distributed computing. The storage virtualization has been completely realized to provide more powerful storage and sharing functions. Unstructured data is including text, image, audio, video, PDF, spreadsheet, etc. Typically, there are two ways to store unstructured data, the first way is to store it as a file, and store the path or the link to the file in the table of relational database, and the other way is to store it in the Blob field in table of traditional relational database. This paper mainly studies the ways to store unstructured data, combined with the characteristics of unstructured data, the advantages of cloud storage and the storage characteristics of MongoDB, proposes the necessity of storing unstructured data in cloud.
Key words: cloud storage; unstructureddata; MongoDB
0 引言
随着社会信息化进程的不断加快,网络中的数据量变得庞大,原有的数据处理方式已经不能满足现阶段人们对于数据处理的高要求。所以云计算和云存储在这种环境下应运而生,这加快了大规模数据的处理速度,增加了大规模数据的存储量。而现阶段由于数据结构化过于受限于人工处理,非结构化数据的增长速度远远大于结构化数据。所以对于非结构化数据的存储研究将非常有意义。
1 分布式存储技术介绍
1.1 什么是分布式存储技术
分布式存储系统是大量普通PC服务器通过Internet互联,对外作为一个整体提供存储服务。
1.2 分布式存储系统中数据如何分布
分布式系统要解决的主要问题是数据分布。如何将数据均匀分布到多个存储服务器节点中,这些分布的数据要保证可靠性和可用性,需要将数据复制到多个副本。我们要做的就是要保证多个副本之间的数据一致性。
一般来说,分布式存储系统会保存多份数据在不同的服务器上,当其中一份数据在服务器上发生故障时,能通过其他的副本继续提供服务。其中一个副本为主副本,其他副本为备份副本,通常操作方法为:数据写入到主副本,由主副本确定操作顺序并复制到其他副本。主要的操作方法有两种:强同步复制副本和异步复制副本。
1.2.1 强同步复制副本
客户端将写请求发送给主副本,主副本将写请求复制到其他备份副本中和,常见的做法是同步操作日志。主副本首先将操作日志同步到备份副本,备份副本回放操作日志,完成后通知主副本。接着,主副本修改本服务器,等到所有的操作都完成后通知客户端写成功。这种要求主、备同步成功才可以返回给客户端写成功的协议称作强同步协议。如图1所示:W1写请求发给主副本;W2主副本将写请求同
文档评论(0)