海量RDF数据的分布式存储研究-计算机软件与理论专业论文.docxVIP

海量RDF数据的分布式存储研究-计算机软件与理论专业论文.docx

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
西安建筑科技大学硕士论文 西安建筑科技大学硕士论文 2 2 速互联网的传输能力 ,将数据处理过程从个人计算机或服务器移到互联网上的服 务器集群中 。这些服务器由 一个大型数据处理中心管理着,数据中心按客户的需 要分配计算资源,达到与超级计算机同样的效果。集群的优势必然是带来超强的 存储能力、超大规模的综合运算能力以及系统负载能力,而云可以被想象为一个 更大规模的集群,理论上讲它的存储和计算能力几乎是无限的,所以带来最大好 处就是极大地降低了数据存储和计算代价包括金钱代价。云最早的提出者 Google 其目的也就是运用它发布于世界各地的计算机集群来降低数据存储的开销,所以 使用云计算平台,能节约更大的成本,能更高效的利用计算机资源。所以作者结 合这两方面需求展开研究,提出一种方案实现 了把海量 RDF 数据存储在云计算平 台,不仅节约了成本,而且可以处理和存储更多的数据。 (2] 1. 1.2 理论意义和应用价值 由于 RDF 数据越来越多,海量的 RDF 数据存储问题就成了现在研究的重要课 题之一。目前云计算成了极为热门的话题,以我认为,云计算技术就是分布式存 储系统和分布式计算系统的结合体,对于将来的用户来说,大量的数据处理在云 端,大量的数据存储也是在云端,如何将海量 RDF 数据存储在用户看不见的云端, 用云计算的思想解决海量 RDF 的存储问题,具有相当大的理论意义和现实意义。 Hadoop 是 Apache 开源组织的一个分布式计算开源框架,在很多大型网站上 都己经得到了应用,如亚马逊、 Facebook 和 Yahoo 等等,本文将基于 Had∞p,在 其基础之上研究海量 RDF 数据的存储方法。把海量 RDF 的存储问题和分布式计算 结合起来,使用各大软件公司提供的廉价云计算平台,实现海量 RDF 数据的存储。 1.1.3 国内外研究现状及发展趋势 Google 一直是分布式存储方面研究的领先者,在它发展的过程中,搜索的需 求是与日俱增的,所以开始 Google 不可能就购买大量昂贵的服务器资源,而是后 来慢慢根据需求增加的。它的数据中心使用廉价的 Lìnux PC 机组成集群,在上面 运行各种应用。即使是分布式开发的新手也可以迅速使用 G∞gle 的基础设施。核 心组件是 3 个: 一. GFS (3] (Google File System ,Google 文件系统〉是一个典型的分布式文 件系统,隐藏下层负载均衡,冗余复制等细节,对上层程序提供一个统一的文件 系统 API 接口 。Google 根据自己的需求对它进行了许多特别优化,其包括 z 超大 西安建筑科技大学硕士论文 文件的访问,读操作比例远远超过写操作,节点失效要作为正常的情况等。 GFS 把文件分成 64MB 的块,分布在集群的机器上,使用 Linux 的文件系统存放。同 时每块文件至少有 3 份以上的冗余备份。中心是 一个 Master (宿主〉节点,它的 主要功能是根据文件索引,找寻文件块。 二. MapReduce 算法, Google 发现大多数分布式运算可以抽象为 MapReduce 操作处理。 Map 是把输入Input 分解成中间的 KeyNalue 对, Reduce 把 KeyNalue 合成最终输出队邱悦。这两个函数由程序员根据实际要求编写完成提供给系统, 下层设施把 Map 和 Redu臼操作分布在集群上运行,并把结果存储在 GFS 上。 三. BigTable 分布式数据库,这个数据库不是关系式数据库。它实际很像它的 名字,就是用一个巨大的表格来存储结构化数据。 Google 正是基于以上强大的 3 种技术,实现了 Google 的全球服务,如搜索引 擎, Google 地图, Google 在线办公等,但是随着 RDF 数据的剧增,我们也想使用 上述强大底层设施来支撑它的 实现。 1.2 本课题的研究内容 1.2.1 分布式系统 (Distributed software Syst酬s) 的研究 DFS Distributed Software Systems. 分布式系统) [4) [S) 闷,它是指支持分布式 处理的软件系统,和并行系统类似,分布式系统的设计目的是将比较大的任务模 块划分成若干小的计算模块进行并行处理,然后通过 一定的调度算法汇总得到相 应的最终结果。它类似与并行计算,但不同的是,分布式系统要处理的任务相互 之间有独立性, 上一个任务的结果无论成功与否都对下一个任务包的计算没有什 么影响,所以,分布式系统的实时性要求不高,而且允许→定的错误。 分布式系统包括分布式操作系统、分布式程序设计语言及其编译系统、分布 式文件系统和分布式数据库系统

您可能关注的文档

文档评论(0)

1234554321 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档