基于HadoopRDF数据存储策略综述.docVIP

下载本文档

21
0
约7.02千字
约 12页
2018-08-28 发布于福建
举报
版权申诉

基于HadoopRDF数据存储策略综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于HadoopRDF数据存储策略综述

基于HadoopRDF数据存储策略综述　　【摘要】随着信息爆炸时代的到来和语义网的快速发展，海量RDF数据存储已成为普遍关注的问题。分布式云计算技术为海量RDF的存储和查询提供了了新的、更高效的解决方案，而基于Hadoop平台的RDF数据存储研究成为了研究焦点。本文对Hadoop在海量RDF数据存储中应用的关键问题进行分析，介绍了现有的基于Hadoop平台的RDF存储系统并将它们进行综合分析，最后对未来发展方向进行了展望。　　【关键词】语义网；RDF；存储系统；查询；Hadoop 　　【 Abstract 】 With the arrival of the era of information explosion and the rapid development of the semantic web， the storage for large-scale RDF data has become an issue of common concern. A distributed cloud computing technology， which is more efficient， provides a new solution for large-scale RDFs storage and query and the research on storing RDF data based on Hadoop platform has become the focus of research. This paper carries on the analysis to the key issues of the application of the Hadoop in the massive RDF data storage and introduces the existing RDF Storage System based on Hadoop platform and summarize them . Finally this paper proposes the future development direction. 　　【 Keywords 】 semantic web； RDF； storage system； query； hadoop 　　1 引言　　语义网（Semantic Web）的核心思想是通过给万维网上的文档（如： HTML）添加能够被计算机所理解的语义（Meta data），促使互联网成为一个通用的信息交换媒介。资源描述框架（Resource Description Framework，RDF）是 W3C 提出的资源描述标准语言，具有一定的信息表达和交换能力，还能一定程度上描述语义信息。语义网的快速发展与应用带给RDF数据的剧增，海量RDF数据的存储、检索成为了难题。　　传统的关系数据库面对海量RDF处理显得力不从心，而分布式云计算技术在处理海量数据方面有着得天独厚的优势，而Hadoop凭借其对分布式计算的实现以及开源性，吸引了很多研究者和研究机构进行海量RDF数据存储研究，并提出了各自的解决方案，比如上海交通大学提出的HadoopRDF，Hyunsk Choi等人提出的SPIDER，Nikolaos Papailiou等人提出的H2RDF等。本文分析了用Hadoop相关技术解决RDF数据存储时考虑的关键问题，然后对当前的存储策略进行对比分析和综述。　　2 RDF数据存储的三个关键问题　　（1）存储容器的选择。RDF三元组最简单的存储就是保留RDF三元组（S，P，O）的形态，直接存放在文件系统（如HDFS、RDF-3x）上，这样做的好处是不用对三元组结构做额外处理，存储速度快，缺点是检索不方便，需要建立大量索引。另一种就是用数据库HBase来存放，HBase是一种Key-value键值对的存储模式，这样存储的好处是可以有效利用MapReduce算法进行高效检索，但是缺点是存储的时候需要改变三元组的结构，而且如何拆分三元组进行存储才更有利于高效检索和重组也是一个值得探究的问题。　　（2）数据库的选择与划分。在使用HBase表进行存储的时候，可以将三元组（S，P，O）中的一个元素（S或P或O）或者元素组合分开存储在key和value中，充分利用HBase行键RowKey的默认字典索引方便检索，不过往往要通过建立冗余表来实现对不同元素的索引来方便检索。另一种方案就是按照类和属性进行划分，将同一类或同一属性的RDF数据集中存储。但是如何建表才能使表的数目、数据冗余度、检索效率之间找到平衡有待研究。　　（3）索引策略的设计。索引的建立是为了查询时的高