毕业设计（论文）Spark框架下语义数据并行推理方法研究.docxVIP

下载本文档

7
0
约2.4万字
约 37页
2017-10-05 发布于浙江
举报
版权申诉

毕业设计（论文）Spark框架下语义数据并行推理方法研究.docx

1、本文档共37页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Spark框架下语义数据并行推理方法研究1绪论1.1 研究背景与意义随着语义万维网的快速发展与应用，Web中现已经存在大规模的本体数据，并且在逐年增长，到2011年9月统计RDF数据集总数已经超过了310亿条[1]，另外，以链接开放数据（Linked Open Data, LOD）工程为例[2]，如图1所示，LOD连接数据集把不同领域的数据集链接组成一个巨大的数据集。截止到2017 年2月LOD 工程中一共包含2973个RDF开放数据集，总共包含的三元组个数为1492亿个。比较2011年的295 个RDF 开放数据集、310 亿个RDF 三元组的规模扩大10倍多，并且每时每刻都在爆发式增长，因此如何通过对大规模语义信息进行并行推理高效的发现海量语义信息中的隐藏信息是现阶段研究十分重要的问题。然而，传统的语义Web推理工具都是在单机环境下设计实现使用，这些传统的推理系统在对海量本体数据进行处理时难免会遇到在计算性能上和存储空间上等一系列的问题，所以，研究云环境下海量语义数据并行化高效推理机制与方法是本文核心问题。图1-1 LOD链接数据集RDF数据集推理所关注的是主要目标是如何借助自动推理机从给定的推导出一些结论，从而使隐含的语义数据推导出来[3]。对隐含的语义数据的支持是RDF与其他数据类型的本质区别，也是语义网发展的重要推动力[4]。目前，Hadoop是一个开源的分布式框架，是Apache下的一个开源项目。Hadoop运行可以在上千上万个普通机器的节点组成的集群上，通过分布式的计算模型和存储模型来处理大数据集，Hadoop已经成为大数据存储和并行处理的主流平台。Spark目前也是Apache下的一个大型开源项目，Spark大数据处理模型可以运行在Hadoop平台下，Spark采用函数式编程语言Scala[34]实现，同时还支持Python，Java开发语言，Spark计算模型克服了在迭代式计算和交互式计算中的不足[5]。Spark处理模型是基于MapReduce计算框架实现的分布式计算，拥有MapReduce所具有的可扩展性、容错性、兼容性优点；但与MapReduce相比较不同的是Spark处理模型中间输出结果可以保存在内存中，从而不再需要再反复读写HDFS，使得并行处理效率比在MapReduce平台下提高了100倍[5,6]。因此，论文研究方向实现在Hadoop环境下基于Spark下大规模RDF数据的高效推理，提出一种高效的基于Spark的RDFS的推理算法。论文的研究意义在于，首先在Hadoop环境下基于Spark构建海量数据并行推理框架，并搭建相关平台。其次，研究基于Spark框架语义数据并行推理策略并研究设计基于Spark框架的并行推理算法，最后通过实验分析与urbian[]文章中提出的方法进行对比，得出该并行推理算法推理的准确性和效率。1.2 国内外研究现状现如今，为了实现高效率、易扩展的大规模语义数据的推理机制，有学者对传统的推理算法从不同方面进行改动，目前为止，较为新颖受人认可的推理方式为结合Spark技术基于RDFS、OWL推理规则提出推理算法。1.2.1 Hadoop平台及相关技术近年来，基于HDFS分布式文件系统、MapReduce分布式计算模型和HBase分布式数据库模型实现的开源 Hadoop 平台[11]。其具备的高效率、易扩展的大规模数据存储和计算能力，及高容错、支持不同环境、低成本等特性，已经成为云计算研究领域中较为广泛使用的数据密集型计算和存储模型， Hadoop 已经成为对大数据处理的传统平台[12]。随着技术的发展，前两年在Hadoop中使用最广泛的是MapReduce分布式处理模型，但是它最大的弊端在于，存储数据需要反复访问HDFS文件系统，不断的进行I/O操作，仅仅在这个存储层面上分析就降低了平台处理效率。Spark是现如今主流的云计算处理平台，它是由UC Berkeley AMPLab在2009年发起的，然后被Apache软件基金会接管的类似于MapReduce的分布式并行计算模型，是目前大规模数据下使用较为广泛的开源项目之一。其最大的区别在于，Spark是针对MapReduce在迭代式机器学习算法和交互式数据挖掘等应用方面的低效率，而提出的新的基于内存计算框架，既保留了MapReduce的可扩展性、容错性、兼容性，又弥补了MapReduce在这些应用上的不足，丙炔Spark采用基于内存的集群计算，所以Spark在这些应用上比MapReduce快100倍[5,6]。Spark采用新型函数式编程语言Scala实现，除此之外也支持JAVA、Python等语言，还支持对不同数据源的访问，如HDFS、Amazon S3。Spark核心在与将分布式内存抽象成弹性分布式数据集(Resilien