- 1、本文档共31页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
毕业设计(论文)-Spark框架下语义数据并行推方法研究
PAGE \* MERGEFORMAT3Spark框架下语义数据并行推理方法研究1绪论1.1 研究背景与意义随着语义万维网的快速发展与应用,Web中现已经存在大规模的本体数据,并且在逐年增长,到2011年9月统计RDF数据集总数已经超过了310亿条[1],另外,以链接开放数据(Linked Open Data, LOD)工程为例[2],如图1所示,LOD连接数据集把不同领域的数据集链接组成一个巨大的数据集。截止到2017 年2月LOD 工程中一共包含2973个RDF开放数据集,总共包含的三元组个数为1492亿个[http://stats.lod2.eu/]。比较2011年的295 个RDF 开放数据集、310 亿个RDF 三元组的规模扩大10倍多,并且每时每刻都在爆发式增长,因此从而如何通过对大规模语义信息进行并行推理高效的发现海量语义信息中的隐藏信息是现阶段研究十分重要的问题。然而,传统的语义Web推理工具都是在单机环境下设计实现使用,这些传统的推理系统在对海量本体数据进行处理时难免会遇到在计算性能上和存储空间上等一系列的问题,所以,研究寻找在云环境下海量语义数据并行化高效推理机制与方法是本文中核心问题。这一段除了用图表示外,还可以补充一个比较表,就更清晰。这一段除了用图表示外,还可以补充一个比较表,就更清晰。图1-1 LOD链接数据集RDF数据集推理所关注的是主要目标是如何借助自动推理机从给定的推导出一些结论,从而使隐含的语义数据推导出来[3]。对隐含的语义数据的支持是RDF与其他数据类型的本质区别,也是语义网发展的重要推动力[4]。目前,Hadoop是一个开源的分布式框架,是Apache下的一个开源项目。Hadoop运行可以在上千上万个普通机器的节点组成的集群上,通过分布式的计算模型和存储模型来处理大数据集,Hadoop已经成为大数据存储和并行处理的主流平台。Spark目前也是Apache下的一个大型开源项目,Spark大数据处理模型可以运行在Hadoop平台下,Spark采用函数式编程语言Scala[34]实现,同时还支持Python,Java开发语言,Spark计算模型克服了在迭代式计算和交互式计算中的不足[5]。Spark处理模型是基于MapReduce计算框架实现的分布式计算,拥有MapReduce所具有的可扩展性、容错性、兼容性优点;但与MapReduce相比较不同的是Spark处理模型中间输出结果可以保存在内存中,从而不再需要再反复读写HDFS,使得并行处理效率比在MapReduce平台下提高了100倍[5,6]。因此,本文论文研究方向实现在Hadoop环境下基于Spark下大规模RDF数据的高效推理,提出一种高效的基于Spark的RDFS的推理算法。论文本文的研究意义在于,首先在Hadoop环境下基于Spark构建海量数据并行推理框架,并搭建相关平台。其次,研究基于Spark框架语义数据并行推理策略并研究设计基于Spark框架的并行推理算法,最后通过实验分析与urbian[]文章中提出的方法进行对比,得出该并行推理算法推理的准确性和效率。1.2 国内外研究现状现如今,为了实现高效率、易扩展的大规模语义数据的推理机制,有学者对传统的推理算法从不同方面进行改动,目前为止,较为新颖受人认可的推理方式为结合Spark技术基于RDFS、OWL推理规则提出推理算法。1.2.1 Hadoop平台及Spark、HDFS相关技术研究现状和发展动态及相关技术近年来,基于HDFS分布式文件系统、MapReduce分布式计算模型和HBase分布式数据库模型实现的开源 Hadoop 平台[11]。其具备的高效率、易扩展的大规模数据存储和计算能力,及高容错、支持不同环境、低成本等特性,已经成为云计算研究领域中较为广泛使用的数据密集型计算和存储模型, Hadoop 已经成为对大数据处理的传统平台[12]。随着技术的发展,前两年在Hadoop中使用最广泛的是MapReduce分布式处理模型,但是它最大的弊端在于,存储数据需要反复访问HDFS文件系统,不断的进行I/O操作,仅仅在这个存储层面上分析就降低了平台处理效率。Spark是现如今主流的云计算处理平台,它是由UC Berkeley AMPLab在2009年发起的,然后被Apache软件基金会接管的类似于MapReduce的分布式并行计算模型,是目前大规模数据下使用较为广泛的开源项目之一。其最大的区别在于,Spark是针对MapReduce在迭代式机器学习算法和交互式数据挖掘等应用方面的低效率,而提出的新的基于内存计算框架,既保留了MapReduce的可扩展性、容错性、兼容性,又弥补了MapReduce在这些应用上的不足,丙炔Spark采用基于内存的集群计算,所以Spark在这些应
文档评论(0)