基于图RDF数据划分方法研究与实现.docVIP

下载本文档

15
0
约4.76千字
约 10页
2018-08-29 发布于福建
举报
版权申诉

基于图RDF数据划分方法研究与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于图RDF数据划分方法研究与实现

基于图RDF数据划分方法研究与实现　　摘要：RDF作为支持数据语义描述的统一标准的数据模型，在数据表示、数据交换及系统框架支撑方面提供了很好的技术支撑。为了满足异构数据的存储和处理需求，本文针对RDF数据管理及处理进行了研究，提出了基于图拆分的RDF数据存储及优化查询方法，改善RDF数据存储及查询效率。首先把原始RDF文本数据转换成RDF数据图，然后运用新的算法将数据图进行语义拆分，使RDF数据划分为耦合度较低的若干部分。通过对边割比率进行实验，将基于点权重的划分算法与METIS算法和哈希算法进行对比，分析三种方法的优缺点。　　关键词：计算机应用；算法分析；METIS算法；图　　随着计算机和网络技术的快速发展，信息系统的数量和规模越来越大，目前web数据的管理和处理面临着半结构化数据、数据量大、查询速度缓慢、检索效率低下、可扩展性、普适性等6大主要问题。这些数据的特点使异构数据整合成为一个挑战性的问题。RDF作为支持数据语义描述的一种统一标准的数据模型，在数据表示、数据交换及系统框架支撑方面提供了很好的技术支撑。如何对分布式存储的数据进行较好地划分是目前需要解决的重要问题。　　因此，本文主要以提高使用SPARQL查询语句在RDF大数据中检索效率为主要目标，依据METIS算法核心思想，提出了一种新的图划分算法方案――基于图的RDF数据存储及查询方法，该方法能改善RDF数据存储及查询效率，为数据的处理提供更好的系统和方法上的支撑。　　相关技术　　数据形式――RDF 　　资源描述框架（RDF）作为支持数据语义描述的一种统一标准的数据模型，在数据表示、数据交换及系统框架支撑方面提供了很好的技术支撑。RDF使用一个图数据模型，其中不同实体是图中的顶点，它们之间的关系用边来表示。关于每个实体的信息用从顶点到该实体发出的有向边表示，其中边是连接顶点到其他实体的，或者到特殊的“文字的”顶点，该顶点包括对于该实体的一个特殊的属性值。　　图1显示一个RDF示例图。例如，图中的边表示实体“教师0”是“教授类型”类型的，属于“院系0”，教了“课程1”。在这个图中，每一个和“教师0”相连的实体能有它们自己的连接集；例如，通过“类型”关系，“教师0”被显示和“教授”实体相连。大部分RDF存储是将RDF图表示为一个三元组表，表中有一个针对RDF图的边的三元组。三元组使用的形式，其中主语是从边发出的实体，谓词是边的标签，宾语是边的另一端上的实体或文字的名称。　　0.1图的数据结构图是一种复杂的非线性结构。　　0.2在处理RDF三元组数据时，论文采用的方法是将RDF三元组数据按照图的形式进行划分，在数据结构中，常用的方法是邻接矩阵、邻接表和十字链表三种存储形式。本文采用的是邻接表的形式。伪代码如下表1。　　伪代码中将主语和宾语用节点表示，谓语用边表示。针对每个点，根据点的ID区分，ID采用整数表示，在图划分程序中并不存储每个点的语义。由于采用的是超图的思想，即每一节点都是由若干点组成，所以在节点中记录了当前节点所包含点的个数，这主要是为计算权重所服务的。节点的最后一个信息是当前的节点被哪个节点所包含，在初始化的时候这个值是当前节点的ID，即说明当前节点是被自己所包含，如果这个值在计算最后仍然是自己的ID，说明这个节点只包含自己一个点。将谓语抽象成边，只需要知道哪个节点和哪个节点有关系即可，所以在图划分程序中只存储自己的ID和点之间的关系，对于边的语义信息和点的类似。　　1.基于超图模型的RDF数据划分　　本篇论文中采用的是METIS算法的思想，该算法是由明尼苏达大学计算机科学与信息技术工程系开发并且免费发布的。METIS的实现算法是基于多级图形分割范例。它可以迅速产生高质量的分割。在多层次模式上，总共有三个阶段组成：图粗糙化，图分割，图还原。　　1.1 图粗糙化　　METIS算法中的图粗糙化是最重要的一个步骤，这个步骤是将图中的节点根据一定的算法合并成一个新的节点，这样会将图中总节点数降低，最后得到一个比较小的图形。在粗糙化阶段，需要将大图简化成较小的图，在简化的过程中，首先将悬挂点与之相关联的点进行合并，对于合并后的网图，根据每个点的密集程度进行合并，采用合并密集程度最大点的所有关联点。　　在一个图中，度数为1的顶点称为悬挂顶点。与它关联的边称为悬挂边。在将悬挂点进行化简的过程中，已经将简单图变为超图。在这个图中找到密集度最大的点进行化简，并迭代化简。在将图进行粗糙化的过程中，需要牵扯到计算点的权重这个问题。这是因为在进行图的粗糙化的过程中，需要将节点进行合并，由单个点聚集成超点，这样才能将超大的图粗糙化，简化成比较简单的图进行接下来的图分割步骤。在对点的权重计算过程中，主要依据两个原则：