基于分块本体索引.docVIP

下载本文档

2
0
约8.75千字
约 16页
2018-08-29 发布于福建
举报
版权申诉

基于分块本体索引.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于分块本体索引

基于分块本体索引　　摘要本体数量和规模的增大导致本体存储和访问成为制约本体应用的瓶颈。我们基于本体中类与类之间的关系，将本体图转换为本体类超图，通过对超图的划分得到分块，进行聚簇存储。实验证明这种切分方法对范围查询具有比较明显的效率提升。　　【关键词】大规模本体分块索引 Porac 　　1 介绍　　随着人们对本体的需求逐渐广泛，人们在本体构建中投入了更多的精力。因而，本体数量和本体规模这两个指标也有大幅度增长。这导致了许多新问题的出现。在本体规模小的时候，人们可以将它读到内存操作。而当本体规模增大后，人们无法将其一次性读入内存，需要借助外存设备存放它的结构信息，以便查询和更新。因此，人们开始研究本体在外存中的组织方式。本体由概念库（TBox）和事实库（ABox）两部分组成，概念库中存放概念-概念关系、属性-属性关系和概念-属性关系，事实库中存放实例-实例关系。关系由主语-谓词-宾语结构的三元组表示，于是本体就是三元组的集合。这类研究的着眼点就在于把三元组存放到关系数据库。　　关系数据库的存储基础是表。把三元组存储到关系数据库可以说成设计系统的表模式，从而把三元组存放到对应的表中。如果把所有的三元组都存在一张表，会导致这张表太大（现有的一些本体可以达到百万条三元组）。本体查询的时候，对该表作多次自连接会导致系统效率降低。为了提高系统效率，研究人员开始考虑对这张大表作切分，把数据存放到小表。从数据切分的角度讲，不外乎垂直切分和水平切分两类。由于三元组只有三个字段，没有太大的余地进行垂直切分，所以研究的重点在水平切分。水平切分能保持三元组的结构，并把相同类型的三元组放到同一张表。　　大量研究本体存储模式的工作只完成对TBox的切分，对ABox的切分没有作深入研究。随着本体研究的发展，大规模本体不断涌现。本体的规模越大，TBox数据所占的比重越小。一般而言，TBox数据所占比重基本不超过10%。因此，对ABox切分应该成为人们关注的热点。　　最简单的ABox切分方法就是根据三元组属性将三元组分配到对应表。这种方法没考虑到三元组间的关联，对本体查询效率提升的帮助有限。而且，按属性切分方法的管理和使用不便，每创建和删除一个属性都要更改表结构，会增大系统管理的压力。而且，这种方法会导致关联密切的三元组散布在不同表，增加查询的负载。比如，描述个人邮箱、个人地址、个人简历的信息有密切关联，用户在查询时可能一起用到。如果根据属性切分会导致这些数据分布在不同表，导致查询时IO数量增加。　　为解决这些问题，我们提出一个算法Porac（Partitioned on Relations Among Classes）。它基于类与类之间的联系在ABox中建立分块聚簇索引。我们先根据ABox中三元组主语所属类的关系将三元组集合划分成块，然后根据分块号建立聚簇索引，重新组织数据，以提高查询性能。　　2 相关工作　　我们最初对本体管理的研究侧重于在集中环境下存储OWL格式的本体，并探索如何将本体中的隐含信息物化存储于数据库中。随着语义Web应用的增加，本体的管理日益成为研究人员关注的热点。因此，应用的普及推动人们在本体存储和管理方面的研究不断深入。以下，我们将主要从两个方面（本体存储和本体查询语言）讨论本体存储和管理研究的进展。　　对本体存储的研究仍然集中在对本体集中存储方面的研究。这方面的大部分工作集中在将本体存储在关系数据库中。根据是否做推理，又可将这类本体存储系统分两类，基于描述逻辑和基于规则。前者有InstanceStore、OWLIM、Minerva等。在InstanceStore中，数据库用于存储和检索，描述逻辑推理算法将隐含信息显性化，使用检查知识库一致性的算法对查询提供支持；OWLIM使用OWL描述逻辑程序知识库的推理闭包将RDF数据库的内涵信息物化存储；Minerva把描述逻辑转化成逻辑程序，然后预先计算TBox的包含关系，系统使用bottom-up的推理策略支持用户对ABox查询。　　后者有DL-Lite、KAON2等，这类系统的特征是：先把描述逻辑构建符转变为规则；而后对查询采用前向链和后向链的策略进行处理。KAON2把描述逻辑知识库约简到一个析取的Datalog程序；DL-Lite把查询转变成合取的SQL查询的集合，交由SQL引擎处理，把推理复杂度降低到多项式复杂度。　　文献采用另一种方式降低推理复杂度。作者通过观察发现相似实例总用同样方式关联其他实例，抽取出摘要的ABox--A’。接着，使用过滤算法在A’中形成分块，生成A’的简化版，使得在A’分块上推理的结果与A上推理的结果等价，提高查询的效率。其想法与我们有相似之处，不过存在一个问题。即它只在95%以上的分块中只有一个实例的情形