对基于聚类域P2P信息检索系统研究与改进.docVIP

下载本文档

2
0
约4.46千字
约 11页
2018-09-06 发布于福建
举报
版权申诉

对基于聚类域P2P信息检索系统研究与改进.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

对基于聚类域P2P信息检索系统研究与改进

对基于聚类域P2P信息检索系统研究与改进　　[摘要]在介绍对等网络及信息检索相关内容后，进而分析介绍基于聚类域的P2P信息检索系统。在此结构之上做一定改进，将系统的资源定位和路由策略及排序方式加以实现。基于聚类域的三层体系结构即从上而下依次为应用层、结构化层和非结构化层，该结构通过运用资源描述框架的元数据描述，将资源节点进行聚类，进而组成聚类域。该系统充分利用对等网络“自由、平等、开放、自治”的优势，通过结构上的聚类概念降低信息检索带来的资源消耗。　　[关键词]对等网络信息检索聚类域分布式计算　　中图分类号：TP3 文献标识码：A 文章编号：1671-7597（2008）1210069-02 　　　　一、引言　　　　对等网络是一种分布式网络，网络的参与者共享他们所拥有的一部分硬件资源，这些共享资源需要由网络提供服务和内容，能被其它对等节点（Peer）直接访问而无需经过中间实体。它在网络协议的应用层，打破过去的“客户／服务器”模式，让所有网络成员享有“自由、平等、互联”的功能，不再有客户、服务器之分，任何两个网络结点之间都能共享文件、传递消息。近年来，以P2P覆盖网络共享资源的服务越来越流行，也促进了人们对对等网络的研究兴趣. 　　分布式检索技术减轻了执行信息检索操作的服务节点的负荷，使其节省更多的资源提供更加紧要的服务，以此减少检索信息结果返回的时间。　　　　二、基于聚类域的信息检索系统　　　　（一）聚类域的引入　　在P2P网络中，节点众多，但具有某一种相同或相似信息资源的节点数量却是有限的。如果在信息检索时，首先按照信息资源的类别，即属性特征，进行归类，组成特定的虚拟区域，即为信息的检索限定查询范围，可以有效地提高信息检索的效率。聚类域（Clustering Domain，简称CD）就是以上介绍的虚拟区域的概念描述，通过采用适当有效的数据资源描述形式加以分类。　　作为此类体系结构的内涵，聚类域可以理解为一个具有相似特征对象的集合，其建立的基础是聚类。聚类是指从全集中找出具有不同特征的子集，同一子集的对象相似度最大，不同子集的对象相异度最大。数据聚类已有很多有效算法，其研究进展较好。因此，可以在将P2P系统看作全集的同时，将节点看作对象，聚类的过程就是把具有相同或相似信息资源属性的节点组成特定的聚类域。　　（二）资源描述　　为了有效地进行信息检索，必须对系统中信息资源提供丰富而准确的表示方法。而对信息资源的描述、表示通常存储在元数据中，元数据也可看作数据的摘要。在此，可以使用资源描述框架（简称RDF）作为元数据的基本框架，以使元数据具有描述的准确性和方式的灵活性。RDF作为描述和交换元数据的框架，其描述的元数据基于可扩展标记语言（即XML）进行交换，以实现互操作。具体作用：（1）RDF与XML的应用有利于XML的解析过程与解释过程的结合。解析器在阅读XML过程中RDF可以帮助其准确的获得XML所要表达的主题和对象，并且RDF可以根据它们的关系进行推理，从而做出基于语义的判断。使用XML有利于提高网络数据基于关键词检索的精度，且RDF与XML的结合有力推动了基于关键词的网络数据检索向基于对象检索方式的转变；（2）由于RDF采用一种建模的方式来描述数据语义，这使得RDF可以不拘泥于具体语法表示。但是，RDF仍然需要一种适当的语法格式来实现其在网络上的应用。由于XML现已是被广泛支持的网络数据表示标准，有利于实际的推广，可以使RDF获得更好的应用处理特性；（3）RDF作为某个特定类型数据的规范表示形式，已经成为定制XML的良伴。将XML和RDF结合，实现了基于语义的数据描述，便于网络信息数据的检索以及相关知识的发现。　　RDF结构包含三部分内容，资源、属性和值，又称主题、谓词和对象。三者的关系是，一项资源可以包含多个属性，每个属性又可以具有不同的值。在利用RDF框架描述信息资源的元数据时，资源通过多个属性描述出来，其中包括描述资源的Hash值，这一Hash值被作为元数据的标识。RDF描述信息资源主要依靠属性描述与资源本身的名称、格式等无关。系统中的元数据具有唯一性。　　（三）网络中的聚类域　　元数据是资源分类以及实现节点聚类的基础和依据，通过元数据对有关资源属性进行描述，使得具有相同或相似属性的资源放置在虚拟的聚类域，也就是说聚类域是具有相同资源属性元数据的节点集合。由于用所代表信息资源的Hash值来标识元数据，相同元数据就拥有相同的标识。同时，由于节点所拥有的信息资源种类（共享层面）可能较多，按照不同的聚类原则，节点可以属于不同的聚类域。节点聚类域是对等网络自组织性的体现，同时也明显地提高了系统性能：（1）通过聚类这道预处理工序，使得具有相同或相似资源