语义检索排序的方法的研究进展.docVIP

下载本文档

5
0
约5.73千字
约 11页
2018-11-06 发布于福建
举报
版权申诉

语义检索排序的方法的研究进展.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语义检索排序的方法的研究进展

语义检索排序的方法的研究进展　　[摘要]排序算法的好坏很大程度上影响了搜索引擎的用户体验，尤其是近些年随着语义检索技术的发展，使其检索和排序的对象不仅仅局限于文档和网页，更包括了实体和关系等。在对现有研究与应用调研的基础上，对当前语义检索研究进行了综述，并按照排序的阶段将其分为实体排序、关系排序和本体文档排序，并详细阐述了每种排序算法的研究进展，最后指出，将用户的社会网络因素同已有的排序算法相结合，是未来语义排序的发展趋势之一。　　[关键词]语义检索；检索排序；本体；关系；实体　　[中图分类号]G250 　　[文献标识码]A 　　[文章编号]1008-0821（2015）02-0159-06 　　搜索引擎最重要的任务是搜集网络信息，提供给用户与其检索词最匹配的结果，并返回相关链接。搜索引擎在网络上抓取足够的网页已不再是困难，困难在于如何将这些网页整理出来，选择合适的排序算法，把这些结果集返回给用户。语义网技术的出现，更加加剧了这种困境。语义网的宏观结构来源于RDF模型所定义的数据之间的链接，随着RDF数据大量涌入，传统搜索引擎更加凸显出局限性，因此语义搜索引擎应运而生。由于语义检索的对象不再仅限于文档和网页，同时也包括了实体和关系等，所以在一定程度上对排序算法的要求变得更高。对于语义搜索引擎来说，一个合理的排序算法不仅可以帮助用户提高搜索效率，更是迈向可信语义网的至关重要的一步。从对现有研究与调研的基础上可以看出，目前针对本体文档的排序研究较多，已经形成了较为系统的分类排序算法体系，但针对实体和关系的排序的研究还在发展中。本文按照排序的阶段将语义检索排序分为实体排序、关系排序和文档排序，并详细阐述了每种排序算法的研究进展，供今后研究人员参考。　　1 传统排序算法概述　　传统搜索引擎的排序算法主要可以分为两类，分别是基于链接分析的方法和基于用户行为分析的方法，以及在此基础上进行改进的排序模型。其中基于链接分析的方法又可以分为PageRank算法、HITS算法、SALSA算法等；基于用户行为分析的方法可以分为BrownseRank和Direct Hit算法等；一些在此基础上改进的排序算法包括基于节点和边属性的排序算法、基于监督学习的排序算法等。随着语义网的发展，本体数量与日俱增，本体模型在语义网上被广泛地应用，传统的基于关键词的检索方法不能对本体中的语义关系进行很好的推理，而仅仅基于表述逻辑对本体进行检索，因而用户满意度并不高，也无法取得很好的排序结果。与此同时，一些研究将传统的排序算法应用于语义检索中，取得了一定的成果，但是由于本体结构的特殊性，目前相关研究仍在探索更加优化的排序算法，下文将详细介绍当前的研究现状和进展。　　2 语义检索排序方法　　当前按照排序的阶段可以将语义检索排序分为实体排序、关系排序和本体文档排序，但是这些排序方法之间是有很大交集的，并无严格的界限。　　2.1实体排序　　语义网中的定义/概念是为了描述现实中的实体数据，这些实体数据都将服务于资源的请求者，比如利用FOAF撰写的个人档案就是目前最常用的实体数据。语义网最初发展时，由于实体数据相对匮乏，因而并未引起足够的重视，近年来随着语义网的迅猛发展，大量类似于FOAF、RSS等实体数据的出现，加上实体排序本身就有着巨大的研究价值和商业价值，使得这个问题越来越受到研究者的关注，而且从实际的角度来讲，对于大多数一般用户而言，实体数据的检索需求更为普遍。实体排序问题的实质是对实体之间异质关联的分析方法，其排序的目的是从知识库中发现和检索与用户需求最匹配的实体对象，这种最匹配的实体对象一般称为种子实体（seed entity），排序的困难之处在于实体之间的关联异常的复杂，一些隐式关联很难被发现，推理过程不仅牵扯到描述逻辑（Description Logic）的推理规则，还需要使用语义网规则描述语言（SWRL）定义的规则，因此在对实体数据进行排序的过程中，如果想得到全面准确的排序结果，那么推理所起到的作用是不可忽略的。　　W.Wei等人提出了针对特定领域的实体排序算法RareRank，其指出传统的信息检索模型主要依靠内容和链接分析评分来确定排序结果，即相关性分数（relevance）和质量分数（quality）。作者将这两种评分相结合，并在此基础上分配相应的参数来进行优化，并引入了合理搜索模型（Rational Research Model）。其首先将一个领域的知识利用有向图来表示，然后将领域本体引入到有向图中，因此该模型的排序分数整合了领域本体的相关性分数和链接分析的质量分数。这个方法实质是应用了链接分析来对实体进行排序，实证结果证明效果确实有一定改善，但是该模型的参数设置较为简单，将来还需要大量的数据集进行测试。L.