关于检索的学术论文.docxVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关于检索的学术论文 语义检索研究综述 摘要 随着语义网技术的发展,语义检索已成为研究热点,其旨在克服传统网络检索技术的局限性,支持知识检索。在对现有研究与应用调研的基础上,对当前语义检索研究进行综述,详细分析两类语义检索研究:语义支持的检索及语义网资源检索,并进一步分析后者三种不同的研究方向:语义网文档检索,实例检索和关系检索。 关键词 语义检索 语义网 本体 信息检索 分类号 TP391 1 网络信息检索的局限与语义检索 目前网络检索的实现技术主要有两种:一种是依赖于编码处理,通过分类模式来描述信息资源,从而实现检索;另一种是通过全文检索,查找文本中含有用户指定词语的信息源。其应用的体现分别为基于分类目录的搜索引擎和全文搜索引擎。前者虽然基于人工处理,准确性较高,但它更适合用于网络信息资源的浏览和导航;后者实现较为方便,适应了对迅速增长的海量网络信息资源进行自动处理的需要,成为网络信息检索的主要途径。但是用户在检索中始终面临不少困难,如:检索结果的过载和低查准率,用户负担重;检索结果及其排序不一致,且与用户使用的查询词汇形式及其组合形式高度相关等。究其原因,统计意义上的词型匹配难以支持对网络信息资源的有效检索利用。因此研究者们将目光投向了对词形背后的意义的挖掘上,探索实现基于概念匹配的检索技术和方法。 早在上世纪80年代对语义检索的讨论就出现在SIGIR会议论文中,但语义检索研究始终受制于语义信息处理发展水平的局限。随着自然语言处理、人工智能的发展,尤其是语义网技术的兴起与发展,语义检索研究自上世纪末以来得以迅速发展。尽管到目前为止对语义检索在概念上仍没有统一的界定,但不同的研究却有着共同之处,就是基于对信息资源的语义处理实现效率更高的检索。语义信息的提取和处理可以是基于语义网方法与技术的,也可以是基于自然语言处理技术的。目前,前者在语义检索研究中相对更为普遍。事实上,正是由于语义网的出现与发展,才使语义检索的研究更加得以明确并发展如此迅速。 2 基于本体的信息资源检索 本体是语义网技术的核心部分,承担着语义表达的关键任务。本体在传统信息检索中的应用可促进从词型匹配到概念匹配的转变。从处理环节来看,它体现在两个方面:查询处理与文档标注及索引。 2.1 基于本体的查询处理 基于本体的查询处理包括查询消歧与查询扩展。通过消歧,明确查询的确切所指,准确反映用户的信息意图,继而通过加入与其语义相关的其他概念来实施扩展。许多研究中利用了语言本体如WordNet,通过其所提供的词的不同义项来实现查询消歧,通过其所蕴含的同义、整分、上下位等词汇关系来实现查询扩展。支持两种处理模式:查询消歧和扩展、检索结果后分类控制。前者是系统在查询消歧的基础上将某义项的上位词或下位词加入以扩展查询;后者则是系统先以常规方式处理用户查询,再对检索结果基于用户指定的查询义项进行分析和加权。则在词义消歧的基础上,利用WordNet根据查询词义抽取子概念图来实现查询扩展。子概念图作为查询的上下文信息用于支持对由普通搜索引擎返回的初次结果的过滤,以选出相关文档。提出的查询消歧方法包括三步:首先用WordNet中的义项及同义词簇,对查询用词进行两两配对,即在固定其中一词的情况下,与另一词的所有义项进行组合,得到若干种不同的组合情况,反之亦然其次将这些组合作为提问通过AltaVista进行搜索,并根据命中数对它们进行排序;最后,以WordNet中对相关义项的注释为上下文,计算排序在前的配对词间不同义项组合的语义密度,从而决定查询用词所指的确切概念。国内基于WordNet汉化而建设的中文概念词典CCD也在信息检索研究中得到了应用。 此外,各种自建的领域本体也被应用于查询处理。以一个有关人、地、事件、组织等的本体为基础来实现查询消歧,为每一个初始查询结果提供一个特别链接,用户通过点击这些链接来向系统确认该结果代表的概念符合其查询意图。构建了一个三层本体模型,分别为概念层即按等级层次组织起来的概念、语言层即与概念对应的表达形式、出现层即对应于表达形式的具体字串。在其可视化本体浏览提问接口中,用户可在本体层级体系中点击选择合适的概念。系统会自动执行查询扩展,将用户指定层级范围内的下位概念以及相关关联概念增加进来。扩展后的查询通过上述三层本体模型从抽象到具体被依次转换,最终变为由文档中实际出现的具体词汇构成的查询式。 2.2 语义标注文档的检索 语义标注文档检索的一种普遍思路是在对文档进行语义标注与索引的基础上,先进行实例检索,再据此返回所有以检出实例标注的文档信息。此外,也有其他不同方案。引入了向量空间模型,采用了基于概念级的向量空间文档表达,还设计了文档排序算法。

文档评论(0)

软件开发 + 关注
官方认证
服务提供商

十余年的软件行业耕耘,可承接各类需求

认证主体深圳鼎云文化有限公司
IP属地湖南
统一社会信用代码/组织机构代码
91440300MA5G24KH9F

1亿VIP精品文档

相关文档