专家检索的研究综述.docVIP

下载本文档

1
0
约4.25千字
约 9页
2018-10-11 发布于福建
举报
版权申诉

专家检索的研究综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

专家检索的研究综述

专家检索的研究综述　　摘要：随着知识经济时代的到来，知识对组织的生存和发展具有决定性作用。在组织中掌握一定技能、知识的专家更是活跃在各项科研、生产活动的前沿成为创造新知识的核心资源。而对专家知识的管理能力成为影响组织竞争力的重要因素，因此专家检索问题开始为研究者所重视，特别是从2005年TREC设立专家检索子任务开始，有关专家检索的研究受到了广泛的关注与热捧。从专家检索定义、专家描述、查询主题与专家关系建模三个方面对专家检索的相关研究进行介绍和分析。　　关键词：专家检索信息检索专家专长　　中图分类号：TP391 文献标识码：A 文章编号：1007-3973（2013）002-102-03 　　1 引言　　进入21世纪，人类社会正在由信息社会迈向知识社会，在这一过程中知识成为决定组织竞争力的关键因素。组织中的知识不仅是指像文档、报告等形式的显性知识，还包括在日常组织活动中产生并存储在组织内专家头脑中的隐形知识。正是这些活跃在科研、生产活动一线，掌握一定知识与创新能力的专家成为了组织运用、创新知识的主要力量。如何发掘并有效管理组织内部的专家，日益为组织的管理者所重视并逐步发展成为一门近年来的热点研究主题。　　与传统信息检索不同，专家检索作为实体检索的一个特例要求返回的是具有与查询主题相关知识的专家列表而不是相关文档。按照TREC对专家检索子任务的定义，专家检索的任务是在给定语料集上查找与给定查询主题相关的知识的专家列表。其中涉及三个要素：查询主题、语料集和专家知识。与前两者不同，专家知识在研究中并不是直接给出而是隐藏在语料中分散的专家证据中需要使用一定的方法才能得到。所以本文将专家检索任务分解为两个子任务：（1）专家知识表示子任务。从语料中识别出与专家有关的专家证据以描述专家掌握知识。（2）专家排序子任务。通过专家知识与查询主题间关联强度的度量，实现专家排序。我们将以此为线索展开对专家检索研究的讨论，组织如下：第二节介绍专家知识表示相关研究方法，第三节介绍专家排序评价相关研究方法，第四节对本文工作进行简要总结。　　2 专家知识表示相关研究方法　　专家知识表示研究的核心问题是确定哪些语料与专家有关及其关联性的评价。早期的研究都是基于传统IR方法，首先检索出与专家有关的文档然后将其做为专家证据以描述专家知识。比如在由Maybury等人构建的ExpertFinder系统中利用查询词与专家在文档上下文中的共现次数作为专家证据。这种方法基于如下假设，凡是文档中被提及的专家都掌握该文档的知识。但该假设在实际中很难满足，比如在现实中除了专家涉及文档中的知识外，专家在文档中被提及的情况还有其它有多种可能，比如在学术论文中某专家可能是作为致谢对象而被提及，或者在邮件中某人可能因为负责管理工作而成为许多邮件抄送对象。因此，并不能简单地认为只要专家被提及那么该专家就一定掌握该文档中的知识。针对这些问题，研究者从不同的角度提出了各自的解决方法，本文将其中主要的几种方法归纳如下。　　2.1 基于窗口的方法　　Fu等人放弃了传统方法中基于文档上下文判断专家与查询共现的方法，采用基于共现窗口的方法来计算专家与查询词亲密度以评价文档与专家间的关系。其基本思想是在文档上下文中，如果专家出现的位置与查询词间距离越短那么两者相关的可能性也越大。这种思想被随后参加TREC会议专家检索任务的团队广泛接受，大多数团队提交的系统在计算共现关系时都是基于这种方法或将其与自身方法相结合。根据Song等人所做的研究表明，在选择窗口大小时，较小的窗口有助于提高专家检索结果的准确率但同时也会降低结果的查询率。之后的研究中Zhu等人采取多中不同窗口尺寸计算专家与查询词的亲密度，并对不同的窗口尺寸指派不同的权重以提高检索结果的性能。同时该方法还常被与其它方法结合使用，比如Guan等人将其与基于文档结构的方法相结合用于评价专家与文档间的关系。　　2.2 基于文档结构的方法　　任何一种类型的文档都有其固定的格式，比如邮件的格式包括：收件人、主题、正文等部分。专家出现是格式中不同的位置，在一定程度上表明了他与该文档的关系。Zhao等人通过分析专家出现在邮件格式中的不同位置，在使用该文档做为专家证据时为不同专家指派不同的权重。Vechtomova等人利用邮件的主题属性，通过忽略主题中的格式前缀如Re、fwd等，将属于同一主题的邮件合并成单个文件，以更准确地推断专家在该主题中所扮演的角色。Yao等人利用邮件中的格式信息，结合上下文中的语义信息推断专家在文档中的角色从而评估专家与文档间联系。　　3 专家排序相关研究方法　　专家排序的基础是对专家知识与查询主题间关联性的评价，如果两者关联性越强说明该候选专家越有可能是查询主题下的专家，其在排序