融合特征层次类型信息的专家列表排序方法资料.doc

融合特征层次类型信息的专家列表排序方法资料.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
融合特征层次类型信息的专家列表排序方法资料

PAGE 12 PAGE 13 融合特征层次类型信息的专家列表排序方法 魏斯超 云南机电职业技术学院,昆明,650203 摘要: 关键词: 1 引言 目前,人类社会正在从信息社会迈向知识社会,随着知识时代的到来,知识将成为决定组织竞争力的关键因素。不论是研究机构还是大型企业都需要有丰富的专业知识和技能,代表着领域前沿发展的专家,去领导团队开展工作,有利于提高工作效率。如何有效的找到相关领域的专家具有非常重要的研究意义,因此引起了广大学者的关注。于是专家检索应运而生。2005年,国际文本检索会议TREC引入企业检索系列专题,并设立专家检索为子任务,给研究人员和学者提供了一个广阔的研究平台,专家检索快速蓬勃发展起来。专家排序是专家检索的核心,专家排序的优劣直接影响专家检索的效果。国内外学者已经对专家排序进行了深入的研究。专家排序???法主要分为四类,第一类是专家模型排序方法,如Macdonald等人通过使用姓名在电子邮件等中出现的频率通过加权为专家建模的方法[1]。Fu等提出通过收集合并不同媒体格式的相关信息进行文档重组的方法[2];第二类是文档模型排序方法,如Fang等人提出根据不同的专家数据来源使用不用的权重反映其重要程度来构建判别概率专家排序模型[3]。随后Fang等人又提出了基于主题和候选者在支持文档中的共现概率构建专家检索模型;第三类是投票模型排序方法,如Macdonald等人和Fox等人[4]提出的基于数据融合技术的投票模型;第四类是链接分析模型,如Serdyukov.P等提出的相关性传递模型和Shen等人提出的专家推荐网络[5]。但上述方法都是基于数据点的,忽略了查询返回的是整个专家列表,最小化的不是整个专家列表的上的排序损失。而且大部分仅考虑了查询和文档的相似度特征,忽略了专家特有的特征,也没有考虑不同特征对专家排序的影响程度。因此本文首先定义了四大类特征,并融入特征层次类型信息,在列表级上对专家进行排序。 2 特征提取 提取特征的好坏对专家排序的效果有很大影响,通过对专家排序任务的分析,本文定义了查询和文档相关性特征,页面内容特征,语言模型特征,专家相关性特征四大类。 2.1 查询和文档相关性特征 查询所代表的知识散布在文档中,专家也由文档所表征,因此查询和文档的相关性特征对专家排序有很大影响。同时文档的不同部分对查询相关性贡献大小也不相同,因此对于每个特征,根据文档的标题、链接文字、正文和文档四个不同部分得到四个不同的值。提取的查询和文档相关性特征如表1所示: 表1 查询和文档相关性特征 特征序号特征描述位置1包含查询词个数标题2链接文字3正文4文档5包含查询词频率标题6链接文字7正文8文档9长度标题10链接文字11正文12文档13逆文档频率标题14链接文字15正文16文档17词频-逆文档频率标题18链接文字19正文20文档2.2 页面内容特征 针对专家页面进行分析,提取链接特征,URL特征和网页类别等专家页面内容特征用于专家排序。定义专家页面内容特征如表2所示。 表2 专家页面内容特征 特征序号特征描述特征类型和取值21入链数integer22出链数integer23链接点击数integer24URL中是否包含”baike.baidu”{0,1}25URL中是否包含”blog”{0,1}26URL中是否包含”wikipedia”{0,1}27网页类别{0,1,2,3,4,5}2.3 语言模型 最初的排序模型就是简单的采用语言模型进行排序,包括布尔模型、向量空间模型、BM25模型等,因此提取语言模型特征对专家排序有重要的作用。 2.3.1 Boolean模型 布尔模型是基于集合论和布尔代数的一种简单检索模型。它的目的是返回对于某给定查询结果为“真”的文档。在该模型中,文档表示为关键字的集合,查询词用“与(and)、或(or)、非(not)”逻辑运算符和关键词组成的布尔表达式表示用户提问。假设第j篇文档表示为,其中表示文档的关键词。该模型通过对文档标识和提问式的逻辑运算来检索文档,返回对于该查询词结果为“真”的文档。常用的布尔逻辑运算符有:逻辑“与”(AND)常用符号“∧”表示,逻辑“或”(OR)常用符号“∨”表示,逻辑“非”(NOT)常用符号“-”表示。在布尔模型中,关键词在文档中要么出现、要么不出现两种情况,因此关键词在文档中的权重被设为二值数据,即。对于一个表示为的查询,返回的文档必须是这样一组集合:这些文档中含有关键词但不含有关键词,或者同时含有关键词和。布

文档评论(0)

baobei + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档