网站大量收购独家精品文档,联系QQ:2885784924

融合特征层次类型信息的专家列表排序方法课件.doc

融合特征层次类型信息的专家列表排序方法课件.doc

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
融合特征层次类型信息的专家列表排序方法 魏斯超 云南机电职业技术学院,昆明,650203 摘要: 关键词: 1 引言 目前,人类社会正在从信息社会迈向知识社会,随着知识时代的到来,知识将成为决定组织竞争力的关键因素。不论是研究机构还是大型企业都需要有丰富的专业知识和技能,代表着领域前沿发展的专家,去领导团队开展工作,有利于提高工作效率。如何有效的找到相关领域的专家具有非常重要的研究意义,因此引起了广大学者的关注。于是专家检索应运而生。2005年,国际文本检索会议TREC引入企业检索系列专题,并设立专家检索为子任务,给研究人员和学者提供了一个广阔的研究平台,专家检索快速蓬勃发展起来。专家排序是专家检索的核心,专家排序的优劣直接影响专家检索的效果。国内外学者已经对专家排序进行了深入的研究。专家排序方法主要分为四类,第一类是专家模型排序方法,如Macdonald等人通过使用姓名在电子邮件等中出现的频率通过加权为专家建模的方法[1]。Fu等提出通过收集合并不同媒体格式的相关信息进行文档重组的方法[2];第二类是文档模型排序方法,如Fang等人提出根据不同的专家数据来源使用不用的权重反映其重要程度来构建判别概率专家排序模型[3]。随后Fang等人又提出了基于主题和候选者在支持文档中的共现概率构建专家检索模型;第三类是投票模型排序方法,如Macdonald等人和Fox等人[4]提出的基于数据融合技术的投票模型;第四类是链接分析模型,如Serdyukov.P等提出的相关性传递模型和Shen等人提出的专家推荐网络[5]。但上述方法都是基于数据点的,忽略了查询返回的是整个专家列表,最小化的不是整个专家列表的上的排序损失。而且大部分仅考虑了查询和文档的相似度特征,忽略了专家特有的特征,也没有考虑不同特征对专家排序的影响程度。因此本文首先定义了四大类特征,并融入特征层次类型信息,在列表级上对专家进行排序。 2 特征提取 提取特征的好坏对专家排序的效果有很大影响,通过对专家排序任务的分析,,,,2所示。 表2 专家页面内容特征 特征序号 特征描述 特征类型和取值 21 入链数 integer 22 出链数 integer 23 链接点击数 integer 24 URL中是否包含”baike.baidu” {0,1} 25 URL中是否包含”blog” {0,1} 26 URL中是否包含”wikipedia” {0,1} 27 网页类别 {0,1,2,3,4,5} 2.3 语言模型 最初的排序模型就是简单的采用语言模型进行排序,包括布尔模型、向量空间模型、BM25模型等,因此提取语言模型特征对专家排序有重要的作用。 2.3.1 Boolean模型 布尔模型是基于集合论和布尔代数的一种简单检索模型。它的目的是返回对于某给定查询结果为“真”的文档。在该模型中,查询词布尔表达式。,其中表示文档的关键词。该模型通过对文档标识和提问式的逻辑运算来检索文档,返回查询词为“真”的文档在文档中的权重被设为二值数据,即。对于一个表示为的查询,返回的文档必须是这样一组集合:这些文档中含有关键词但不含有关键词,或者同时含有关键词和。布尔模型简单直观,布尔查询式容易写出,通过布尔表达式可以方便的控制查询结果,因此布尔模型到目前为止都是常用的检索模型。 2.3.2 向量空间模型 向量空间模型(Vector Space Model,VSM)克服了布尔模型中二元权值的,采用非二元权值来表示在文本和用户查询中特征项的权重,提出了允许部分匹配的模型结构。用户查询文本之间的相关程度通常用它们之间的相似度来度量。当文本和查询均被,向量之间的某种距离表示二者之间的相似度,相似度越大,说明文本和查询之间相关度越大。在文档中的权重是一个大于0的非二值数。文档可以看做是一个向量:其中,是文档集中所有标引词的数目。用户查询中的标引词也是有权重的,设是用户查询的标引词的权重,且,则查询向量被定义成:。衡量文档和查询的相关度转化成计算文档向量和查询向量之间的相似度。一般使用文档向量和查询向量之间的夹角余弦值来计算它们之间的相似度。 2.3.3 BM25模型 BM25模型是一种著名的评价搜索相关性的标准。其主要思想对进行语素解析,生成语素qi然后,对于每个,计算语素qi与的相关性得分最后,将语素qi的相关性得分进行加权求和,从而得到的相关性得分 …………………(1) 其中,qtf是查询词t在查询中出现的频率;k1,k2是参数,默认值分别是k1=1.2,k2=1000;系数w表示为:,其中N是文档的总数,是含有词t的文档个数;tfn表示为:,),其中tf是词t在文档d中出现的词频,b是使词频规格化参数,其默认值是b=0.75,表示文档长度,表示文档集中平均文档长度。 2.3.4 LM

文档评论(0)

cc880559 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档