基于学术合作关系学科专家导航实现算法研究.docVIP

基于学术合作关系学科专家导航实现算法研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于学术合作关系学科专家导航实现算法研究

基于学术合作关系学科专家导航实现算法研究   摘 要:一个科学高效的学科专家导航系统对学科研究有极大的推动作用,然而目前我国对此类系统的设计开发和利用程度仍有待提高。文章仅对该系统的专家检索和基于合作关系的专家导航进行算法设计。文中介绍了该系统的五大模块及其功能。运用向量空间模型、相关性传播模型计算某一领域的专家专长得分,得到该领域的专家排名列表;基于专家合作关系网络,设计了在非限定领域和限定领域检索中的专家合作强度算法。   关键词:专家检索;专家导航;合作网络   引言   科研是推动学科发展的强大力量。我国对科研项目的投入不断增加,产生了一些优秀的科研成果。但不可否认,我国科研领域仍存在一些问题。据2012年山东省审计,在该省四所高等院校2008年立项的纵向课题项目中,平均预算执行率为27.66%,未按期结题率为33.98%[1]。说明现阶段我国科研存在项目资金利用率低,结题率低的弊端。原因之一在于部分项目申报者自身科研能力不足,学术资源在空间上分配不均,因此寻找并沟通学科科研人员之间的关系就尤为重要。学科专家导航系统的核心功能是把专家基于学术合作经历进行联系,并以可视化的方式向用户展示。系统提供以下几种方式的查询:以专家姓名为检索词,查询某一专家的基本信息、科研作品和与其他专家之间的合作关系;以学科领域为检索词,查询该领域的专家排序列表。此外还对专家及作品进行分类:按组织、关键词、会议等几大类进行整理,列出最前沿的前20类,供用户进行检索查找。主要包含专家信息录入、专家信息更新、用户操作、专家检索、管理与维护五个功能模块。   1 实现算法   本章将对专家检索进行算法设计。几种检索方式分别是:基于学科领域的专家导航,即用户输入学科领域词作为检索词,系统返回该领域的专家排名列表;另一种是基于专家姓名的专家导航,即用户输入专家姓名作为检索词,系统返回该专家的工作单位、联系方式等基本信息和科研成果,并以合作网络的可视化方式展示与其他专家之间的合作关系。按类别分类便于用户按专家所在组织、文献的关键词、文献来源等对专家和文献进行分类查询或浏览。   为便于后续设计,现将文章约束表述如下:第一,文章对专家关系界定为基于其学术研究的论文合作关系和研究领域的相似关系;第二,对有关专家学术成果的算法设计仅围绕文字形式的成果信息(主要指学术论文)进行。   1.1 学科领域检索的专家检索算法   专家得分来源于两方面:一是从专家参与所著论文中获得,包括论文与查询词的相似度得分和论文的学术价值得分,此为专家初始得分;二是基于专家在相关论文中的合作关系,运用信息检索中的相关性传播模型,参照文献[3],把初始得分根据专家之间的相关度权值进行传播提升。   基本思路:(1)为每篇文献建立索引文档,文档中包括关键词出现的位置(标题、正文等),这一工作在系统建立后已经完成;(2)运用向量空间模型计算文献与查询词的相似度,并筛选出相似度大于阈值的文献;(3)根据文献与查询词的相似度、文献期刊的影响因子计算(2)中筛选出的每篇文献的得分;(4)把每篇文献的得分分配到作者,计算每位相关作者基于所著文献的总得分,作为每位相关作者的初始得分;(5)根据(2)所得文献集,计算作者之间的相关度权值;(6)把作者的初始得分进行传播提升,经过多轮迭代,得到每位相关专家的总得分;(7)按得分高低把专家姓名排序输出。   1.1.1 基于文献的作者初始得分算法   文献得分依据两方面:一是依据文献与搜索领域的相关度;二是依据文献在该领域的学术价值。相关度和学术价值越高,得分越高,反之则越低。利用向量空间模型(VSM)稍加改变,进行相关度的计算;用文献所在期刊的复合影响因子衡量其学术价值。   根据文献[4],文档di可表示为(wi,1,wi,2,…,wi,m),其中wi,1,wi,2,…,wi,m分别代表文档di特征项t1,t2,…,t3的特征项权重。类似地,查询也可以在同一空间里表示为一个查询向量。用夹角θ的余弦来衡量二者相关程度的大小,即   Sim(d,q)=cosθ=■ (1)   将这个结果与设定的阈值比较,如果大于或等于阈值则视为相关,小于该阈值的视为不相关。   语词加权方案为wi,j=fi,j*log(N/nj) (2)   nj表示含有标引词kj的文档数目;f i,j表示语词kj结合其位置变形后的加权标准化频率。   fi,j=■ (3)   分子表示语词kj在文档di中的加权频率;r1,r2,r3,r4分别表示题目、摘要、关键词、正文中的语词权重;freqi,j,freqi,j,freqi,j,freqi,j分别表示语词在题目、摘要、关键词、正文中的初始频率;freqi,l表示语词kl在文档di中的加权频率,最

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档