一种简单高效的科研兴趣自动发现与多视角检索方法.docVIP

一种简单高效的科研兴趣自动发现与多视角检索方法.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种简单高效的科研兴趣自动发现与多视角检索方法   摘 要:发现科研人员的科研兴趣并实现对科研兴趣的多视角高效检索在推荐评审专家、构建虚拟科研团队、指导学生选择导师等方面具有重要意义。为了能自动发现科研人员的科研兴趣并进行多视角的检索与展示,首先基于网络爬虫爬取了关于某一学科的海量文献,抽取元数据,建立关键词共现矩阵,然后基于复杂网络GN聚类算法实现科研兴趣的自动发现,最后实现了一个科研兴趣自动发现与多视角检索原型系统,提供科研兴趣的多视角检索。该系统可以满足不同用户的多方面检索需求,以更好地为用户提供服务。   关键词关键词:科研兴趣发现;多视角检索;可视化;关键词聚类;关联矩阵   DOIDOI:10.11907/rjdk.161441   中图分类号:TP319   文献标识码:A 文章编号:1672-7800(2016)008-0134-03   0 引言   科研工作已经成为科研院所、高校等工作人员日常开展的重要工作之一,是高校教师职业生涯中的一个重要组成部分。随着科研工作的逐步深入,学科分类越来越细致,及时发现和跟踪科研人员的科研兴趣在推荐评审专家、构建虚拟科研团队、指导学生选择导师等方面都具有重要意义。然而,一方面随着科学技术的不断发展,科研人员的研究方向也不断演化且方向分类更加细化,这给评审专家推荐、虚拟团队构建等工作造成了很大困难;另一方面,面对海量科研信息,如何能够快速检索到用户真正感兴趣的内容,也是近年来科研人员关注的一个热点问题。目前,虽然大多数科研期刊数据库都建立了自己的搜索引擎,以方便用户检索相应的科研信息,但是目前的检索结果大多只是按照文献发表的先后顺序进行排序,结果比较单一,无法帮助科研人员从多个视角对比分析所需的科研信息。   为此,本文结合内容分析、数据挖掘、个性化检索等相关技术,研究如何在科研大数据背景下准确地发现科研人员的科研兴趣并进行多视角检索的方法,并实现了一个科研兴趣自动发现与多视角展示系统原型。   1 相关研究工作   发现用户兴趣是个性化推荐等研究领域的基础工作,即根据用户的兴趣实现个性化推荐,所以发现并对用户兴趣进行建模是个性化推荐领域的核心问题和研究热点,并已经取得了一系列相关的研究成果。邹博伟等[1]为了识别出用户的新兴趣,改进了TextTiling方法以使系统可以自动选择合适的动态阈值,并将其在个性化检索系统中进行了测试,取得了较好效果;白丽君、张永奎[2]提出基于智能Agent的用户兴趣发现与更新,通过监视跟踪用户的浏览行为和操作,判断用户对哪些文献资料感兴趣,对该文献提取兴趣特征词和内容关键词则被认为是用户真正的兴趣;牛朝林等[3]针对微博用户兴趣随时间变化的特征,提出一种基于模糊关联规则的微博用户潜在兴趣发现方法,该方法采用LDA主题模型表示微博主题的分布,挖掘模糊关联规则,最后通过相似度计算发现潜在兴趣;为了应对微博的数据稀疏特性,王仁武等[4]提出首先构建主题词共现图,然后通过Clauset算法和PageRank算法聚类实现族群兴趣的自动发现;国琳、左万利[5]通过构建和分析用户兴趣分布曲线以及发现兴趣领域专家,提出甄别状态不正常的伪专家算法;王实、高文等[6]根据用户的访问记录定义了一个隐马尔可夫模型,然后提出一种新的增量发行算法Increase-R用于发现用户的兴趣迁移模式;王?础⑻平艿?[7]充分考虑领域专家的研究成果及师生关系等因素,采用学习排序的方法作为框架,用权威度来衡量一位专家在某领域作为指导者的成就及影响力;而文献[8]、[9]指出,衡量某科研人员在该领域的权威度,更应考虑其发表论文的数量、质量以及合作关系。   从上述研究现状可以看出,目前对用户研究兴趣的发现大多数是面向社交网络开展的,而很少有针对科研领域的科研兴趣发现方面的研究。因此,如何快速准确地找到科研人员的科研兴趣及重要研究成果,?α私饪蒲辛煊虻姆⒄贡浠?及关注的科研热点具有重要意义。   2 系统模型及数据获取方法   2.1 系统基本框架   如图1所示,本文的科研兴趣自动发现与多视角可视化方法主要包含3个模块:数据获取及预处理模块(M1)、科研兴趣自动发现与可视化模块(M2)以及科研兴趣多视角检索模块(M3)。   (1)科研论文是科研成果的重要载体,是科研兴趣的重要表达方式。为此,数据获取及预处理模块主要通过自制的论文爬行器爬取互联网上出现的科研论文,并抽取论文元数据,为后续的科研兴趣自动发现作好数据准备。   (2)科研兴趣自动发现与可视化模块是本文工作的核心,主要是从已有的论文数据库中自动发现科研人员的科研兴趣。该发现方法首先建立关联矩阵,然后对矩阵进行聚类得到相关科研兴趣,最后将挖掘的科研兴趣进行可视化。   (3)科研兴趣多视角展示

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档