科技论文社区的研究及其应用-计算机软件与理论专业毕业论文.docxVIP

科技论文社区的研究及其应用-计算机软件与理论专业毕业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
万方数据 万方数据 摘 要 摘 要 随着科技的飞速发展、互联网的广泛普及,信息过量的问题越来越严重。信 息海量增长与人们接受能力之间的矛盾,导致大量的信息资源得不到有效地利用。 在科学研究领域,大量的论文信息呈指数级增长,在 Internet 上想要查找一篇自己 想要的文献常常会伴随着大量无用结果的返回而失败。科研工作者如何解决文献 资源利用的问题,已成为科研领域的一大难题。科技文献作为科研工作者辛勤工 作的结晶,是作者研究方向和研究成果的最直接体现,在科技创新活动中起着重 要作用:对于科技工作者而言,能否快速、准确地获取所需要的信息直接影响到 科研、教学工作的效率与成败;对科学研究的发展而言,对科技文献信息资源的 占有、配置、开发、利用的程度与速度,是决定国家或地区科技能力强弱、科技 水平高低的重要因素。 本文研究的目的是为计算机领域的科研工作者提供一个良好的信息平台,该 平台集文献爬取、信息查询、知识挖掘等功能为一体。本系统的优势在于利用网 络爬虫将杂乱无章的论文信息统一组织,统一管理,实施快速的检索查询,同时 便于数据统计和知识挖掘。本文基于 B/S 结构,论文的主要内容是实现了一个计 算机领域中文文献管理和知识挖掘系统——“科技论文社区”系统。该系统采 用.NET 体系结构,建立起基于 Web 的比较规范的三层体系结构,能够实现对论文 数据库的多角度检索查询,使系统的应用更为简单方便。 本文采用基于模板的网络爬虫技术,对 Internet 上无结构的论文信息进行模板 匹配,实现论文数据的自动下载,并保证本地数据信息的实时更新;实现了论文 信息的基础检索和统计显示。 本文提出了一种基于推荐度的个性化论文推荐算法,该算法在传统的基于文 档向量的推荐算法基础上,采用了改进的向量空间模型,考虑了文章各部分的主 题表达能力的差异,同时加入了对论文本身价值的考量,价值高的论文优先显示; 为了保证推荐有效性,该算法在推荐过程中还结合了用户的浏览历史。通过实验 证明,该算法能较好地改善文献推荐的查准率和误判率。 本文采用重叠社团挖掘技术对自建的论文合作网络进行社团发现,从而发现 网络潜在的领域圈子。领域圈子的具体描述通过对该社团中心节点的描述来体现。 在此本文整理和比较了几种不同的重叠社团发现算法,并针对科技论文系统的实 I 摘 要 际情况加以改进,能够解决社团挖掘过程中的局部最优问题。在合作网络的构建 上,突出了第一作者的重要性,简化网络结构,降低算法复杂程度。 关键词:数据挖掘,科技论文社区,社团挖掘,文档向量,个性化推荐 II ABSTRACT ABSTRACT With the rapid development of science and technology and the wide spread of Internet, the problem of information overload are getting worse. The contradiction between massive growth of information and human’s capacity results in ineffective usage of a great amount of information resources. In the field of scientific research, papers increase exponentially; more often we fail to find our desired paper because the searching result will be accompanied by a large number of useless papers and documents. How to improve documentation resource utilization has become a major problem in scientific research. Scientific literature, as the product of the scientists’ hard-working, is the most direct manifestation of the researchers’ orientation and creature, playing an important role in the research: for the scientists, the ability to obtain the required Information quickly and accurately affects the

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档