一种改进best-first算法的主题爬虫搜索算法分析-analysis of a topic crawler search algorithm based on improved best - first algorithm.docxVIP

一种改进best-first算法的主题爬虫搜索算法分析-analysis of a topic crawler search algorithm based on improved best - first algorithm.docx

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种改进best-first算法的主题爬虫搜索算法分析-analysis of a topic crawler search algorithm based on improved best - first algorithm

algorithmiseffectiveandhasahigherprecisionratioandrecallratio,comparedwithBreath-FirstalgorithmandtraditionalBest-Firstalgorithm.Keywords:Best-Firstalgorithm,topicrelevance,HTMLtags,precisionratio,recallratio目录中文摘要I英文摘要II1绪论11.1选题背景及研究意义11.2研究现状及难点问题31.2.1国内外研究现状31.2.2研究的难点问题61.3主要研究内容71.4论文的组织和安排82相关理论与技术92.1网络爬虫基本原理92.1.1网络爬虫框架92.1.2爬虫搜索策略102.2主题爬虫工作流程122.3主题描述132.3.1关键词法132.4.2网页标题和正文内容的提取152.4.3锚文本的提取162.4.4中文分词182.5本章小结183基于页面内容评价的Best-First算法193.1概述19Best-First算法193.2.1基本思想193.2.2向量空间模型193.2.3权重计算方法22改进Best-First算法253.4本章小结304实验及结果分析3114.1评价标准3114.2实验分析3224.2.1实验环境简介3224.2.2实验参数分析3224.2.3实验结果分析334.3本章小结3665总结和展望3775.1总结3775.2展望377致谢399参考文献40附录433A.作者在攻读学位期间发表的论文目录4331绪论1.1选题背景及研究意义通过中国互联网络信息中心的统计,于2014年7月21日在北京发布了关于中国互联网络的发展情况报告[1],这是对互联网统计的第34次报告。从报告中可以发现搜索引擎这类网络应用的中国网民规模截止到2014年6月已经达到了50749万,使用率为80.3%,位居整个网络应用的第二位。随着移动终端的普及,各类手机应用迅速发展,比如手机搜索App和手机浏览器等,通过各种方式的推广,使得手机搜索引擎得到了广泛应用。手机搜索的用户规模在原来较高的基数之上,继续迅速增长,使用率达到了77.0%,处于各类手机网络应用的第二位。这表明随着移动互联网的飞速发展,手机搜索引擎的异军突起已成为不争的事实。毫无疑问,在互联网的所有应用中,搜索引擎这类应用处于了非常重要的地位。互联网的信息在过去十几年里获得了爆炸式的增长,但随之也出现了非常严重的信息过载问题。互联网的发展趋势充满着个性化的特征,在这样的环境中,对于普通用户来说,发布信息的成本变得很低,发布信息的量将会变得越来越大,从而导致信息过载的问题越来越严重。针对信息过载的问题,当前搜索是一个比较好的方法,在没有研究出其他更好的解决方法之前。因此,搜索引擎处于互联网应用中的绝对地位是无法撼动的,只会进一步巩固。目前比较著名且具有代表性的搜索引擎有Google、百度、微软必应、搜狐搜狗、新浪爱问等,这些通用搜索引擎是帮助人们寻找信息的最普遍的工具。互联网中蕴含着极其丰富而有用的信息和知识,然而每个人真正感兴趣的信息非常有限,仅仅是其中的沧海一粟。虽然搜索引擎能够为人们提供很多信息,但究竟哪些信息才是与用户需求最匹配的,搜索引擎很难知道。搜索引擎对于用户的真实需求往往无法准确分析,导致过多的干扰信息被提供给用户,使得用户需要投入较多的时间跟精力去寻找自己真正想要的资源,进而影响用户在搜索过程中的感受。在面对海量信息的快速定位时,像谷歌、百度等传统的通用搜索引擎已显得力不从心。因此,为了能更好的展现出互联网中的信息以及满足人们追求更完善的搜索引擎的愿望,研究更加智能、精确和专业的搜索引擎迫在眉睫。顺着搜索引擎历史发展的潮流,垂直搜索引擎诞生。通用搜索引擎能够提供大量的互联网信息资源给用户,同时也将用户真正感兴趣的资源淹没其中,如何从中快速、准确地找到用户所需的资源是当前要解决的主要问题。就这个问题而言,针对特定领域、特定人群和个性化需求的垂直搜索引擎提供了一种很好的解决方案。具有“专、精、深”特点的垂直搜索引擎[2],为用户提供具有一定价值的信息和服务,受到广大用户的欢迎和认可,在搜索引擎的发展史中写下了光辉的一页。目前来看,搜索由通用到专业已是一种发展趋势。近年来,研究人员对于垂直搜索引擎不管是在理论方面,还是在技术方面都做了许多研究,出现了一些比较优秀的垂直搜索系统。国外对于垂直搜索的应用较为典型地系统有:①LIBClient-IRISWeb系统这个系统是由北卡罗来纳大学计算机科学系的专业人才与法学院相关人员,通过相互沟通、协作开发完成。在这个系统中,可以使用自然语言来搜索互联网中的法律信息,从而大大提高了用户获得全面高质的法律专业信息的效

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档