网站大量收购独家精品文档,联系QQ:2885784924

主题爬虫url析模型与高度技术研究.pdf

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主题爬虫url析模型与高度技术研究

主题爬虫URL分析模型与调度技术研究 毒宣宣宣■■■重I III i薯蕾|■置■iiii蕾iii目i叠一 摘 要 随着互联网的飞速发展,网络上的信息数量激增。面对着数量庞大、纷繁复杂的互 联网信息,用户如何可以快速、准确并且全面地查找到自己所需要的信息已经成为一个 非常重要的问题。传统的通用搜索引擎面对这一问题已经越来越力不从心,因为一味追 求高覆盖率而造成了资源浪费,并且返回给用户的查询结果中经常包含用户不关心的网 页。针对这些问题,垂直搜索引擎应运而生。它只收集与用户关心的主题相关的网页。 主题爬虫是垂直搜索引擎的重要组成部分,它负责分析网页是否与主题相关和具体的抓 取过程。 主题爬虫有两个重要问题:如何判断一个待爬取网页是否与主题相关以及如何调度 URL。针对这两个问题,本文在国内外相关研究的基础上,分别提出了一种解决方案: 传统的基于内容评价的URL分析模型虽然准确率较高,但是效率较低,而且可能 给予质量不高的网页较高的得分,而基于链接评价的URL分析模型却完全忽略了网页 内容,容易造成“主题漂移’’问题。本文将两者有机地结合在一起,并引入用户查询来 修正主题描述,设计了一种内容评价与链接评价相结合的URL分析模型,通过实验证 明了该模型在准确率等性能上的提高。 现有的爬虫URL调度技术都存在着一定的问题,如易形成控制节点瓶颈、URL分 配不均衡等。本文针对这些问题设计了一种面向多节点并行爬取的URL调度方案。该 方案采用扩展bloom UDT协议进行URL批量传输。最后将这种方案应用于主题爬虫中,通过实验证明了该 方案负载比较均衡,并且可以有效过滤重复的URL。 关键词:搜索引擎;主题爬虫;URL分析模型lURL调度 主题爬虫URL分析模型与调度技术研究 II l, 1奠—皇—_|__—_i—l_宣置i曩 Abstract the ontheInternet withthefast of Amountofinformation along development surges toFmdtheinformationneed isall forusers Intemet.It problem they quickly, important to userstofind inthe ofwhichsearch isinvented and round,because engine help accurately theinformationresource interestedin.Buttraditional search they[fie all-purposeengine resourcebecauseof rate andoftenreturnsresult wastes pursuinghighcoverageblindly query unrelatedweb totheusers.Tosolvethese search

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档