基于Nutch的网络爬虫分块技术研究.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Nutch的网络爬虫分块技术研究.ppt

基于Nutch的主题爬虫分块技术研究;提 纲;课题研究背景及意义;显然,主题相关信息的搜集是主题爬行器的核心。 因此,如何快速爬取出准确的主题相关的信息成为数据挖掘领域研究人员面临的更现实的问题。;提 纲;研究的内容及目标;网页分块技术;目前许多网页并不表示单一的语义单元,单个网页往往也表达多个主题内容,如下图所示,是新浪bbs的一部分: ; 在这个页面中,网页作者把四个不相关的主题:房产、家居、汽车、旅游同时放在单个网页上,在视觉上四个主题突出,且相互独立,而各个主题块内部的内容却与本主题相关,并且点开其中任何一个超链接均会链入与本主题相关的网页。 因此,把网页进行分块,判断分块与预定主题(假设是求职信息)是否相关,提取出相关块中的链接,不断的执行抓取循环,就能使爬虫程序收集到与主题相关的网页,而不去采集与主题不相关的网页,进而减少爬虫的计算量,提高爬虫的效率。;常用的分块算法;将其转化为DOM树如下图所示: ;假如有如图页面: 我们的目的是让主题爬虫也能把网页分块成相应的六块。 ;DOM树的分块算法:网页被下载并保存在本地后,经过预处理,并被解析成一棵DOM树。算法先统计该网页用来布局的容器标签的数量,找到数量最多的容器标签,指定这个标签是用来分块的特征标签,假定这个标签是table标签。遍历这棵DOM树,记录所有的table标签的信息,找到这棵DOM树的没有子table结点的所有table结点的集合,从这个集合的第一个元素开始遍历,如果此table结点无兄弟table结点,则此table结点的父亲table结点成为一个分块,如果此table结点有兄弟结点,则此table结点成为一个分块。;基于视觉特征的网页分块算法VIPS(Vision-based page segmentation) VIPS也是将网页解析成一个树状结构,但是它强调网页的视觉效果,也就是说一个内容的位置,比如是在网页的正中还是两边,对VIPS来说,是不一样的,然而对于DOM结构他们是相同的。通过使用一些视觉暗示,比如,文字的颜色,大小,字体等等,VIPS可以有效的保证相关联的内容会在一个块中,而不相关的??容会被有效的分开。 缺点:该方法知识运用的较为模糊,需要人工不断的总结规则,一条规则的加入往往会对已经成功分析的网页产生影响。;我的想法基于VIPS和DOM树分块算法的改进;所有子结点并形成一个块,统计此块的大小并记录其位置、颜色、字体等外观信息,如果此块的大小大于某一个预先设定的阈值,则对此TABLE进一步分块。同时,我们还记录每个不是最底层TABLE结点的每个TR结点的信息量,如果此信息量大于某一个阈值,则以此TR结点为单位划分块。提取内容块中的文本信息及链接,进行相关度计算得到优先权值,具有高优先权值的URL要优先安排下载。;提 纲;课题进度安排;谢 谢!

文档评论(0)

zhoujiahao + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档