结合有监督广度优先搜索策略的通用垂直爬虫.docx

结合有监督广度优先搜索策略的通用垂直爬虫.docx

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
结合有监督广度优先搜索策略的通用垂 直爬虫 高峰刘震高辉 电子科技大学计算机科学与工程学院电子科技大学 大数据研究中心 摘要: 本文针对垂直爬虫程序无法直接移植到其他网站并且程序设计需要大量人工干 预的弊端,提出了一种高可移植的通用型垂直爬虫设计方案。新方案可以自动识 别目标主题和目录页面URL以及利用URL聚类生成URL正则表达式过滤器,解决 了垂直爬虫屮需人工维护初始URL队列的问题。同时,该方案利用正则表达式过 滤器和解析路径模板及有监督的广度优先与网页赋权搜索策略实现了相关页而 的精确定位和数据的快速准确提取。实验证明该方法能够对不同网站实现高效、 快速、通用的数据爬取。 关键词: 垂直爬虫;URL聚类;赋权网页;路径模板解析;有监督广度优先搜索; 作者简介:高峰(1992-02),男,吉林桦甸人,研究生,主要研究方向:数据库 与数据挖掘; 作者简介:刘震(1976-),男,吉林吉林市人,副教授,博士,CCF会员,主 要研究方向:智能信息处理、数据挖掘、机器学习; 作者简介:高辉(1969-),男,江苏海门人,教授/博士生导师,主要研究方向: 数据挖掘. Versa tile Ver ti cal Crawler Combined with the Tactic of Supervised Width-first Search Feng Gao Zhen Liu Hui Gao University of Electronic Science and Technology of China, School of Computer Science and Engineering; Abstract: Aiming at the drawback of massive manual interventions existing in the traditional vertical crawlers, we propose a framework to design the versatile vertical crawler. The new solution can identify the targctcd topics and directory URLs automatically and generate the filters of the URL regular expressions based on URL clustering which solve the issue of manually, maintaining the initial URL queue. Meanwhile, it can locate the required web pages and target the useful information in the pages quickly and accurately by using the obtaincd filters of the URL regular expressions and the strategies of supervised width-first search and weighting the web pages. Experimental results validate that the proposed solution are able to crawl the data from comm on web sites efficiently and effectively. 随着互联网的蓬勃发展,互联网信息产生了爆炸性的增长。对互联网用户来说一 个很重要的问题就是如何才能快速的找到用户想要的网页内容。信息增长的速度 越快,用户的这种需求就越迫切。 传统的垂直爬虫是获取特定网站或特定主题内容数据的较为普遍流行的方法, 但是垂直爬虫的一大弊端就是无法实现通用的爬取,需要针对不同的网站重新 设计程序,而且人工查找URL队列及人工提取数据解析路径的工作更为繁琐, 大大影响了工作效率。一般,一个单独的爬虫程序只能处理某个独立站点的某一 类型结构的页面数据。而用户对于数据的需求是多种多样的,如果对于每一个网 站的数据需求都去写一个相应的爬虫则是很费时费力的,同时也会影响对应工 作或项目的推进速度。 故本文针对上述问题,提出了一种配置简单、高效且可移植性高的通用爬虫设计 方法,其中多处阈值的选取也实现了程序的动态自动设置,大大减少了人工的 干预工作。核心思想是将通用型爬虫分为三个阶段,即配置信息、初始化和正式 爬取。在配置信息阶段,用户针对待爬取网站完成基本信息配置;在初始化阶段, 自动识别主题相关目标页面URL和目录页面URL,生成解析路径模板

您可能关注的文档

文档评论(0)

ggkkppp + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档