- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
结合有监督广度优先搜索策略的通用垂
直爬虫
高峰刘震高辉
电子科技大学计算机科学与工程学院电子科技大学
大数据研究中心
摘要:
本文针对垂直爬虫程序无法直接移植到其他网站并且程序设计需要大量人工干 预的弊端,提出了一种高可移植的通用型垂直爬虫设计方案。新方案可以自动识 别目标主题和目录页面URL以及利用URL聚类生成URL正则表达式过滤器,解决 了垂直爬虫屮需人工维护初始URL队列的问题。同时,该方案利用正则表达式过 滤器和解析路径模板及有监督的广度优先与网页赋权搜索策略实现了相关页而 的精确定位和数据的快速准确提取。实验证明该方法能够对不同网站实现高效、 快速、通用的数据爬取。
关键词:
垂直爬虫;URL聚类;赋权网页;路径模板解析;有监督广度优先搜索;
作者简介:高峰(1992-02),男,吉林桦甸人,研究生,主要研究方向:数据库 与数据挖掘;
作者简介:刘震(1976-),男,吉林吉林市人,副教授,博士,CCF会员,主 要研究方向:智能信息处理、数据挖掘、机器学习;
作者简介:高辉(1969-),男,江苏海门人,教授/博士生导师,主要研究方向: 数据挖掘.
Versa tile Ver ti cal Crawler Combined with the Tactic of Supervised
Width-first Search
Feng Gao Zhen Liu Hui Gao
University of Electronic Science and Technology of China, School of Computer Science and Engineering;
Abstract:
Aiming at the drawback of massive manual interventions existing in the traditional vertical crawlers, we propose a framework to design the versatile vertical crawler. The new solution can identify the targctcd topics and directory URLs automatically and generate the filters of the URL regular expressions based on URL clustering which solve the issue of manually, maintaining the initial URL queue. Meanwhile, it can locate the required web pages and target the useful information in the pages quickly and accurately by using the obtaincd filters of the URL regular expressions and the strategies of supervised width-first search and weighting the web pages. Experimental results validate that the proposed solution are able to crawl the data from comm on web sites efficiently and effectively.
随着互联网的蓬勃发展,互联网信息产生了爆炸性的增长。对互联网用户来说一 个很重要的问题就是如何才能快速的找到用户想要的网页内容。信息增长的速度 越快,用户的这种需求就越迫切。
传统的垂直爬虫是获取特定网站或特定主题内容数据的较为普遍流行的方法, 但是垂直爬虫的一大弊端就是无法实现通用的爬取,需要针对不同的网站重新 设计程序,而且人工查找URL队列及人工提取数据解析路径的工作更为繁琐, 大大影响了工作效率。一般,一个单独的爬虫程序只能处理某个独立站点的某一 类型结构的页面数据。而用户对于数据的需求是多种多样的,如果对于每一个网 站的数据需求都去写一个相应的爬虫则是很费时费力的,同时也会影响对应工 作或项目的推进速度。
故本文针对上述问题,提出了一种配置简单、高效且可移植性高的通用爬虫设计 方法,其中多处阈值的选取也实现了程序的动态自动设置,大大减少了人工的 干预工作。核心思想是将通用型爬虫分为三个阶段,即配置信息、初始化和正式 爬取。在配置信息阶段,用户针对待爬取网站完成基本信息配置;在初始化阶段, 自动识别主题相关目标页面URL和目录页面URL,生成解析路径模板
您可能关注的文档
- 精品学生文明礼仪教育活动实施方案.docx
- 精品在全局开展“转作风、提效能、促发展”主题活动动员大会上的讲话.docx
- 精神分裂症合并肺结核使用异烟肼治疗临床探究.docx
- 精神分裂症患者认知功能探究.docx
- 精神科病区实施高危药品管理的方法与效果.docx
- 精神科护理质量影响原因和对策研究.docx
- 精神科护士长述职报告.docx
- 精神科门诊患者的临床特征及护理对策.docx
- 精神科医生述职报告.docx
- 精神文明工作总结和工作安排.docx
- 浙江金华市公共资源交易中心永康市分中心编外人员招考聘用笔试历年典型考题及考点研判与答案详解.docx
- 浙江宁波慈溪市政协办公室招考聘用编外工作人员笔试历年典型考题及考点研判与答案详解.docx
- 浙江金华永康市西溪镇人民政府招考聘用笔试历年典型考题及考点研判与答案详解.docx
- 福建南平市公安局建阳分局招考聘用辅警笔试历年典型考题及考点研判与答案详解.docx
- 浙江嘉兴海盐县武原街道基层残疾人工作专职委员(公益岗位)招考聘用笔试历年典型考题及考点研判与答案详解.docx
- 浙江宁波知识产权保护中心招考聘用工作人员笔试历年典型考题及考点研判与答案详解.docx
- 浙江杭州建德市面向2024届普通高校毕业生招考聘用教师(第二批)16人笔试历年典型考题及考点研判与答案详解.docx
- 浙江省台州中学面向2024届普通高校毕业生招考聘用教师12人笔试历年典型考题及考点研判与答案详解.docx
- 湖北师范大学体育学院专任教师招考聘用笔试历年典型考题及考点研判与答案详解.docx
- 重庆市南岸区教育事业单位面向2024届高校毕业生招考聘用114人笔试历年典型考题及考点研判与答案详解.docx
文档评论(0)