大数据时代下爬虫技术应用和研究.docVIP

下载本文档

367
0
约4.1千字
约 8页
2018-10-08 发布于福建
举报
版权申诉

大数据时代下爬虫技术应用和研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据时代下爬虫技术应用和研究

大数据时代下爬虫技术应用和研究　　摘要：随着互联网快速发展和大数据时代的来临，Web数据逐渐庞大，如何有效并快速地从互联网上获取到用户自身需要的信息是亟需解决的问题，网络爬虫技术应运而生，它是搜索引擎抓取系统的重要组成部分。文章是以标讯快车项目为研究目标，依托本学院在大数据方面的研究优势，结合该院IT特色，具有较强的实际意义和社会意义。　　关键词：JavaScript；网络爬虫；Web信息抓取　　中图分类号：TP391.3 文献标志码：A 文章编号：2095-2945（2018）06-0037-03 　　Abstract： With the rapid development of the Internet and the advent of big data era， it is urgent to solve the problem of how to get the information needed by users from the Internet effectively and quickly. Network crawler technology emerges as the times require， it is an important part of search engine grab system. This paper is based on the standard express project as the research goal， relying on the research advantage of big data in this college， combined with the IT characteristics of the institute， has a strong practical and social significance. 　　Keywords： JavaScript； WebCrawler； Web information scraping 　　1 ?W络爬虫的研究现状与分析　　搜索引擎的原理是根据用户提交的关键词返回一组URL地址，通过关键词相似度进行优先级排序，用户通过浏览Web页面来寻找所需信息。但这种利用人工的方式来定位信息，仍然有缺乏统一管理的缺点，而且搜索结果精确度不高。此时，网络爬虫（Web crawler）技术的出现至关重要，网络爬虫是目前搜索引擎的重要组成部分，它的基本原则是在不影响服务器执行效率和不造成致命冲击的前提下，提高爬虫的爬行速度，扩大数据下载量以及提升抓取信息的准确率，这项技术的关键点为消除任何影响爬虫爬行效率的障碍，令爬虫达到高效且准确无误。　　1.1 网络爬虫效率瓶颈分析　　网络爬虫效率受到制约的主要因素有：网络延时和爬虫运行效率；爬虫系统功能模块设计不良；爬虫算法和功能模块之间协同工作效率低；网页服务器适应性差等。　　1.2 动态网页的信息抓取　　首先，动态网页是通过更新网站后台数据库，从服务器中传递参数而生成的网页。本爬虫采用的方法是通过对动态网页进行解析，对网页数据中进行信息处理并建立索引数据库，重新定义一个自定义标准接口，当爬虫开始对该网页进行抓取前，对网页的URL地址进行判断，若判断该动态网页符合自定义标准接口，爬虫方可开始通过HTTPS的方法下载网页，并建立和导入数据库。　　1.3 网页的更新　　本项目在更新网页数据库时，通过判断网页属性是否改变来进行更新，利用JavaScript在任何时候都能对任何对象的属性进行动态的增、删、查、改的特性，无需修改爬虫代码而直接进行网页数据的更新抓取。　　1.4 JavaScript算法实现　　JavaScript语言是一种基于对象的编程语言，本作品使用JavaScript语言进行编程的原因是：JavaScript与其他面向对象的语言不一样，它只有对象的概率，并没有类，它的对象来源于其自身内部的对象，主机环境中的对象和用户创建的对象。本爬虫构建出JavaScript程序的对象层，方法层和语句层，逐层利用语句之间的数据依赖关系。利用函数对JavaScript程序控制全局变量的赋值语句中的左右值，参与语句中的谓词的影响和对象多态继承。利用JavaScript 动态进行时定义对象，实现对网页数据的统一封装。　　2 系统设计与应用　　2.1 项目设计原理　　整个Internet互联网就像一张庞大而有向的蜘蛛网，每个网页就像蜘蛛网里的节点，网页相互有向指向其他网站页面的地址，从而构成了互联网。如图1所示，矩形A、B、C、D、E代表网站的页面，箭头代表网页间相互指向URL地址的关系，所以，当爬虫在抓取网页的时候