- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络爬虫在Web信息搜索与数据挖掘中应用
摘要:随着计算机网络技术的发展,计算机通讯、计算机原理等这些内容已经逐渐被人们深知,关于网络爬虫的概念人们也逐渐的理解,并且不断的探索网络爬虫在信息检索与数据挖掘中的应用。本文主要从网络爬虫的概念和分类进行概述,并且分析和探讨了网络爬虫在信息检索和数据挖掘中的应用,最后对于未来网络的发展进行了展望。
关键词:网络爬虫;信息检索;数据挖掘
由于计算机技术的发展,现在的网络资源类型也十分的丰富,并且所含的数据和信息也是特别的多,基本上可以满足人们目前的需要,但是如何快速的对这些信息和数据进行分类,这就需要拥有很强的数据处理能力,人们对于获取数据,处理数据是非常关心的。网络爬虫可以非常容易的获取到我们需要的一些信息,方便人们对于数据的搜索、整理和利用,使我们日常信息获取的高效工具。
一、网络爬虫的概念与类型
以前人们经常取名为网络蜘蛛的,其实就是网络爬虫,这是按照一定的规则在人们自动浏览网站时获取信息的程序或者脚本,曾经被广泛应用于互联网的搜索引擎中,一般在各种网页中会有许多的链接,网络爬虫正是从这些链接中不断的获取其他界面上的信息,那么网络爬虫在进行数据采集时就是像一个爬虫在网络上漫游,所以才被形象的称之为网络爬虫。根据不同的分工,网络爬虫有不同的分类,就像社会上有各种职业的分工一样,大型的爬虫系统,内部也是有不同的分工的,这将爬虫分为新网页爬虫和定期网络爬虫,新网页爬虫是专门负责寻找没有被采集过的一些新网页;定期爬虫是负责采集那些更新比较快,并且内容比较多的网站,然后把这些网页的网址进行保存,定期的去进行采集,查看网页中内容是否有更新。但是根据不同的应用和系统的结构以及实现技术,又把网络爬虫分为增量式网络爬虫、聚焦网络爬虫、深层网络爬虫、和通用网络爬虫。增量式网络爬虫指的是在更新的时候只更新改变的地方,而没有改变的地方则不更新,所以网络爬虫仅仅采集内容发生变化的网页或者新产生的网页;聚焦网络爬虫是按照预先定义好的主题有选择地惊醒网页爬取,采集目标那些与主题相关的页面,使用网络爬虫大大节省采集数据所需的带宽和服务器资源,适用于特定人群;深层网络爬虫是需要调教一定的关键词之后才能获取的页面;通用网络爬虫主要应用在大型的搜索引擎中,一般采集的目标是全网的资源,目标的数据比较庞大。
二、网络爬虫在web信息检索中和数据挖掘中的应用
1.网络爬虫在web信息检索中的应用
网络爬虫在网页信息检索中的应用主要是将爬虫分为三种模块实现的:网页采集模块,索引模块和搜索模块。这里的采集模块实际上包含两个部分。第一个部分是单纯网页采集模块,它负责搜索网页,是整个系统的关键部分,这将直接影响数据采集的效果。第二个是信息分析和过滤模块,它负责将网页中的信息进行自动归类,然后根据解析提取出网页的主要数据,包括标题、节选、发布时间、链接地址等,将所有的噪音信息剔除,最后將提取出的信息展示给用户。索引模块是为html页面来创建索引。在下载的过程中,不可避免地会遇到重复的链接,如何消除这些重复的链接,是个很复杂的问题。url的去重可以说是爬虫系统中最重要的一部分,直接影响数据搜索和采集的效率和效果,索引模块主要就是为了去除重复链接的。搜索模块则是系统与用户交互的模块,系统根据用户输入的查询语句,负责在数据库和索引文件上搜索出相应数据并按照一定的排序反馈给用户。网络爬虫的设计流程中,核心部分是获得网页中的url列表、创建下载的客户端、获取并存储得到的网页结果。
2.网络爬虫在数据挖掘中的应用
互联网是实时变化的,具有很强的动态性。网页更新策略主要是决定何时更新之前已经下载过的页面。常见的更新策略有以下三种:1)历史参考策略:根据页面以往的历史更新数据,预测该页面未来何时会发生变化。一般来说,是通过泊松过程进行建模进行预测。2)用户体验策略:尽管搜索引擎针对于某个查询条件能够返回数量巨大的结果,但是用户往往只关注前几页结果。因此,抓取系统可以优先更新那些现实在查询结果前几页中的网页,而后再更新那些后面的网页。这种更新策略也是需要用到历史信息的。用户体验策略保留网页的多个历史版本,并且根据过去每次内容变化对搜索质量的影响,得出一个平均值,用这个值作为决定何时重新抓取的依据。3)聚类抽样策略:之前两种更新策略都需要网页的历史信息。这样会有两个问题:1、系统要是为每个系统保存多个版本的历史信息,无疑增加了很多的系统负担;2、另一方面是如果新的网页完全没有历史信息,这样就无法确定更新策略。这种策略认为,网页具有很多属性,类似属性的网页,可以认为其更新频率也是类似的。要计算某一个类别网页的更新频率,只需要对这一类网页
文档评论(0)