基于聚焦爬虫手机天气预报系统.docVIP

下载本文档

10
0
约2.9千字
约 7页
2018-08-30 发布于福建
举报
版权申诉

基于聚焦爬虫手机天气预报系统.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于聚焦爬虫手机天气预报系统

基于聚焦爬虫手机天气预报系统　　摘要:介绍聚焦爬虫在手机天气预报中的应用。首先介绍网络爬虫的工作原理和主要技术，再介绍这些原理和技术在天气预报系统中的具体实现。　　关键词:网络爬虫；天气预报；手机应用　　　　1. 引言　　　　网络爬虫（Crawler或称robot，WebAgent）为搜索引擎从万维网上下载网页，在整个搜索引擎系统中起着重要的作用。它是Internet搜索引擎的数据来源，它决定着整个系统的内容是否丰富、信息是否能够得到及时更新。被称为世界上第一个爬虫的Wanderer系统几乎与互联网同时出现，其实质是一个自动提取网页的程序。　　　　2. 网络爬虫简介　　　　传统爬虫从一个或若干初始网页的URL开始，以某种策略自动地搜集初始网页上的URL，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件，如下图1所示。网络爬虫抽取URL放入队列的同时采集页面信息下载到本地文档库进行分析，由索引器建立索引，对查询则由检索器检索索引库，最后把查询结果返回给用户。　　　　　　3. 聚焦爬虫在手机天气预报中的作用　　　　聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。　　PhandaHome系统是一个应用软件，其主要功能是为用户提供天气预报信息，不需要关注其它方面的信息，因此爬虫的任务就是从网络上爬取与天气相关的数据，并将相关内容建立索引后存入PhandaHome服务器的PhandaHome数据库中。而用户通过手机直接从网上获取数据的速度受到很多因素的限制，远不如直接从数据库中获取数据快，因此实际上用户获取的系统业务数据都来源PhandaHome服务器，但不直接从PandaHome服务器取数据，而是从天气预报应用服务器中转。这与聚焦爬虫的工作方式一致，因此采用聚焦爬虫来获取原始数据。　　3．1 解决的问题　　基于聚焦爬虫的原理和特性，开发人员在手机平台上实现了一个天气预报系统――PhandaHome系统。而聚焦爬虫要达成目标依赖于其能否在下载页面前，准确预测页面与给定主题的相关度及其重要性；其次，选择好的种子URL集合、搜索策略与主题的表达方式也相当重要。并且，数据的及时更新也是聚焦爬虫需要解决的主要问题。即是说，在PhandaHome系统中，只有解决了上述问题，系统才能正常运行，用户才能获取业务数据。　　3．2页面与给定主题的相关度及其重要性　　聚焦爬虫的关键在于如何尽可能多地下载相关网页，避免与主题无关或低质量的网页，提高主题资源的覆盖度。就现在网络资源的大小而言，即使很大的搜索引擎也只能获取网络上可得到资源的一小部分。由于实现的是天气预报系统，目的性非常明确，且为了得到专业准确的结果，因此人工收集选取了与此相关的一些页面作为初始页面，以保证初始页面与主题的相关性及重要性。　　3．3 种子URL集合的选择　　种子URL集合的选择是系统中相当重要的一环。绝大多数爬行算法都受种子URL集的影响，给予不同的种子URL集，系统爬行到的页面质量与相关性往往都相差甚远；少数受种子URL集影响较少的算法又往往并不适合聚焦爬行。　　本系统在选择种子URL时，充分考虑了系统的运行效率，尽量避免爬取与天气预报无关或相关度较小的页面，尽量用少的线程以减少上下文切换。因此采用了系统指定初始页面的方式来获取种子URL（指定URL见表1）。　　爬虫开始运行后，去掉重复的URL就成了非常重要的一个环节。本系统的实现方法是采用过滤器。即每个线程使用一个bitarray，里面保存本批源页面上次爬取的页面的哈希值情况，爬取下来的源页面分析其链接后，与bitarray里保存的链接进行比较，判断以前有没有爬取过这个页面，没有的话就爬下来，有的话就直接过虑。然后把bitarray里面的链接保存到PhandaHome数据库里，以后就专门爬这个数据库里的URL。　　3．4 搜索策略　　在爬虫系统中，Web搜索策略用于决定爬虫访问URL的最优顺序，可以分为深度优先、广度优先和最佳优先三种。深度优先在很多情况下会导致爬虫的陷入(trapped)问题，其中最常用的两种是广度优先和最佳优先策略。　　本系统给定的初始页面（见表1）都是与要获取的数据相关的网页，已经是局部最优的设计，因此不必再用最佳优先策略