分布式框架下的商品价格抓取与分析系统实现.pdfVIP

分布式框架下的商品价格抓取与分析系统实现.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
题目:分布式框架下的商品价格抓取与分析系统实现 姓 名 导 师 2019年 5月 27 日 内容要求: 1. 课题背景 随着互联网的发展,互联网的竞争越来越激烈,企业对数据的实时掌控越来 越重要。 网页上的价格抓取也是网络爬虫的一种应用。网络爬虫(又被称为网页蜘蛛, 网络机器人,在FOAF 社区中间,更经常的称为网页追逐者),是一种按照一定 的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有 蚂蚁、自动索引、模拟程序或者蠕虫。 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用 这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索 引擎AltaVista,Yahoo!和 Google 等,作为一个辅助人们检索信息的工具成为用 户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性, 如: (1)不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引 擎所返回的结果包含大量用户不关心的网页。 (2)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资 源与无限的网络数据资源之间的矛盾将进一步加深。 (3)万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视 频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一 定结构的数据无能为力,不能很好地发现和获取。 (4)通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的 查询。 图(1)网络爬虫 为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬 虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上 的网页与相关的链接,获取所需要的信息。与通用爬虫 (general purpose web crawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题 内容相关的网页,为面向主题的用户查询准备数据资源。 1.聚焦爬虫工作原理以及关键技术概述 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页, 是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的 URL 开始,获得初 始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入 队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一 定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取 的URL 队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网 页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫 抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的 查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓 取过程给出反馈和指导。 图(2) 相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题: (1) 对抓取目标的描述或定义; (2) 对网页或数据的分析与过滤; (3) 对URL 的搜索策略。 2. 设计进展状况 图(3) 设计进度已完成百分之六十五,通过上述框架生产者部分进行了改动,将生 产者通过与套接字拆分成两个程序,第一个程序负责接收用户的url 并进行校验 是否合法,第二个程序接受第一个程序校验无误的 url 并进行查重放入刷新 set 表(底层是一颗红黑树,查重效率高)中并进行定时下载页面将页面数据放入消 息队列。分布式的消息队列这里初期我考虑可以使用的是Kafka 和redis 这两种 都是可以实现的,我用的是 redis,后期我们可以进行比较哪个分布式消息队列对 程序的效率影响较小。设计完成进度就到这里,至于消费者还在完成中。消费者 的任务就是从消息队列中将网页数据中的商品价格和评论放入数据库中。本次设 计就完成了。 3. 存在问题及解决措施 (1)初期进行设计的过程中没有考虑到生产者的一些具体细节,比如生产 者如果使用一个进程去实现,第一,实现较为复杂,第二,运行效率偏低。 改进前:

文档评论(0)

yuanshuilan247 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档