广告投放; 分布式爬虫;Python; Redis; 分布式存储_张兆祥.docxVIP

广告投放; 分布式爬虫;Python; Redis; 分布式存储_张兆祥.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
广告投放; 分布式爬虫;Python; Redis; 分布式存储_张兆祥

随着互联网技术的极速发展所带来的信息量的爆炸性增长,如何将广告有机的融入它们来创造额外的价值变得日益重要,在这样的背景下互联网广告投放系统应运而生,然而广告投放系统的基础工作就是网页信息的处理,如何高效的索引和管理网页信息变得尤为重要。首先,本文在充分研究Polybot,Nutch,Ubicrawler等多种分布式爬虫结构基础上根据广告投放的实际需求设计并实现了一个基于Python的主从分布式网络爬虫来索引网页信息并进行周期性更新以达到构建训练集与测试集和对广告投放页面快速响应的目的。其次,该爬虫由一个核心调度器Super与众多抓取节点Bot组成,并通过WEB方式实现抓取规则配置与运行状态监控,核心调度器与节点间利用Redis内存数据库实现双向通信,其中核心调度器利用多级URL队列实现URL规则匹配与去重操作,同时周期性监测抓取规则变化进行规则重调度,并能够根据配置有效调节各个规则队列调度速率并通过一致性哈希算法在多个抓取节点间进行任务均衡。另外每个抓取节点采用多线程池设计来并发请求URL,首先提取页面链接然后利用开源Goose模块提取元数据与正文等内容后,利用MongoDB的分片与复制集机制对内容进行分布式存储,同时使用代理IP技术来防止网站屏蔽爬虫。再次,部署该系统对实际站点进行测试工作,测试结果表明系统能够满足广告投放的基础需求,有效并发抓取并索引页面并持续稳定更新。 最后,总结了研究内容并反思了该设计中的不足,并对分布式爬虫提出了性能优化方法。关键词:广告投放; 分布式爬虫;Python; Redis; 分布式存储;第一章 绪论研究背景与意义 随着近十几年来网络技术的跨越式发展,各种综合性网络服务的出现以及网络互动性的提高使得人们的创造性参与空前高涨,特别是WEB2.0时代的到来极大丰富了互联网上的数据与信息量,互联网的营销意义与广告价值日益显著。1994年美国的著名杂志商wired在其发布的网络在线版Hotwired上展示了客户的广告Banner标志着互联网式广告的诞生,而中国较早的商业性互联网广告出现在1997年的中国比特网上,并且中国比特网得到了一笔真正意义的广告收入,IBM与Intel也因此成为了在国内最先进行投放互联网广告投放的广告主。与通过传统媒体的投放方式相比,到了互联网广告2.0阶段变成了搜索广告时代,得益于搜索引擎技术的大发展,互联网上的信息与数据得到了有效的索引与存储,基于关键词与网页内容的广告投放变得流行起来,Google,雅虎,百度等大型搜索引擎企业依托其强大的数据索引能力开发了专有的互联网广告投放系统平台。例如Google的广告投放平台系统由Adwords与Adsense组成,Adwords是需求方平台而Adsense更多的是网络媒体资源供应方平台,两者通过与Google搜索引擎协同工作,实现了基于关键词的内容相关式广告投放与基于用户行为的精准广告投放。目前互联网广告投放已逐渐向3.0阶段发展,以用户行为为主导的广告投放变得越来越重要,投放系统已能够收集用户行为信息,通过特征分析等手段向用户推荐其最感兴趣的广告。但无论广告投放模式如何发展,都离不开一个高效的网络爬虫系统对海量数据的收集索引更新等这些基础性工作,网络爬虫作为搜索引擎的核心组件,自然也是广告投放系统中必不可少的组成部分,网络爬虫的效率将直接关系到整个投放系统的性能。目前Google,雅虎等大型机构已研发出成熟的分布式网络爬虫架构解决方案,并经过长时间检验,然而这些解决方案仅为用户提供了简单的不可定制的搜索接口,其相关技术架构作为商业机密并不被公开。现如今开源世界中有大量的网络爬虫项目存在,但很大一部分是集中式网络爬虫,面对现如今爆炸性的海量数据采集,其信息采集效率与采集规模难以满足实际应用需要,另外集中式爬虫的运行模式,容易受到内存,处理器等硬件与带宽方面的资源限制,一旦出现故障,整个系统将陷入瘫痪。而分布式网络爬虫利用多机带来的硬件资源与网络资源相对集中式爬虫有显著的速度与规模优势,可以轻松解决系统资源带来的瓶颈问题。另外开源爬虫程序多是通用性爬虫,可定制性差无法满足广告投放的实际需求,因此对面向广告投放的分布式爬虫的研究具有重要的现实意义。国内外研究现状 随着网络规模的不断延伸,新信息的不断出现,互联网上的信息量变得极其庞大并且更新频繁,因此,设计一个满足需求的爬虫程序变得具有极大的挑战性。早在2008年Google宣布其互联网网页索引量已超过1万亿,如果按照平均每个网页10KB来计算,那么其数据存储量将达到30TB以上,近几年来网页的数量更是以惊人的数量高速增长,据研究数据表明,过去两年中网页数量总规模至少增长一倍。而这个增长率在今后的几年中仍将持续并加速。不仅有新网页持续出现,已有的网页也频繁被更新,每周更新的网页数量占到

文档评论(0)

yaoyaoba + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档