- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Spark Sreaming网站流量实时分析系统的设计与实现
摘要:针对互联网技术快速发展,用户对各种网站访问量急剧加大,日志数据急剧增加的现状,采用Hbase数据库,Flume、Kafka分布式发布订阅消息系统和Spark Streaming流计算框架,设计实现基于Spark Sreaming的网站流量实时分析系统,深入探讨了网站流量的分析角度和指标,展示了网站的运营情况,从而引导网站开发、运营人员作出相关决策来改进网站的服务,为网站维护、制定网站营销策略提供有力的依据。 关键词:Spark Streaming;网站流量分析:HBase;Kafka 0引言 随着互联网技术的发展。用户对各类网站的访问量急剧加大,导致日志数据急速增加,数据类型也纷繁复杂。因此日志数据的产生、规模、存储、处理方式也悄然发生变化。大数据时代,网站运营管理方应及时地对网站流量和用户访问情况进行统计分析,通过数据来分析用户的浏览习惯,可对优化网站运营架构、调整推广策略起到积极的作用。网站流量统计是改进网站服务的重要手段之一。通过获取用户在网站的行为,对有关数据进行统计、分析,从而发现用户访问网站的规律。通过对网站进行流量分析,可以刻画出网站近期的运营情况,从而引导网站开发、运营人员作出相关决策来改进网站的服务,为网站维护、制定网站营销策略提供有力的依据,促进网站整体的改进。 本文采用大数据的理论和方法,采用Hbase数据库、Flume、Kafka分布式发布订阅消息系统和Spark Streaming流计算框架,设计实现了基于SparkSreaming的网站流量实时分析系统。 1 基于Spark Streaming网站流量实时分析系统的分析维度和指标 目前。常用的网站流量统计指标一般包括以下情况分析: (1)在线情况。在线情况分别记录了在线用户的活动信息,包括:来访时间、访客地域路页面、当前停留页面等,这些功能对企业实时掌握自身网站流量有很大地帮助。 (2)时段分析。时段提供网站任意时间内的流量变化情况。或某一时间段的流量变化。如小时段分布,日访问量分布、对于企业了解用户浏览网页的时间段有一个很好地分析。 (3)来源分析。来源提供来路域名带来的来访次数、IP、独立访客、新访客、新访客浏览次数、站内总浏览次数等数据。这些数据可以直接让企业了解推广成效的来路,从而分析出哪些网站投放的广告效果更明显。 系统统计的指标说明: (1)PV:Page View页面访问量。本项目以天为单位,统计一天内总的PV。用户访问一次网页,就算一次PV,刷新操作也算PV。 (2)UV:独立访客数。按人头算,统计一天内有多少不同的用户。处理思路:为每个用户生成一个uvid,然后存到用户浏览器的cookie里,所以统计独立用户数:统计有多少不同的uvid。 (3)VV:獨立会话数。关闭浏览器再打开浏览器算做一个新的会话。实现思路:当用户通过浏览器访问产生一个新会话时。服务端会为这个会话生成一个ssid。所以独立会话数:不同的ssid个数。此外,当一个会话超过30min,再次访问,会算作一个新会话。 (4)BR:页面跳出率:跳出会话数/总的独立会话数。这个指标用于衡量网站优良性的高低。调出率越低,说明网站对于用户的粘度越大。 (5)newCust:新增用户数。新增用户指的是用户的uvid在历史uvid没有出现过。比如统计今天的newCust数: ①统计出今天的所有的uvid; ②和之前的数据做比对; ③取出历史数据没有出现的uvid。 (6)newIp:新增Ip数。统计一天内,有哪些ip是在历史数据中没出现过。 (7)avgDeep:平均的会话访问深度。一个会话的访问深度:一个会话浏览过哪些不同的url地址。 (8)aYSTime:平均的会话访问时长。 2 基于Spark Streaming的网站流量实时分析系统总体结构 基于Spark Streaming的网站流量实时分析系统采用了Flume、Kafka、SparkStreaming、Hbase、MySQL、Echars等技术,系统总体结构如图l所示。 Dine anmys]s system 本系统分为日志收集模块、实时数据分析模块和结果展示模块。其中实时数据分析模块又划分为数据采集子模块、数据接人子模块、流式计算子模块、数据输出子模块、结果子模块展示。系统模块如图2所示。 2.1 日志收集模块 通过Js埋点获取网页上的信息作为日志信息,通过反向代理技术Ngnix将日志发送到日志服务器。Flume集群利用Agent将日志服务器中日志信息扇人到Flume中,而后Flume将日志信息通过Agent将日志信息扇出到K
原创力文档


文档评论(0)