基于Spark Sreaming网站流量实时分析系统的设计与实现.docxVIP

下载本文档

102
0
约2.33千字
约 3页
2020-03-20 发布于山东
举报
版权申诉

基于Spark Sreaming网站流量实时分析系统的设计与实现.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Spark Sreaming网站流量实时分析系统的设计与实现　　摘要：针对互联网技术快速发展，用户对各种网站访问量急剧加大，日志数据急剧增加的现状，采用Hbase数据库，Flume、Kafka分布式发布订阅消息系统和Spark Streaming流计算框架，设计实现基于Spark Sreaming的网站流量实时分析系统，深入探讨了网站流量的分析角度和指标，展示了网站的运营情况，从而引导网站开发、运营人员作出相关决策来改进网站的服务，为网站维护、制定网站营销策略提供有力的依据。　　关键词：Spark Streaming;网站流量分析：HBase;Kafka　　0引言　　随着互联网技术的发展。用户对各类网站的访问量急剧加大，导致日志数据急速增加，数据类型也纷繁复杂。因此日志数据的产生、规模、存储、处理方式也悄然发生变化。大数据时代，网站运营管理方应及时地对网站流量和用户访问情况进行统计分析，通过数据来分析用户的浏览习惯，可对优化网站运营架构、调整推广策略起到积极的作用。网站流量统计是改进网站服务的重要手段之一。通过获取用户在网站的行为，对有关数据进行统计、分析，从而发现用户访问网站的规律。通过对网站进行流量分析，可以刻画出网站近期的运营情况，从而引导网站开发、运营人员作出相关决策来改进网站的服务，为网站维护、制定网站营销策略提供有力的依据，促进网站整体的改进。　　本文采用大数据的理论和方法，采用Hbase数据库、Flume、Kafka分布式发布订阅消息系统和Spark Streaming流计算框架，设计实现了基于SparkSreaming的网站流量实时分析系统。　　1 基于Spark Streaming网站流量实时分析系统的分析维度和指标　　目前。常用的网站流量统计指标一般包括以下情况分析：　　（1）在线情况。在线情况分别记录了在线用户的活动信息，包括：来访时间、访客地域路页面、当前停留页面等，这些功能对企业实时掌握自身网站流量有很大地帮助。　　（2）时段分析。时段提供网站任意时间内的流量变化情况。或某一时间段的流量变化。如小时段分布，日访问量分布、对于企业了解用户浏览网页的时间段有一个很好地分析。　　（3）来源分析。来源提供来路域名带来的来访次数、IP、独立访客、新访客、新访客浏览次数、站内总浏览次数等数据。这些数据可以直接让企业了解推广成效的来路，从而分析出哪些网站投放的广告效果更明显。　　系统统计的指标说明：　　（1）PV：Page　　View页面访问量。本项目以天为单位，统计一天内总的PV。用户访问一次网页，就算一次PV，刷新操作也算PV。　　（2）UV：独立访客数。按人头算，统计一天内有多少不同的用户。处理思路：为每个用户生成一个uvid，然后存到用户浏览器的cookie里，所以统计独立用户数：统计有多少不同的uvid。　　（3）VV：獨立会话数。关闭浏览器再打开浏览器算做一个新的会话。实现思路：当用户通过浏览器访问产生一个新会话时。服务端会为这个会话生成一个ssid。所以独立会话数：不同的ssid个数。此外，当一个会话超过30min，再次访问，会算作一个新会话。　　（4）BR：页面跳出率：跳出会话数/总的独立会话数。这个指标用于衡量网站优良性的高低。调出率越低，说明网站对于用户的粘度越大。　　（5）newCust：新增用户数。新增用户指的是用户的uvid在历史uvid没有出现过。比如统计今天的newCust数：　　①统计出今天的所有的uvid;　　②和之前的数据做比对;　　③取出历史数据没有出现的uvid。　　（6）newIp：新增Ip数。统计一天内，有哪些ip是在历史数据中没出现过。　　（7）avgDeep：平均的会话访问深度。一个会话的访问深度：一个会话浏览过哪些不同的url地址。　　（8）aYSTime：平均的会话访问时长。　　2 基于Spark Streaming的网站流量实时分析系统总体结构　　基于Spark Streaming的网站流量实时分析系统采用了Flume、Kafka、SparkStreaming、Hbase、MySQL、Echars等技术，系统总体结构如图l所示。　　Dine anmys]s system　　本系统分为日志收集模块、实时数据分析模块和结果展示模块。其中实时数据分析模块又划分为数据采集子模块、数据接人子模块、流式计算子模块、数据输出子模块、结果子模块展示。系统模块如图2所示。　　2.1 日志收集模块　　通过Js埋点获取网页上的信息作为日志信息，通过反向代理技术Ngnix将日志发送到日志服务器。Flume集群利用Agent将日志服务器中日志信息扇人到Flume中，而后Flume将日志信息通过Agent将日志信息扇出到K