- 1、本文档共78页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
主讲人:xxx《Spark》大数据处理技术
订单交易监控系统第9章
第9章订单交易监控系统9.1系统介绍9.2系统设计9.3基础环境配置9.4系统功能开发本章小结
9.1系统介绍
9.1系统介绍本章首先介绍SparkStreaming技术开发的项目背景,阐述实际应用中对大数据系统的业务需求,然后分析大数据系统相关技术、数据采集工具、消息队列、系统设计、系统基础配置以及系统功能开发等内容。主要基于SparkStreaming完成订单交易实时监控平台的搭建,并在搭建过程中使用数据采集、数据清洗、数据分析处理及数据可视化技术。通过对这些内容的学习,掌握大数据系统的工作原理以及流程,通过案例分析来加深对大数据系统处理过程的理解。
9.1系统介绍9.1.1项目背景国内各大电商平台为更好地进行商品销售,利用各种节日进行促销,其中“双十一”是每年11月11日的电商促销活动节,为了充分利用“双十一”节日的销售契机,电商通过打折促销等活动促进订单交易,2020年“双十一”活动节24小时总成交额为4982亿元。现场庆典中,成交额在大屏幕中实时刷新显示,如图所示,其中用到了数据可视化技术,数据可视化是借助于图形化手段,将数据库中的每条数据以图像形式展示在前端页面,清晰有效地传达交易信息。
9.1系统介绍9.1.2相关技术介绍1.数据可视化数据可视化并不是简单地把数据变成图表,而是以数据的视角看待世界。换句话说,数据可视化的客体是数据,但我们想要的其实是——数据视觉,以数据为工具,以可视化为手段,目的是描述事实,探索世界。相对于枯燥的文字,一些有视觉冲击的事物会使印象更深。如在日常的工作汇报中,将采集到的数据信息进行统计、分析,再将数据用图形的方式表达出来。会对数据的把控更加方便,以便更直观的了解数据情况。在大数据领域常用的数据可视化技术为Echarts、Highcharts、Charts、D3。2.数据统计分析数据统计主要是对各类企业日常运营数据的汇总和统计,以辅助企业管理层来进行运营决策。典型的使用场景有:周报表、月报表等固定时间提供给领导的各类统计报表,市场营销部门通过各种维度组合进行统计分析,以制定相应的营销策略等。
9.1系统介绍9.1.2相关技术介绍3.数据采集大数据体系一般分为:数据采集、数据计算、数据服务、以及数据应用几大层次。在数据采集层,主要分为日志采集和数据源同步。数据源同步根据同步的方式可分为直接数据源同步、生成数据文件同步、数据库日志同步。直接数据源同步:是指直接的连接业务数据库,通过规范的接口(如JDBC)去读取目标数据库的数据。生成数据文件同步:是指从数据源系统现生成数据文件,然后通过文件系统同步到目标数据库里。这种方式适合数据源比较分散的场景,在数据文件传输前后必须做校验,同时还需要适当进行文件的压缩和加密,以提高效率、保障安全。数据库日志同步:是指基于源数据库的日志文件进行同步。现在大多数数据库都支持生成数据日志文件,并且支持用数据日志文件来恢复数据。因此可以使用这个数据日志文件来进行增量同步。这种方式对系统性能影响较小,同步效率也较高。
9.1系统介绍9.1.2相关技术介绍4.Canal数据采集工具Canal是阿里巴巴旗下的一款开源项目,纯Java开发。Canal基于数据库增量日志解析,提供增量数据订阅和消费,目前主要支持MySQL(MariaDB),原理相对比较简单,主要工作过程:(1)Canal模拟MysqlSlave的交互协议,伪装自己为MysqlSlave,向MysqlMaster发送dump协议;(2)MysqlMaster收到dump请求,开始推送binarylog给Slave(canal);(3)Canal解析binarylog对象。5.Kafka消息队列Kafka是由Apache软件开发的一个开源流处理平台,主要由Scala和Java语言编写。Kafka是一种高吞吐量分布式发布订阅消息系统,主要用于在系统或应用程序之间构建可靠的传输实时数据的管道,也可用于构建实时的流数据处理程序。
9.2系统设计9.2.1流程设计大数据系统分为数据源、数据采集、数据清洗、数据分析、数据存储、数据可视化等多个流程,他们协同工作完成对数据的处理,本章订单交易监控系统的实现就是需要经过上述流程来完成。该系统流程按照数据流分为订单系统、数据采集、数据处理、数据展示等环节,如图所示。
9.2系统设计9.2.2系统架构大数据处理生态中有很多相关技术,这些技术按照使用场景和数据的位置可进行分层,可分为存储层(HDFS和Kafka)、计算层(SparkStreaming)、接入层(Kafka)和通道层(Canal)四个层次,这样可以更好地管理数据,如图所示
您可能关注的文档
- 第9单元 数学广角——鸡兔同笼.pdf
- 第9单元 数学广角——推理.pdf
- 第9课时整理和复习.pdf
- 第9课时整理与复习(1).pdf
- 第9章 产业物流.pptx
- 第9章 多智能体网络与通信.pptx
- 第9章 构造数据类型.pptx
- 第9章 物流成本管理和计算.pptx
- 第9章 Python数据分析初步.pptx
- 第9章 半导体存储器及其应用.pptx
- 2024年湖北住院医师-湖北住院医师口腔正畸科笔试考试历年典型考题及考点含含答案.docx
- 5以内减法口算练习题5000题 每页100题 (27).docx
- 2024年重庆城市管理职业学院高职单招职业适应性测试历年参考题库含答案解析.docx
- 结构游戏主题设计方案.docx
- 2024年湖北住院医师-湖北住院医师口腔修复科笔试考试历年典型考题及考点含含答案.docx
- 深度学习在学生学科学习中的应用效果评估教学研究课题报告.docx
- 结构游戏教学设计及反思.docx
- 结构游戏教学设计案例.docx
- 结构游戏教学设计案例分析.docx
- 初中美术教育中创意表达的多样化探索研究教学研究课题报告.docx
文档评论(0)