- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
?
?
基于Lambda架构的山东省智慧旅游数据分析平台的研究
?
?
白二净王晓辉
摘要:智慧旅游“以人为本”且“以数据为中心”,重点关注游客旅游体验,其关键技术是对海量的数据进行处理。以Lambda架构为基础搭建山东省智慧旅游数据分析平台即能处理大批量的离线数据又能处理实时的在线流数据。Spark因其运算速度快和高容错性等优点在Lambda架构搭建中用做离线处理;Flink因其容错性和窗口技术等特点做实时计算处理。
关键词:智慧旅游;Lambda架构;批处理;实时处理
中图法分类号:TP301????:A
:1009-3044(2020)17-0211-03
素有“孔孟之乡,礼仪之邦”美誉的山东是一个文化资源大省,同时又是一个旅游资源大省。全省每个地市都有自己的特色旅游文化,如:滕州的墨子文化,邹城的孟子文化,曲阜的孔子文化,泰安的泰山文化等。富有地域特色的齐鲁旅游文化每年吸引着国内外数十亿游客游玩、考察。据统计,2018年,全省接待游客8.6亿人次,实现旅游消费总额突破1万亿元,同比增幅分别超过9%和13%[1]。随着旅游人数不断攀升,景区管理弊端尽显,如旅游景点人满为患,道路堵车严重,停车场无处可停车等。这些问题的暴露和游客需求的不断升级都推动着智慧旅游建设的步伐。智慧旅游是在智慧城市的基础上发展而来,“以人为本”,“以数据为中心”,其关键技术是对海量的数据进行处理。如何在海量的大数据中分析出有价值的信息呢?本文提出以Lambda架构为基础搭建山东省智慧旅游数据分析平台,以期对平台数据进行快速有效处理,提高游客体验和管理手段。
1平台数据分析
智慧旅游平台涉及的数据不计其数,按其类别大体可以分为基础数据、旅游管理部门数据、运营商数据、联动厅局数据、互联网数据、物联网数据,如图1所示。
其中基础数据包含旅游景区、旅游酒店、旅行社和餐饮娱乐等方面的价格数据、评论数据等;旅游管理部门包含国家旅游局和各省市县旅游局旅游数据、旅游动态数据、旅游执法数据以及公共服务数据等;运营商数据包含来自电信、联通、移动三大运营商的游客基本信息数据;联动厅局数据包含气象局和交通局等的实时数据;互联网包含微信、微博、在线旅游平台的实时评论数据等;视频监控数据包含游客的实时行踪信息等。如此庞大的数据都需要智慧旅游平台进行处理,但并不是所有数据在同一时间处理,这样一方面系统负荷过于沉重,另一方面系统计算延迟会大大降低游客体验。例如游客需要规划景区行驶路线,监测系统对这些实时产生的数据进行实时分析时超出用户预期的时间,再如游客在查询酒店等服务信息时超出预期时间等,都会降低用户的体验。这些数据需要根据其特点,采用不同的处理方法。总体分成两大类,一类是对庞大的历史数据采用批处理的方法进行离线处理,如基础数据中,需要事先运算对其进行景区画像、旅行社画像、餐馆画像、酒店画像等;另一类是采用在线实时处理,如视频监控数据、实时交通数据等。这样离线数据预先计算,实时数据实时计算,才能在游客进行查询时,快速给出结果。例如用批处理方式事先对酒店进行星级、价格、评分等多维度画像,在游客查询自己需要的酒店时,平台会根据画像再结合游客查询的关键字,给出游客个性化的智能推荐。Lambda架构正是批处理与实时处理相结合的一种大数据处理架构。
2Lambda架构
2.1背景介绍
Lambda架构是著名的分布式容错实时大数据处理框架Storm的创始人NathanMarz提出的一个实时大数据处理框架。NathanMarz根据自己多年的分布式大数据实战经验凝练出此框架。然而,Lambda框架并不像ApacheStorm、SparkStreaming等計算框架一样有实体的软件产品,它只是一个流计算框架搭建指导模型。所以使用者可以根据自己实际的业务需要,依据此指导模型,任意选择开源的Hadoop,Kafka,Storm,Spark,Hbase等各类大数据组件,或者选择其他商业软件来搭建自己的系统。
2.2?Lambda架构的三层模型
NathanMarz提出数据系统的本质就是Query=Function(AllData),即“查询+数据”,然而随着数据量的急剧增加,想要在大数据系统中进行实时查询并非易事[2]。如果单纯用Hadoop对全体数据进行在线查询,不仅计算量会很大,延迟也会特别高。例如在旅游过程中产生的旅游评论信息、实时交通信息、实时景点游客信息等不能一概而论采用统一的方法进行处理,需要对不同数据进行不同的计算方法。对于实时要求高的数据如实时交通数据需要实时计算以降低延迟来提高用户体验;而对应实时性要求低的数据如旅游评论信息、微信微博信息等进行批处理即可。Lambda架构整合了对全体数据进行离线计算和部分数据进行实时计算的方法将大数据系统
您可能关注的文档
- 基于云服务平台的O2O混合式高校教育管理研究.docx
- 基于《电工电子基础》课程的士官教育信息化教学研究.docx
- 基于SNA的公共服务供给中群团组织合作新模式.docx
- 基于B/S模式的高校计算机实验室管理策略.docx
- 基于BIM技术工程项目造价的管理.docx
- 基于5G网络中的关键技术及实际应用分析.docx
- 城投公司转型为产业投资运营商模式研究.docx
- 2019年一级建造师建筑实务真题及答案(最全版本) .pdf
- 2022~2023广播电视播音员主持人考试题库及答案第250期 .pdf
- 2022~2023电梯考试考试题库及满分答案544 .pdf
- 2021-2022年消防设施操作员之消防设备基础知识题库附答案(典型题).pdf
- 2023-2024学年人教版七年级上册数学第二章整式的加减 单元测试题(含答 .pdf
- 2023-2024学年江苏省徐州市高一下学期6月期末考试生物试题 .pdf
- 2022年公务员多省联考《申论》题(四川县乡卷) .pdf
- 2020-2021部编版中考语文试卷分类汇编现代文阅读(含答案) .pdf
- 2023_2024学年湖南省郴州市高二上册期中数学模拟测试卷(附答案).pdf
- 2023-2024学年PEP版五年级英语下册Unit 3、4综合训练(附听力材料及答案.pdf
- 2020年精品-英语四级真题试卷及答案(三套全) .pdf
- 2022-2023学年全国初中七年级上生物人教版单元测试(含答案解析)023438.pdf
- 2022高中学业水平考试信息技术学考模拟试卷及答案解析(二) .pdf
文档评论(0)