文旅大数据平台V4.pptxVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

文旅大数据平台

解决方案依托大数据技术,提供多样的旅游大数据应用能力

CONTENTS目录01平台概述02平台架构03平台应用

01平台概述

建设背景随着信息化社会的快速发展,旅游行业信息量爆发式的快速增长。这些数据的特征表现为数量大,数据类型多,衍生了旅游大数据。江西省面对庞大而复杂信息数据体系,逐步分层次的整理相关数据,基础数据:酒店信息、地图、POI、景区信息及景区周边环境信息;应用基于数据:游客酒店预订、景区购票消费交易等数据;行为数据:游客通过使用高度地图等LBS行为数据。为此,通过整合交通、气象、酒店、餐饮、景区、旅行社等相关数据,形成江西省旅游大数据。通过对各行业务、数据清洗治理形成数据标准,并接入到大数据平台。同时利用大数据可视化分析平台对数据筛选、分析,提供景区、酒店等行业发展动态、服务模式、旅游偏好热度数据分析报告,为江西省旅游局决策提供数据、研判支撑。

建设目标通过对旅游景区进行实时客流监控,及时掌握客流分布及密度。根据历史游客量变化对景区的游客趋势进行预测及预警,挖掘热门景点、热门旅游路线。通过对游客属性、来源地、出行工具、住宿及消费等分析,洞察游客画像,挖掘游客多方面行为特征,揭示旅游规律及因素关系、游客商业影响力,拉动区域商业影响力。通过大数据能力整合区域涉旅要素,运用大数据实现产业、市场监测管控运用行业大数据,整合OTA数据以及行业权威数据,辅助管理部门掌握旅游行业实时动态以及历史动态3214

02平台架构

平台架构构建统一标准、打通数据通道、突破信息孤岛效应,在具体的业务部门和技术之间搭建起一个灵活度高、效率高、可复用的组件化平台,面向不同业务部门,快速提供数据服务支持,调取所需数据高效完成数据分析挖掘。

公共文旅服务数据输出文旅企业运营数据输出文旅产业监管数据输出数据中台面向公众服务数据面向企业营销数据面向政府监管数据高德数据源数据源1数据源2数据源3腾讯数据源数据源1数据源2数据源3其他数据源数据源1数据源2数据源3平台架构

03平台应用

数据采集中心多种方式和多种平台,完成对数据的采集以及对接3爬虫抓取携程、去哪儿、同程、艺龙、欣欣旅游、驴妈妈、马蜂窝、途牛、阿里旅游等等OTA平台抓取4公共数据源对接导入天气数据、人口分布数据、交通数据等等数据接入12对政府或者企业内部数据进行对接采集内部数据对接合作伙伴接口对接高德、腾讯、百度、大众点评、友盟、360携程、去哪儿、等等对接5自定义API对接日志数据、业务数据、大数据文件等等自定义对接6人工导入EXCEL,CSV,TXT等文件人工导入

数据管理-建模和ETL业务数据任务调度数据建模ETL数据建模ETL任务调度通过平台的工作表管理模块,创建工作表?多表关联:多张表根据关联条件进行join处理?数据聚合:将一张工作表按照指定的纬度进行聚合处理?追加合并:将多张表进行union处理?SQL:通过用户自己些SQL的方式创建新表建模的结果为一张新的工作表,用户可以基于此表进行作图分析,当基础数据更新后,平台会根据建模关系完成此表的数据更新通过平台的工作表管理模块,在相关的工作表上添加计算字段进行初步的数据清洗操作以便后续的数据建模

数据管理-数据存储计算基于云服务器的统一数据池的基础之上,使用已经经过数据质管理平台治理后的数据,通过统一的数据出口接入数据,并且构建基于挖掘分析场景的业务分析专题库。计算引擎SQL计算:用户数据会被平台处理为Parquet表,通过SparkSQL进行数据计算高级计算:为满足留存率、桑基图等复杂业务对外提供的高级计算服务UDF:对外提供除常见的SQL函数之外的实用函数数据存储平台采用HDFS存储用户数据,数据格式为平台自有格式

数据管理-数据质量管理数据源质量分析方法数据源质量的分析方法主要从数据集市对数据源质量要求的几个方面进行分析,即:检查数据的完整性、检验数据的准确性、查看数据是否一致、推断数据逻辑是否合理。根据这些方面的要求,每个字段进行数据质量分析。数据清洗和匹配数据清洗数据清洗是对数据进行校验和标准化,比如地址邮编是否存在等等。数据匹配:数据匹配是找出有可能重复的记录。数据源数据量主要分析数据源中,涉及到的每一个表的记录总数。在这一步,形成数据量文件。文件内包含每一个表的记录总数。数据源物理范围、数据源格式分析、数据源更新频率、数据源更新方式、数据源数据量这五个分析项的分析记录可以整合为一个表格,记录每一个数据项的这五项分析记录。数据源更新方式数据源的更新方式是指数据在应用系统运行时,如何发生变化。针对每个数据表,数据可以为增量更新,可以为随机更新。增量更新是指数据只要插入数据表,就不再发生变化,系统只是往

文档评论(0)

h17773168846 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档