数据采集解决方案-1.pptVIP

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[平板扫描仪与ADF扫描仪

航空公司数据驾驶舱 目录 1 2 3 4 航空业务背景 分析思路 数据质量提升解决方案 数据采集解决方案 随着产业互联网时代的到来,各行业开始认真思考大数据带来的商业价值。所有的企业都希望能提高信息系统的数据分析能力、获取隐含在数据中的额外商业价值。大数据已经在为企业提高运营质量、指导高层决策中发挥着重要贡献。 目前航空公司的信息系统不断发展,使运行数据大量堆集,由于设计和管理不规范导致数据质量问题越来越突出。根据“garbage in,garbage out”的原理,错误的数据最终会误导决策,降低企业运营质量。因此数据质量的高低成为信息系统建设成败的关键因素,直接关系到信息系统的有效应用。 亚信基于电信行业多年数据分析经验,指导航空公司在数据质量提升、数据采集等方向布局,提出基于数据稽核+清洗的常态化质量提升方案,以及通过亚马逊云计算和分布式爬虫的数据采集方案,以此为智慧航运奠定基础。 大数据形势 业务背景 从常旅客数据入手,通过构建端到端的数据质量管理平台,构建了一套端到端的数据质量核查、预警、清洗和知识沉淀体系。 获取竞争对手的运价等航线信息,对运营决策、营销活动等有比较重要的参照。 数据质量是信息变现的基石 据IDC公司一份质量报告所述,全球范围内的98.7%的BI系统受数据质量所困不能充分发挥其价值,在这其中80%全球以上的系统正因数据质量问题二遭受投资者的质疑,如何对系统数据进行有效的质量管理,已成为IT界的一项世界性难题 信息是企业重要的战略资源,使用不正确的数据(即差的数据质量)可导致决策的失败,正可谓差之毫厘,谬以千里。 数据质量问题分类 数据冗余度大 过期数据 目标数据缺失 录入错误 信息仓库 目录 1 2 3 4 业务背景 分析思路 数据质量提升解决方案 数据采集解决方案 数据质量的问题原因分解 重复 人员 业务流程培训 应用 系统缺陷修复 新数据 规范信息模型 存量数据 数据稽核清洗 解决思路 数据质量的提升是一项系统工程,任何一方面的缺失都会导致数据质量的降低,因此,数据质量提升应该综合考虑数据处理、业务应用和使用人员三大方面的因素 目录 3 2 1 4 数据质量提升解决方案 分析思路 业务背景 数据采集解决方案 稽核作业 稽核作业 稽核作业 稽核作业 数据清洗解决方案 CRM EDW 行业信息库 客服系统 电子商务 more 数据稽核 数据清洗 统计报告 人工审核 数据装载 离线FTP 稽查审核 清洗审核 ETL抽取 待清洗目标 数据来源 其它数据源 规则配置 流程配置 清洗作业 清洗作业 清洗作业 清洗作业 数据源管理 数据源管理 知识总结 实时消息 机器学习 目录 1 2 3 4 业务背景 分析思路 数据质量提升解决方案 数据采集解决方案 数据采集解决方案 走势预测 机票报表 价格监控 业务层 应用展现 舆情分析 消息总线 More REST+WEBSERVICE MR+Hive+Storm OTA 航空公司 国外网站 分布式爬虫 分布式爬虫 分布式爬虫 大数据中心 内部数据库 RDBMS 采集调度 处理层 采集站点 采集层 大数据之上,丰富的应用场景 AWS部署方案 动态Web服务 EC2、Auto Scaling RPC服务 EC2、Auto Scaling MySQL数据库 RDS 负载均衡服务 ELB DNS服务 Route 53 弹性存储 S3 弹性存储 S3 Region 3(亚太) Region 2(欧洲) Region 1(北美) AWS内网传输 Hadoop集群 EMR AWS上设多个Regions, 欧洲、北美作为采集节点,亚太Region作为采集和运算节点,并提供动态Web服务访问。 Thank you

文档评论(0)

wendan118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档