- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[数据采集与清洗] 2019|02|15 周 乐 当前第1页\共有36页\编于星期四\22点 什么是大数据 大数据处理流程 大数据的主要特征 大数据采集的概念 大数据采集应用 当前第2页\共有36页\编于星期四\22点 1 什么是大数据 当前第3页\共有36页\编于星期四\22点 当前第4页\共有36页\编于星期四\22点 当前第5页\共有36页\编于星期四\22点 当前第6页\共有36页\编于星期四\22点 淘宝推荐 依据购物行为偏好引荐 依据你最近的阅读行为和消费行为进行引荐 依据你用的设备往来不断猜特征. 依据时节改变进行引荐 当前第7页\共有36页\编于星期四\22点 2014-03 2015-08 2017-10 2016-03 2018 大数据工作首先写入政府工作报告 『十三五规划纲要』提出『实施国家大数据战略』 』 2018年《政府工作报告》提出:实施大数据发展行动,注重用互联网、大数据等提升监管效能 国务院发布《促进大数据发展的行动纲要》 十九大提出推动大数据战略,与实体经济深度融合 行业现状与前景 当前第8页\共有36页\编于星期四\22点 当前第9页\共有36页\编于星期四\22点 2019年人社部拟最新发布15项新职业 1.大数据工程技术人员 2.云计算工程技术人员 3.人工智能工程技术人员 4.物联网工程技术人员 5.... 当前第10页\共有36页\编于星期四\22点 当前第11页\共有36页\编于星期四\22点 当前第12页\共有36页\编于星期四\22点 什么是大数据 大数据(Big Data)是指无法使用传统和常用的软件技术和工具在一定时间内完成获取、管理和处理的数据集 当前第13页\共有36页\编于星期四\22点 2 大数据的主要特征 当前第14页\共有36页\编于星期四\22点 大数据主要特征 Volume Velocity Variety Veracity 真实性(Veracity),即追求高质量的数据。 容量大(Volume),指大规模的数据量,并且数据量呈持续增长趋势。 速度快(Velocity),指的是数据被创建和移动的速度。 种类多(Variety),指数据来自多种数据源,数据种类和格式。 Value 价值密度低(Value),指随着数据量的增长,数据中有意义的信息却没有成相应比例增长。 当前第15页\共有36页\编于星期四\22点 3 大数据处理流程 当前第16页\共有36页\编于星期四\22点 大数据处理流程 数据预处理 就是将采集来的数据从多种数据库导入到大型的分布式数据库中(目前主要是hfds或hive),并同时做一些简单的清洗和预处理工作。 数据统计分析 就是对上面已经完成的存储在大型分布式数据库中的数据进行归类统计,可以满足一般场景的分析需求。 数据挖掘 是对数据进行基于各种算法的分析计算,从而起到预测的效果,实现一些高级别数据分析的需求。 数据采集 就是利用多种数据库(关系型,NOSQL)去存储不同来源的数据。 数据展示 就是对以上处理完的结果进行分析,或者形成报表。 当前第17页\共有36页\编于星期四\22点 4 大数据采集的概念 当前第18页\共有36页\编于星期四\22点 大数据采集的概念 3、大数据采集技术方法 大数据采集技术就是对数据进行 ETL 操作,通过对数据进行提取、转换、加载,最终挖掘数据的潜在价值。ETL指的是Extract-Transform-Load,也就是抽取、转换、加载。 抽取-从各种数据源获取数据 转换-按需求格式将源数据转换为目标数据 加载-把目标数据加载到数据仓库中 2、数据采集与大数据采集的区别 传统数据采集:来源单一,数据量相当小;结构单一;关系数据库和并行数据库 大数据的数据采集:来源广泛,数量巨大;数据类型丰富;分布式数据库 1、什么是数据采集 数据采集就是数据获取,数据源主要分为线上数据和内容数据 当前第19页\共有36页\编于星期四\22点 大数据采集系统 1.日志采集系统(Apache Flume、Scribe) 3.数据库采集系统(关系型、nosql等各种数据库) 2.网络数据采集系统(Scrapy 框架、Apache Nutch) 当前第20页\共有36页\编于星期四\22点 5 大数据采集应用 当前第21页\共有36页\编于星期四\22点 当前第22页\共有36页\编于星期四\22点 技能准备 Python基础 Linux操作系统基本操作 数据库基础(SQL语句操作) 当前第23页\共有36页\编于星期四\22点 环境准备 Python Jdk(java环境) 数据库(mysql) 当前第24页\共有36页\编于星期四\22点 Tha
文档评论(0)