大数据导论课件.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
;1.教材编写背景介绍;;;;;;2.教材特点;突出实践性;突出实践性;3.灵活的教学方案;; 2011年麦肯锡就报告称,到2018年,仅美国就可能面临14万至19万人的深度分析人才短缺,以及150万懂得如何利用大数据分析做出有效决策的经理和分析师的短缺。为了有效地解决当今的许多大数据问题,一门叫做数据科学(data science)的学科应运而生。用数据的方法研究科学、用科学的方法研究数据,数据科学是一门培养有能力应对大数据时代挑战的人才的学科。;1.1 什么是大数据;1.1 什么是大数据;2019年4月10日9时(北京???间10日2时),天文学家们宣布,首次捕捉到黑洞真容。 视界望远镜一个晚上所产生的数据量高达2PB(1PB=1000TB=1000000 GB) 帮助天文学家分析出来黑洞的周围有什么,这些东西以什么样的状态存在,还可以拼接出黑洞的动态影像。 ;;;;;随着传感器、智能设备、社交媒体、物联网、移动计算等新的数据媒介不断涌现,产生的数据类型无以计数。;在一小时的视频中,有用的数据可能仅仅只有一两秒,但是却会非常重要。现在许多专家已经将大数据等同于黄金和石油,这表示大数据当中蕴含了无限的商业价值。;1.1.3 大数据的结构类型;1.1.3 大数据的结构类型;1.2 大数据的发展;1.2 大数据的发展;1.3 大数据时代的挑战;分治法、选用制定特殊方法;1.4 数据科学的概念;;数据模型、数据过滤、数据统计和分析、数据结构优化等。;数据科学具体研究内容;1.5 数据科学的由来;1.5 数据科学的由来 ;1.6 数据科学的应用场景;六个核心领域:数据/分析设计,数据/分析内容,数据/分析软件,数据/分析基础设施,数据/分析服务和数据/分析教育。;;;;;第二章 数据采集与数据预处理;数据采集是大数据分析的前导过程,无法获取到有效的数据是无法进行大数据分析的。如果说数据源是大数据平台蓄水池的上游,数据采集就是获取水源的管道。通过数据采集获取的是原始数据,原始数据是不能直接进行分析和处理。原始数据通常存在的缺失值、数据格式不统一、数据格式标准不相同等问题。数据预处理就是对原始数据进行初步处理,解决缺失值、格式不统一等问题,为后续的数据分析提供一个相对完成的数据集。;2.1 概述;2.1 概述;(1)企业系统:销售系统、库存系统、企业客户管理系统等。 (2)机器系统:智能仪表、工业传感器、视频监控系统等。 (3)互联网系统:各类电商平台、政府监管系统、服务行业业务系统等。 (4)社交网络系统:微信、QQ、微博、朋友圈等。;数据库采集 数据库采集就是采集这些SQL和NoSQL数据库中的内容,并在这些数据库之间进行负载均衡和分片,完成采集工作。 2 系统日志采集 收集企业业务平台上日常产生的大量日志数据,提供离线和在线的大数据分析系统使用。 3 网络数据采集 网络采集是指通过网络爬虫抓取网站上的数据信息的过程。;数据清洗 数据集成 数据变换 数据规约;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.2 数据采集技术;2.3 数据预处理技术;2.3 数据预处理技术;2.3 数据预处理技术;2.3 数据预处理技术;2.3 数据预处理技术;2.3 数据预处理技术;2.3 数据预处理技术;2.3 数据预处理技术;2.3 数据预处理技术;2.3 数据预处理技术;2.3 数据预处理技术;2.3 数据预处理技术;2.3 数据预处理技术;2.3 数据预处理技术;2.3 数据预处理技术;2.3 数据预处理技术;2.3 数据预处理技术;2.3 数据预处理技术;2.3 数据预处理技术;2.3 数据预处理技术;2.4 本章小结;2.4 本章小结;;据存储在大数据分析中至关重要,一方面数据采集过程采集到的数据需要存储某种文件系统中,另一方面存储的性能在一定程度上能够影响大数据系统分析的性能。分布式文件系统是近年来流行的大数据文件存储系统,本章的主要内容是介绍大数据分析中所用到的主流分布式文件存储系统。;3.1 概述;3.1 概述;3.1 数据存储概述;3.1 数据存储概述;3.1 数据存储概述;

文档评论(0)

张老师资料 + 关注
实名认证
文档贡献者

一线教师,精品资料

1亿VIP精品文档

相关文档