第1章-大数据技术概述.pptxVIP

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第1章大数据技术概述;;认识大数据;1.1.1大数据概念;2、大数据的特征

目前普遍使用5V特征来具体描述大数据,如图1-1所示。;大数据的5V特征;大数据的5V特征;大数据的5V特征;大数据的5V特征;大数据的5V特征;3、大数据在各行各业的典型应用

目前,大数据无处不在,应用于各个行业,金融、政务、汽车、餐饮、电信、能源、生物医学、电子商务、教育、制造等各行各业都融入了大数据的印迹。并且,大数据与实体经济不断融合发展,融合深度也在不断增强。;1.1.2大数据关键技术;1、数据采集和预处理

目前,数据采集经常通过传感器、射频识别技术、交互型社交网络及移动互联网等途径获取数据。

大数据采集一般分为大数据智能感知层和基础支撑层。智能感知层主要包括数据传感体系、传感适配体系、网络通信体系、智能识别体系等软硬件资源,可以实现结构化、半结构化和非结构化海量数据的智能化识别、定位、跟踪、介入、传输、信号转换、监控、初步处理和管理等。基础支撑层主要提供大数据服务平台所需的虚拟服务器,结构化、半结构化和非结构化数据的数据库及物联网资源等基础支撑环境。

;1、数据采集和预处理

数据预处理是利用ETL(?Extract-Transform-Load)工具将分布的、异构的数据源的数据抽取到临时中间层后进行数据清洗和转换,最后加载到数据集市或者数据仓库中,成为联机分析处理(OLAP)和数据挖掘(DATAMINING)的数据基础;也可以利用日志采集工具(如Flume、Kafka等)把实时采集的数据作为流计算系统的输入,进行实时处理分析。;2、数据存储和管理

数据的存储和管理主要是利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储。;3、数据分析和挖掘

数据分析指利用相关数学模型及机器学习算法对数据进行统计、分析和预测。数据挖掘是指利用人工智能、机器学习和统计学等多学科方法从大量的、不完全的,有噪声的、模糊的、随机的实际应用数据集中提取隐含在其中有价值的信息或模式的计算过程。大数据的分析和挖掘主要是利用分布式并行编程模型和计算框架???结合机器学习和数据挖掘算法,实现对海量数据的分析挖掘处理。;4、数据可视化

数据可视化主要是对分析后的结果进行可视化的呈现,更好地帮助人们理解数据,分析数据。数据可视化有时也被视为数据分析的一种,即可视化分析。;5、数据安全及隐私保护

从大数据中挖掘潜在巨大商业价值的同时,还需要构建隐私数据保护体系和数据安全体系,用来有效保护个人隐私和数据安全。;1.1.3大数据软件;软件;1、Hadoop

Hadoop是Apache下的一个开源的、并且可以运行在大规模集群上的分布式计算平台。其核心设计为分布式文件系统HDFS和并行计算框架Mapreduce。经过多年的发展,Hadoop已经发展成为庞大的生态系统。Hadoop生态系统除了包括HDFS和Mapreduce外,还包括了YARN、HBase、Hive、Ambari、Oozie、Mahout、Pig、Flume、Sqoop、Zookeeper等。Hadoop在大数据处理业内得到广泛应用,适合对大数据实现离线处理和分析操作。;2、Spark

随着大数据的不断发展,人们对于大数据的处理要求越来越高,原有的并行计算框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,比如实时推荐等。因此出现了以Spark为代表的新计算框架。相比MapReduce,Spark基于内存,速度更快,并且能够同时兼顾批处理和实时数据分析。;大数据的数据处理框架有些适合于离线批量数据处理,比如Hadoop的Mapreduce,有些适合于迭代的实时批数据处理,比如Spark,有些则适合于流数据处理,比如Storm。有些计算框架使用内存模式,有些是基于磁盘I/O处理模式。基于内存的框架性能会优于基于磁盘I/O的框架,但同时成本也会高很多。最终选择Hadoop或者Spark或者其他数据处理框架需要根据具体需求来确定。;3、NoSQL数据库

NoSQL是NotonlySQL的缩写,泛指非关系型数据库。与传统的关系数据库相比,NoSQL数据库不使用SQL语言作为查询语言,没有固定的表结构,也没有遵守ACID约束,具有非常灵活的水平可扩展性,可以支持海量数据的存储。

NoSQL数据库的数量很多,但总的来说,典型的NoSQL数据库主要包括健值存储数据库,列存储数据库,文档型数据库和图数据库。;4、数据可视化

数据可视化,是一种关于数据视觉表现形式的科学技术研究,是指将大型数据集中的数据以图形图像的形式进行展示,并利用数据分析和开发工具发现其中未知信息的处理过程。数据

文档评论(0)

精致文档 + 关注
实名认证
文档贡献者

精致文档

1亿VIP精品文档

相关文档